Ekstraksi Informasi Dokumen Karya Tulis Ilmiah Menggunakan Hidden Markov Model
Daftar Isi:
- Pendeteksian kategori dalam dokumen karya tulis ilmiah tidak dapat dilakukan untuk format dokumen yang beragam. Masalah ini dapat diatasi jika pendeteksian dilakukan menggunakan machine learning. Dalam penelitian ini, machine learning yang digunakan adalah Algoritma Hidden Markov Model. Algoritma Hidden Markov Model adalah machine learning dengan model statistik dan merupakan variant dari finite state machine. Proses pelatihan Algoritma Hidden Markov Model dokumen karya tulis ilmiah ini pertama-tama akan mempelajari pola dataset dengan menentukan kondisi awal, nilai probabilitas transisi, dan probabilitas emisi. Dataset untuk pelatihan sebanyak 40 dokumen karya tulis ilmiah dari 2011 sampai 2018. Pengujian berdasarkan pada model yang sudah dilatih menggunakan algoritma viterbi untuk mengekstraksi kategori dokumen karya tulis ilmiah. Berdasarkan pengujian terhadap 40 dokumen karya tulis ilmiah dari 2011 sampai 2018, diperloeh hasil akurasi rata-rata pengujian token-kelas sebesar 72.70%. Hasil akurasi dari token-kelas dipengaruhi oleh penggunaan fungsi yang kurang unik untuk mencari karakteristik masing-masing kategori dalam dokumen karya tulis ilmiah.