Dayinta Warih Wulandari, Named Entity Recognition (NER) pada Dokumen Biologi menggunakan Rule Based dan Naïve Bayes Classifier
Main Author: | Wulandari, Dayinta Warih |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2018
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/13410/1/Dayinta%20Warih%20Wulandari.pdf http://repository.ub.ac.id/13410/ |
Daftar Isi:
- Named Entity Recognition (NER) adalah bagian dari proses text mining dan natural language processing yang sangat berguna pada proses ekstraksi informasi. NER sangat berguna untuk membantu dalam mengidentifikasi dan mendeteksi entitas dari suatu kata. Bidang biomedis memiliki banyak pustaka sehingga NER sangat dituntut dalam domain biomedis. Teknik ini bermanfaat untuk banyak aplikasi, seperti text mining di domain biomedis, alat bioinformatika, pembangunan database biomedis, dan lain-lain. Karena biomedis memiliki skala yang sangat luas, penelitian ini hanya akan berfokus pada dokumen biologi sel. Rule based adalah sebuah metode dengan aturan yang ada di dalam sistem dibuat sendiri berdasarkan pengetahuan linguistik. Naïve Bayes Classifier merupakan jenis klasifikasi statistik dimana teori utamanya adalah memprediksi probabilitas keanggotaan kelas. Penelitian ini akan menggunakan Rule Based dan Naïve Bayes Classifier untuk mengklasifikasikan entitas dari suatu kata dalam dokumen biologi sel. Penelitian ini menggunakan 19 dokumen sebagai dokumen latih dan setelah diproses dan dianotasi manual untuk Named Entity (NE) terdapat 1135 data latih dalam bentuk kata. Sebelum masuk ke proses inti, dokumen uji ditokenisasi dan diberi POS Tag oleh tagger site terlebih dulu yang kemudian di cari bigram dan trigram. Selanjutnya proses rule based, jika dalam rule based tidak ditemukan solusi, maka akan masuk pada proses ekstraksi fitur dan Naïve Bayes Classifier. Dengan menggunakan 16 NE class, 18 aturan, dan 7 fitur dilakukan pengujian dengan tiga skenario, pertama menggunakan rule based, kedua menggunakan Naïve Bayes, dan yang ketiga kombinasi keduanya. Dari ketiga skenario didapatkan precision, recall dan f-measure tertinggi pada rule based dengan nilai sama yaitu 0,85 ketika menggunakan micro average. Ketika menggunakan macro average recall dan f-measure tertinggi didapat oleh kombinasi dengan nilai 0,66 dan 0,45, sedangkan precision tertinggi didapat oleh rule based dengan nilai 0,39.