Named Entity Recognition Untuk Teks Bahasa Indonesia Menggunakan Support Vector Machine
Daftar Isi:
- Pengenalan entitas bernama atau Named Entity Recognition (NER) merupakan sebuah topik keilmuan yang membahas pemrosesan bahasa alami dengan mengekstraksi informasi pada sebuah teks. NER juga merupakan komponen penting yang mendasari banyak aplikasi Natural Language Processing (NLP). Penelitian tentang NER sudah pernah dilakukan menggunakan beberapa metode seperti CRF, Naive Bayes, dan SVM. Penelitian NER pada metode SVM menghasilkan nilai performa f1-score sebesar 50% yang disebabkan karena hasil dari ekstraksi fitur yang digunakan. Sebelum tahap pelatihan dan pengujian dilakukan, list kata melalui tahap preprocessing, yaitu pemisahan kata dan label, case folding, pembentukan kamus, one hot encoding, ekstraksi fitur, kemudian penggabungan hasil one hot encoding dengan hasil ekstraksi fitur. Berdasarkan hasil pengujian yang telah dilakukan pada 9405 list kata, didapatkan nilai akurasi tertinggi sebesar 81% dengan recall sebesar 70%, precession 52%, dan f1-score sebesar 53%. Tingkat akurasi ini dipengaruhi oleh penggunaan metode one hot encoding yang tidak bisa membedakan ciri untuk data yang sama pada kelas yang berbeda.