Perbaikan Ejaan Kata pada Dokumen Bahasa Indonesia dengan Metode Cosine Similarity

Main Author: Fachrurrozi, Muhammad
Format: Proceeding PeerReviewed Book
Bahasa: eng
Terbitan: , 2015
Subjects:
Online Access: http://repository.unsri.ac.id/8306/1/paper_Obets.pdf
http://repository.unsri.ac.id/8306/
Daftar Isi:
  • Kesalahan ejaan kata dalam penulisan dokumen Bahasa Indonesia sering dijumpai sehingga sulit memahaminya. Penggunaan teknologi dalam memperbaiki kesalahan kata (spelling checker) telah banyak dilakukan. Pada penelitian ini dilakukan perbaikan kata pada dokumen bahasa Indonesia berbasis kemiripan kata menggunakan metode n-gram dan cosine similarity. Proses dimulai dengan melakukan pembentukan data latih dengan metode n-gram dalam pemotongan sejumlah kata. Pada proses pengujian dilakukan tahapan pra proses terlebih dahulu dan dilakukan pengecekan kata berdasarkan kamus kata dan data latih yang ada. Kata yang diasumsi salah dilakukan perbaikan kata dengan mencari kemiripan katanya dengan metode n-gram dan cosine similarity. Hasil kemiripan kata yang tertinggi disesuaikan dengan data latih, bila tidak sesuai maka kata dengan kemiripan tertinggi dianggap kata benar yang dilakukan perbaikan. Pada penelitian ini hasil percobaan dari 3 tingkatan kesalahan kata yaitu 20 %, 50 %, dan 70 % dengan masing-masing 20 dokumen menghasilkan perbaikan kata yang tepat diatas 70 %. Hasil penelitian dapat dilihat bahwa perbaikan kata sangat bergantung pada kamus kata trigram dan latih yang ada. Ini menunjukkan bahwa metode n-gram dan cosine similarity baik dalam penelitian ini.