Identifikasi Kesalahan Penulisan Kata (Typographical Error) Pada Dokumen Berbahasa Indonesia Menggunakan Metode N-Gram Dan Levenshtein Distance

Main Author: Fahma, Arina Indana
Format: Thesis NonPeerReviewed Book
Bahasa: eng
Terbitan: , 2017
Subjects:
Online Access: http://repository.ub.ac.id/1413/1/Arina%20Indana%20Fahma.pdf
http://repository.ub.ac.id/1413/
Daftar Isi:
  • Teks merupakan salah satu media komunikasi dan sumber informasi dalam kehidupan manusia. Hal yang menjadi krusial dalam pembuatan teks adalah kesalahan dalam penulisan kata yang disebut typographical error. Kesalahan tersebut terjadi saat menggunakan keyboard pada komputer atau pada smartphone. Typographical error pada teks dapat mengakibatkan sesuatu yang tidak diinginkan oleh pihak tertentu. Berdasarkan hal tersebut, diperlukan suatu sistem untuk melakukan identifikasi typographical error pada teks dan melakukan proses koreksi terhadap typographical error. Metode N-gram dan Levenshtein Distance dapat digunakan untuk melakukan koreksi typographical error di dalam dokumen. Penelitian ini berfokus pada data dokumen skripsi mahasiswa Fakultas Ilmu Komputer Universitas Brawijaya. Metode Levenshtein Distance digunakan untuk mendeteksi banyaknya kandidat kata sesuai dengan typographical error yang sudah teridentifikasi. Dikarenakan kandidat kata hasil dari Levenshtein Distance masih belum terurut, metode N-gram digunakan untuk mengurutkan kandidat kata berdasarkan nilai cosine similarity. Di dalam penelitian ini, nilai N pada N-gram yang digunakan adalah 2 sehingga pada prosesnya, N-gram melakukan pemisahan setiap dua karakter pada kata yang teridentifikasi sebagai typographical error beserta kandidat katanya. Setelah karakter dipisah, perhitungan tf-idf digunakan untuk mendapatkan nilai cosine similarity. Dari hasil pengujian sistem, didapatkan nilai presisi terbaik sebesar 0.97 pada uji coba typographical error jenis insertion dan untuk nilai recall terbaik sebesar 1 yang didapatkan dari hasil uji coba typographical error jenis substitution.