Implementasi Metode Modified K-Nearest Neighbor (MKNN) Pada Pengklasifikasian Teks Berita Berbahasa Indonesia
Main Author: | Rahim, :MuhRais |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2011
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/152745/1/051104166.pdf http://repository.ub.ac.id/152745/ |
Daftar Isi:
- Berbagai kemudahan media internet menyebabkan terjadinya “ledakan informasi”, yakni produk jurnalistik menjadi tak terhingga jumlahnya. Fenomena ini menjadi alasan perlunya sistem pengklasifikasi teks berita berbahasa Indonesia. Sistem pengklasifikasi teks berita berbahasa Indonesia ini meliputi tiga tahap. Pertama, tahap pra-pemrosesan mengolah dokumen teks menjadi vektor numerik melalui case folding dan tokenization, stop words removal, stemming, dictionary construction, serta feature weighting. Kedua, tahap pembentukan classifier berdasarkan algoritma Modified K-Nearest Neighbor (MKNN). MKNN classifier dibentuk dengan menghitung nilai validity setiap data latih untuk mengukur stabilitas kedekatan dengan tetangganya. Ketiga, tahap pengklasifikasian memprediksi kategori data uji dari K data latih terdekat yang diukur dengan cosine similarity. Masingmasing dari K data latih dihitung bobotnya berdasarkan perkalian nilai validity dengan hasil cosine similarity. Bobot data latih dijumlahkan untuk setiap kategori yang sama. Sehingga, kategori yang bobotnya terbesar dipilih sebagai kategori untuk data uji. Evaluasi sistem dilakukan dengan membandingkan efektivitas antara MKNN dengan KNN tradisional. Efektivitas diukur dengan recall, precision, lalu F1 measure. Parameter K yang diujikan yaitu 3, 4, 5, 14, 15, dan 16. Secara keseluruhan, rata-rata F1 measure MKNN berkisar dari 64% hingga 69% yakni secara konsisten lebih rendah dari KNN yang berkisar dari 74% hingga 77%.