Penerapan Metode Improved KNN Berbasis Clustering untuk Pengkategorian Dokumen Berita Berbahasa Indonesia

Main Author: PriskillaChristiana
Format: Thesis NonPeerReviewed Book
Bahasa: eng
Terbitan: , 2010
Subjects:
Online Access: http://repository.ub.ac.id/152422/1/051003261.pdf
http://repository.ub.ac.id/152422/
Daftar Isi:
  • Algoritma KNN tradisional melakukan klasifikasi terhadap objek berdasarkan data latih yang memiliki kemiripan paling besar dengan objek tersebut. Perhitungan kemiripan dilakukan dengan melibatkan seluruh data latih dalam jumlah besar sehingga menyebabkan tingginya kompleksitas perhitungan. Algoritma ini juga tidak membedakan pengaruh dari masing-masing data latih. Untuk mengatasi masalah-masalah tersebut digunakan metode Improved KNN berbasis clustering. Pertama-tama pada tahap penghematan sampel, kumpulan data latih diringkas dengan menghapus data latih yang berada dekat dengan batas kategori. Selanjutnya, kumpulan data latih pada masing-masing kategori dikelompokkan menggunakan algoritma k-means clustering, dan titik pusat cluster digunakan sebagai data latih yang baru. Kemudian digunakan pembobotan terhadap data latih berdasarkan banyaknya sampel yang berada pada cluster tersebut. Data latih yang telah dimodifikasi tersebut digunakan sebagai data latih baru untuk melakukan pengkategorian dengan algoritma KNN. Sistem pengkategorian berita yang dikembangkan dengan metode Improved KNN memiliki nilai recall rata-rata sebesar 95,56%, precision sebesar 94,98%, dan nilai F-Measure sebesar 95,05%. Percobaan yang dilakukan menunjukkan bahwa metode Improved KNN dapat mengurangi jumlah data latih secara efektif dan mengurangi kompleksitas perhitungan. Selain itu, yang terutama metode ini juga mampu meningkatkan akurasi dari algoritma KNN tradisional.