Klasifikasi Dokumen Teks Berbahasa Indonesia menggunakan Metode Rocchio
Main Author: | WildanSuharso |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2008
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/152039/1/050800936.pdf http://repository.ub.ac.id/152039/ |
Daftar Isi:
- Klasifikasi dokumen merupakan proses untuk mengklasifikasi dokumen ke dalam kategori kategori atau kelas tertentu. Sistem pengklasifikasian berita merupakan salah satu penerapan klasifikasi dokumen karena bertujuan mengklasifikasi berita ke dalam kategori tertentu. Beberapa tahapan yang dipakai klasifikasi dokumen adalah preprocessing, features selection, dan metode pembelajaran. Text reprocessing mengolah data awal agar menjadi data yang siap diproses pada tahapan selanjutnya, misalnya dengan melakukan penghilangan tanda baca. Features selection merupakan tahapan untuk memisah good features dari all features. Good features merupakan isi yang dianggap penting pada proses klasifikasi, sedangkan all features merupakan isi secara keseluruhan setelah melewati tahapan text preprocessing. Salah satu metode features selection adalah penghilangan kata yang sering muncul tapi tidak memiliki makna (stopword). Tahapan metode pembelajaran merupakan tahapan terpenting dalam klasifikasi dokumen, yang berusaha menemukan pola dari keseluruhan teks.Metode yang digunakan pada tahapan ini adalah metode Rocchio, yang merepresentasikan seluruh data ke dalam ruang vektor dengan features atau kata sebagai dimensi vektor, dengan pemakaian prototipe vektor untuk setiap kelas atau kategori. Hasil pengujian efektifitas menghasilkan rata-rata sebesar 0,8703 (87%) dan rata-rata efisiensi sebesar 10,231 detik, dengan menggunakan 679 data training dan 315 data test. Pengujian efisiensi dilakukan untuk mengetahui sejauh mana pengaruh jumlah data dengan waktu komputasi. Peningkatan jumlah data training meningkatkan efektifitas sistem tetapi menurunkan efisiensi sistem.