Ekstraksi Topik Dokumen Berita Menggunakan Term-Cluster Weighting dan Clustering Large Application (CLARA)
Main Author: | Maulana, Rizal |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2020
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/180891/1/Rizal%20Maulana%20%282%29.pdf http://repository.ub.ac.id/180891/ |
Daftar Isi:
- Perkembangan teknologi mempermudah untuk mendapatkan informasi dan informasi yang sering digunakan adalah media berita. Seiring perkembangan teknologi, berita dapat disebarkan melalui portal berita dalam bentuk web-base seperti Kompas, Detik, Tempo, dan lain lain. Pengguna teknologi informasi ada kalanya tidak memiliki waktu untuk membaca berita secara seksama dan sebagian tidak bisa mendapatkan berita yang diperlukan. Salah satu cara untuk menyelesaikan masalah tersebut adalah melakukan clustering dokumen berita setelah itu dilakukan ekstraksi topik untuk mendapatkan topik penting dari kelompok berita. Pada penelitian ini menggunakan Clustering Large Application (CLARA) untuk proses clustering karena CLARA merupakan optimasi dari k-medoid yang lebih baik dari k-means dari berbagai aspek dan pada ekstraksi topik menggunakan term-cluster weighting untuk menghitung bobot term pada cluster. Proses dari penelitian ini melakukan text proprocessing untuk mengubah dokumen menjadi data terstruktur, setelah itu melakukan Singular Value Decomposition (SVD) untuk mendekomposisi fitur. Kemudian melakukan clustering menggunakan CLARA dan untuk ekstraksi topik menggunakan term frequency-inverse cluster frequency (TF-ICF). Data yang digunakan pada penelitian ini merupakan data sekunder yang didapatkan dari web Kaggle yang merupakan dokumen berita berbahasa inggris. Hasil dari penelitian ini yaitu dengan jumlah dokumen 226 dan menggunakan 2 cluster menghasilkan nilai silhoette score 0,005. Sedangkan untuk akurasi dari hasil clustering sebesar 1 dengan jumlah pengambilan topik dari rentang 1 sampai 10.