Klasifikasi Tweets Pada Twitter Menggunakan Metode K-Nearest Neighbour (K-NN) Dengan Pembobotan TF-IDF
Main Author: | Satrio, Rakhman Halim |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2019
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/174086/1/Rakhman%20Halim%20Satrio%20%20%282%29.pdf http://repository.ub.ac.id/174086/ |
Daftar Isi:
- Twitter merupakan mikroblog yang sedang digemari oleh banyak orang dan berubah menjadi penyebar informasi yang sangat cepat saat ini. Informasi yang dihasilkan dan beredar melalui media ini sangat bebas dan beragam seperti berita, pertanyaan, opini, komentar, kritik baik yang bersifat positif maupun negatif. Klasifikasi merupakan semacam proses pada penambangan teks yang menggolongkan konten tertentu mengacu pada kesamaan skripnya. Dengan proses ini mengizinkan tweets tertentu yang berada pada Twitter digolongkan jadi satu bersumber pada kategorinya. Misalkan, berita sepakbola, voli, dan sepak takraw tergolong pada kategori olahraga. Proses pada klasifikasi diawali dengan preprocessing, dilanjutkan dengan pembobotan kata, kemudian kategorisasi yang terdiri dari penghitungan cosine similarity. Preprocessing sendiri terdiri dari beberapa tahap yaitu pembersihan dokumen, tokenizing, stopword removal, dan stemming. Metode pembobotan kata yang digunakan pada skripsi ini adalah Term Frequency–Inverse Document Frequency (TF-IDF) dan menggunakan K-Nearest Neighbor (K-NN) sebagai metode klasifikasinya. Metode K-NN merupakan klasifikasi terhadap sekumpulan data berdasarkan pembelajaran data yang sudah terklasifikasikan sebelumya. Kategori yang digunakan diantaranya ekonomi, kesehatan, olahraga, otomotif dan teknologi. Pengujian akurasi dari klasifikasi tweets pada Twitter dengan menggunakan metode K-Nearest Neighbor (K-NN) menghasilkan akurasi dimana total data berjumlah 140, dengan uraian 100 data latih dan 40 data uji serta nilai k yang dimasukkan adalah 1, 3, 5, dan 7, masing-masing hasilnya k = 1, akurasi sebesar 75,0%; k = 3, akurasi sebesar 72,5%; k = 5, akurasi sebesar 62,5%; k = 7, akurasi sebesar 55,0%.