Klasifikasi Jenis Kelamin Pengguna Twitter dengan Menggunakan Metode BM25 dan K-Nearest Neighbor (KNN)

Main Author: Zakia, Annisa Selma
Format: Thesis NonPeerReviewed
Terbitan: , 2020
Subjects:
Online Access: http://repository.ub.ac.id/183631/
Daftar Isi:
  • Twitter merupakan jejaring sosial microblogging dimana seseorang dapat menulis hingga 280 karakter dalam satu kali tweet. Indonesia menempati urutan ke-5 pengguna Twitter terbanyak di dunia. Melihat banyaknya pengguna Twitter di Indonesia tentu dapat dimanfaatkan oleh perusahaan dalam menciptakan strategi bisnis baru untuk melayani pelanggannya namun, sebagian pengguna akun sosial merasa keberatan jika harus mengungkapkan identitasnya. Perusahaan pun akan membutuhkan waktu lama jika ia harus bertanya satu demi persatu kepada pengguna Twitter mengenai identitas diri mereka. Masalah tersebut dapat diselesaikan dengan cara mengembangkan sistem untuk melakukan klasifikasi berdasarkan tweet dari pengguna, sistem tersebut tentu berguna karena lebih hemat waktu. Sistem dirancang dengan menggunakan metode BM25 sebagai metode untuk menghitung kemiripan antar dokumen dan KNN sebagai metode untuk melakukan klasifikasi data. Pengujian sistem dilakukan dengan memasukkan 1000 dokumen, kemudian dokumen tersebut dilakukan uji K-Fold Cross Validation dengan menggunakan K = 10 sehingga didapatkan 900 dokumen latih dan 100 dokumen uji pada setiap partisi K. pengujian selanjutnya adalah pengujian nilai ketetanggaan, nilai ketetanggaan yang digunakan adalah 1, 3, 5, 7, 10, 20, 30, 40 dan 50, hasil pengujian menunjukkan bahwa nilai ketetanggaan yang optimal ialah k=3. Pada k=3 nilai akurasi, precision, recall dan f-score dari rerata 10-Fold Cross Validation adalah 68,6%, 67,63%, 71,52% dan 69,34%.