Deteksi Bot Spammer Pada Twitter Menggunakan Smith Waterman Similarity Dan Time Interval Entropy

Main Authors: Syafii, Imam, Setyanto, Arief, Raharjo, Suwanto
Format: Article info application/pdf Journal
Bahasa: eng
Terbitan: Ikatan Ahli Informatika Indonesia (IAII) , 2018
Online Access: http://jurnal.iaii.or.id/index.php/RESTI/article/view/549
http://jurnal.iaii.or.id/index.php/RESTI/article/view/549/97
Daftar Isi:
  • Twitter is a social media that interacts through 140-character text-based tweet posts including photos, videos and hyperlinks. Spam tweets contain harmful messages sent continuously. Besides disturbing it is also dangerous for the recipient, exacerbated by the use of bots that automatically and quickly spread spam messages that can cause data damage. This study aims to detect spam bots by utilizing the similarity of tweets using Smith Waterman and the posting time interval. Data tweets are collected using scrap libraries in python in the form of id, text, time, link, based on datasets labeled as available. The data is carried out by text preprocessing steps to clean the text and then do the calculations. The calculation results of both the similarity method and the post time interval are then classified with k-Neaset Neighbor with the previous dataset that has been labeled to get the spam or legitimate bot prediction results. The results of classification experiments with several combinations of k to detect spam bots with similarity criteria and entropy interval obtained the best results k = 3 Neirest Neighbor and 10 fold Cross Validation with a predictive value of detection accuracy of 80%, 84% precission and 84% recall.
  • Twitter merupakan media sosial yang berinteraksi melalui postingan tweet yang berbasis teks 140 karakter termasuk foto, video dan hyperlink. Tweet spam  berisi pesan membahayakan yang dikirim secara terus-menerus. Selain mengganggu juga membahayakan bagi yang menerima, diperburuk dengan penggunaan bot yang secara otomatis dan cepat menyebarkan pesan spam yang dapat menyebabkan kerusakan data. Penelitian ini bertujuan mendeteksi bot spam dengan memanfaatkan kemiripan tweets menggunakan Smith Waterman dan Interval waktu posting. Data tweets dikumpulkan menggunakan library scrap di python berupa id, text, time, link, berdasarkan dataset berlabel yang telah tersedia. Data tersebut dilakukan tahapan text preprocessing untuk membersihkan teks kemudian dilakukan perhitungan. Hasil perhitungan dari kedua metode similarity dan interval waktu posting kemudian diklasifikasi dengan k-Neaset Neighbour dengan dataset sebelumnya yang telah berlabel untuk mendapatkan hasil prediksi bot spam atau legitimate. Hasil percobaan klasifikasi dengan beberapa kombinasi k untuk mendeteksi bot spam dengan kriteria similarity dan interval entropy diperoleh hasil terbaik k=3 Neirest Neighbour dan 10 fold Cross Validation dengan nilai prediksi deteksi accuracy sebesar 80%, precission 84% dan recall 84%.