Klasifikasi Ujaran Kebencian Pada Twitter Menggunakan Metode Naive Bayes Berbasis N-gram dan Seleksi Fitur Information Gain

Main Author: Hakiem, Muhammad
Format: Thesis NonPeerReviewed
Terbitan: , 2018
Subjects:
Online Access: http://repository.ub.ac.id/166793/
Daftar Isi:
  • Ujaran kebencian atau hate speech adalah salah satu topik yang sering dibahas di bidang teknologi informasi. Ujaran kebencian banyak digunakan oleh orang-orang yang tidak suka atau benci terhadap seseorang maupun suatu kelompok. Orang menyatakan sebuah ujaran kebencian biasanya dilakukan dengan cara menulisnya di sosial media. Salah satu sosial media yang sering digunakan seseorang untuk menyebarkan ujaran kebencian adalah Twitter. Seseorang dapat menyebarkan ujaran kebencian di Twitter dengan mudah karena tweet yang ditulis tersebut dianggap hanya seperti tweet biasa saja oleh Twitter. Oleh karena itu dibutuhkan klasifikasi ujaran kebencian agar dapat mengurangi penyebaran ujaran kebencian. Metode yang digunakan dalam penelitian ini adalah Naïve Bayes berbasis N-gram dan seleksi fitur Information Gain. Fitur n-gram yang digunakan pada penelitian ini adalah fitur Unigram, Bigram, dan kombinasi unigram-bigram. Data yang digunakan pada penelitian ini berjumlah 250 data berlabel ujaran kebencian dan 250 data berlabel bukan ujaran kebencian dengan perbandingan 80% untuk data latih dan 20% untuk data uji. Hasil akurasi terbaik yang didapat pada penelitian ini adalah dengan menggunakan fitur Unigram dan nilai threshold seleksi fitur Information Gain yang digunakan adalah 100%. Hasil akurasi terbaik yang didapat adalah 84%, nilai precision 92%, nilai recall 79,31%, dan nilaif-measure 85,18%. Berdasarkan hasil yang didapat tersebut dapat diambil kesimpulan bahwa untuk melakukan klasifikasi ujaran kebencian pada Twitter menggunakan Naïve Bayes mendapat hasil paling bagus dengan fitur Unigram dan tanpa melakukan seleksi fitur Information Gain.