Klasifikasi Hate Speech Berbahasa Indonesia di Twitter Menggunakan Metode Naive Bayes dan Seleksi Fitur Information Gain dengan Normalisasi Kata
Main Author: | -, Ivan |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2019
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/168869/1/Ivan.pdf http://repository.ub.ac.id/168869/ |
Daftar Isi:
- Hate speech atau ujaran kebencian adalah tindakan yang sering dilakukan oleh sebagian kelompok di masyarakat untuk memprovokasi kebencian dan tindakan kekerasan terhadap seseorang atau kelompok lain karena berbagai alasan. Kasus hate speech sangat sering kita jumpai di media sosial, salah satunya di Twitter. Tujuan penelitian ini adalah untuk membuat sebuah sistem yang mampu mengklasifikasikan sebuah tweet pada Twitter ke dalam kelas hate speech ataupun kelas non hate speech. Metode yang digunakan adalah Naïve Bayes dan seleksi fitur Information Gain dengan normalisasi kata. Normalisasi kata digunakan untuk mengatasi permasalahan pada Twitter seperti banyaknya penyingkatan kata, penggunaan bahasa gaul, kesalahan eja, dan penggunaan bahasa yang tidak sesuai dengan standar yang ada. Normalisasi kata yang digunakan berasal dari Pujangga Indonesian Natural Language Processing REST API. Data yang digunakan pada penelitian ini berjumlah 250 data tweet hate speech berbahasa Indonesia dengan perbandingan 80% untuk data latih dan 20% untuk data uji. Threshold yang digunakan pada penelitian ini adalah sebesar 20%, 40%, 60%, 80%, dan 90%. Threshold adalah ambang batas yang ditentukan untuk menyimpan kumpulan term atau kumpulan kata yang akan digunakan untuk menyeleksi kata-kata yang memiliki nilai tinggi pada proses seleksi fitur Information Gain. Hasil akurasi terbaik diperoleh dengan menggunakan normalisasi kata pada tahap pre-processing dan menggunakan seleksi fitur Information Gain dengan threshold 80%. Hasil akurasi terbaik yang didapatkan adalah sebesar 98%, nilai precision sebesar 100%, nilai recall sebesar 96,15%, dan nilai f-measure sebesar 98,03%. Berdasarkan hasil yang diperoleh, dapat diambil kesimpulan bahwa pada saat melakukan klasifikasi hate speech berbahasa Indonesia di Twitter menggunakan Naïve Bayes dan seleksi fitur Information Gain dengan normalisasi kata mampu meningkatkan hasil akurasi menjadi lebih baik.