Seleksi Fitur Information Gain Untuk Klasifikasi Informasi Tempat Tinggal Di Kota Malang Berdasarkan Tweet Menggunakan Metode Naïve Bayes Dan Pembobotan TF-IDF-CF

Main Author: Irsad, Ahmad Efriza
Format: Thesis NonPeerReviewed Book
Bahasa: eng
Terbitan: , 2019
Subjects:
Online Access: http://repository.ub.ac.id/168873/1/Ahmad%20Efriza%20Irsad.pdf
http://repository.ub.ac.id/168873/
Daftar Isi:
  • Kota malang merupakan kota yang memiliki peningkatan jumlah penduduk yang bisa dibilang cukup pesat, yaitu sekitar 50 ribu jiwa dalam jangka waktu 5 tahun. Salah satu penyebabnya dikarenakan kota Malang merupakan salah satu kota pendidikan karena di kota ini terdapat banyak perguruan tinggi yang cukup banyak dan bisa dibilang cukup populer, seperti Universitas Brawijaya (UB), Universitas Islam Malang (Unisma), dll. Hal ini membuat banyak pendatang dari luar daerah kota Malang berkuliah di kota malang, ada beberapa hal yang mungkin menjadi alasan pendatang memilih kota Malang, salah satunya karena kota Malang memiliki universitas dengan kualitas yang bisa dibilang salah satu yang terbaik di Inonesia. Ketika menjadi seorang migran tentu yang dibutuhkan adalah tempat tinggal dalam jangka waktu yang panjang, karena itu para pendatang tadi tentu memerlukan informasi tempat tinggal berupa kost atau kontrakan untuk ditinggali, informasi tentang tempat tinggal ini dapat kita dapatkan melalui media sosial seperti Twitter, namun di Twitter masih belum ada pengelompokkan mengenai informasi-informasi seperti ini. Melihat masalah ini maka digunakan Teknik klasifikasi untuk mengelompokkan informasi berupa tempat tinggal yang ada di kota malang. Pada penelitian ini digunakan metode Naïve Bayes sebagai metode pengklasifikasian dan metode Information Gain untuk menyeleksi fitur yang digunakan. Sebelum masuk kedalam proses pengklasifikasian dilakukan pembobotan terlebih dahulu menggunakan metode TF-IDF-CF. Data yang digunakan sebagai data latih sebanyak 150 data, sedangkan 60 data untuk data uji. Hasil akurasi terbaik yang didapatkan dari penelitian ini adalah sebesar 71,66% dengan menggunakan fitur sebanyak 33%, pembobotan TF-IDF-CF, dan tanpa penggunaan fitur angka.