Penerapan Latent Dirichlet Allocation (LDA) dengan Term Frequency-Inverse Document Frequency (TF-IDF) untuk Ekstraksi Aspek pada E-Commerce

Main Authors: Nugroho, Satyawan Agung, Dr.Eng. Fitra Abdurrachman Bachtiar, S.T, M.Eng., Randy Cahya Wihandika, S.ST., M.
Format: Thesis NonPeerReviewed Book
Bahasa: eng
Terbitan: , 2020
Subjects:
Online Access: http://repository.ub.ac.id/id/eprint/193693/1/0520150345-Satyawan%20Agung%20Nugroho.pdf
http://repository.ub.ac.id/id/eprint/193693/
Daftar Isi:
  • Media sosial merupakan hal yang umum digunakan manusia. Dengan media sosial, manusia dapat berinteraksi satu dengan yang lainnya dengan jangkauan yang lebih jauh. Terdapat beberapa bentuk informasi yang dapat disampaikan melalui media sosial, salah satunya adalah informasi berbentuk teks. Informasi berbentuk teks tentu memiliki topik yang dibahas di dalamnya. Bagi manusia, menemukan topik merupakan hal yang mudah dilakukan. Namun, untuk menemukan topik apa saja yang dibahas dalam komentar-komentar pada bidang e-commerce diperlukan waktu yang lama sehingga untuk mempermudah menemukan topik-topik tersebut diperlukan bantuan komputer. Komputer memerlukan sebuah pendekatan tertentu untuk memahami topik dalam suatu teks. Salah satu pendekatannya adalah topic modelling dengan menggunakan Latent Dirichlet Allocation (LDA). LDA merupakan metode yang mencari distribusi topik pada dokumen dan distribusi kata pada topik. Pada awalnya, LDA menginisialisasi tiap kata dalam dokumen dengan topik acak. Kemudian, pada tiap iterasi LDA mengubah topik tiap kata berdasarkan kemungkinan kata tersebut terhadap suatu topik dan kemungkinan dokumen tersebut terhadap suatu topik. LDA dapat dikatakan efektif untuk menemukan topik dalam teks, namun kekurangannya adalah topik yang dihasilkan kurang jelas. Agar kekurangan LDA dapat ditutupi, metode seleksi fitur Term Frequency-Inverse Document Frequency (TF-IDF) digunakan untuk menghilangkan kata-kata yang kurang penting sehingga diharapkan metode yang digunakan dapat menemukan topik yang tepat dan jelas dari data komentar dengan tema e-commerce yang diberikan. Pada seleksi fitur TF-IDF dihitung nilai TF-IDF tiap kata pada tiap dokumen. Kemudian, nilai tersebut dirata-ratakan sehingga tiap kata hanya memiliki satu nilai TF-IDF. Kata-kata tersebut diurutkan berdasarkan nilai rata-rata TF-IDF tiap kata. Nilai persentil dapat digunakan untuk menentukan berapa banyak kata yang ingin digunakan dalam LDA. Hasil yang didapatkan adalah nilai hyperparameter LDA yang terbaik untuk dataset yang diberikan adalah jumlah iterasi sebanyak 10 yang didapatkan melalui percobaan beberapa jumlah iterasi, jumlah topik 10 yang didapatkan melalui percobaan beberapa nilai jumlah topik kemudian dipilih menggunakan elbow method, nilai α sebesar 0,1 dan nilai β sebesar 0,01 yang didapatkan melalui dua skenario pengujian. Sedangkan untuk nilai persentil TF-IDF yang terbaik adalah 90 yang didapatkan melalui percobaan dengan nilai persentil dari 10 hingga 90.