Balancing Datasets for Classifying Comments on the Kampus Merdeka Program Using Synonym Replacement

Main Author: Nifanto, Soleh
Format: Article info eJournal
Bahasa: ind
Terbitan: Informatics Department, Faculty of Mathematics and Natural Sciences, Udayana University , 2024
Online Access: https://ojs.unud.ac.id/index.php/jik/article/view/103821
Daftar Isi:
  • The classification of comments in the Merdeka Campus program is an essential step in analyzing user sentiment towards the various features and services offered by the program. However, in the dataset processed in this study, problems are encountered, namely the imbalance of the amount of data in each class. The Imbalanced Ratio in this dataset is relatively high by 5:1. This generally leads to a classification model that prioritizes the majority class and results in low performance in the minority class. Therefore, a data augmentation approach is used in this study with the Synonym Replacement method to produce data variations in minority classes, thereby reducing the imbalance and improving classification performance. This method utilizes the technique of replacing synonyms in sentences in comments to enrich the dataset and increase the representational features. The study's results showed an increase in the F-Measure value from 0.6672 to 0.7875. Evaluation using ROC shows a maximum value of 0.96. In contrast, the class that did not get augmentation tended to have low ROC values between 0.81 to 0.88.
  • Klasifikasi komentar dalam program Kampus Merdeka merupakan langkah penting dalam menganalisis sentimen pengguna terhadap berbagai fitur dan layanan yang ditawarkan oleh program tersebut. Namun demikian pada dataset yang diolah dalam penelitian ini, terdapat masalah yang dihadapi yaitu ketidakseimbangan jumlah data pada masing-masing kelas. Rasio ketidakseimbangan pada dataset tersebut cukup tinggi yaitu sebesar 5:1. Ketidakseimbangan ini umumnya mengakibatkan model klasifikasi cenderung memprioritaskan kelas mayoritas dan menghasilkan kinerja yang rendah pada kelas minoritas. Oleh karena itu, suatu pendekatan augmentasi data digunakan dalam penelitian ini dengan metode Synonym Replacement untuk menghasilkan variasi data dalam kelas minoritas, sehingga mengurangi ketidakseimbangan dan meningkatkan kinerja klasifikasi. Metode ini memanfaatkan teknik penggantian sinonim dalam kalimat-kalimat pada komentar dengan harapan dapat memperkaya dataset dan meningkatkan representasi fitur. Hasil dari penelitian menunjukan peningkatan nilai F-Measure dari 0,6672 menjadi 0,7875. Evaluasi menggunakan ROC menunjukan nilai maksimum sebesar 0,96. Sedangkan kelas yang tidak mendapatkan augmentasi memiliki kecenderungan nilai ROC yang rendah di antara 0,81 sampai 0,88.