Klasifikasi Data Imbalanced Multiclass Menggunakan Cost Sensitive Decision Tree C5.0
Daftar Isi:
- Data mining merupakan proses penggalian data atau pencarian pola dengan tujuan mendapatkan informasi sebagai pengetahuan untuk mengambil keputusan secara cepat, tepat dan akurat di waktu yang akan datang. Pada proses data mining pendistribusian data yang tidak sama (imbalanced data) menjadi sebuah permasalahan yang penting karena machine learning lebih fokus pada class yang dominan (mayority) dibandingkan dengan class yang sedikit (minority). Padahal minority class dapat memiliki pengaruh yang jauh lebih besar jika terjadi salah klasifikasi (misclassification). Dalam proses data mining, pola data dapat dipelajari sebagai dasar pengambilan keputusan. Salah satu cara untuk mencari pola data dengan menggunakan teknik klasifikasi. Klasifikasi memiliki dua jenis class prediksi yaitu binary class memiliki dua prediksi class dan multiclass memiliki prediksi class lebih dari dua. Metode klasifikasi yang sering digunakan untuk menyelesaikan masalah data imbalanced adalah decision tree. Konsep decision tree adalah merubah data berupa tabel menjadi model pohon kemudian menghasilkan aturan keputusan (rule). Pada proses decision tree pemilihan atribut yang relevan memiliki pengaruh yang besar untuk mendapatkan performa yang baik. Hasil dari proses klasifikasi perlu adanya evaluasi untuk meminimalkan kesalahan klasifikasi. Cost sensitive merupakan metode yang mengansumsikan kesalahan klasifikasi sebagai cost. Metode tersebut bekerja dengan meminimalkan cost dari classifier. Pada penelitian ini, tahap awal dataset dilakukan seleksi atribut menggunakan particle swarm optimization. Selanjutnya decision tree C5.0 digunakan untuk mencari pola pada dataset kemudian dilakukan pengujian. Hasil dari pengujian kemudian dilakukan evaluasi untuk mencari pola dengan nilai cost terkecil. Metode penelitian ini disebut dengan cost sensitive decision tree C5.0. Metode tersebut dilakukan pengujian dengan membandingkan decision tree C5.0 dengan ID3 dan C4.5. Selain itu cost sensitive decision tree C5.0 juga dibandingakan dengan cost sensitive naïve bayes. Hasil pengujian klasifikasi dataset menggunakan cost sensitive decision tree ID3 tidak mampu meningkatkan nilai accuracy pada semua dataset. Hasil pengujian klasifikasi dataset menggunakan cost sensitive decision tree C4.5 mampu meningkatkan nilai accuracy pada tiga dataset antara lain vehicle dan wine berturut-turut meningkat sebesar 76.86% dan 97.62%. Sedangkan klasifikasi dataset menggunakan cost sensitive decision tree C5.0 mampu meningkatkan nilai accuracy pada dataset glass dan thyroid, berturut-turut sebesar 75.27% dan 95.81%. Hasil pengujian, cost sensitive decision tree C5.0 memiliki nilai accuracy yang lebih baik dari pada menggunakan metode cost sensitive naïve bayes pada dataset glass, lympografi, vehicle dan wine berturut-turut 76.17%, 83.33%, 75.27% dan 95.83%. Sedangkan dengan menggunakan metode cost sensitive naïve bayes memiliki nilai accuracy yang lebih baik dari pada cost sensitive decision tree C5.0 pada dataset thyroid sebesar 97.67%.