Klasifikasi Imbalanced Data Menggunakan Algoritma Klasifikasi Voting Feature Intervals
Main Authors: | Kustiyo, Aziz, Hermadi, Irman, Aritonang, Rosida |
---|---|
Format: | Article info eJournal |
Bahasa: | eng |
Terbitan: |
Jurnal Ilmiah Ilmu Komputer
, 2010
|
Online Access: |
http://journal.ipb.ac.id/index.php/jurnalilkom/article/view/1114 |
Daftar Isi:
- Imbalanced data atau data yang tak berimbang merupakan suatu kondisi dimana pada sebuah himpunan data terdapat satu kelas yang memiliki jumlah instance yang kecil bila dibandingkan dengan kelas lainnya. Contohnya pada suatu himpunan data yang terdiri dari dua kelas dimana rasio jumlah instance antara kedua kelas sebesar 1:100, 1:1000, dan 1:10.000. Kondisi imbalanced data dapat menyebabkan pengklasifikasian data yang tidak optimal (Barandela et al. 2002). Voting Feature Intervals merupakan algoritma klasifikasi yang dikembangkan oleh Demiroz dan GÃÂ1⁄4venir(1997). Pada penelitian ini dilakukan penerapan algoritma Voting Feature Intervals versi yang ke-5 (VFI5) sebagai algoritma klasifikasi pada kasus imbalanced data. Data yang digunakan adalah data penyakit Euthyroid dan Hypothyroid. Untuk mengatasi imbalanced data digunakan pendekatan dari level data, yaitu sampling-technique. Pendekatan sampling-technique terdiri atas over sampling dan under sampling. Pada penelitian dikembangkan tiga model aplikasi VFI5 yaitu model VFI5 tanpa sampling-technique (Model 1), model VFI5 dengan pendekatan over sampling (Model 2) , dan model VFI5 dengan pendekatan under sampling (Model 3). Hasil penelitian menunjukkan nilai akurasi yang tertinggi dicapai pada Model 3 yaitu model VFI5 dengan pendekatan under sampling. Nilai akurasi data Euthyroid tertinggi sebesar 66% dan untuk nilai akurasi data Hypothyroid tertinggi sebesar 88,73%. Kata Kunci : imbalanced data, voting feature intervals, sampling technique, over sampling, under sampling.