Pengaruh Data Ber-Missing value terhadap Pengklasifikasian Data menggunakan Algoritma Decision Tree C4.5
Main Author: | EllyNurhayatiKusnadi |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2008
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/151771/1/050801549.pdf http://repository.ub.ac.id/151771/ |
Daftar Isi:
- Dalam teknologi pengolahan data, seringkali data yang terkumpul untuk diolah tidak selalu lengkap (memiliki nilai yang hilang atau missing value ). Ketidaklengkapan data tersebut tentunya menjadi permasalahan dalam proses pengolahan data, khususnya pada proses pengklasifikasian data yang merupakan salah satu tugas dari data mining dalam mencari pola penting dalam data untuk mendapatkan informasi dari data. Pengklasifikasian data dapat dilakukan dengan banyak metode, salah satunya yaitu metode decision tree. Ada banyak algoritma decision tree yang digunakan dalam mengklasifikasikan data, salah satunya yaitu algoritma C4.5. Algoritma C4.5 yang merupakan algoritma hasil pengembangan algoritma milik Quinlan, Rose (1996) ID3, memiliki kelebihan dapat menangani data dengan missing value . Dalam skripsi ini dilakukan penelitian mengenai pengaruh data ber- missing value terhadap pengklasifikasian data menggunakan algoritma C4.5. Adapun parameter yang dijadikan objek evaluasi yaitu akurasi dari model klasifikasi (model tree ) yang dihasikan dari proses pembelajaran data training . Hasil dari penelitian ini, yaitu bahwa banyaknya data yang memiliki missing value berpengaruh pada tingkat akurasi model tree yang terbentuk. Dari dua macam uji coba yang dilakukan, dapat disimpulkan bahwa semakin banyak jumlah missing value pada data training , maka tingkat akurasi dari model tree yang dihasilkan akan semakin kecil. Hal tersebut disimpulkan bedasarkan hasil uji coba 1 yang bertujuan mengetahui pengaruh banyaknya missing value terhadap tingkat akurasi model tree . Adapun hasil uji coba 1 untuk tiap-tiap kategori tabel berdasarkan jumlah record , yaitu data training 37 records (perubahan tingkat akurasi : 87,5%, 73,33334%, 70%, 63,33333%), data training 74 records (perubahan tingkat akurasi :80%, 74,16667%, 84,166667%, 70%), data training 111 records (perubahan tingkat akurasi : 85%, 70,83334%, 66,66667%, 61,66667%) dan data training 148 records (perubahan tingkat akurasi : 100%, 92,5%, 88,33333%, 84,16667%). Begitupula untuk data training yang memiliki record ber- missing value , semakin banyak jumlah record ber- missing value , maka tingkat akurasi dari model tree -nya akan semakin menurun. Hal tersebut berdasarkan hasil uji coba 2 yang bertujuan mengetahui pengaruh jumlah record ber- missing value terhadap tingkat akurasi. Adapun hasil dari uji coba 2 untuk tabel B (111 records ), dimana tingkat akurasi berdasarkan penambahan jumlah recor d ber- missing value meningkat untuk tiap kategori jumlah missing value per- record (jml mv/ record = 2 (85%, 72,5%, 77,5%, 72,5%), jml mv/ record = 4 (82,5%, 77,5%, 72,5%, 65%), jml mv/ record = 6 (87,5%, 80%, 62,5%, 52,5%), jml mv/ record = 10 (85%, 82,5%, 62,5%, 52,5%), jml mv/ record = 15 (80%, 82,5%, 52,5%, 32,5%)). Selain missing value , jumlah record data training juga berpengaruh pada akurasi model tree . Semakin banyak jumlah data training , maka tingkat akurasi dari model tree yang dihasilkan akan semakin tinggi. Hal tersebut disimpulkan berdasarkan pada hasil uji coba 1 untuk tabel data training tanpa missing value (tabel 37 records (87,5%), tabel 74 records (80%), tabel 111 records (85%), dan tabel 148 records (100%))