Perbandingan Performansi Algoritma Pengklasifikasian Terpandu Untuk Kasus Penyakit Kardiovaskular

Main Authors: Adi Nugroho, Agustinus Bimo Gumelar, Adri Gabriel Sooai, Dyana Sarvasti, Paul L Tahalele
Format: Article info application/pdf Journal
Bahasa: eng
Terbitan: Ikatan Ahli Informatika Indonesia (IAII) , 2020
Subjects:
Online Access: http://jurnal.iaii.or.id/index.php/RESTI/article/view/2316
http://jurnal.iaii.or.id/index.php/RESTI/article/view/2316/333
Daftar Isi:
  • One of the health problems that occur in Indonesia is the increasing number of NCD (Non-Communicable Disease) such as heart attack and cardiovascular disease. There are two factors that cause cardiovascular disease, i.e. factor that can be changed and cannot be changed. This study aim to analyze the best performance of several classification algorithms such as k-nearest neighbors algorithm (k-NN), stochastic gradient descent (SGD), random forest (RF), neural network (NN) and logistic regression (LR) in classifying cardiovascular based on factors that caused those diseases. There are two aspects that need to be examined, the performance of each algorithm which is evaluated using the Confusion matrix method with the parameters of accuracy, precision, recall and AUC (Area Under the Curve). The dataset uses 425.195 samples from result data of cardiovascular disease diagnosed. The testing mode uses percentage split and cross-validation technique. The experimental results show that the performance of NN algorithms produces the best prediction accuracy compared to other algorithms, which is accuracy of 89.60%, AUC of 0.873, precision of 0.877, and recall of  0.896 using percentage split  and cross-validation testing mode using Orange. For the accuracy of 89.46%, AUC of 0.865, precision of 0.875, and recall of 0.895 using cross-validation testing mode using Weka. By KNIME, the result of accuracy value is 88.55%, AUC value is 0.768, precision value is 0.854, and recall value is 0.886 using cross-validation testing mode.
  • Salah satu pemasalahan kesehatan yang terjadi di Indonesia adalah meningkatnya angka kejadian Penyakit Tidak Menular (PTM) seperti penyakit jantung dan pembuluh darah (kardiovaskular). Terdapat dua faktor risiko yang menyebabkan terjadinya penyakit kardiovaskular yaitu faktor risiko yang bisa diubah dan faktor risiko yang tidak bisa diubah. Penelitian ini mengkaji untuk menganalisa kinerja terbaik dari beberapa algoritma pengklasifikasian terpandu yaitu k-nearest neighbors (k-NN), stochastic gradient descent (SGD), random forest (RF), neural network (NN) dan logistic regression (LR) dalam mengklasifikasikan penyakit kardiovaskular berdasarkan faktor-faktor risiko penyebab terjadinya penyakit tersebut. Aspek yang akan dikaji adalah hasil kinerja dari masing-masing algoritma yang dievaluasi menggunakan metode Confusion matrix dengan parameter akurasi, presisi, recall dan AUC (Area Under the Curve). Basis data yang digunakan adalah data hasil pemeriksaan penyakit kardiovaskular sejumlah 425.195 data sampel. Mode pengujian yang digunakan adalah pembagian prosentase dan validasi silang. Hasil eksperimen menunjukkan bahwa kinerja algoritma NN menghasilkan kinerja terbaik dibandingkan algoritma yang lain yaitu nilai akurasi sebesar 89.60%, nilai AUC sebesar 0.873, nilai presisi sebesar 0.877 dan nilai recall sebesar 0.896 menggunakan mode pengujian pembagian prosentase dan mode pengujian validasi silang pada tools Orange. Pada tools Weka, didapat nilai akurasi sebesar 89.46%, nilai AUC sebesar 0.865, nilai presisi sebesar 0.875 dan nilai recall sebesar 0.895 menggunakan mode pengujian validasi silang. Dengan tools KNIME, didapatkan nilai akurasi sebesar 88.55%, nilai AUC sebesar 0.768, nilai presisi sebesar 0.854 dan nilai recall sebesar 0.886 menggunakan mode pengujian validasi silang.