Copula Based Synthetic Oversampling for Classification Model with Imbalanced Data: A Case Study of Credit Card Default Prediction

Main Author: Pratikto, Fransiscus Rian
Format: Article info application/pdf eJournal
Bahasa: eng
Terbitan: Universitas Katolik Parahyangan , 2023
Subjects:
Online Access: https://journal.unpar.ac.id/index.php/jrsi/article/view/6380
https://journal.unpar.ac.id/index.php/jrsi/article/view/6380/3985
Daftar Isi:
  • A machine learning classification model for detecting abnormality is usually developed using imbalanced data where the number of abnormal instances is significantly smaller than the normal ones. Since the data is imbalanced, the learning process is dominated by normal instances, and the resulting model may be biased. The most common method for coping with this problem is synthetic oversampling. Most synthetic oversampling techniques are distance-based, usually based on the k-Nearest Neighbor method. Patterns in data can be based on distance or correlation. This research proposes a synthetic oversampling technique that is based on correlations in the form of the joint probability distribution of the data. The joint probability distribution is represented using a Gaussian copula, while the marginal distribution uses three alternatives distribution: the Pearson distribution system, empirical distribution, and the Metalog distribution system. This proposed technique is compared with several commonly used synthetic oversampling techniques in a case study of credit card default prediction. The classification model uses the k-Nearest Neighbor and is validated using the k-fold cross-validation. We found that the classification model using the proposed oversampling method with the Metalog marginal distribution has the greatest total accuracy.
  • Model klasifikasi berbasis pembelajaran mesin untuk mendeteksi anomali biasanya didasarkan pada data dengan proporsi yang tidak seimbang. Proporsi data anomali biasanya jauh lebih kecil dibandingkan proporsi data non anomali. Ketidakseimbangan data menyebabkan model klasifikasi lebih banyak melakukan pembelajaran dengan data non anomali sehingga model bisa bias. Salah satu metode yang banyak digunakan untuk mengatasi masalah ini adalah oversampling sintetis. Oversampling sintetis umumnya didasarkan pada jarak dan didominasi metode berbasis k-Nearest Neighbor. Secara umum, pola data bisa berdasarkan jarak atau hubungan korelasional. Penelitian ini bertujuan menawarkan metode oversampling sintetis berdasarkan hubungan korelasional dalam bentuk distribusi probabilitas bersama dari data aslinya. Distribusi probabilitas bersama direpresentasikan dengan kopula Gaussian, sedangkan distribusi probabilitas marjinalnya direpresentasikan menggunakan tiga alternatf distribusi, yaitu sistem distribusi Pearson, distribusi empiris, dan sistem distribusi Metalog. Metode ini dibandingkan dengan beberapa metode oversampling lain yang umum digunakan untuk data yang tidak seimbang. Implementasi dilakukan dalam masalah kredit macet nasabah kartu kredit di suatu bank dengan metode klasifikasi k-Nearest Neighbor dengan ukuran kinerja akurasi total dengan metode validasi k-fold cross validation. Didapati bahwa model klasifikasi dengan metode oversampling usulan menggunakan distribusi marjinal Metalog memiliki akurasi total tertinggi.