MODEL REGRESI LINIER BAYESIAN DENGAN APLIKASI PADA DATA PENUNDAAN PENERBANGAN
Main Authors: | Lestari, Vemmie Nastiti, Subanar, Subanar |
---|---|
Other Authors: | Funding and support by Hibah Penelitian Departemen Matematika Universitas Gadjah Mada |
Format: | Article info application/pdf |
Bahasa: | eng |
Terbitan: |
Department of Mathematics, Faculty of Science and Mathematics, Diponegoro University
, 2018
|
Online Access: |
http://jfma.math.fsm.undip.ac.id/index.php/jfma/article/view/21 http://jfma.math.fsm.undip.ac.id/index.php/jfma/article/view/21/4 |
Daftar Isi:
- Abstract. Bayesian linear regression is an approach to linear regression where statistical analysis depend of Bayesian inference. The Bayesian model on big data uses a summary of data statistics as input; Statistical summary can be calculated from each subset, then a statistical summary of the full dataset is obtained from the sum of the summary statistics for each subset. Recent developments in data science and research, produce large datasets that are too large to be analyzed as a whole due to the limitations of computer memory or storage capacity. To overcome this, a program package was introduced from R namely BayesSummaryStatLM for the Bayesian linear regression model with the Markov Chain Monte Carlo implementation that overcomes this limitation. Then the program package from R, ff is used to read data in large datasets while calculating statistics summary. In this study Bayesian linear regression model used with several choices of prior distribution for unknown model parameters, and illustrates in simulation data and real datasets for flight delay data in US 2008. The application of simulation data and flight delay data produces a plot of density functions for the β parameters has a shape resembling a plot of Normal distribution density function, whereas for plot 2 parameters the density function has a shape resembling the plot of Inverse Gamma distribution density function. In the simulation data, the estimator for each parameter produced has a value that approach to the value of the specified parameter (True Value). This is also indicated by the narrow credible interval for each parameters.Keywords: Big Data, Bayesian Method, Markov Chain Monte Carlo, Bayesian Linear Regression, BayesSummaryStatLM.Abstrak. Model Regresi linier Bayesian merupakan pendekatan untuk regresi linier dimana analisis statistik yang dilakukan dalam konteks inferensi Bayesian. Perkembangan terbaru dalam ilmu data dan penelitian, menghasilkan dataset besar yang terlalu besar untuk dianalisis secara keseluruhan karena keterbatasan memori komputer atau kapasitas penyimpanan. Untuk mengatasi hal tersebut diperkenalkan paket program dari R yaitu BayesSummaryStatLM untuk model regresi linier Bayesian dengan implementasi Markov Chain Monte Carlo yang mengatasi keterbatasan ini. Selanjutnya paket program dari R yaitu ff digunakan untuk membaca data pada dataset besar sekaligus menghitung ringkasan statistik. Dalam penelitian ini digunakan model regresi linier Bayesian dengan beberapa pilihan distribusi prior untuk parameter model yang tidak diketahui, dan mengilustrasikannya pada data simulasi dan dataset real yaitu data penundaan penerbangan di US tahun 2008. Penerapan pada data simulasi maupun data penundaan penerbangan menghasilkan plot fungsi densitas untuk parameter β memiliki bentuk menyerupai plot fungsi densitas distribusi Normal, sedangkan untuk parameter plot fungsi densitasnya memiliki bentuk menyerupai plot fungsi densitas distribusi Inverse Gamma. Pada data simulasi, penduga untuk masing-masing parameter yang dihasilkan mempunyai nilai yang mendekati nilai parameter yang ditentukan (True Value). Hal ini juga ditunjukkan oleh sempitnya interval kredibel untuk masing-masing parameter. Kata Kunci : Big Data, Metode Bayesian, Markov Chain Monte Carlo, Regresi Linear Bayesian, BayesSummaryStatLM.