Penjadwalan Crawler Website Menggunakan Metode Mining Data Record Dan Exponensial Smoothin
Main Author: | Cahyono, Warna Agung |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2018
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/id/eprint/192530/1/WARNA%20AGUNG%20CAHYONO.pdf http://repository.ub.ac.id/id/eprint/192530/ |
Daftar Isi:
- Kajian pada bidang Competitive Intelligent, dan kajian pada bidang Web Crawling, mempunyai hubungan simbiosis mutualisme. Pada era informasi dewasa ini, website berfungsi sebagai sumber utamanya. Penelitian fokus pada bagaimana cara mendapatkan data dari website-website dan bagaimana cara memperlambat intensitas download. Permasalahan yang muncul adalah website sumber bersifat autonomous sehingga rentan perubahan struktur konten sewaktu-waktu. Masalah berikutnya adalah sistem intrusion detection snort yang terpasang di server untuk mendeteksi bot crawler menggunakan sistem intrusion detection snort sehingga ip komputer dan session kita terblokir. Peneliti mengusulkan crawling menggunakan metode Mining Data Record untuk information retrieval dan metode Exponential Smoothing untuk menjadwal kapan fetch/download supaya adaptif terhadap perubahan struktur konten yang berubah sewaktu- waktu dan untuk mengelabuhi website sumber supaya jadwal browse atau fetch otomatis mengikuti pola manusia umumnya. Information retrieval dimulai saat fetch/download dokumen HTML yang diikuti proses pembentukan tagtree, kemudian identifikasi datarecord oleh MDR(Mining Data Record). Setelah terbentuk dataregion-dataregion kemudian dilanjutkan proses pemecahan datarecord-datarecord setiap dataregion dan pengelompokan ulang datarecord-datarecord yang berdekatan kemiripannya oleh STM(Simple Tree Matching). Proses berakhir dengan pengarsipan dan aligning pola setiap dataregion menggunakan DEPTA(Data Extraction Partial Tree Alignment). Kemudian waktu download setiap datarecord pada setiap dataregion di konversi kedalam dataseri. Dataseri digunakan untuk meramalkan jumlah datarecord pada interval t+1. Setelah itu dikembalikan lagi kedomain waktu untuk menaksir kapankah jadwal fetch/download berikutnya, kembali ke proses information retrieval. Pengujian dilakukan terhadap 6 website dengan 3 hal yaitu, pertama seberapa valid proses tahap crawling dengan mengukur nilai recall, precission dan f-measure, kedua membandingkan jumlah data duplicate dan ketiga membandingkan jumlah data yang terlewat(hilang). Hasil ujicoba, dengan threshold edit distance levenshtein 0,3 untuk MDR dan score threshold similarity 0,65 untuk STM, didapatkan recall dan precision menghasilkan rata-rata nilai recall 92,6%, precision 100%, dan nilai rerata f-measure 96,4%. Sementara hasil tes estimasi eksponensial smoothing menggunakan α = 0.5 menghasilkan MAE 17.7 datarecord duplikat. Turun sebesar 4,1 datarecord duplikat dari MAE 21,8 jika menggunakan jadwal fetch yang fix. Penurunan jumlah data duplikat berarti terjadi penundaan/pelambatan jadwal fetch