Klasifikasi Spam Email Menggunakan Metode Pendekatan Naive Bayes
Main Author: | AndyBaskaraTriWinasis |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2010
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/152470/1/051100170.pdf http://repository.ub.ac.id/152470/ |
Daftar Isi:
- Pengklasifikasian spam email adalah proses untuk menghasilkan klasifikasi email. Tujuannya adalah mendeteksi isi email yang ada pada mail client mengandung kata – kata yang dianggap atau tidak. Sehingga dapat membantu pemilik account email menyeleksi email yang tidak berguna yang hanya berisi promosi produk ataupun berupa email yang berisi kata – kata yang tidak sopan. Sistem ini mengimplementasikan metode NBC (Naive Bayesian Classification) untuk mengkalsifikasikan email, dimana email yang digunakan berasal dari mail server yang berada di plaza.com. Tahapan-tahapan yang dilakukan dalam sistem ini adalah, pertama dilakukan proses case folding yaitu mengubah semua huruf menjadi huruf kecil, tahap kedua yaitu penguraian kata (tokenizing), tahap ketiga yaitu mengambil kata-kata yang penting dan penghilangan stopword (filtering), tahap keempat yaitu perhitungan frekuensi dari masing-masing kata, tahap kelima yaitu klasifikasi menggunakan metode NBC (Naïve Bayes Classifier). Untuk mengevaluasi efektifitas sistem klasifikasi spam, digunakan standar pengukuran precision, recall, dan F1Measure. Pengujian dengan beberapa data latih, Sistem mampu menghasilkan nilai yang sama terhadap pengujian email dengan menggunakan kedua fitur yang diujikan nilai Spam Precision sebesar 65,38%, nilai 100% Spam Recall pada penggunaan data latih sebanyak 80 emails, dan nilai rata-rata F-measure sebesar 79,06%. Sedangkan pada penggunaan data latih sebanyak 100 emails, Sistem ini menghasilkan nilai rata-rata Spam precision sebesar 88,88%, nilai rata-rata Spam recall sebesar 94,11% pada fitur word, dan nilai rata-rata F-measure sebesar 91,42%. Hasil yang lebih baik didapatkan pada fitur word + phrase dengan nilai Spam precision sebesar 89,47%, nilai rata-rata Spam recall sebesar 100% pada fitur word, dan nilai rata-rata F-measure sebesar 94,44%. Sistem dengan metode NBC ini memiliki kelemahan, yaitu sangat bergantung pada data latih yang berkualitas sehingga mampu menghasilkan hasil klasifikasi yang baik pula.