Kompresi Inverted List Menggunakan Kombinasi Golomb Dan Huffman Berdasarkan Contiguous Sequential Patterns (Csp)
Main Author: | Rifai, Muhammad |
---|---|
Format: | Thesis NonPeerReviewed Book |
Bahasa: | eng |
Terbitan: |
, 2012
|
Subjects: | |
Online Access: |
http://repository.ub.ac.id/153027/1/051202364.pdf http://repository.ub.ac.id/153027/ |
Daftar Isi:
- Index merupakan daftar kata yang disertai posisi halaman pada sebuah buku. Secara implementasi, index pada koleksi dokumen disimpan dalam disk , tetapi dengan semakin bertambahnya jumlah dokumen akan mengakibatkan ruang penyimpanan index dalam disk menjadi besar. Oleh karena itu, diperlukan efisiensi ruang penyimpanan untuk index . Sistem kompresi inverted list ini meliputi beberapa tahap. Tahap pertama yaitu preproccessing yang mengekstrak koleksi dokumen menjadi daftar term melalui proses case folding , stop word , dan stemming . Tahap kedua yaitu indexing terhadap daftar term yang menghasilkan inverted list . Tahap ketiga yaitu pendeteksian CSP pada inverted list menggunakan algoritma Apriori dan diefisiensi menggunakan UpDown Tree . Tahap akhir yaitu proses kompresi dimana jika inverted list berupa CSP dikodekan menggunakan Huffman sebaliknya jika berupa daftar integer dikodekan dengan Golomb . Hasil pengujian untuk rasio kompresi inverted list dari 1000 dokumen menunjukkan bahwa metode kombinasi Golomb dan Huffman berdasarkan CSP pada daftar document Id lebih baik 20.77% dari Gamma , 3.96% dari Golomb , dan 17.96% dari kombinasi Gamma dan Huffman sedangkan pada term frequencies lebih baik 21.21% dari Gamma , 10.88% dari Golomb , dan 10.49% dari kombinasi Gamma dan Huffman .