Kompresi Inverted List Menggunakan Kombinasi Golomb Dan Huffman Berdasarkan Contiguous Sequential Patterns (Csp)

Main Author: Rifai, Muhammad
Format: Thesis NonPeerReviewed Book
Bahasa: eng
Terbitan: , 2012
Subjects:
Online Access: http://repository.ub.ac.id/153027/1/051202364.pdf
http://repository.ub.ac.id/153027/
Daftar Isi:
  • Index merupakan daftar kata yang disertai posisi halaman pada sebuah buku. Secara implementasi, index pada koleksi dokumen disimpan dalam disk , tetapi dengan semakin bertambahnya jumlah dokumen akan mengakibatkan ruang penyimpanan index dalam disk menjadi besar. Oleh karena itu, diperlukan efisiensi ruang penyimpanan untuk index . Sistem kompresi inverted list ini meliputi beberapa tahap. Tahap pertama yaitu preproccessing yang mengekstrak koleksi dokumen menjadi daftar term melalui proses case folding , stop word , dan stemming . Tahap kedua yaitu indexing terhadap daftar term yang menghasilkan inverted list . Tahap ketiga yaitu pendeteksian CSP pada inverted list menggunakan algoritma Apriori dan diefisiensi menggunakan UpDown Tree . Tahap akhir yaitu proses kompresi dimana jika inverted list berupa CSP dikodekan menggunakan Huffman sebaliknya jika berupa daftar integer dikodekan dengan Golomb . Hasil pengujian untuk rasio kompresi inverted list dari 1000 dokumen menunjukkan bahwa metode kombinasi Golomb dan Huffman berdasarkan CSP pada daftar document Id lebih baik 20.77% dari Gamma , 3.96% dari Golomb , dan 17.96% dari kombinasi Gamma dan Huffman sedangkan pada term frequencies lebih baik 21.21% dari Gamma , 10.88% dari Golomb , dan 10.49% dari kombinasi Gamma dan Huffman .