AUTHOR OBFUSCATION UNTUK BAHASA INDONESIA MENGGUNAKAN WORD REPLACEMENT WORD EMBEDDING
Main Authors: | ADI NURSETYA PRATAMA, Edi Winarko, Drs., M.Sc., Ph.D, Yunita Sari, S.Kom., M.Sc., Ph.D |
---|---|
Format: | Thesis |
Terbitan: |
S1 ILMU KOMPUTER Universitas Gadjah Mada
, 2022
|
Subjects: | |
Online Access: |
http://etd.repository.ugm.ac.id/penelitian/detail/209077 |
Daftar Isi:
- Author obfuscation merupakan suatu cara untuk melakukan modifikasi dokumen dengan mengubah writing style dari dokumen. Author obfuscation merupakan salah satu cara untuk menjaga anonimitas author terhadap authorship attribution. Authorship attribution merupakan proses untuk mengidentifikasi suatu penulis dari sebuah dokumen yang diberikan, berdasarkan kumpulan dokumen dari penulis yang sudah diketahui. Hal ini tentunya merupakan ancaman bagi kebebasan berpendapat dan privasi. Untuk melawan ancaman tersebut, metode author obfuscation diusulkan untuk memodifikasi suatu teks supaya penulisnya sulit diidentifikasi tanpa mengaburkan topik utamanyaPada penelitian ini, model author obfuscation dibuat berbasis word embedding untuk memodifikasi artikel berita berbahasa Indonesia. Pada model ini, setiap artikel akan mengalami pra pemrosesan berupa tokenisasi dan PoS tagging. Selanjutnya, kata yang memiliki PoS tag berupa kata kerja dan kata benda akan diubah menggunakan kata yang telah dihasilkan oleh model word embedding. Kata yang digunakan sebagai pengganti, didapat berdasar nilai cosine similarity yang paling mendekati terhadap kata kerja dan kata benda yang akan diganti. Adapun word embedding yang digunakan dalam penelitian ini adalah Word2Vec, Glove, dan FasText. Selanjutnya, susunan kata dan kalimat digabungkan kembali menjadi artikel utuh untuk dilanjutkan proses evaluasi.Model tersebut dievaluasi berdasarkan aspek safety, soundness, dan sensibleness. Dari aspek safety model FastText mendapat hasil paling baik karena dapat menurunkan akurasi model authorship attribution sebesar 0,1150. Untuk aspek soundness model FastText mendapat hasil paling baik dengan kemiripan artikel hasil obfuskasi dengan artikel asli sebesar 0,9935. Namun, untuk aspek sensibleness yang dievaluasi secara manual, model Word2Vec yang mendapat hasil paling baik sebesar 2,756 dari skala 1-5. Dari hasil evaluasi ketiga aspek, model FastText yang paling baik meskipun dari segi tata bahasa dan pemilihan diksi masih belum optimal.