Daftar Isi:
  • Penelitian ini bertujuan untuk memvisualisasikan FastText Word2Vec model dan mengukur tingkat akurasi FastText dalam fitur perbaikan kata yang dimilikinya, perbaikan kata yang dimaksud adalah FastText dapat memprediksi kata benar dari sebuah kata typo berdasarkan vektor yang dimiliki kata tersebut. Tujuan lainnya adalah untuk mengukur akurasi t-Distributed Stochastic Neighbor Embedding dalam mereduksi dimensi. Namun, proses visualisasi tentunya tidak dapat secara langsung dilakukan, karena dalam pre-trained model yang disediakan oleh FastText, model akan memetakan sebuah kata ke dalam vektor berukuran 300 dimensi, sedangkan teknologi visualisasi yang umum dilakukan membutuhkan dimensi yang rendah yaitu 3 dimensi. Oleh karena itu, untuk memvisualisasikan data berdimensi tinggi, salah satu teknik pre-processing yang umum dilakukan adalah dimensionality reduction. Algoritma t-Distributed Stochastic Neighbor Embedding digunakan untuk mereduksi dimensi vektor menjadi 3 dimensi. Berdasarkan hal tersebut, tingkat akurasi fitur perbaikan kata FastText diukur menggunakan cosine similarity, akurasi t-SNE dalam mereduksi dimensi vektor diukur menggunakan Euclidean distance, dan vektor yang telah direduksi akan divisualisasikan. Hasil uji coba yang dilakukan menghasilkan akurasi yang dimiliki FastText dalam memetakan kata typo berdekatan dengan kata aslinya memiliki ratarata sebesar 80,16% dan akurasi dimensionality reduction t-SNE adalah 77,50%.