Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT
Main Author: | Karissa Vincentio, Felicia |
---|---|
Format: | Thesis NonPeerReviewed application/pdf |
Bahasa: | eng |
Terbitan: |
, 2020
|
Subjects: | |
Online Access: |
http://kc.umn.ac.id/13998/1/HALAMAN_AWAL.pdf http://kc.umn.ac.id/13998/2/DAFTAR_PUSTAKA.pdf http://kc.umn.ac.id/13998/3/BAB_I.pdf http://kc.umn.ac.id/13998/4/BAB_II.pdf http://kc.umn.ac.id/13998/5/BAB_III.pdf http://kc.umn.ac.id/13998/6/BAB_IV.pdf http://kc.umn.ac.id/13998/7/BAB_V.pdf http://kc.umn.ac.id/13998/8/LAMPIRAN.pdf http://kc.umn.ac.id/13998/ |
Daftar Isi:
- Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective.