Filter-based Feature Selection pada Kategorisasi Artikel Berita Berbahasa Indonesia Filter-based Feature Selection on Categorization of Indonesian News Articles

Main Author: Yan Puspitarani
Format: Bachelors
Terbitan: Universitas Telkom , 2008
Subjects:
Online Access: https://openlibrary.telkomuniversity.ac.id/pustaka/94527/filter-based-feature-selection-pada-kategorisasi-artikel-berita-berbahasa-indonesia-filter-based-feature-selection-on-categorization-of-indonesian-news-articles.html
Daftar Isi:
  • ABSTRAKSI: Berkembangnya teknologi di dunia maya membuat jumlah informasi berupa artikel berita semakin banyak. Untuk itu, diperlukan suatu kategorisasi terhadap artikel yang memudahkan pembaca mencari informasi dengan menerapkan salah satu fungsionalitas dari data mining, yaitu klasifikasi. Akan tetapi, masalah utama yang terjadi pada kategorisasi artikel ini adalah tingginya dimensi dari data yang dapat mengganggu kategorisasinya itu sendiri. Oleh karena itu, harus dilakukan pemilihan terhadap beberapa atribut yang dapat berpengaruh besar terhadap hasil kategorisasi, yaitu feature selection.<br>Feature selection memiliki kemampuan mengurangi dimensionalitas suatu data sehingga dapat meningkatkan efektivitas dari classifier. Ada beberapa pendekatan sebagai teknik dari implementasi feature selection, salah satunya adalah filter based feature selection.<br>Pada Tugas Akhir ini, akan dibahas beberapa feature selection terhadap artikel berbahasa Indonesia dengan menerapkan filter model, yaitu Gini Index untuk kategorisasi teks, CHI, Information Gain, Expected Cross Entropy, Weight of evidence dan Orthogonal Centroid Feature Selection (OCFS).<br>Selain itu, dilakukan pula analisis terhadap modifikasi Gini Index sebagai measurement function baru untuk text feature selection dan perbandingannya dengan measurement function lain yang telah disebutkan sebelumnya.<br>Kata Kunci : filter-based feature selection, measurement functionABSTRACT: With the development of technology, large numbers of information like news articles are available on the internet. Hence text categorization is needed by applying classification as one of data mining task. However, the major problem of text categorization is the high dimensionality of data. Therefore, we need to select some representative attributes to improve performance of text categorization. One of technique to do this is feature selection.<br>Feature selection can reduce the high dimensionality, so, the effectiveness of classifier improves. There is some feature selection implementation; one of them is filter-based feature selection.<br>The final project researches some feature selection technique toward Indonesian news articles by applying filter model, there are Gini Index for text categorization, CHI, Information Gain, Expected Cross Entropy, Weight Of Evidence and Orthogonal Centroid Feature Selection (OCFS). Beside of that, the final project do the analysis about Gini Index modification as a new measurement function for text feature selection and the comparison analysis with other measurement function.<br>Keyword: filter-based feature selection, measurement function