Klasifikasi Berita Berbahasa Inggris Menggunakan Algoritma C4.5 Berbasis Ontologi

Main Author: Firdasari, Winy
Format: Thesis NonPeerReviewed Book
Bahasa: eng
Terbitan: , 2014
Subjects:
Online Access: http://repository.ub.ac.id/146008/1/All_Skripsi.pdf
http://repository.ub.ac.id/146008/
ctrlnum 146008
fullrecord <?xml version="1.0"?> <dc schemaLocation="http://www.openarchives.org/OAI/2.0/oai_dc/ http://www.openarchives.org/OAI/2.0/oai_dc.xsd"><relation>http://repository.ub.ac.id/146008/</relation><title>Klasifikasi Berita Berbahasa Inggris Menggunakan Algoritma C4.5 Berbasis Ontologi</title><creator>Firdasari, Winy</creator><subject>005 Computer programming, programs, data</subject><description>Penelitian ini mengimplementasikan algoritma C4.5 berbasis ontologi untuk mengklasifikasikan teks berita berbahasa Inggris. Data yang digunakan pada penelitian adalah Reuters-21578 90 kategori. Sistem yang akan dibuat dilengkapi dengan penggunaan WordNet sebagai basis ontologinya. Manfaat dari WordNet ini adalah untuk menemukan term yang saling bersinonim di dalam dokumen latih dan dokumen uji. Algoritma C4.5 merupakan algoritma klasifikasi yang diterapkan pada teknik decision tree. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain tertinggi dipilih sebagai parent bagi node selanjutnya. Dari proses pelatihan pada dokumen latih akan dihasilkan pembentukan rule tree yang nantinya akan digunakan untuk pengkategorian dokumen uji. Pengujian untuk sistem menggunakan jumlah dataset yang bervariasi, skenario pertama adalah 40, 80, 120, 160, 200, dan 240 untuk dokumen latih sementara dokumen uji ditentukan tetap jumlahnya yaitu 20. Skenario kedua, perbandingan dokumen latih dan dokumen uji adalah 30% : 70%, 40% : 60%, 50% : 50%, 60% : 40%, 70% : 30% dan 90% : 10% dari total data 200. Sedangkan skenario ketiga adalah menggunakan K-Fold dimana kombinasi pertama k = 3 dengan 40 dokumen latih untuk tiap subset, kombinasi kedua k = 3 dengan 80 dokumen latih untuk tiap subset, dan kombinasi ketiga k = 2 dengan 120 dokumen latih untuk tiap subset. Sementara jumlah dokumen uji dibuat tetap yaitu 20 yang bukan termasuk dalam dokumen latih. Hasil uji coba menunjukkan nilai f-measure tertinggi sebesar 60.24% pada skenario pertama dengan data latih berjumlah 40 dan data uji berjumlah 20. Nilai f-measure yang diperoleh pada saat pengujian menunjukkan hasil yang didapat tidak tergantung pada jumlah dokumen latih, melainkan sangat tergantung pada frekuensi term dokumen.</description><date>2014-10-08</date><type>Thesis:Thesis</type><type>PeerReview:NonPeerReviewed</type><type>Book:Book</type><language>eng</language><identifier>http://repository.ub.ac.id/146008/1/All_Skripsi.pdf</identifier><identifier> Firdasari, Winy (2014) Klasifikasi Berita Berbahasa Inggris Menggunakan Algoritma C4.5 Berbasis Ontologi. Sarjana thesis, Universitas Brawijaya. </identifier><relation>SKR/FTIK/2014/219/051407373</relation><recordID>146008</recordID></dc>
language eng
format Thesis:Thesis
Thesis
PeerReview:NonPeerReviewed
PeerReview
Book:Book
Book
author Firdasari, Winy
title Klasifikasi Berita Berbahasa Inggris Menggunakan Algoritma C4.5 Berbasis Ontologi
publishDate 2014
topic 005 Computer programming
programs
data
url http://repository.ub.ac.id/146008/1/All_Skripsi.pdf
http://repository.ub.ac.id/146008/
contents Penelitian ini mengimplementasikan algoritma C4.5 berbasis ontologi untuk mengklasifikasikan teks berita berbahasa Inggris. Data yang digunakan pada penelitian adalah Reuters-21578 90 kategori. Sistem yang akan dibuat dilengkapi dengan penggunaan WordNet sebagai basis ontologinya. Manfaat dari WordNet ini adalah untuk menemukan term yang saling bersinonim di dalam dokumen latih dan dokumen uji. Algoritma C4.5 merupakan algoritma klasifikasi yang diterapkan pada teknik decision tree. Dalam algoritma ini pemilihan atribut yang akan diproses menggunakan information gain tertinggi dipilih sebagai parent bagi node selanjutnya. Dari proses pelatihan pada dokumen latih akan dihasilkan pembentukan rule tree yang nantinya akan digunakan untuk pengkategorian dokumen uji. Pengujian untuk sistem menggunakan jumlah dataset yang bervariasi, skenario pertama adalah 40, 80, 120, 160, 200, dan 240 untuk dokumen latih sementara dokumen uji ditentukan tetap jumlahnya yaitu 20. Skenario kedua, perbandingan dokumen latih dan dokumen uji adalah 30% : 70%, 40% : 60%, 50% : 50%, 60% : 40%, 70% : 30% dan 90% : 10% dari total data 200. Sedangkan skenario ketiga adalah menggunakan K-Fold dimana kombinasi pertama k = 3 dengan 40 dokumen latih untuk tiap subset, kombinasi kedua k = 3 dengan 80 dokumen latih untuk tiap subset, dan kombinasi ketiga k = 2 dengan 120 dokumen latih untuk tiap subset. Sementara jumlah dokumen uji dibuat tetap yaitu 20 yang bukan termasuk dalam dokumen latih. Hasil uji coba menunjukkan nilai f-measure tertinggi sebesar 60.24% pada skenario pertama dengan data latih berjumlah 40 dan data uji berjumlah 20. Nilai f-measure yang diperoleh pada saat pengujian menunjukkan hasil yang didapat tidak tergantung pada jumlah dokumen latih, melainkan sangat tergantung pada frekuensi term dokumen.
id IOS4666.146008
institution Universitas Brawijaya
affiliation mill.onesearch.id
fkp2tn.onesearch.id
institution_id 30
institution_type library:university
library
library Perpustakaan Universitas Brawijaya
library_id 480
collection Repository Universitas Brawijaya
repository_id 4666
subject_area Indonesian Language Collection/Kumpulan Karya Umum dalam Bahasa Indonesia*
city MALANG
province JAWA TIMUR
shared_to_ipusnas_str 1
repoId IOS4666
first_indexed 2021-10-27T08:47:58Z
last_indexed 2021-10-28T07:33:31Z
recordtype dc
_version_ 1751454637505904640
score 17.538404