Studi Perbandingan Performa Algoritma Penjadwalan untuk Real Time Data Twitter pada Hadoop

Main Authors: Prabowo, Sidik, Abdurohman, Maman
Format: Article info application/pdf eJournal
Bahasa: eng
Terbitan: Computer Engineering Departement, Universitas Komputer Indonesia , 2020
Online Access: https://search.unikom.ac.id/index.php/komputika/article/view/2848
https://search.unikom.ac.id/index.php/komputika/article/view/2848/1879
Daftar Isi:
  • Hadoop is an open source and java based software framework. Hadoop consists of two main components, namely MapReduce and Hadoop Distributed File System (HDFS). MapReduce consists of Map and Reduce which are used for data processing, while HDFS is a places or directory where data can be stored. In carrying out a job that is not uncommonly diverse in its execution characteristics, a proper job scheduler is needed. There are many job schedulers that can be selected to matching job characteristics. Fair Scheduler uses a scheduler where the principle is to ensures that jobs will get the same resources as other jobs, with the aim of improving performance in terms of Average Completion Time. Hadoop Fair Sojourn Protocol Scheduler is a scheduling algorithm in Hadoop that can do scheduling based on the size of jobs provided. This study aims to compare the performance of the two schedulers for Twitter data characteristics. The test results show the Hadoop Fair Sojourn Protocol Scheduler has a better performance than the Fair Scheduler both from handling average completion time of 9.31% and job throughput of 23.46%. Then the Fair Scheduler excels in the task fail rate parameter of 23.98%.
  • Hadoop merupakan sebuah framework software yang bersifat open source dan berbasis java. Hadoop terdiri atas dua komponen utama, yaitu MapReduce dan Hadoop Distributed File System (HDFS). MapReduce terdiri atas Map dan Reduce yang digunakan untuk pemrosesan data, sementara HDFS adalah tempat atau direktori dimana data hadoop dapat disimpan. Dalam menjalankan job yang tidak jarang terdapat keragaman karakteristik eksekusinya, diperlukan job scheduler yang tepat.  Terdapat banyak job scheduler yang dapat di pilih supaya sesuai dengan karakteristik job. Fair Scheduler menggunakan salah satu scheduler dimana prisnsipnya memastikan suatu jobs akan mendapatkan resource yang sama dengan jobs yang lain, dengan tujuan meningkatkan performa dari segi Average Completion Time. Hadoop Fair Sojourn Protocol Scheduler adalah sebuah algoritma scheduling dalam Hadoop yang dapat melakukan scheduling berdasarkan ukuran jobs yang diberikan. Penelitian ini bertujuan untuk melihat perbandingan performa kedua scheduler tersebut untuk karakteristik data twitter. Hasil pengujian menunjukan Hadoop Fair Sojourn Protocol Scheduler memiliki performansi lebih baik dibandingkan Fair Scheduler baik dari penanganan average completion time sebesar 9,31% dan job throughput sebesar 23,46%. Kemudian untuk Fair Scheduler unggul dalam parameter task fail rate sebesar 23,98%.