Caratterizazzione del Carico per Sistemi Grid

Main Author: Guazzone, Marco
Format: info publication-thesis Journal
Terbitan: , 2007
Subjects:
Online Access: https://zenodo.org/record/13169
Daftar Isi:
  • L'analisi delle proprietà del carico si pone principalmente i seguenti obiettivi: 1. Standardizzazione degli scenari di esecuzione dei propri esperimenti. Quando si sviluppa una nuova soluzione, ad es. una nuova strategia di scheduling, per verificarne e dimostrarne l'efficacia occorre condurre una serie di esperimenti. In questo caso, l'esistenza di scenari standard in cui effettuare i propri esperimenti ha il vantaggio di permettere il confronto del proprio operato con lavori già esistenti e approvati, e, quindi, di valutare con una migliore criticità le relative prestazioni. 2. Costruzione di modelli realistici. La creazione di scenari standard per l'esecuzione di esperimenti non è sufficiente: il supporto di una base teorica, benché permetta di stabilire una serie di regole e metriche comuni per la conduzione degli esperimenti e la valutazione dei risultati, potrebbe non essere utilizzabile nella pratica. Uno scopo ancor più ambizioso è quello di creare dei modelli che siano il più possibile fedeli al comportamento reale dei sistemi Grid; un modello teorico che non ha riscontro con la realtà (o che le si avvicina solo marginalmente) è di scarsa utilità e sicuramente è destinato ad avere una vita breve. 3. Valutazione delle prestazioni. Un sistema Grid rappresenta un sistema molto complesso: la presenza di macchine eterogenee e autonome potrebbe rendere inadatte le misure delle prestazioni tradizionali. Per esempio, la classica assunzione dei tempi di interarrivo modellati seconda una distribuzione Esponenziale potrebbe rappresentare una semplificazione non ammissibile. Il consolidamento di una teoria per la misura delle prestazioni permette di studiare il comportamento dei sistemi Grid da un punto di vista quantitativo e di costruire modelli generativi che ne permettano una simulazione attinente alla realtà. 4. Sviluppo di soluzioni più mirate. La conoscenza di quali caratteristiche influenzano maggiormente il carico e delle relative proprietà consente lo sviluppo di soluzioni più ottimizzate. Per esempio, se si scoprisse che nei sistemi Grid la dimensione di un job è strettamente correlata positivamente alla relativa durata dell'esecuzione, si potrebbero progettare delle strategie di scheduling in grado di rispecchiare tale relazione; oppure, se si notasse che la dimensione di un job non influisce sulla caratterizzazione del traffico, si potrebbero progettare strategie di scheduling che evitino di tenere in considerazione questo attributo, in modo da ottenere un guadagno sul tempo di esecuzione dell'euristica. 5. Confronto di differenti soluzioni a uno stesso problema. La possibilità di verificare i risultati del proprio operato con altri lavori, basati sullo stesso modello e approvati dalla comunità scientifica, permette, a chi ha effettuato il lavoro, di valutarne in ogni istante la relativa bontà e, a chi ne effettua la revisione, di renderne più semplice la valutazione ed esprimere una critica più precisa. Esiste una vasta letteratura riguardo la caratterizzazione del carico per sistemi paralleli; tuttavia il carico generato in questi sistemi dipende, in generale, da caratteristiche differenti da quelle che possono influenzare il carico nei sistemi Grid. Fra le differenze più significative si ricorda: * I sistemi paralleli sono di solito costituiti da macchine omogenee, mentre i sistemi Grid sono caratterizzati dall'alto tasso di eterogeneità delle macchine. * La disponibilità di una macchina in un sistema parallelo è una caratteristica facilmente ipotizzabile; nei sistemi Grid, le macchine su cui un job viene eseguito sono, di solito, fuori dal controllo di chi ha sottomesso il job. * La scala di comunicazione relativa ai sistemi paralleli non supera di solito una rete locale; al contrario, i sistemi Grid sono sistemi a larga scala, in cui le macchine sono lascamente connesse tramite una rete geografica. * La tipologia di job in esecuzione sui sistemi paralleli è di solito costituita da job paralleli composti da task fra loro dipendenti. Nei sistemi Grid, invece, i job tendono a essere dei Bag-of-Task, cioè gruppi di task, riguardanti una stessa applicazione, fra loro indipendenti. Per realizzare un modello del carico che riproduca nel modo più fedele possibile il comportamento di un sistema Grid, è necessario raccogliere una serie di tracce reali ed effettuarne un’accurata analisi statistica. Dato che il problema della caratterizzazione del carico nel contesto del Grid Computing costituisce un campo di ricerca recente, la disponibilità di tracce per questo tipo di sistemi risulta ancora limitata. In questo lavoro vengono analizzate due tracce: * LCG, prelevata dal sito Parallel Workload Archive e relativa all'omonimo sistema Grid sviluppato per il progetto LHC (Large Hadron Collider) * TeraGrid, ottenuta dal sistema TeraGrid. L’analisi di ogni traccia si pone come obiettivo lo studio di due caratteristiche del carico: il tempo di interarrivo di un job e la relativa durata dell'esecuzione, e la ricerca di un modello statistico che possa descriverne il comportamento.