Click here to load reader
Upload
surf
View
50
Download
2
Embed Size (px)
Citation preview
Duurzame eScienceBioinformatica case study
Pieter Meulenhoff, Daniël Worm, Freek Bomhof, George Huitema, Job Oostveen Carolien van der Vliet HameetemanJob Oostveen, Carolien van der Vliet-Hameeteman
1
Doelstellingen
Inzicht in energiegebruik en –besparing in eScience toepassingen
D idd l l t bi i f tiDoor middel van een relevante case: bioinformatica
Holistische benaderingHolistische benaderingAnalyse van gehele ICT keten
Vertaling naar aanbevelingen voor eScienceScenario’s
Focus vandit project
2
Case: bioinformatica
breed spectrum van computationele techniekenPattern recognition, Data mining, Machine learningM d lli i l tiModelling, simulation
Typische eenheid van werk is een analyse/modellering/simulatie taak (“job”)
Draait op een lokaal of remote clustertrend: Service based computingtrend: Service based computing
Case study: bioinformatica
3
Gegevens voor de case study
Voor deze case study is contact opgenomen met:Bioinformaticagroep in Rijksuniversiteit Groningen
interview Morris Schwertzinterview Morris SchwertzGegevens van rekencluster
Gerton Lunter van Oxford University
Gekozen bioinformatica taak: Sequencen van DNA
Eigenschappen van dit type taak:Eigenschappen van dit type taak:2 Terabyte aan data uit externe storageWeinig tot geen parallellisatie 112 uur processing time112 uur processing timeBatch werk, niet interactief
Case study: bioinformatica
4
Energie Model
“jobs”
servers netwerk storageservers netwerk storage
Datacenter infrastructuur: koeling, voeding, huisvesting, etc.
Energieverbruikin 4 componenten
Model
5
Vergelijken architectuur
centraal federatief decentraal
Computingal
cent
raa
age
aalSto
rade
cent
raSd
VerschillendeScenario’s
Model
6
Vergelijking energieverbruik voor de scenario’sscenario s
Energieverbruik per taak (in MJ)Resultaten
Model
7
Energieverbruik federatieve computing
Centrale storage Decentrale storage(storage ver van servers) (storage dicht bij servers)
29%
Totaal servers
Totaal netwerk28%
Totaal servers
Totaal netwerk45%
6%20%
Totaal storage
Totaal rest (koeling voedingen
47%
5%20%
Totaal storage
Totaal rest (koeling voedingen(koeling,voedingen,
etc.)(koeling,voedingen, etc.)
Energieverbruik per taak: Energieverbruik per taak:Energieverbruik per taak: Energieverbruik per taak:
15 MJ (4,1 kWh) 15 MJ (4,0 kWh)
Resultaten
Model
8
Belasting
Vergroten van belasting (percentage server dat gebruikt wordt)
Hogere benutting kan worden verkregen door:Hogere benutting kan worden verkregen door: Uitzetten servers die niet nodig zijn (‘dynamic shutdown’)Workload scheduling zodanig dat alle servers continu (en liefst
i l) b t dmaximaal) benut worden.Parallelliseren van taken
Resultaten
Model
9
Variatie datahoeveelheid per taak
Effect bekijken van variatie van hoeveelheid benodigde data van storage naar server op het energieverbruik
Resultaten
Model
10
Betrouwbaarheid
Er is niet uitgegaan van een ‘gemiddelde’ serverBeperkt aantal metingen aangevuld met gegevens uit de literatuur en (waar
niet beschikbaar) eigen inschattingen
Resultaten kunnen wijzigen door:Resultaten kunnen wijzigen door:Gebruik van andere componenten (servers, netwerk elementen, storage)
Andere architectuur
De gevonden trends lijken realistischG Cl dGreenCloud
Zeer weinig referentie materiaal gevonden voor goede vergelijking
Validatie en metingen blijven daarom belangrijkg j g j
Betrouwbaarheid
Model
11
Conclusies
Bioinformatica caseCentrale computing-scenario lijkt qua energieverbruik de beste.Energieverbruik servers is het grootst in alle scenario’s.Energieverbruik servers is het grootst in alle scenario s.Energieverbruik voor netwerk is in alle scenario’s relatief klein
Het optimaal benutten levert de grootste efficiëntie winstHet optimaal benutten levert de grootste efficiëntie winst.Maximaal benutten van beschikbare systemenAnders de systemen uitzettenLukt waarschijnlijk beter bij gedeeld gebruik (centraal en federatief)Lukt waarschijnlijk beter bij gedeeld gebruik (centraal, en federatief)
De omgeving (uitgedrukt als PUE) is eveneens belangrijk voor het energieverbruikenergieverbruik.
Dit is traditioneel eenvoudiger in de centrale case (groterdatacenter) waar koeling en powerdistributie optimaal op elkaar zijnafgestemd.Voor kleinere (decentrale) omgevingen lijkt een lage PUE nu ookhaalbaar met een modulair datacenter. Conclusies
Model
12
Aanbevelingen
Meeste winst in energieverbruik is te halen door aanpakenergieverbruik van servers. Dit kan door:
Zorgen voor grote benutting servers via:Zorgen voor grote benutting servers via:Workload scheduling zodanig dat alle servers continu (en liefstmaximaal) belast worden.S di i t d b ikt it tt (‘d i h td ’)Servers die niet worden gebruikt uitzetten (‘dynamic shutdown’)Parallelliseren van taken
Aanschaf energie-efficiënte servers
Gebruik een federatieve architectuur, of beter nog, een centralearchitectuur. Deze hebben de voorkeur boven een decentralearchitectuur. Deze hebben de voorkeur boven een decentralearchitectuur
Aanbevelingen