59
Metodi e strumenti per “grandi” problemi Annalisa Massini Dipartimento di Informatica

Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Embed Size (px)

Citation preview

Page 1: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Metodi e strumenti per “grandi” problemi

Annalisa MassiniDipartimento di Informatica

Page 2: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

I grandi problemi su cui l'uomo si interroga sin dall'antichità sono problemi che nascono dalla curiosità-necessità di sapere come si è formato l'universo in cui viviamo, come è fatto l'uomo, cosa determina l'unicità di ogni essere umano e… se il nostro mondo continuerà ad essere vivibile.

Da sempre filosofi e scienziati tentano di rispondere a queste domande:

• nel passato con risposte di tipo filosofico-religioso• attualmente con risposte di stampo più prettamente

scientifico. 2

Introduzione

Page 3: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Introduzione

La scienza computazionale• si occupa di trovare modelli matematici e tecniche

numeriche per affrontare problemi scientifici (non solo) • utilizza i modelli trovati per esplorare e studiare i

problemi e per trovare soluzioni usando calcolatori.

Le simulazioni numeriche • rendono possibile lo studio di fenomeni complessi che

sarebbe troppo costoso, troppo pericoloso, troppo lungo nel tempo studiare con una sperimentazione diretta,

• sono diventate parte integrante dei processi di progettazione, sviluppo e decisione

• sono lo strumento essenziale per l’investigazione scientifica. 3

Page 4: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Introduzione

Il metodo basato su simulazioni della scienza computazionale può essere ormai considerato il terzo modo di fare scienza, oltre ai due metodi tradizionali sperimentale e teorico:

• tradizionalmente il metodo scientifico parte dall’osservazione dei fenomeni, registra i dati relativi alle misure e analizza le informazioni ricavate per spiegare e modellare i fenomeni osservati

• attualmente si eseguono simulazioni per osservare i fenomeni.

Per eseguire simulazioni numeriche adeguate sono state progettate e realizzate architetture per calcolatori ad alte prestazioni.

4

Page 5: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Introduzione

• L’introduzione di calcolatori ad alte prestazioni, ha permesso di ampliare i metodi della ricerca scientifica che adesso può utilizzare modelli matematici molto più sofisticati e simulare fenomeni che non è possibile ottenere con sperimentazioni.

• Gli attuali supercalcolatori possono raggiungere prestazioni dell’ordine di grandezza del Petaflop = 1015 flop, un milione di miliardi di operazioni in virgola mobile.

• Il primo a raggiungere prestazioni dell’ordine del Petaflop è stato Roadrunner dell’IBM, nel 2008 (Los Alamos National Laboratory), superato poco dopo da Cray Jaguar

5

Page 6: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Introduzione

• Supercalcolatori con prestazioni dell’ordine del Petaflop• creano flussi di dati dell’ordine dell’exabyte=1018 byte• devono essere in grado di gestire exabyte di dati

• Ad esempio, il progetto per il radio telescopio ASKAP (Australian Square Kilometre Array Pathfinder) comprenderà un array di 36 antenne di 12m di diametro.

• In una settimana genererà più informazioni di quelle attualmente contenute in tutto il World Wide Web e richiederà una nuova rete in fibra ottica per il trasporto di dati dall’osservatorio al centro di calcolo. 6

Page 7: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Introduzione

La scienza computazionale porta alla generazione di quantità di dati al di là delle attuali capacità di analisi e comprensione servono metodi che portino a nuove scoperte scientifiche utilizzando grandi quantità di dati.

La distribuzione delle informazioni può essere considerata il quarto paradigma della scienza: si può ottenere attraverso strutture di calcolo mirate alla condivisione, gestione, visualizzazione e analisi delle grandi masse di dati ottenuti.

Servono strumenti nuovi progettati a questo scopo, come in passato si sono progettati microscopi, telescopi e i più svariati strumenti e, successivamente, calcolatori.

7

Page 8: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

I problemi in cui le grandi simulazioni giocano un ruolo chiave includono astrofisica, biologia e chimica computazionale, previsioni climatiche e molte altre.

I problemi provengono quindi da molte discipline:• gli scienziati hanno bisogno di competenze informatiche• gli informatici devono sapere affrontare gli specifici problemi scientificiServe:• sapere individuare le metodologie scientifiche ed

informatiche corrette e le architetture di calcolo adatteIl calcolatore è lo strumento essenziale dell’investigazione scientifica. 8

Introduzione

Page 9: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Per risolvere un problema con simulazioni computazionali:• sviluppare un modello matematico per descrivere il

fenomeno o il sistema fisico tramite equazioni•utilizzare i metodi appropriati per la risoluzione

numerica delle equazioni• sviluppare programmi con opportuno linguaggio o

ambiente sw• scegliere un’architettura appropriata • rendere comprensibili i risultati usando una

visualizzazione grafica adeguata• interpretare i risultati • ripetere alcuni dei passi precedenti 9

Introduzione

Page 10: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Introduzione

Lo sviluppo tecnologico deve quindi essere rivolto alla progettazione e realizzazione:

• di supercalcolatori con• prestazioni sempre più elevate • capacità di gestione ed elaborazione di grandi masse

di dati prodotti dalle simulazioni e strumentazioni scientifiche

• di sistemi che permettano a scienziati e ricercatori di condividere le informazioni mettendo a disposizione

• i risultati delle simulazioni scientifiche• il contenuto dei database realizzati.

10

Page 11: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’origine e l’evoluzione dell’universo

Page 12: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

• La cosmologia è la scienza che studia l'universo nel suo insieme e ne vuole spiegare l'origine e l'evoluzione.

• Ha le sue radici nella narrazioni religiose riguardo l'origine di tutte le cose, cosmogonia, e nei grandi sistemi filosofici.

• La cosmologia moderna nasce fra il 1915 ed il 1929: • nel 1915 Einstein pubblicò il primo articolo sulla teoria della

relatività generale• nel 1929 Hubble scoprì la legge, che porta il suo nome, che

implica che l‘universo è in espansione.• La teoria della relatività di Einstein sostituiva la teoria

della gravitazione universale newtoniana.12

Einstein e Hubble - Mt. Wilson-Observatory, 1931

Page 13: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

• Einstein per primo applicò la sua teoria al calcolo dell'evoluzione dinamica dell'universo e trovò che, assumendo che la materia sia distribuita nell'universo in modo omogeneo, anche un universo infinito tenderebbe a collassare su sé stesso.

• La cultura del periodo (idee newtoniane e teologia dell'epoca) resero Einstein dubbioso sulle implicazioni della sua teoria e lo portarono a modificare le sue equazioni introducendo un termine repulsivo, la costante cosmologica Lambda, per controbilanciare l'azione attrattiva del campo gravitazionale, rendendo l'universo statico.

13

Page 14: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

L’introduzione della costante cosmologica fece emergere:• esiste un unico valore della costante cosmologica che

consente di avere un universo in equilibrio statico • ogni altro valore, anche estremamente prossimo a

quello indicato da Einstein, conduce ad un universo in collasso o in espansione.

• Nel 1922 Friedmann abbandonò l'ipotesi che l'universo fosse statico e trovò che le soluzioni delle equazioni della relatività generale indicavano che all’inizio l'universo era infinitamente denso e da allora si era espanso.

• Nel 1927 anche Lemaître arrivò allo stesso risultato in modo indipendente.

14

Page 15: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

• La metrica di Friedmann-Lemaître-Robertson-Walker o FLRW è una metrica di Riemann che descrive a grande scala un universo omogeneo e isotropo (cioè che rispetta il principio cosmologico derivante dalle equazioni di Einstein) in espansione o in contrazione.

• Queste idee trovarono conferma sperimentale nella scoperta di Hubble che notò che tutte le galassie osservate, dalle più vicine fino a quelle poste a centinaia di milioni di anni luce, si allontanano da noi ad una velocità proporzionale alla loro distanza, cioè l'universo si sta espandendo, legge di espansione dell'universo.

15

Page 16: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

Evolution of our universe. Credit: NASA 16

Page 17: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

Einstein, alla luce della scoperta di Hubble, dichiarò che l'introduzione della costante cosmologica nelle sue equazioni costituì il più grande errore della sua carriera.

Nel 1965 Penzias e Wilson scoprirono casualmente la radiazione cosmica di fondo, che

• mostra che tutto l'universo si è raffreddato fino a -270 gradi centigradi dopo l'esplosione iniziale

• è ritenuta essere il residuo termico del Big Bang • ha posto fine alla controversia fra i sostenitori del Big

Bang e quelli della teoria dello stato stazionario.

17

Page 18: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Visualization of the early Universe as it condensed Credits: Argonne National Lab.

L’universo

La scoperta della radiazione cosmica ha portato allo sviluppo del modello inflazionario, secondo il quale l’universo, subito dopo essere nato, ha attraversato una fase di espansione esponenziale, estremamente rapida ed accelerante, (nel modello tradizionale è decelerante).

• La costante cosmologica ripudiata da Einstein ha un ruolo fondamentale per spiegare il Big Bang e la dinamica dell'universo.

18

•Le osservazioni del telescopio spaziale Hubble hanno messo in evidenza che l'universo mostra un'espansione accelerata.

Page 19: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

• Le equazioni di Einstein sono equazioni differenziali parziali non lineari, cioè equazioni difficili da risolvere in modo esatto.

• Ci sono soluzioni esatte per casi specifici, come per lo studio di buchi neri o le soluzioni nel modello di Friedmann-Lemaître-Robertson-Walker per un universo in espansione.

• Data la difficoltà, spesso le equazioni di Einstein vengono risolte usando metodi di integrazione numerica.

• Supercomputer sono utilizzati per simulare la geometria dello spazio-tempo e risolvere le equazioni di Einstein in situazioni particolari, come la collisione di buchi neri o la distribuzione di materia e i suoi movimenti, usando come riferimento la velocità della luce.

Page 20: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

La mappa delle anisotropie ottenuta da WMAP in 5 anni WMAP/NASA)

L’universo

• I risultati ottenuti con il satellite WMAP nel 2003 hanno confermato il modello dell’inflazione CDM e mostrato che:

• solo il 4-5% di tutta la materia del nostro universo è materia ordinaria (o barionica), fatta di atomi, la maggior parte della quale consiste di idrogeno ed elio

• circa il 73% è una forma di Energia oscura uniformemente distribuita che accelera l’espansione cosmica

• circa il 23% è Materia Oscura Fredda (Cold Dark Matter).

20

•La vera natura della materia oscura e dell’ energia oscura sono tra i più profondi problemi della fisica.

Page 21: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

L’universo

Le simulazioni cosmologiche giocano un ruolo chiave nello stabilire di cosa è fatto il nostro universo, come si è formata la sua struttura e come si evolva nelle galassie o nei cluster di galassie che vediamo intorno a noi.

Il Virgo Consortium, formato da astrofisici provenienti da Regno Unito, Germania, Giappone, Canada e USA, ha rilasciato il 2 Giugno 2005 i primi risultati della più grande e realistica simulazione della crescita di una struttura cosmica e della formazione di galassie e quasar, pubblicati poi su Nature

21

Page 22: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Millennium simulation

• Il Virgo Consortium mostra come il confronto di dati simulati e dati dovuti alle estese osservazioni possa rivelare i processi fisici mettendo in evidenza la creazione di reali galassie e buchi neri.

Millennium Simulation:• ha utilizzato più di 10 miliardi di particelle, ognuna delle quali

rappresenta circa un miliardo di masse solari di materia oscura• ha considerato una regione cubica dell'universo di 2 miliardi di anni

luce per lato, • il volume è stato popolato con circa 20 milioni di “galassie”.

22

Page 23: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Millennium simulation

• Per Millenium Simulation, il supercomputer del Max Planck Supercomputing Centre a Garching, Germania, è stato occupato più di un mese per l'elaborazione.

• L’evoluzione dei circa 20 milioni di galassie e buchi neri è stata ricreata applicando sofisticate tecniche di modellazione ai 25 Tb di output archiviato.

• Il supercomputer usato è un IBM pSeries e include:• 28 nodi di calcolo, • 2 nodi per I/O, • uno switch ad alte prestazioni• una memoria principale di 2 TB.

Il sistema operativo è AIX, versione IBM di Unix. 23

Page 24: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Simulation by Roadrunner

Il 26 ottobre 2009 è stato annunciato “Scientists use world's fastest supercomputer to model origins of the unseen universe”

Il Roadrunner Model sviluppato dal gruppo di Nuclear and Particle Physics, Astrophysics and Cosmology di Los Alamos:

• serve per una delle più grandi simulazioni del mondo per lo studio della distribuzione di materia nell’universo

• permette di guardare solo un piccolo segmento dell’universo “osservabile”

• ma per la simulazione serve un supercalcolatore dalle prestazioni dell’ordine del Petaflop, il Roadrunner.

24

Page 25: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Simulation by Roadrunner

Il team di Los Alamos:• ha scritto il codice in modo da sfruttare in pieno sia

l’architettura del Roadrunner, • ha generato programmi per l’analisi e la visualizzazione

dei dati ottenuti con le simulazioni• ha studiato un modello particelle-griglia gerarchica per

far combaciare gli aspetti fisici della simulazione con l’architettura ibrida del Roadrunner.

Nel modello:• l’unità di base del modello è una particella con una

massa di un miliardo di soli circa• il modello include più di 64 miliardi di queste particelle• ogni galassia ha massa pari a circa mille miliardi di soli. 25

Page 26: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Roadrunner

Il Roadrunner è un sistema ibrido sviluppato nel Los Alamos National Lab. da IBM in collaborazione con US Dept. of Energy

• 6480 dual-core AMD Opterons con 51.8 TB RAM • 12960 PowerCell 8i core con 51.8 TB RAM • utilizza connessioni InfiniBand per collegare i componenti,• utilizza il sistema operativo Red Hat Enterprise Linux, • occupa circa 1100 metri quadrati, • consuma 3.9 MegaWatt di potenza • durante test eseguiti a giugno 2008

ha raggiunto il petaflop durante l'esecuzione di Linpack.

Page 27: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Il progetto genoma

Page 28: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

L’obiettivo del progetto genoma era quello di determinare la sequenza di basi azotate che formano il DNA, cioè delineare le mappe genetiche e fisiche di un dato organismo.

Il Progetto Genoma Umano (the Human Genome Project):• aveva come scopo finale la descrizione completa del

genoma umano mediante il sequenziamento• ha avuto inizio nel 1990 presso i National Institutes of

Health degli Stati Uniti • la prima bozza del genoma è stata rilasciata nel 2000• la sequenza completa si è avuta nel 2003.Un progetto parallelo e indipendente dal governo è stato

condotto dalla Celera Corporation. 28

Page 29: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

• Il genoma è contenuto all’interno di ogni cellula del corpo umano e governa lo sviluppo umano.

• Il patrimonio genetico di ogni individuo è contenuto nel genoma sotto forma di lunghe molecole di DNA, i cromosomi.

• Ogni cromosoma è una lunga stringa di DNA arrotolato in una specie di gomitolo.

• ll genoma umano è costituito da circa 3 milioni di basi nucleotidiche e l'opera di sequenziamento, cioè l'identificazione dell'ordine dei nucleotidi, ha rivelato che contiene circa 30-40 000 geni. 29

Page 30: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

• L'informazione genetica è codificata tramite un codice a quattro lettere che rappresentano i quattro nucleotidi che formano il DNA, cioè adenina, citosina, guanina, timina, abbreviati con le iniziali A, C, G, T.

• I cromosomi comprendono milioni di copie delle 4 lettere che sono disposte in geni e sezioni che non sono geni, ma che hanno funzioni in parte di regolazione e controllo e in parte ancora ignota.

Page 31: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

Per leggere il DNA i cromosomi sono ridotti in frammenti ognuno dei quali viene poi letto individualmente.

• Le sequenze dei cromosomi interi vengono poi ricostruite a partire dalle sequenze di centinaia di migliaia di frammenti di DNA.

31

•Per sequenziare il genoma sono stati due approcci che differiscono nel modo in cui si taglia e si riassembla il DNA e nel fatto che mappino i cromosomi prima o dopo aver decodificato la sequenza:•sequenziamento gerarchico•sequenziamento shotgun

Page 32: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

Si crea prima una mappa fisica dell’intero genoma tagliando il cromosoma in grandi frammenti e tenendo traccia di questi prima di procedere al sequenziamento.

• Più copie di un cromosoma vengono tagliate in modo casuale in frammenti lunghi circa 150,000 bp (coppie di basi) e fatti replicare in un BAC - Bacterial Artificial Chromosome.

• Ogni frammento viene tagliato con un singolo enzima in modo da ottenere un’etichetta di identificazione univoca.

• Sovrapponendo i BAC si può determina la posizione dei BAC e la mappa di ogni cromosoma.

• Ogni BAC viene poi spezzato in modo random in pezzi di 1500 bp

• Si sequenziano le 500 bp ai lati di ogni frammento.

• Tramite programma si uniscono i diversi frammenti cercando sequenze comuni.

Sequenziamento gerarchico

Page 33: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

• Alcune copie del genoma vengono fatte in pezzi di 2,000 bp (base pairs) usando una siringa pressurizzata. Altre copie vengono ridotte in pezzi da 10,000 bp.

• I frammenti da 2,000 bp e 10,000 bp vengono inseriti in un pezzo di DNA che può replicarsi in un batterio.

• Si decodificano le 500 bp ai due lati di ogni frammento delle due collezioni da 2,000 e 10,000 bp, “plasmid libraries”.

• Sequenziare gli estremi di ogni pezzo è la parte cruciale per ricomporre il cromosoma.

• I milioni di frammenti sequenziati vengono assemblati tramite programmi, si ottiene così ogni singolo cromosoma.

33

Questo metodo non genera la mappa fisica ed è quindi molto più veloce.

Whole GenomeShotgun Sequencing

Page 34: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

• Il sequenziamento completo del genoma fornisce dati grezzi: 6 miliardi di lettere per il DNA di un individuo.

• La sequenza completa del DNA del genoma di un individuo, non fornisce di per sè informazioni cliniche utili.

• Affinchè i dati forniti dal sequenziamento del genoma possano essere utilizzati è necessario fornire una analisi di essi per capire il loro significato e ottenere informazioni utili, ad esempio a prevenire malattie.

• Bisogna avere a disposizione metodi per:accedere alle informazioni velocemente e facilmentepoter trasformare le informazioni in altre informazioni34

Page 35: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

I risultati aspettati dal progetto genoma umano sono:• rivoluzione nella diagnosi e cura di malattie a base

genetica • progressi nella comprensione dell’evoluzione molecolare

e biologia di base.• I risultati prodotti dal progetto genoma saranno la base

di un’altra rivoluzione nella biologia.• Nel 1991 Gilbert (in Towards a paradigm shift in biology,

Nature) osservava che il progetto genoma stava producendo un cambiamento nei paradigmi usati dai biologi per fare esperimenti, procedere nella comprensione ed estendere le conoscenze in biologia.

35

Page 36: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

• La biologia è una scienza sperimentale descrittiva.• Nel nuovo paradigma, usando le nuove metodologie i

biologi usano le informazioni rese disponibili dal progetto genoma sulla sequenza di nucleotidi del genoma e altre informazioni ricavate dai database per cominciare a proporre congetture predittive, seguite da esperimenti.

• Questo cambiamento di paradigmi comporta un cambiamento da una scienza quasi completamente sperimentale verso una scienza sempre più fortemente predittiva. 36

Page 37: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

• Il sequenziamento del DNA è una componente irrinunciabile di praticamente qualunque tecnica di manipolazione genica.

• Ancora più importante è il fatto che le informazioni ottenute tramite il sequenziamento sono la base indispensabile per la messa in atto di qualsiasi procedura di manipolazione del DNA.

• Determinare la sequenza di una particolare regione di DNA può rappresentare un fine già di per sé, ad esempio se si vuole studiare una mutazione ereditaria.

Page 38: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

Sin dalla nascita del progetto genoma, si è delineata una crescente necessità di:potenza di calcolo, sia velocità che efficienzacapacità di memoria e progetto database adeguaticomunicazioni rapide tra computer fisicamente lontaniestrazione e visualizzazione delle informazioni

generateestrazione dei principi che governano i processi

biologici dall’analisi delle informazioni raccolte.

38

Page 39: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Progetto genoma

L’introduzione di nuove tecniche di sequenziamento e la recente realizzazione di piattaforme di next generation sequencis – come quelle di Roche, Illumina and SOLiD – permettono di ottenere il sequenziamento del genoma in pochi giorni.

La quantità di dati ottenuta per un genoma corrisponde a qualche TeraByte.

La velocità di sequenziamento e la quantità di memoria richiesta stanno generando nuove richieste per tecniche di memorizzazione e compressione, condivisione e trasferimento informazioni.

Page 40: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Blue Gene

Blue Gene è il nome di un'architettura di supercomputer a parallelismo massivo nato per sviluppare metodi di calcolo per la comprensione di processi biologici fondamentali, come ad esempio il funzionamento delle proteine.

Il progetto è una cooperazione del United States Department of Energy, IBM e Università e si è poi differenziato in diversi progetti Blue Gene (Blue Gene/L, il Blue Gene/C e il Blue Gene/P, con potenze di calcolo che vanno dalle decine di teraflop al petaflop

Nel novembre 2007 BlueGene era il più potente computer del pianeta.

Il primato gli è stato tolto nel giugno 2008 da IBM Roadrunner.

Page 41: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

La modellazione del clima

Page 42: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Modellazione del clima

Il GCM usa le stesse equazioni usate nel modello di previsioni meteorologiche Numerical Weather Prediction, NWP, per simulare numericamente i cambiamenti climatici conseguenti ai lenti cambiamenti di parametri fisici, come le concentrazioni dei gas responsabili dell’effetto serra.

Il GCM, General Circulation Model o Global Climate Model, è un modello matematico per la descrizione della circolazione dell’atmosfera e degli oceani sul pianeta.

The instantaneous net ecosystem exchange (NEE) of CO2 from a C-LAMP simulation during July 2004. Green = uptake by the biosphere; red= net flux into the atmosphere. Produced by J.Daniel for the NCCS Annual Report.

Page 43: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Modellazione del clima

• Le prime versioni di GCM progettate per applicazioni climatiche su scale temporali dai decenni ai secoli sono dovute a Manabe e Bryan del Geophysical Fluid Dynamics Laboratory di Princeton, New Jersey, 1969.

• Manabe e Bryan furono i primi ad eseguire simulazioni di un modello climatico globale accoppiando i modelli atmosferico e oceanico e stabilendo così il ruolo dell’oceano nel trasporto del calore.

• I modelli attuali simulano la circolazione dell’oceano in superficie e in profondità, accoppiata alla circolazione atmosferica, modellando lo scambio che avviene attraverso la superficie dell’oceano.

43

Page 44: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Results from the Parallel Climate Model, by Gary Strand, NCAR

Modellazione del clima

• Vengono quindi accoppiati i cambiamenti veloci che avvengono nell’atmosfera con quelli lenti che avvengono negli oceani.

• I GCM possono inoltre essere accoppiati a modelli dinamici dei ghiacci oceanici e alle condizioni sulla superficie della terra (mentre i modelli NWP non sono invece accoppiati al modello dinamico dell’oceano).

44

• I modelli numerici di calcolo intensivo sono basati sull’integrazione di un insieme di equazioni per la fluido-dinamica, equazioni di Navier-Stokes, su una sfera rotante.

Page 45: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Modellazione del clima

Le equazioni di Navier-Stokes costituiscono un sistema di equazioni differenziali alle derivate parziali che descrive il comportamento di un fluido dal punto di vista macroscopico, modellandolo come un continuo deformabile.

Con le equazioni di Navier-Stokes si formalizzano matematicamente tre principi fisici ai quali i fluidi così modellati devono sottostare:

• principio di conservazione della massa (equazione di continuità);

• secondo principio della dinamica (bilancio della quantità di moto);

• primo principio della termodinamica (conservazione dell'energia). 45

Page 46: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Modellazione del clima

Le 3 equazioni (due scalari ed una vettoriale) non sono sufficienti, da sole, alla determinazione del campo di moto del fluido, poichè contengono 20 incognite:

• densità, vettore velocità (3 incognite), pressione, tensore degli sforzi viscosi (9 incognite), vettore accelerazione di campo (3 incognite), energia interna e vettore flusso termico, riconducibile a una funzione di un coefficiente di conducibilità termica e della temperatura (2 incognite).

46

Page 47: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Modellazione del clima

E’ necessario quindi:• definire le proprietà termo-fisiche del fluido (densità,

conducibilità termica, energia interna, ecc.) e il campo di forze in cui si muove (vettore accelerazione di campo);

• imporre condizioni al contorno e condizioni iniziali.

A causa della loro non linearità, le equazioni di Navier-Stokes non ammettono quasi mai una soluzione analitica, ma si deve determinare una soluzione approssimata con un metodo numerico.

47

Page 48: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Il General Circulation Model, GCM, è stato usato per studiare il riscaldamento causato dal raddoppiamento del biossido di carbonio su un periodo di 20 anni.

• Le prime simulazioni furono fatte negli anni ’90 sul calcolatore vettoriale CRAY-1, che raggiungeva picchi di velocità di 200 Mflops (2x102x106 floating point operation/sec): ogni giorno simulato richiedeva 110 sec due simulazioni da 19 anni richiesero

oltre 400 ore di calcolo

48

Simulare l’effetto serra

Page 49: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

• Si utilizza una griglia 3D • La velocità del calcolatore è

importantissima infatti: la griglia usata era

composta di 2000 punti per coprire la superficie terrestre e da 9 livelli di altitudine, per un totale di 18000 punti

• In ogni punto della griglia si hanno 8-9 variabili (temperatura, concentrazione di CO2, velocità del vento, …)

49

Simulare l’effetto serra

Page 50: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Osservazioni• La griglia utililizzata è molto rada:

su Spagna-Portogallo cadono 2 punti

• Raddoppiando la densità di punti sulla superficie terrestre: i punti di griglia nelle tre dimensioni

aumentano di un fattore 8 da 400 ore si passa a più di 3000 ore di calcolo,

avendo sempre pochi punti su Spagna-Portogallo50

Simulare l’effetto serra

Page 51: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

• Sulle simulazioni per le previsioni dei cambiamenti climatici si studia e si investe moltissimo

August 24, 2009 NASA’s Goddard Space Flight Center Greenbelt, Md made available to scientists in August the first unit of an

expanded high-end computing system that will serve as the centerpiece of a new climate simulation capability

… The expansion added 4,128 computer processors to Goddard’s Discover high-end computing system. The IBM iDataPlex "scalable unit" uses Intel’s newest Xeon 5500 series processors, which are based on the Nehalem architecture introduced in spring 2009.

… installation of another 4,128 Nehalem processors this fall, bringing Discover to 15,160 processors.

fonte: http://earthobservatory.nasa.gov/Newsroom

51

Simulare l’effetto serra

Page 52: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Architetture per il calcolo ad alte prestazioni

Page 53: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Architetture

L’architettura di un supercomputer è caratterizzata da:• presenza di migliaia di unità di calcolo • connessioni ad alta velocità tra le unità di calcolo• coordinamento delle comunicazioni da parte di estensioni

apposite del sistema operativo, generalmente Unix

Sono richieste prestazioni sempre più elevate e ottimizzate:• per eseguire alcuni tipi di operazioni e metodi di calcolo• accedere raramente alla memoria principale, utilizzando

maggiormente una memoria locale più vicina al processore

Le principali applicazioni per cui si utilizzano supercomputer riguardano problemi che richiedono processi di calcolo intensivo caratterizzati dalla ripetizione di passi elementari.

Page 54: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Architetture

2000 IBM ASCI White Lawrence Livermore Nat. Lab. USA 7.22 TFLOPS

2002 NEC Earth Simulator Center, Giappone 35.86 TFLOPS

2004 SGI Project Columbia, NASA Adv. Supercomp. USA 42.70 TFLOPS

2004 IBM Blue Gene/L (32 768) DOE/IBM, USA 70.72 TFLOPS

2005 IBM Blue Gene/L (65 536) DOE/NNSA/LLNL, USA 136.8 TFLOPS

2005 IBM Blue Gene/L (131 072) DOE/NNSA/LLNL, USA 280.6 TFLOPS

2007 IBM Blue Gene/L (212 992) DOE/NNSA/LLNL, USA 478.2 TFLOPS

2008 IBM Roadrunner Los Alamos Nat. Lab., USA 1.026 PFLOPS

2009 Jaguar Cray XT5-HE Oak Ridge Nat. Lab.USA 1.759 PFLOPS54

Dalle classifiche TOP500

Page 55: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Architetture

Jaguar Cray• 84 cabinet quad-core Cray XT4 system con 8 gigabytes of

memory per node and • 200 upgraded Cray XT5 cabinets, using six-core processors. 16

gigabytes per node• total of 362 terabytes of high-speed memory • Scalable I/O Network (SION), which links The two systems

together and to the Spider file system. • XT5 256 service and I/O nodes providing up to 240 GB/s

bandwidth to SION and 200 Gb/s to external networks. • XT4 116 service and I/O nodes providing 44 GB/s bandwidth

to SION and 100 Gb/s to external networks. 55

Page 56: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Architetture

• Green500 si occupa di classifiche per supercomputer a maggior efficienza rispetto al consumo di energia.

• Per decenni la nozione di performance è stata sinonimo di velocità ed è infatti una delle misure più utilizzate è FLOP.

• Per ottenere maggiore velocità i supercomputer consumano enormi quantità di energia elettrica e producono quantità di calore tali da necessitare di originali strutture di raffreddamento per poter lavorare.

• L’enfasi sulla velocità ha portato ad ignorare metriche come affidabilità e usabilità con conseguente aumento nei costi di manutenzione.

Page 57: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Architetture

• La classifica di Green500 vuole alzare l’attenzione sul consumo di energia e incoraggiare chi investe in supercomputer ad impegnarsi in modo che i supercomputer servano solo a simulare i cambiamenti climatici e non a generarli.

• La lista della Green500 si affianca a quella della TOP500 e confrontando i supercomputer rispetto alla metrica performance-per-watt.

• La prima classifica di Green500 è del 2007 e fu annunciata a SC|07.

• E’ stata stilata utilizzando come unità di misura la performance misurata in FLOP come per TOP500 e la potenza misurata in watt, FLOP/W.

Page 58: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

• Negli ultimi decenni i satelliti orbitanti intorno alla terra e le navicelle inviate nello spazio hanno raccolto grandi quantità di dati. Molti progetti sono volti all’uso di risorse di calcolo ad alte prestazione per utilizzare tali dati e simulare l’universo.

• La Computational Life Science è diventata una disciplina strategica a cavallo tra biologia molecolare e computer science, con grande impatto sulla medicina e le biotecnologie. Molti metodi e soluzioni computazionali sono nati dalla biologia molecolare.

• Sin dalle prime realizzazioni di supercalcolatori, la simulazione dell’atmosfera e degli oceani ha permesso di ottenere risultati sia nella modellazione del problema che nello sviluppo di capacità di calcolo sempre più potenti. Uno dei problemi più studiati riguarda il riscaldamento globale.

http://www.supercomp.de/isc10/Program/Overview58

Status of HPC Applications - 2010

Page 59: Metodi e strumenti per grandi problemi Annalisa Massini Dipartimento di Informatica

Bibliografia

• G. Shainer, B. Sparks, S. Schultz, E. Lantz, W. Liu, T. Liu, G. Misra “From Computational Science to Science Discovery: The next Computing Landscape” http://www.top500.org/files/HPC_Advisory_Council.pdf, 2010

• L.D. Fosdick, E.R. Jessup, C.J. C. Schauble and G.Domik, “Introduction to High-Performance Scientific Computing”, The MIT Press, 1996

• M.T. Heath, “Scientific computing: An Introductory Survey”, Mc Graw-Hill, 2002 ---------------------------------------------------------------------------------------------• http://www.bda.unict.it/Pagina/It/Notizie_1/0/2009/02/23/2589_.aspx• http://www.supercomp.de/isc10/Program/Overview• http://www.ska.gov.au/Pages/default.aspx• http://www.bda.unict.it/Pagina/It/Notizie_1/0/2009/02/23/2589_.aspx• http://www.physorg.com/news181932271.html• http://www.ornl.gov/• http://earthobservatory.nasa.gov/Newsroom/view.php?id=39925• http://www.genomenewsnetwork.org/articles/06_00/sequence_primer.shtml• http://www.green500.org/home.php

59