Upload
arnoldo-tortora
View
214
Download
0
Embed Size (px)
Citation preview
Calcolo in Calcolo in BaBarBaBar::stato attuale e prospettivestato attuale e prospettive
Francesco Safai Tehrani, INFN Roma
per BaBar Italia
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 2
Computing Model 2Computing Model 2• Incremento di luminosita' integrata previsto:
– nel 2003 160 fb-1, nel 2004 250 fb-1
• Nuovo modello di calcolo:– Tipo base dell’analisi in sostituzione del “micro”
(AOD) diventa il “reduced mini”– Migrazione dall’event store Objectivity ad uno
basato completamente su ROOT– Nuovi tool di bookkeeping
• Sviluppo da Ottobre 2002, implementazione da Gennaio 2003, in produzione ad Ottobre 2003, dopo test estensivi.
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 3
Attivita’ CM2 in BaBar Attivita’ CM2 in BaBar ItaliaItalia
• Modello di analisi (partecipanti italiani: M.Bondioli, G.DeNardo, L.Lista): – sviluppo del nuovo formato “reduced-mini”– accesso ai dati ad 1 kHz – UsrData: possibilita' di aggiungere
informazioni (es. sui compositi) – reskimming ogni 3 mesi a partire dai mini
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 4
Attivita’ CM2 in BaBar Italia Attivita’ CM2 in BaBar Italia (2)(2)
• Migrazione Event Store– Conversione Objectivity – Kanga
• Necessaria sia per dati ricostruiti che per il MC
– Sviluppo server Xrootd + XTNetFile per accesso ai dati (A.Dorigo, F.Furano)
• Il prodotto finito e’ stato offerto (ed accettato) per l’inclusione nelle release ufficiali di ROOT
– Test modifiche sistema controllo PR (Padova)
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 5
Farm di analisiFarm di analisi• Problemi seri:
– A meta’ luglio il sistema RAID Compaq che ospitava le home directories e’ crashato a causa di problemi hardware e di firmware.
– I tempi d’intervento sono stati lunghi anche a causa di un tentativo di recupero dei raidset (fallito).
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 6
Farm di analisi (2)Farm di analisi (2)
crash
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 7
Farm di analisi (3)Farm di analisi (3)• Lo stato attuale:
– Nuovo sistema RAID per homedirs (fatto)• Server 3Ware con 0.5TB di spazio
– Upgrade firmware dei RAID Compaq (fatto)– Patch del kernel delle macchine Solaris, i server
NFS per i RAID Compaq (da fare)– Trasloco della farm da Roma al CNAF
• Fatto il 18/09/2003, arrivo al CNAF 19/09/2003
– Riconfigurazione e reinstallazione della farm al CNAF (da fare, appena il CNAF e’ pronto)
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 8
Monte Carlo: farm di Roma Monte Carlo: farm di Roma Impegnati: C. Bulfon, G. Della Ricca, F. Safai TehraniImpegnati: C. Bulfon, G. Della Ricca, F. Safai Tehrani
• Struttura della farmStruttura della farm:– 1 server Linux, dual Xeon 2 GHz, 2 GB (NFS and Objy lock
servers, batch queues)– 8 (+2) client Linux, dual PIII 800 MHz, 1 GB– 17 client Linux, dual PIII 1.27 GHz, 1 GB– 1 client Linux, dual PIII 800 MHz, 1 GB (DBs and LOGs
export)– 1 Array RAID EIDE 1TB
• Produzione SP5: RH 7.2 + Obj 7.1• Espansione farm:Espansione farm:
– (in arrivo, inizio Ottobre) 26 client dual Xeon 2.4GHz, 2GB– (pronti) 2*0.5TB Array RAID EIDE
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 9
Monte Carlo “parassita” Monte Carlo “parassita” (1)(1)
Impegnati: C. Bozzi, C. Bulfon, G. Della Ricca, F. Safai TehraniImpegnati: C. Bozzi, C. Bulfon, G. Della Ricca, F. Safai Tehrani
• Farm di analisi: 16 cpu su 54 • Per minimizzare la concorrenza con l’analisi• 15 macchine usavano ancora RH6.2
– Un crash di un sistema RAID ha fermato la produzione alla fine di Luglio
• Stato attuale:– Farm al CNAF, da reinstallare– Tutte le macchine upgradate a RH7.2
• Da fare:– Riconfigurare il sistema di code per massimizzare
l’uso delle macchine senza limitazioni artificiali sul numero di job
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 10
Monte Carlo “parassita” Monte Carlo “parassita” (2)(2)
Impegnati: G. Della Ricca, F. Galeazzi
• Usa le farm di calcolo di PD dedicate a processing e reprocessing
• Stato attuale:– INFNTA1: in produzione con 30 macchine– INFNTA2: appena partita (19/09/03) con 7
macchine
• Una farm (ER2) e’ validata per la produzione MC e puo’ essere “convertita” in 2-4 ore.
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 11
Plot prestazioniPlot prestazioniMC: prestazioni “ufficiali” 24/03/03-13/09/03
infn: 54Mev ~ 9.1Mev/mese
infn2: 5Mev ~ 0.8Mev/mese
infnta1: 38Mev ~ 6.5Mev/mese
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 12
Monte Carlo: prestazioni Monte Carlo: prestazioni realireali
Le prestazioni reali sono calcolate sull’effettivo periodo di attivita’ delle farm
• Farm di Roma (INFN), 23/03/2003 - 13/09/2003:
– 53Mev ~ 8.9Mev/mese, peak: 15.4Mev/mese• Farm Analisi (INFN2), 11/05/2003 - 06/09/2003:
– 4.7Mev ~ 1.3Mev/mese, peak: 2Mev/mese• Farm (re)processing (INFNTA1), 15/06/2003 - 13/09/2003:
– 38Mev ~ 12Mev/mese, peak: 17.2Mev/mese
“peak” = massimo #ev prodotti in un periodo di un mese
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 13
Monte Carlo: espansioni & Monte Carlo: espansioni & problemiproblemi
• 2002: prodotti circa 60Mev su un fabbisogno totale di 1.5*103Mev, pari al 4%.
• Obiettivo per il 2003: produzione del 15% del fabbisogno ufficiale di BaBar (375Mev su 2.5*103Mev). A tal fine:– Uso “parassita” della farm di (re)processing per circa
1/3 della statistica.– 1TB disco addizionale per buffer farm MC– raddoppio CPU farm MC: +150x30SpecInt95
• Ma c’e’ un problema: le nuove CPU per la farm sono in ritardo di 4 mesi a causa di problemi (risolti) nella firma del contratto di fornitura a seguito della trasformazione NAOS-Oxyria.
• Arrivo previsto: prima meta’ di Ottobre.
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 14
Monte Carlo + GRIDMonte Carlo + GRIDSezioni impegnate: Ferrara, Napoli
• Richieste di BaBar:– ~1.5 Geventi adronici simulati per 100 fb-1 di
luminosità integrata
• Le risorse necessarie sono ingenti e non disponibili in un singolo sito – Soluzione: produzione distribuita in una “Grid” di
circa 25 siti amministrati e gestiti localmente
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 15
Monte Carlo + GRID (2)Monte Carlo + GRID (2)• Testbed: Farm di Ferrara
– 1 CE + 1 SE + 6 WN con EDG 1.4.11– Visibile dal RB di BaBar (Imperial College)– I membri della VO BaBar possono sottomettere job anche da RB
del CNAF
• Stato attuale:– Software MC integrato in EDG ed installato su farm EDG di
Ferrara, Napoli, Catania e Padova– Effettuati test di produzione remota sulle 4 farm– Portale GENIUS installato a Ferrara e configurato per la
produzione MC su risorse GRID
• A breve: • Integrazione in LCG (fine anno)• Integrazione nel nuovo CM di BaBar (autunno)
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 16
Farm di (re)ProcessingFarm di (re)Processing• Attivita' estive, durante luglio ed agosto:
– Hardware: • riconfigurazione macchine (datamover)
– Software:• Modifiche al sistema di import Xtc (G.Tiozzo)• Sviluppo e test del sistema di controllo (M.Piemontese,
A.Ceseracciu, F.Galeazzi)• Sviluppo e test nuovo sistema di export (G.Vedovato,
F.Galeazzi)• “reprocessing” di un set consistente di dati (circa 10 fb-1)
con varie releases
Nessuna “chiusura per ferie”...
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 17
Il processing di Il processing di BaBarBaBar• Architettura a due step:
– Ogni run “pronto” ad IR2 viene automaticamente copiato a PD e (contemporaneamente)...
– …accodato alla farm di calibrazione “PC” (a SLAC):• selezione rapida di un campione di eventi per il calcolo delle
“rolling calibrations”, che vengono scritte in Objectivity
– Ogni ~24 ore si estraggono i database contenenti le calibrazioni (da Obj) e si copiano nel database di calibrazione (Obj) di PD
– Processing a PD (Event Reconstruction) sulle farm “ER” • condizioni lette da Objy ma uscita in formato ROOT
– Export a SLAC dei dati processati
dal 09/2003 tutta l'attivita' di ER viene fatta a Padova
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 18
Processing: stato attualeProcessing: stato attuale• E' iniziato il Run 4!
– (Programma anticipato di circa una settimana)– Primo run di cosmici il 26 agosto mattina (CET)
• dati riprocessati pronti per gli esperti dopo circa 24 ore• feedback positivo
– “Colliding beams” dal 5 settembre:• Primo run utile: 40003 chiuso il 9/9/2003, 18:24 PST• Primo blocco calibrazioni: 10/9/2003, 00:45 PST• Dati processati disponibili a SLAC: 10/9/2003, 07:09 PST
Ciclo di processing estremamente veloce
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 19
Processing+CM2=un Processing+CM2=un successosuccesso
• L’efficienza di CM2 nel rendere disponibili i dati per l’analisi era impensabile con Objectivity:
• “Congratulations to everyone who helped make the first live CM2 production an immediate success.” (Rainer Bartoldus, Deputy Computing Coordinator)
• “...once again I'd like to congratulate and thank the OPR folks for the amazingly rapid throughput and availability of the data.” (Mike Kelsey, DCH System Manager)
• Dati riprocessati disponibili agli utenti:– Objectivity: ~2-3 settimane
• export settimanale + import in Objy a SLAC + caricamento collezioni nella Bridge Federation
– CM2: ~1 giorno • Export per ogni singolo run e l’import = untar di un file
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 20
Processing: import dei datiProcessing: import dei dati• Copia completa del campione di dati “raw” da SLAC
per backup ed uso locale.• Modifica del sistema di import per la gestione di
buffer di disco a SLAC e a PD (quasi completato).
• Tutti i dati fino alla fine di Run3 sono stati importati entro fine Agosto e copiati su nastro.
• Attualmente i dati di Run4 vengono importati e copiati su nastro appena disponibili.
A.Dorigo ha ora la responsabilita' dell'import (il contratto di G.Tiozzo scaduto a fine agosto)
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 21
Processing: exportProcessing: export• Sistema completamente nuovo:
– Granularita’: dalla “production week” al singolo run (ri)processato
• Molto piu' flessibile:– Objy imponeva l'assegnazione di risorse separate per ogni farm– Lo schema attuale ottimizza l’uso delle risorse aggregandole in “pool”:
• “produttori”, cioe' le farm di processing• “export”, cioe' le macchine che gestiscono la copia• “tier”, cioe' l'insieme delle destinazioni (inclusi i nastri)
– I collegamenti tra pool possono essere modificati in ogni momento con molta semplicita' (ad es. per includere Lione, CNAF...)
– Completamente automatizzato
• Gia' operativo:– Solo due destinazioni: SLAC e i nastri– Qualche dettaglio nel protocollo di handshaking con i tier da definire
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 22
(re)Processing: stato delle (re)Processing: stato delle farmfarm
• Macchine della gara 2003 in arrivo: – dopo installazione e test, operative ~15 Ottobre
• Nel frattempo:– ER0: (piccola) farm di test– ER1: produzione MonteCarlo– ER2: “validata” come farm di produzione MC
• Puo' essere convertita a processing, o reprocessing, o MonteCarlo nel giro di 2-4 ore
– ER3, ER4: processing dei nuovi dati
con 3 farm = 0.5 fb-1/giorno (PEP: al 19/9 max 0.25 fb-1/giorno, ~0.45 fb-1/giorno
entro Dicembre)
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 23
Prospettive future: attivita’Prospettive future: attivita’
• Attivita’ relative al CM2 sulla farm di (re)processing:– Conversione dei dati dei Run1-3 dal
formato mini-Obj al nuovo formato– (re)skimming– Reprocessing dei dati (ove necessario)
• Tutto questo in parallelo con il processing dei nuovi dati, grazie al nuovo hardware in arrivo ad Ottobre.
22/09/2003 F. Safai Tehrani - Stato del Calcolo di BaBar 24
Prospettive di espansione Prospettive di espansione hwhw
2004 2005
Luminosita’ integrata (fb-1) 268 425
Farm Analisi
CPU(CPUunit) +350 +400
Disco (TB) +19 +26
Farm (re)processing
CPU(CPUunit) +350 +420
Disco (TB) +8 +2