Upload
palmira-colli
View
213
Download
0
Embed Size (px)
Citation preview
1M. Biasotto – Padova, 31 gennaio 2006
Il centro di calcolo Tier2 di
LNL-PDMassimo BiasottoGaetano Maron
2M. Biasotto – Padova, 31 gennaio 2006
Sommario● Il prototipo Tier 2 (farm CMS e INFNGRID)
– Evoluzione 2001-2005– Attivita’ CMS 2001-2005– Attivita’ GRID 2001-2005
● Il progetto Tier-2 per CMS e Alice– Funzioni– Risorse– Infrastruttura– Costi– Personale
3M. Biasotto – Padova, 31 gennaio 2006
Prototipo T2: startup nel 2001
● Luglio 2001: setup e avvio Farm CMS
● 34 nodi di calcolo, 10 disk server: 44 box, 88 CPU, ~35 kSI2000, ~3 TB
● Infrastruttura logistica:– stanza di 70mq, 30 KW (iniziali, poi espansi a 90),
raffreddamento in aria, UPS e gruppo elettrogeno
– scaffali e PC minitower al posto di rack
● Tools di installazione e gestione– installazione automatica, batch system (LSF)
– monitoring (MRTG)
4M. Biasotto – Padova, 31 gennaio 2006
Prototipo T2: 2001
5M. Biasotto – Padova, 31 gennaio 2006
Risorse hw 2001-2005
0
50
100
150
200
250
300
2001 2002 2003 2004 2005
KS
I200
0
0
5
10
15
20
25
30
35
TB
CPU (KSI2000) Disk (TB)
• 70 nodi di calcolo, 140 CPU, ~180 kSI2000– IBM/Intel blades dual Xeon 2.4/3.0 GHz
• ~10 disk server, ~25TB– ancora i vecchi server con dischi IDE + 3ware, SAN StorageTek non
ancora in produzione
Risorse hw 2005:
6M. Biasotto – Padova, 31 gennaio 2006
Evoluzione hardware● CPU: dai PC tower sugli scaffali ai Blade-centers su rack
● Storage: dai disk servers (dischi IDE + controller 3ware) alla SAN (dischi SATA/FC + controller StorageTek)
7M. Biasotto – Padova, 31 gennaio 2006
Prototipo T2: 2005
8M. Biasotto – Padova, 31 gennaio 2006
T2 computing center layout
10 GE backbone
DS1
DSn
To WAN
DPM
Computing Nodes(Blade Centers)
LocalServers
GW UI
LocalGateway
CE
GigaEth
SWITCH
N1N14
GigaEth
SWITCH
N1N14
GigaEth
SWITCH
N1N14
GigaEth
SWITCH
N1N14
GigaEth
N1N14
DS1
DS2
SRM StorageElement
GridGateKeeper
GridUser
Interface
SWITCH
DSn
SAN
9M. Biasotto – Padova, 31 gennaio 2006
Esperienze acquisite● Evoluzione tools e competenze● CPU: dai PC tower ai Blade Centers● Storage:
– Controller 3ware: limiti e problemi– Storage Area Network
● Tools di installazione e gestione:– da sistemi semi-automatici (ANIS) a quelli attuali molto
piu’ completi e scalabili (LCFG, YAIM)
● Batch system: LSF● Monitoring:
– MRTG, Remstats, Ganglia
10M. Biasotto – Padova, 31 gennaio 2006
Monitoring: Ganglia● Prima versione di Ganglia in funzione da marzo 2002: quasi 4 anni di
statistiche accumulate
2004 2005
Uso della RAM, da marzo 2002 a dicembre 2005
Numero di running jobs, da marzo 2002 a dicembre 2005
20032002
2004 200520032002
11M. Biasotto – Padova, 31 gennaio 2006
Attivita’ CMS 2001-2005
12M. Biasotto – Padova, 31 gennaio 2006
Attivita’ CMS: 2001
● Luglio 2001: consegna dell’hardware, installazione e setup della farm
● In questa fase iniziale LNL gestisce solo la parte sistemistica
● Produzione MC e analisi per CMS gestite dal gruppo CMS di Padova
13M. Biasotto – Padova, 31 gennaio 2006
Attivita’ CMS: 2002
● Dal 2002 coinvolgimento del personale LNL anche nelle attivita’ CMS
● Spring 2002 Production: 1.2 milioni di eventi simulati a LNL per un totale di 1.5 TB di dati
● Analisi in locale e trasferimento al CERN● CMS-EDG stress test
Spring Production Analysise-gammaproduction
Missing dataMonitor starting fromend of Mar 2002
14M. Biasotto – Padova, 31 gennaio 2006
Attivita’ CMS: 2003
● PCP03 Production: oltre 5 milioni di eventi simulati a LNL (10% del totale CMS)
● Analisi in locale e trasferimento al CERN
e-gammaproduction PCP 03 PCP 03
15M. Biasotto – Padova, 31 gennaio 2006
Attivita’ CMS: 2004
● Con l’avvio di LCG inizia a cambiare il tipo di attivita’ del T2, da gestione di produzioni locali ad attivita’ piu’ di sito Grid che offre servizi a tutta la comunita’
● Produzioni MC in locale: 3.2 M eventi, per la maggior parte DST di dataset prodotti l'anno prima. Maggior parte della produzione via grid
● “Publishing” dei dati locali (PubDB) per analisi a tutto CMS via grid tools: ~5 TB di dati
● Partecipazione a CMS Data Challenge 04
16M. Biasotto – Padova, 31 gennaio 2006
Attivita’ CMS: 2005
● Produzioni MC locali: 1M eventi DST + 4M Hit+Digi cosmici
● Produzioni MC via grid e Publishing dati per analisi
● Service Challenge 3
17M. Biasotto – Padova, 31 gennaio 2006
Altre attivita’ CMS
● Supporto all’attivita’ del gruppo di sviluppo e costruzione delle camere muoni– Repository dati e macchine per attivita’ di analisi e
sviluppo● Produzioni camere● Testbeams● Cosmic Challenge 2006
18M. Biasotto – Padova, 31 gennaio 2006
Grid activity milestones 2001/2005
19M. Biasotto – Padova, 31 gennaio 2006
Grid activity: 2001/2002
● 2001-12: First Quantum INFNGrid site. Direct contribution on building EDG first release (WP4: fabric mgmt, LCFG/LCFGng installation and configuration tools)
● 2002-10-03: EDG 1.2.2 installation and test
● 2002-10-31: CMS stress test; participation of 10 sites. LNL 1st in storage availability, 2nd in CPU sharing (EDG 1.2.2)
● 2002-11: first EU+US testbed; involved in DataTAG+iVDG collaboration. SC2002 + IST2002 (monitoring infrastructure and CMS test production cmsim+cmkin)
● 2002-12-06: 40 CPUs shared with the GRID environment
20M. Biasotto – Padova, 31 gennaio 2006
Grid activity: 2003
● 2003-01-16: EDG v1_4_3 installation and test
● 2003-03-08:122 CPUs shared with the GRID environment (end of DataGrid project)
● 2003-05-21: LCG-0 installation and test
● 2003-11-20: LCG-1.1.1 installation and test (first LCG stable release)
● 2003-12-05:128 CPUs in LCG -> the most powerful farm in LCG 1.1.3; it is a hybrid farm where the the WNs are shared among local and grid use
21M. Biasotto – Padova, 31 gennaio 2006
Grid activity: 2004
● 2004-spring: CMS DC04 participation
● 2004-03-18: ALICE production in LCG environment
● 2004-08-24: LHCb DC04 in LCG; LNL is mentioned at 6th place on the top ten production site list
● 2004-08-05: queue/VO partitioning; during the ATLAS DC2, LNL give priority to ATLAS queued jobs
● 2004-09-08: at the GDB presentation, LNL is one of the most active ATLAS DC2 LCG sites (LCG + Grid3 + NordUGrid involved sites)
● 2004-12-16: ATLAS is using entirely the LNL GRID storage resources
AtlasDC 2
LHCbDC04
22M. Biasotto – Padova, 31 gennaio 2006
Grid activity: 2005
● 2005-06: LCG 2.5.0 installation and test; it’s a specific SC3 release deployed only by a restricted number of sites to help LCG to address SC3 needs then included in LCG2.6.0 stable release (2005-08)
● 2005-07-20: SC03 T1-T2 first transfer tests (SRM-DPM)
● 2005-11: LCG 2.6.0 140 CPUs - 5 blade centers / 180 KSI00 - 200 KSF00
23M. Biasotto – Padova, 31 gennaio 2006
Il progetto Tier-2 per CMS e Alice
24M. Biasotto – Padova, 31 gennaio 2006
Da prototipo a T2?
● L’INFN sta ora decidendo quali tra i prototipi diventeranno Tier 2 ufficiali (9 siti candidati per i 4 esperimenti di LHC).
● Legnaro-Padova candidato T2 per CMS e Alice
● Settembre 2005: presentazione “Progetto di massima”
● dicembre-gennaio: visite referees ai siti– Presentazioni:
http://infnforge.cnaf.infn.it/cdsagenda/displayLevel.php?fid=6
25M. Biasotto – Padova, 31 gennaio 2006
Progetto di massima del centro● Funzioni del centro per gli esperimenti
● Risorse hardware (cpu e disco) 2006-2010
● Infrastruttura– Rete
– Logistica (potenza elettrica, raffreddamento, UPS)
● Risorse umane– Ruoli di responsabilita’ (gestionale, coordinamento,
tecniche e operative)
– Personale (servizi base, sistemisti dedicati, supporto operativo degli esperimenti)
● Piano finanziario
ConclusioniLo studio della produzione di quark pesanti, a cui si è finora interessato il gruppo PD-LNL, è uno dei temi di punta del programma di fisica di ALICE
Queste analisi sono tra quelle che richiedono maggiori risorse in termini di tempo di CPU e spazio su disco
Produzioni ad alta statistica sono necessarieper preparare le strategie di analisi
per studiare l’effetto dei tagli e calcolare le corrispondenti correzioni
Nel Computing Model di ALICE, i Tier-2 sono considerati come risorse condivise dall’intera Collaborazione e non dedicate a priori a specifici studi di fisica
Gli interessi e l’esperienza del nostro gruppo potrebbero rendere naturale l’indirizzamento di attività di calcolo concernenti i quark pesanti sul Tier-2 PD-LNL
Dalla presentazione di
A. Dainese (Alice)
Il gruppo ALICE PD-LNL
F. Antinori
M. Cinausero
A. Dainese
D. Fabris
J. Faivre
E. Fioretto
M. Lunardon
M. Morando
[coordinatore Heavy Flavour Physics Working Group]
S. Moretto
G. Prete
F. Scarlassara
G. Segato
F. Soramel
R. Turrisi
L. Vannucci
G. Viesti
Dalla presentazione di
A. Dainese (Alice)
Tier 2 CMS a LNL
1) centro di analisi per le analisi fisiche di interesse della comunità italiana,in particolar modo (ma non esclusivamente) dei Muoni e del Tracker erelativamente ad analisi in topologie con muoni nello stato finale
2) supporto centrale alle attività di calibrazione/sincronizzazione e allineamento delle camere a mu dell’ apparato e calibrazione della scala della misura di momento (campo magnetico)
Centro di riferimento per le comunità dei Tier3 di:Bologna, Padova, Torino(muoni) (40-50 ricercatori coinvolti) + attività legate agli stream di calibrazione dei muoni da parte dei gruppi di Bari e Napoli
Scopi e funzioni:
Dalla presentazione di
U. Gasparini (CMS)
Persone ai Tier3
Bologna (15 ricercatori)G. Abbiendi, A. Benvenuti , F. Cavallo, P. Capiluppi, C.Grandi, M. Dallavalle, F. Fabbri, A. Fanfani, S. Marcellini, G. Masetti, M. Montanari , F. Navarria, F. Odorici, , A. Perrotta,T.Rovelli,R.Travaglini
Padova (20 ricercatori)P.Azzi, N.Bacchetta, D.Bisello, P.Checchia,E.Conti, T.Dorigo, F.Gasparini, U.Gasparini, U.Dosselli, S.Lacaprara, I.Lippi, M.Loreti, M.Mazzucato, A.Meneguzzo, P.Ronchese, S.Vanini, E.Torassa, M.Zanetti, PL.Zotto, G.Zumerle
Torino (16 ricercatori)E.Accomando,N.Amapane, M.Arneodo, A.Ballestrero, R.Bellan, G.Cerminara, E.Maina, S.Maselli, C.Mariotti, V.Monaco, M.Nervo, A.Romero, M.Ruspa, R.Sacchi, A.Solano, A.Staiano
In blu persone attualmente fortemente attive in sw/analisi : 23 persone
Dalla presentazione di
U. Gasparini (CMS)
30M. Biasotto – Padova, 31 gennaio 2006
Previsione risorse 2005-2010
CMS +
Alice
2005 2006 2007 2008 2009 2010
CPU (kSI2K)
140 280 753 1415 2640 3800
Disk (TB) 30 73 206 555 912 1132
CPU (#box)
39 65 123 178 214 237
Disk (#disk)
91 171 319 551 622 608
#Racks 2 4 7 9 11 13
Potenza
(kW)
25 40 80 130 170 200
31M. Biasotto – Padova, 31 gennaio 2006
SALA 0009 per CPU~ 60 m2 / 150 kW
SALA 0022 per STORAGE~ 40 m2 / 50 kW
UPS sala 22
Frigoriferi Sala 9Gruppo Elettrogeno
Tier 2
Storage T2
Farm LNL
Servizi
Logistica
Sala IIIGround floorCPU + dischi
32M. Biasotto – Padova, 31 gennaio 2006
0002
UPS per sala 9
Logistica
Sala IIIunderground:
UPS
33M. Biasotto – Padova, 31 gennaio 2006
Possibili Estensioni
● Nel caso in cui gli sviluppi futuri richiedano estensioni a quanto previsto, sara’ possibile sfruttare:– Sala equivalente della 0009 al piano 1
– Utilizzo completo della sala 0022
34M. Biasotto – Padova, 31 gennaio 2006
Rete: centro stella della farm
RC1
RC2
RC3
RC8
RD1
RD2
RD5
10 G
bps
back
bone
40 Gbps 50 Gbps
Racks CPUs Racks dischi
~ 1 Gbps per nodo
35M. Biasotto – Padova, 31 gennaio 2006
Rete: collegamento con il T3 di Padova
RC1
RC2
RC3
RC8
RD1
RD2
RD5
10 G
bps
back
bone
Dark fiber 10 Gpbs
Link diretto senza passare per Il router di sezionePRO• piu economico• non interferisce con il router• possibilita di accedere ai dati direttamente (dCache/DPM)• varie possibilita di operare
T2 LNL
Backup
T3 Pd
RC1
RC2
RC3
RC8
RD1
RD2
RD5
10 G
bps
back
bone
T2 LNLRouter
PdRouter
LNL
Al pop Pd Al pop Pd
T3 Pd
Llink attraverso I router
Architettura standard, ben conosciuta e testata
Da definire con attenzione le specifiche del T3 e preparare dei test bed.Soluzione a 1 Gbps gia pronta da testare
Cisco 6509
CEF720 4 porte 10 Gbps
36M. Biasotto – Padova, 31 gennaio 2006
Consumo per box
0
200
400
600
800
1000
1200
2004 2005 2006 2007 2008 2009 2010 2011
anno
Wat
t
Consumo kW CPU
25 SI2K/W
Limite a 600 W
Limite 600 (+ 50%)
37M. Biasotto – Padova, 31 gennaio 2006
Consumo CPU e dischi
38M. Biasotto – Padova, 31 gennaio 2006
Potenza Elettrica per il T2
39M. Biasotto – Padova, 31 gennaio 2006
UPS + Gruppo elettrogeno
La sala 0022 ha gia’ ups n+1 per un totale di 90 kW
La sala 0009 avra’ 2 UPS da 200 kW l’uno
Il centro T2 sara’ munito di un gruppo elettrogeno dedicato da 630 kW
40M. Biasotto – Padova, 31 gennaio 2006
Impianti frigoriferiLa sala 0022 e’ gia condizionata (fino a 90 kW non ridondati)
Condizionamento sala 0009 (60 m2) : sistema n+1
60 kW 60 kW
60 kW 60 kW
2007 2008
Cooled water ai racks
41M. Biasotto – Padova, 31 gennaio 2006
Rack CPU freddi per sala 0009
Il numero di rack per le CPU e’ stato calcolato in modoDa non superare mai i 20 kW per rack.
Per le CPU pensiamo di utilizzare rack raffreddati ad acqua.
Knurr22 kW
12 Keuro/rack
CIAT societa francesedi condizionatori.Soluzione semplice • scambiatore sulla porta posteriore• ventole sulla stessa portaCMS on-line rack fino a 10 kW (2.5 Keuro/rack)Trattative in corso per 20 kW
42M. Biasotto – Padova, 31 gennaio 2006
Costo Infrastrutture
204053 25 5 5676822
33
33 3
3
8 4 0
321 52 28 35
51 13 13 24
Con rack knurr
43M. Biasotto – Padova, 31 gennaio 2006
Personale
● Personale tecnico, non degli esperimenti
● Personale permanente Legnaro:
– M.Biasotto (100%), L.Berti (20%), N.Toniolo (30%), M.Gulmini (30%, dal 2007)
● Personale a tempo determinato Legnaro:
– S.Badoer (100% fino al 2007)
● Personale permanente Padova:
– 2 FTE (1 dal 2007 e 1 dal 2008)
● Personale a tempo determinato Padova:
– S.Fantinel (50%, fino al 2007?)
● Outsurcing: 0.2 FTE
44M. Biasotto – Padova, 31 gennaio 2006
Personale del centro T2
45M. Biasotto – Padova, 31 gennaio 2006
Organigramma T2
Responsabile GestioneG. Maron
(M. Biasotto)
Responsabile Attivita CMSU. Gasparini
Responsabile Attivita Alice
L. Vannucci
Responsabile Tecnico
M. Biasotto
Responsabile Impianti
R. Pegoraro
Responsabile interfaccia GRID
S. Fantinel
Servizi di BaseBiasotto
BertiToniolo
SistemistiBiasotto
BertiTonioloGulminiBadoer
2 FTE PadovaOutsourcing