Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Süsteemihaldus TÜ teadusarvutuste keskuses
Lauri Anton
28.-29.04.2009
28.-29.04.2009 HPC@UT 2
Sisukord
• Teadusarvutuste keskuse eesmärk• Riistvarast• Tarkvarast• Monitooring• Miks selline lahendus on hea?• Probleemid
28.-29.04.2009 HPC@UT 3
Milleks teadusarvutuskeskus?• Üle-ülikooliline konsortsium• Loob ja arendab välja suuremahuliste
teadusarvutuste jaoks vajalikku infrastruktuuri• Koordineerib süsteemi kasutust
• Ressursid on avatud kasutajatele kogu Eestist– eelistatud teaduse ja kõrgharidusega seotud
kasutajad
28.-29.04.2009 HPC@UT 4
Serveriruumi ülesehitus
• Juhtmasinad• Arvutussõlmed• Ethernet• InfiniBand• Jahutid• Gaaskustutus
28.-29.04.2009 HPC@UT 5
Võrguskeem
• Administreerimisvõrk• Lokaalvõrk
– ühendatud ülikooli sisevõrku
• InfiniBand
28.-29.04.2009 HPC@UT 6
RiistvaraJuhtmasinad aur ja udu • 2x Sun Fire x4250 serverid
– 2x Intel Xeon L5430 2.83GHz, 32 GB RAM• kettakast Sun StorageTek 2540
– kettad 12x1TB RAID6, kasulikku kettapinda 9TB
Arvutussõlmed katel01-42• 42x Sun Fire x2250 serverid
– 2x Intel Xeon L5420 2.5GHz– 32 GB RAM– 500 GB HDD
• Arvutussõlmedes kokku 336 tuuma, 1.3 TB mälu
Ethernet võrk• 3x HP ProCurve switchid
InfiniBand võrk• Mellanox switchid, HCA’d
28.-29.04.2009 HPC@UT 7
Riistvara: InfiniBand
• Kiirendab omavahel suhtlevaid arvutustööid– kiirus kuni 20 Gb/s
• reaalselt mõõdetud 7Gb/s (iperf)– väike latentsus, 1-2 µs– blokeerumisvaba võrk
28.-29.04.2009 HPC@UT 8
Riistvara: kaughaldus
• Kogu arvutustehnikat saab juhtida läbi kaughaldusliideste
• Serverite kaughaldusliides võimaldab– KVM– sensorite jälgimine– voolu sisse-välja lülitamine, reset– IPMI
$ ipmitool -I lanplus -H 192.168.125.204 -U root -f ~/secure/management power statusChassis Power is on
28.-29.04.2009 HPC@UT 9
Tarkvara: operatsioonisüsteem ja töödehaldus
• Operatsioonisüsteemiks Scientific Linux (Red Hat Enterprise Linux analoog)
• Tööde haldamiseks Torque• Järjekorra haldamiseks Maui
Paigaldamine, konfigureerimine:• DHCP, bootp, PXE
28.-29.04.2009 HPC@UT 10
Failisüsteem• Igal masina operatsioonisüsteem oma ketta peal
– juurkataloog (/) on iseseisev• Kasutatakse ülikooli arvutivõrgu
kasutajatunnuseid– /home kataloog tuleb ülikooli süsteemist
• Kohaliku salvestusseadme maht on kättesaadav /storage kataloogist– Igal kasutajal eraldi kataloog /storage/hpchome/kasutajanimi/
– Lisatarkvara jaoks /storage/software/…– Salvestusseadme 12x1TB ketast on ühendatud
RAID6
28.-29.04.2009 HPC@UT 11
Tarkvara: lisatarkvara
• Inteli kompilaatorid ja abivahendid• Mitmesugust teadustarkvara
– Gaussian, ComSol, Pov-RAY, Dalton, HIRLAM, …
• Lisatarkvara paigaldamiseks on /storage/software kataloog
28.-29.04.2009 HPC@UT 12
Tarkvara: haldusvahendid
• Paketisüsteem– rpm, yum
• SSH võtmetega autentimine
Mitmesugused skriptid• dssh.sh <käsk>• dscp.sh <lähtefail> <sihtkataloog>
dssh.sh:------------------------------------#!/bin/bash
. /etc/rc.d/init.d/functions
if [ -z $1 ]; then echo "ssh klastrimasinatesse: $0 'k2sk1 ; k2sk2'" exit 1;fi
K2SK=$1echo $K2SK
for i in `seq -w 1 39`do echo echo "--- katel$i:"; ssh root@katel$i.hpc.ut.ee $K2SK RETVAL=$? echo -n katel$i: if [ $RETVAL -ne 0 ]; then failure; else success; fi# sleep 1done----------------------------------------
28.-29.04.2009 HPC@UT 13
Varukoopiad!
• Varukoopiaid tehakse juhtmasinate juurkataloogidest
• Varukoopiaid ei tehta kohalikust salvestusseadmest (/storage)
28.-29.04.2009 HPC@UT 14
Monitooring: koormus, temp• Ganglia
– arvutussõlmde koormus, mälukasutus jm
• Nagios, Cacti – serveriruumi temperatuur– liiga kõrge temp. puhul
automaatne teavitus SMSiga
28.-29.04.2009 HPC@UT 15
Monitooring: järjekord
• Torque ja Maui vahendid järjekorra jälgmiseks– showstats– showq– qstat
$ showqACTIVE JOBS--------------------JOBNAME USERNAME STATE PROC REMAINING STARTTIME
23391 esoolo Running 1 3:18:23 Mon Apr 27 15:01:0523374 zadin Running 8 2:23:09:20 Sun Apr 26 10:52:0223375 zadin Running 8 2:23:34:05 Sun Apr 26 11:16:4723383 zadin Running 8 4:01:26:22 Mon Apr 27 13:09:0423381 cipo Running 64 7:23:25:01 Mon Apr 27 07:07:4323382 cipo Running 64 8:02:57:19 Mon Apr 27 10:40:0122895 alvo Running 40 17:15:50:14 Fri Apr 24 11:32:5622896 alvo Running 40 17:15:56:28 Fri Apr 24 11:39:10
8 Active Jobs 233 of 240 Processors Active (97.08%) 30 of 30 Nodes Active (100.00%)
IDLE JOBS----------------------JOBNAME USERNAME STATE PROC WCLIMIT QUEUETIME
0 Idle Jobs
BLOCKED JOBS----------------JOBNAME USERNAME STATE PROC WCLIMIT QUEUETIME
Total Jobs: 8 Active Jobs: 8 Idle Jobs: 0 Blocked Jobs: 0
28.-29.04.2009 HPC@UT 16
Monitooring: võrgugraafikud
• Jälgitakse iga lokaalvõrgu porti– võimaldab tagantjärele leida anomaaliaid
28.-29.04.2009 HPC@UT 17
Kasutajatugi• Kasutusjuhendid:
– www.hpc.ut.ee• IM:
– Skype: lauri.anton– MSN: [email protected]
• Telefon:– 7375435, 5182071, 5435
• Kohtumised kasutajatega
28.-29.04.2009 HPC@UT 18
Tulekustutusüsteem
• Novec 1230– loodussõbralik
tulekustutusgaas• Süsteem käivitub,
kui vähemalt kaks andurit leiavad ruumis suitsu
28.-29.04.2009 HPC@UT 19
Miks käesolev lahendus on hea?
Universaalne• Piisavalt arvutusvõimsust• Sobib väga paljude ülesannete lahendamiseks
– palju mälu ühe tuuma kohta (4GB/tuum)– kiire ühendus masinate vahel on hea MPI tööde jaoks
• Lihtne kasutada– Torque+Maui võimaldab tunduvalt lihtsamat tööde
haldust kui näiteks gridi vahevara gLite
28.-29.04.2009 HPC@UT 20
Probleemid
• Põhimõttelisi puudusi (veel) pole
• Jahutusvõimsus ebapiisav• Kasutusjuhendeid tuleb täiendada ja
parandada
• Haldus ei ole redundantne