21
Süsteemihaldus TÜ teadusarvutuste keskuses Lauri Anton 28.-29.04.2009

Süsteemihaldus TÜ teadusarvutuste keskuses

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Süsteemihaldus TÜ teadusarvutuste keskuses

Süsteemihaldus TÜ teadusarvutuste keskuses

Lauri Anton

28.-29.04.2009

Page 2: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 2

Sisukord

• Teadusarvutuste keskuse eesmärk• Riistvarast• Tarkvarast• Monitooring• Miks selline lahendus on hea?• Probleemid

Page 3: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 3

Milleks teadusarvutuskeskus?• Üle-ülikooliline konsortsium• Loob ja arendab välja suuremahuliste

teadusarvutuste jaoks vajalikku infrastruktuuri• Koordineerib süsteemi kasutust

• Ressursid on avatud kasutajatele kogu Eestist– eelistatud teaduse ja kõrgharidusega seotud

kasutajad

Page 4: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 4

Serveriruumi ülesehitus

• Juhtmasinad• Arvutussõlmed• Ethernet• InfiniBand• Jahutid• Gaaskustutus

Page 5: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 5

Võrguskeem

• Administreerimisvõrk• Lokaalvõrk

– ühendatud ülikooli sisevõrku

• InfiniBand

Page 6: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 6

RiistvaraJuhtmasinad aur ja udu • 2x Sun Fire x4250 serverid

– 2x Intel Xeon L5430 2.83GHz, 32 GB RAM• kettakast Sun StorageTek 2540

– kettad 12x1TB RAID6, kasulikku kettapinda 9TB

Arvutussõlmed katel01-42• 42x Sun Fire x2250 serverid

– 2x Intel Xeon L5420 2.5GHz– 32 GB RAM– 500 GB HDD

• Arvutussõlmedes kokku 336 tuuma, 1.3 TB mälu

Ethernet võrk• 3x HP ProCurve switchid

InfiniBand võrk• Mellanox switchid, HCA’d

Page 7: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 7

Riistvara: InfiniBand

• Kiirendab omavahel suhtlevaid arvutustööid– kiirus kuni 20 Gb/s

• reaalselt mõõdetud 7Gb/s (iperf)– väike latentsus, 1-2 µs– blokeerumisvaba võrk

Page 8: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 8

Riistvara: kaughaldus

• Kogu arvutustehnikat saab juhtida läbi kaughaldusliideste

• Serverite kaughaldusliides võimaldab– KVM– sensorite jälgimine– voolu sisse-välja lülitamine, reset– IPMI

$ ipmitool -I lanplus -H 192.168.125.204 -U root -f ~/secure/management power statusChassis Power is on

Page 9: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 9

Tarkvara: operatsioonisüsteem ja töödehaldus

• Operatsioonisüsteemiks Scientific Linux (Red Hat Enterprise Linux analoog)

• Tööde haldamiseks Torque• Järjekorra haldamiseks Maui

Paigaldamine, konfigureerimine:• DHCP, bootp, PXE

Page 10: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 10

Failisüsteem• Igal masina operatsioonisüsteem oma ketta peal

– juurkataloog (/) on iseseisev• Kasutatakse ülikooli arvutivõrgu

kasutajatunnuseid– /home kataloog tuleb ülikooli süsteemist

• Kohaliku salvestusseadme maht on kättesaadav /storage kataloogist– Igal kasutajal eraldi kataloog /storage/hpchome/kasutajanimi/

– Lisatarkvara jaoks /storage/software/…– Salvestusseadme 12x1TB ketast on ühendatud

RAID6

Page 11: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 11

Tarkvara: lisatarkvara

• Inteli kompilaatorid ja abivahendid• Mitmesugust teadustarkvara

– Gaussian, ComSol, Pov-RAY, Dalton, HIRLAM, …

• Lisatarkvara paigaldamiseks on /storage/software kataloog

Page 12: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 12

Tarkvara: haldusvahendid

• Paketisüsteem– rpm, yum

• SSH võtmetega autentimine

Mitmesugused skriptid• dssh.sh <käsk>• dscp.sh <lähtefail> <sihtkataloog>

dssh.sh:------------------------------------#!/bin/bash

. /etc/rc.d/init.d/functions

if [ -z $1 ]; then echo "ssh klastrimasinatesse: $0 'k2sk1 ; k2sk2'" exit 1;fi

K2SK=$1echo $K2SK

for i in `seq -w 1 39`do echo echo "--- katel$i:"; ssh root@katel$i.hpc.ut.ee $K2SK RETVAL=$? echo -n katel$i: if [ $RETVAL -ne 0 ]; then failure; else success; fi# sleep 1done----------------------------------------

Page 13: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 13

Varukoopiad!

• Varukoopiaid tehakse juhtmasinate juurkataloogidest

• Varukoopiaid ei tehta kohalikust salvestusseadmest (/storage)

Page 14: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 14

Monitooring: koormus, temp• Ganglia

– arvutussõlmde koormus, mälukasutus jm

• Nagios, Cacti – serveriruumi temperatuur– liiga kõrge temp. puhul

automaatne teavitus SMSiga

Page 15: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 15

Monitooring: järjekord

• Torque ja Maui vahendid järjekorra jälgmiseks– showstats– showq– qstat

$ showqACTIVE JOBS--------------------JOBNAME USERNAME STATE PROC REMAINING STARTTIME

23391 esoolo Running 1 3:18:23 Mon Apr 27 15:01:0523374 zadin Running 8 2:23:09:20 Sun Apr 26 10:52:0223375 zadin Running 8 2:23:34:05 Sun Apr 26 11:16:4723383 zadin Running 8 4:01:26:22 Mon Apr 27 13:09:0423381 cipo Running 64 7:23:25:01 Mon Apr 27 07:07:4323382 cipo Running 64 8:02:57:19 Mon Apr 27 10:40:0122895 alvo Running 40 17:15:50:14 Fri Apr 24 11:32:5622896 alvo Running 40 17:15:56:28 Fri Apr 24 11:39:10

8 Active Jobs 233 of 240 Processors Active (97.08%) 30 of 30 Nodes Active (100.00%)

IDLE JOBS----------------------JOBNAME USERNAME STATE PROC WCLIMIT QUEUETIME

0 Idle Jobs

BLOCKED JOBS----------------JOBNAME USERNAME STATE PROC WCLIMIT QUEUETIME

Total Jobs: 8 Active Jobs: 8 Idle Jobs: 0 Blocked Jobs: 0

Page 16: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 16

Monitooring: võrgugraafikud

• Jälgitakse iga lokaalvõrgu porti– võimaldab tagantjärele leida anomaaliaid

Page 17: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 17

Kasutajatugi• Kasutusjuhendid:

– www.hpc.ut.ee• IM:

– Skype: lauri.anton– MSN: [email protected]

• Telefon:– 7375435, 5182071, 5435

• Kohtumised kasutajatega

Page 18: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 18

Tulekustutusüsteem

• Novec 1230– loodussõbralik

tulekustutusgaas• Süsteem käivitub,

kui vähemalt kaks andurit leiavad ruumis suitsu

Page 19: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 19

Miks käesolev lahendus on hea?

Universaalne• Piisavalt arvutusvõimsust• Sobib väga paljude ülesannete lahendamiseks

– palju mälu ühe tuuma kohta (4GB/tuum)– kiire ühendus masinate vahel on hea MPI tööde jaoks

• Lihtne kasutada– Torque+Maui võimaldab tunduvalt lihtsamat tööde

haldust kui näiteks gridi vahevara gLite

Page 20: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 20

Probleemid

• Põhimõttelisi puudusi (veel) pole

• Jahutusvõimsus ebapiisav• Kasutusjuhendeid tuleb täiendada ja

parandada

• Haldus ei ole redundantne

Page 21: Süsteemihaldus TÜ teadusarvutuste keskuses

28.-29.04.2009 HPC@UT 21

Tulge arvutama!

www.hpc.ut.ee