View
109
Download
2
Category
Preview:
Citation preview
Arbeitskreis Wissenschaftliches Rechnen
Universität Duisburg-Essen
01.06.2007
Der Dortmunder Linuxcluster LiDO
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 1 -
AK Wiss. Rechnen, Essen, 01.06.2007
1. LiDO stellt sich vor
2. Die Systemarchitektur
3. Systemwerkzeuge
4. Das Batchsystem
5. Das Anmeldeverfahren
6. Auslastung des Linux-Clusters
7. Weitere Informationen / Fragen?
0. Übersicht
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 2 -
AK Wiss. Rechnen, Essen, 01.06.2007
1. LiDO stellt sich vor (1)
• HPC Linux Cluster an der Universität Dortmund
• Regelbetrieb seit 05/2006
• Lieferant• ClusterVision BV (Niederlande)
• Rechenknoten• Knotentyp 1 (starke Knoten)
8 Stück, 4x Opteron 2,6 GHz, 16 GB Memory, 1x 160 GB lokale FP
• Knotentyp 2 (Standardknoten)
144 Stück, 2x Opteron 2,4 GHz, 4 GB Memory, 1x 80 GB lokale FP
• Knotentyp 3 (stark vernetzte Knoten)
72 Stück, 2x Opteron 2,4 GHz, 8 GB Memory, 1x 80 GB lokale FP
• 464 Einzelprozessoren in 224 Rechenknoten
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 3 -
AK Wiss. Rechnen, Essen, 01.06.2007
1. LiDO stellt sich vor (2)
• Netzwerk• Interconnect 1 = Gbit Ethernet (alle 224 Knoten)• Interconnect 2 = Infiniband (72 stark vernetzte Knoten)• Servicenetz = Gbit Ethernet (alle 224 Knoten)• 11,2 TB (netto) SAN Speicher mit NFS und GPFS
• Betriebssystem Rechen- und Serviceknoten: SuSE 10 (64bit)
• Systemsoftware: ClusterVision OS
• Software• Compiler für Fortran, C und C++: Portland, Intel, Pathscale, gcc• Debugger Etnus Total View, Allinea „ddt“ und Optimizer „opt“ • Wiss. Anwendungssoftware:
• Matlab• ANSYS CFX• Abaqus• Gaussian
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 4 -
AK Wiss. Rechnen, Essen, 01.06.2007
1. LiDO stellt sich vor (3): Die Anlieferung
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 5 -
AK Wiss. Rechnen, Essen, 01.06.2007
1. LiDO stellt sich vor (4): Der Aufbau
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 6 -
AK Wiss. Rechnen, Essen, 01.06.2007
Knotentyp 1(AIC)4 Opteron CPU16 GB RAM160 GB HD
Anzahl = 8
Knotentyp 2(Supermicro)2 Opteron CPU4 GB RAM80 GB HD
Anzahl = 144
…
Knotentyp 3(Supermicro)2 Opteron CPU8 GB RAM80 GB HD
Anzahl = 72
…
Fileserver
(GPFS)
Management-server
m a s t e r
Gateway-server
4 Opteron CPU16 GB RAM2x 160 GB HD
Internet
5,6 TB RAID HD
5,6 TB RAID HD
…
gebündelt
4x FC 2 Gbit
sync
Interconnect 1 (1 Gbit):5x Nortel BayStack
Servicenetz (1 Gbit):6x HP Procurve
Interconnect 2(Infiniband):- Infiniscale III Switch- Mellanox Karten
2. Die Systemarchitektur
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 7 -
AK Wiss. Rechnen, Essen, 01.06.2007
• ClusterVision OS: „Trinity“ (Übersicht)
3. Systemwerkzeuge (1)
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 8 -
AK Wiss. Rechnen, Essen, 01.06.2007
• ClusterVision OS: „Trinity“ (Einzelkomponente)
3. Systemwerkzeuge (2)
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 9 -
AK Wiss. Rechnen, Essen, 01.06.2007
• Steuerung der Steckdosen (APCs)
3. Systemwerkzeuge (3)
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 10 -
AK Wiss. Rechnen, Essen, 01.06.2007
• Die „p-Tools“
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 11 -
3. Systemwerkzeuge (4)
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 12 -
• Arbeitsumgebungen nach Maß (Module)
3. Systemwerkzeuge (5)
user@lido-gw2 > module avail
--------------------------- /usr/local/Cluster-Config/modulefiles ------------------------------------------
3.1.6 OpenMPI/ib/intel/64/1.1.4 gaussian/03.D.02 jdk/1.5.0_083ware/9.2.1.1 OpenMPI/ib/pgi/64/1.1.2 gcc/3.2.3 lam/ge/gcc/64/7.1.1GotoBLAS/1.00 OpenMPI/ib/psc/64/1.1.2 gcc/3.3.6 lam/ge/intel/64/7.1.1GotoBLAS/1.05 OpenMPI/ib/psc/64/1.1.4 gcc/3.4.6 matlab/7.3.0.298GotoBLAS/1.07 OpenMPI/ib/sunstd/64/1.1.2 gcc/4.0.2 maui/3.2.6p14GotoBLAS/1.11 R/2.4.0 gcc/4.1.1 mpich/ge/gcc/64/1.2.7OpenMPI/ge/g95/64/1.1.4 SunStudio/11alpha gmv/3.8 mpich/ge/intel/64/1.2.7OpenMPI/ge/gcc/32/1.1.1 abaqus/6.6-1 gmv/4.0 mpiexec/0.80OpenMPI/ge/gcc/64/1.0.2 ansys/10.0 gpfs/2.3.0 mvapich/gcc/0.9.7OpenMPI/ge/gcc/64/1.1.2 binutils/32/2.17 hpl/1.0a mvapich/intel/0.9.7OpenMPI/ge/gcc/64/1.1.4 cfx/10.0 icem/10.0 mvapich/pathscale/0.9.7OpenMPI/ge/intel/64/1.1.2 cluster-tools/2.0.5 installer-tools/0.0.1 mvapich/pgi/0.9.7OpenMPI/ge/intel/64/1.1.4 ddt/1.10 intel/cc/9.1.043 ofed/1.1OpenMPI/ge/pgi/64/1.1.2 ddt/1.9.2 intel/cce/9.1.043 pathscale/2.5OpenMPI/ge/psc/64/1.1.2 default-ethernet intel/fc/9.1.037 pgi/6.1.5OpenMPI/ge/psc/64/1.1.4 default-infiniband intel/fce/9.1.037 pgi/6.2.5OpenMPI/ge/sunstd/64/1.1.2 devisor/grid/3.0.13 intel/idb/9.1.043 scm-adf/mpi/adf2006.01OpenMPI/ib/g95/64/1.1.4 devisor/grid/3.0.17 intel/idbe/9.1.043 torque/2.0.0p8OpenMPI/ib/gcc/64/1.1.2 firefox/2.0 intel/mkl/8.0 totalview/7.2.0OpenMPI/ib/gcc/64/1.1.4 g95/int32bit/0.9 jdk/1.4.2_13 versionOpenMPI/ib/intel/64/1.1.2 g95/int64bit/0.9 jdk/1.5.0_06
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 13 -
4. Das Batchsystem (1)
• Torque und Maui werden als Batchsystem verwendet
• Die aktuellen Queues sind:
short_ib: node145 - node216 144 CPUs
med_ib: node145 - node216 144 CPUs
long_ib: node145 – node186 84 CPUs
short_eth: node033 - node144 224 CPUs
med_eth: node033 - node144 224 CPUs
long_eth: node033 – node122 180 CPUs
neternal_eth: node001 - node032 64 CPUs
short_quad: node217 - node224 32 CPUs
med_quad: node217 - node224 32 CPUs
long_quad: node217 - node224 32 CPUs
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 14 -
4. Das Batchsystem (2)
user@lido-gw2 > qsub job.pbs
• Ein Beispiel für ein PBS-Script (job.pbs)
• Ausführen des Scripts
#!/bin/sh### Hello_mpi via Gigabit Ethernet#PBS -N hello_mpi#PBS -q short_eth#PBS -M lidonutzer@uni-dortmund.de#PBS -l walltime=00:10:00,nodes=32###PBS -m e
# This job's working directorycd $PBS_O_WORKDIR
cat $PBS_NODEFILE > pbs-machine
# Run the parallel MPI executablempiexec hello_mpi
exit 0
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 15 -
5. Das Anmeldeverfahren (1)
• Antrag auf eine Benutzerkennung für LiDO schriftlich
im Kundenbüro des HRZ der Uni Dortmund stellen• http://www.hrz.uni-dortmund.de/Kundenbuero/• Maria Pefferkuch, Tel. 0231 755 2367• Campus Süd, GB V, Raum 108
• Dem LiDO-Team eine Kurzbeschreibung des Vorhabens
zukommen lassen• E-Mail lido-team@hrz.uni-dortmund.de
• Die Accountdaten gibt es persönlich vom Kundenbüro• Login-ID• Passwort
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 16 -
5. Das Anmeldeverfahren (2)
• Mit den Account-Daten einfach einloggen und loslegen• Zugang per ssh auf einen der Gatewayserver
• lido1.hrz.uni-dortmund.de• lido2.hrz.uni-dortmund.de• LiDO ist nur im Intranet der Uni-Dortmund frei
erreichbar. Externe Zugänge werden vom LiDO-Team auf
Anfrage individuell konfiguriert.
• Nach abgeschlossen Arbeiten / Projekten
ist die Verwendung von LiDO als Werkzeug für die
Forschung in Form eines Berichtes dem LiDO-Team und
der Nachwelt zu dokumentieren
AK Wiss. Rechnen, Essen, 01.06.2007
6. Auslastung des Linux-Clusters
© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 17 -
AK Wiss. Rechnen, Essen, 01.06.2007© Universität Dortmund / HRZ / Zentrale Server, jg, 2007 - 18 -
7. Weitere Informationen / Fragen?
• Die LiDO Webseiten:
• http://www.lido.uni-dortmund.de
• Noch Fragen?
• Vielen Dank für Ihre Aufmerksamkeit
Recommended