30
Archiv mit Sam FS / QFS bei CSCS 4. Sam-FS / QFS Nutzerkonferenz 2009 Roberto Morrison

Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

  • Upload
    vokien

  • View
    215

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

Archiv mit Sam FS / QFS bei CSCS

4. Sam-FS / QFS Nutzerkonferenz 2009 Roberto Morrison

Page 2: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

22

Was werden Sie sehen?

CSCS: Geschichte, wer sind wir, wo sind wir, unsere Systeme, was machen wir?

CSCS Archivsystem Beschreibung

Einfuehrung von SL8500 und LTO4

Page 3: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

33

Umfang

1991 gegründet, CSCS (Centro Svizzero di Calcolo Scientifico) ist eine unabhängige Einheit von ETH Zürich40 Mitarbeiter mit naturwissenschaftlicher oder technischer ErfahrungEtwa 60 grosse Projekte mit 350 ForschernHochleistungsrechner für akademische Institute und eidgenössischen Wetterdienst

Page 4: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

4

Geographie...

4

Page 5: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

5

Ansicht

Page 6: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

6

Systeme

CRAY XT3 / XT4 / XT5 clustersIBM P5 clusterSUN Fire Pre/Post processing clusterHP-XC SVA (visualization cluster)SUN LCG-TIER 2 clusterGlobal shared parallel file systemArchive system

Page 7: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

7

Netzwerk

7

Page 8: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

88

Bereiche und Anwendungen

Earth and environmental sciences (ECHAM5, CCSM 3, CSM 1.4, MeteoSwiss COSMO Model)Chemistry (ABINIT, ADF, CPMD, v-Espresso, GAMESS, Gaussian03, MOLPRO, NAMD, NWChem…)Physics (v-Espresso, CPMD)Material science (VASP, CP2K, CPMD)Biosciences (ROSETTA, NAMD, AMBER)Astronomy (RAMSES)Fluid dynamics (user developed codes)Nanoscience (GAMESS, v-Espresso)

Page 9: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

99

CPU Verteilung 2008

Page 10: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

1010

Archivgeschichte

1991: Convex UniTree

1996: UniTree Support wurde eingestellt

1998: Migration zu QFS

300’000 Dateien, 10TB, 3480 Kassetten

Page 11: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

1111

Archiv Komponenten

Server: SunFire X4600 + SunFire X4200Kontroller DS4800:75 TB Disk Cache (SATA)25 TB Diskarchiv (SATA)Kontroller D280:1.5 TB Metadata (12x 128GB FC mirrored)Tape Libraries: 1 SL8500 (3 exp.) + 1 STK9310Drives: 6x 9940C, 6x T10000A, 4x LTO4Kassetten : ~7000, ~1.9 PBSamFS 4.6.73ACSLS 7.3

Page 12: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

12

Archiv Layout

Page 13: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

13

GB seit 2000

Page 14: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

14

GB Monatliche Wachstum seit 2006

Page 15: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

15

GB - 9 Monate

2009-06-01 1842.095 TB

2009-04-01 1757.269 TB

2009-02-01 1674.371 TB

2008-12-01 1569.483 TB

2008-10-01 1517.048 TB

Page 16: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

16

# Inodes - 9 Monate

2009-06-01 41480 K

2009-04-01 39763 K

2009-02-01 40579 K

2008-12-01 40160 K

2008-10-01 39860 K

Page 17: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

17

Klassenverteilung 1

ClassRange Total Total Average Total Total

Files % Size % Filesize Online % Locked

( 1): 0K - 4K 4155221 10 4.66 G 0 1.17 K 587.53 G 1 3.06 G

( 2): 4K - 8K 955455 2 5.06 G 0 5.55 K 259.24 G 0 1.18 G

( 3): 8K - 16K 1196426 3 14.18 G 0 12.43 K 120.25 G 0 6.53 G

( 4): 16K - 32K 1845418 4 41.59 G 0 23.63 K 232.43 G 0 67.50 M

( 5): 32K - 64K 1916104 5 84.52 G 0 46.25 K 73.59 G 0 19.50 M

( 6): 64K - 128K 2139976 5 178.64 G 0 87.53 K 102.80 G 0 1.44 G

( 7): 128K - 256K 5954211 14 1.04 T 0 187.09 K 179.66 G 0 8.50 G

( 8): 256K - 512K 2836922 7 0.98 T 0 370.44 K 137.70 G 0 8.31 G

( 9): 512K - 1M 1798707 4 1.22 T 0 728.90 K 254.28 G 0 250.50 M

(10): 1M - 2M 5116131 12 7.17 T 1 1.47 M 1.09 T 1 915.00 M

(11): 2M - 4M 2180398 5 6.12 T 1 2.94 M 882.21 G 1 228.00 M

(12): 4M - 8M 4645923 11 27.24 T 3 6.15 M 6.48 T 8 8.37 G

(13): 8M - 16M 2039248 5 22.46 T 2 11.55 M 3.81 T 5 39.00 M

(14): 16M - 32M 2176070 5 44.58 T 5 21.48 M 11.25 T 15 340.50 M

(15): 32M - 64M 1064570 3 40.54 T 4 39.93 M 7.97 T 10 0.00

Page 18: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

18

Klassenverteilung 2

ClassRange Total Total Average Total Total

Files % Size % Filesize Online % Locked

(16): 64M - 128M 378255 1 32.72 T 3 90.72 M 3.31 T 4 324.00 M

(17): 128M - 256M 472809 1 79.78 T 8 176.93 M 7.43 T 10 771.00 M

(18): 256M - 512M 342038 1 108.72 T 11 333.30 M 12.40 T 16 8.34 G

(19): 512M - 1G 54115 0 39.14 T 4 758.37 M 146.98 G 0 3.22 G

(20): 1G - 2G 53252 0 65.31 T 7 1.26 G 263.65 G 0 0.00

(21): 2G - 4G 46558 0 131.80 T 14 2.90 G 188.34 G 0 2.78 G

(22): 4G - 8G 16145 0 87.55 T 9 5.55 G 973.26 G 1 16.86 G

(23): 8G - 16G 7370 0 76.14 T 8 10.58 G 222.50 G 0 0.00

(24): 16G - 32G 4750 0 96.55 T 10 20.81 G 88.06 G 0 23.11 G

(25): 32G - 64G 1033 0 36.87 T 4 36.55 G 0.00 0 0.00

(26): 64G - 128G 197 0 18.60 T 2 96.69 G 0.00 0 0.00

(27): 128G - 256G 121 0 21.28 T 2 180.09 G 206.68 G 0 0.00

(28): 256G - 512G 50 0 15.44 T 2 316.31 G 0.00 0 0.00

(29): 512G - 1T 15 0 9.79 T 1 668.02 G 0.00 0 0.00

Total 41277339 965 T

Page 19: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

19

Tägliches stage

Page 20: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

20

Tägliches archive

Page 21: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

21

Tägliche Grenzwerte

Max stages: 8.85 TB / 3‘748K inodesDurchschnitt: 4.16 TB / 165K inodes

Max archives: 11.98 TB / 3‘152K inodesDurchschnitt: 2.72 TB / 114K inodes

Page 22: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

22

Policies

Benutzerdateien: 2 Kopien, bis 6 Monaten nach Projektende

Systembackups: 1 Kopie

Spezialprojekte: 2 Kopien mit Diskarchiv

Page 23: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

23

archiver.cmd

<1M: - c1 Diskarchiv => T10K- c2 T10K- release –n

[1-128M] - c1 Diskarchiv => T10K- c2 LTO4

>128M - c1 LTO4- c2 LTO4

Page 24: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

24

STK9310 => SL8500

Warum:- STK9310 end of life- STK9310 Wartungskosten- LTO4 einfuehren

Voraussetzungen:- LTO4 IBM Drive => SamFS 4.6 Patch 3- SL8500 => ACSLS 7.3 empfohlen- ACSLS 7.3 => Solaris 10 u4 Sparc+ 9840C Slotlizenz + Wartung => migrieren

Page 25: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

25

STK9310 => SL8500 Probleme

- RS232 Kabelverbindung LMU-ACSLSLaenge, RS232 Serverschnittstelle, Adapter

- T10K Adapter fuer SL8500SUN

- Physische 1000 KassettenumzugManpower

- ACSLS Konfigurierung selbst mit Sun hintsLibrary 9310 audit ~4Std!

- SamFS Konfigurierungselbst mit HMK hints

- SL8500 physische InstallationSun, 1 Wo 2 Pers.

Page 26: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

26

LTO4 – zu beachten

- SamFS Patchlevel

- FC Kabellänge

- Solaris st driver Patches

- SamFS Blocksize Konfiguration

- Drive Spezi - Temperatur im Raum!?

- Drive Firmware

Page 27: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

27

LTO4 - Geschichte

- Dez 2006: 9940C Kassettenkosten explodiert => ~30‘000 Eur / 6 Wochen

- Aug 2007: T10000A eingefuegt=> Kosten/GB „nur“ etwas besser

- Sep 2008: 2x LTO4 mit SL8500 eingefuegt=> Systembackup Testphase, 4x billiger/GB

- Dez 2008: 2 extra LTO4 Testphase ok => Archiv big.copy2

- Mar 2009: LTO4 user big.c1 backups- Mai 2009: LTO4 stop wegen Defektkassetten

Page 28: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

28

Kassetten Defektlieferung?

- End Apr: 400 LTO4 Kassettenlieferung

- Anf Mai: LTO4 drives bad performance + blockiert C flag- 14 Mai: Sun case, vermute Probl. SamfS-ACSLS mit Clean

- 22 Mai: 1 Drive mehr Fehlerlogs (tapealert –f) zu ersetzen...

- 26 Mai: 2 Kassetten gebrochen in 2 Tagen!Während des Ersatzes bemerkte man schwarzes Bandpulver! Alle drives betroffen!=> LTO4 archivierung eingestellt, => 2 neue Drives on (lesen), 2 schmutzige Drives off=> drive+Kassetten zu analyse bei Sun

Page 29: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

29

Was jetzt?

- Eine der 2 gebrochenen Kassetten war von der Januar Lieferung...

- Gute Kassetten wurden in verschmutzten Drives geladen und wahrscheinlich geschädigt!

- => Muss alle LTO4 Kassetten (Daten + Clean) + Drives ersetzen und rearchivieren

- => Will neue Drives und Kassetten in separaten Pool konfigurieren fuer archiver.cmd und Rearchivierung

Page 30: Archiv mit Sam FS / QFS bei CSCS - konferenz-nz.dlr.dekonferenz-nz.dlr.de/pages/samfs2009/present/2. Konferenztag/02_Roberto... · SUN Fire Pre/Post processing cluster HP-XC SVA (visualization

30

Team

Davide Tacchella [email protected]

Roberto Morrison [email protected]

Vincenzo Annaloro [email protected]