Upload
others
View
16
Download
0
Embed Size (px)
Citation preview
Prof.Dr.VolkerGülzowDr.YvesKemp
SS2017
HPC-SystemeHPCundStorage
StorageundStorage-SystemefürHPC
• Wennman„Computing“inHPCengauslegt,dannbetrifftdiesnurdas“Rechnen“• HäufigwirdStorageundStorage-NutzunginHPCVorlesungen(undauchPlanungen...)stiefmütterlichbehandelt• FürdenerfolgreichenAufbaueineskomplettenHPC-SystemsistallerdingsauchvernünftigerStoragenotwendig• FürdieerfolgreicheNutzungvonHPC-SystemensindeinigeKenntnisseüberStorage-SystemeundStorage-Nutzungwichtig
ZweiSichtenaufStorage:
http://cinemalacrum.blogspot.de/2011/08/top-ten-thursday-silent-films.htmlhttp://selfstorageindavis.com
Admin-SichtaufStorageSchwerpunktdieserVorlesung
Nutzer-SichtaufStorageSchwerpunktderVorlesungundÜbungnächste Woche
Storage!=Data
• Mit„Data“und„DataAccess“wirdimHPCVorlesungenhäufigDatenundDatenzugrif im/aufArbeitsspeicheroderL1/2/3CachesderCPUsgemeint.• DieFestplatteimServereinesHPC-Workernode spielttypscherweiseeineuntergeordneteRolle
• UnterStorageversteheichinderVorlesunggrosser,zentralerStorage
AnwendungsfallvonStorageimHPC
• Input-DatenfürSimulation(oderAnalyse)• LagerungvonOutput-DateneinerSimulation(oderAnalyse)• Projekt-DatenfürZwischenschritte• Nutzer-“$HOME“
AnwendungsfallvonStorageimHPC
• Checkpointing:SnapshotderaktuellenBerechnungaufStoragezuschreiben,umimFalleinesteilweisenoderganzenAusfallsvomletztenSnapshotausweiterzurechnen
Storage&IO
• Inderwissenschaftlichen Communitysteigen dieAnforderungen anIOkontinuierlich• IOist ein Bottleneckfür viele Nutzer• Erforderlicher Storage-Platz mussmitSystem-Speicher(RAM)skalieren• ParallelesIOistfürgrosse Nutzerunerlässlich• Typischegrosse HPCClusterhabenmehre10PBStorage
DieseundnächsteFolienmitMaterialvonRichardGerber(NERSC)https://www.olcf.ornl.gov/wp-content/uploads/2013/05/OLCF-Data-Intro-IO-Gerber-FINAL.pdf
ZweiSichtenaufStorage:
http://cinemalacrum.blogspot.de/2011/08/top-ten-thursday-silent-films.htmlhttp://selfstorageindavis.com
Admin:Daten?Ja,dasZeugswasvoneinemWorker-NodeaufeinenStorage-ServerTransferiertwirdunddortaufSpeichermedienliegt
Nutzer:Daten?Ja,AbbildungmeinesSystemsimCode:GridZellen,Teilchen,...
Relationship:It‘s complicated
• NutzermüssenihreIOMusterverstehen- undggf anpassen– umgutePerformancezuerreichen• AdminsbrauchenmöglichstdetailliertesWissenüberdieAnforderungenderNutzerumStorage-Systemezudesignenundzutunen• MancheskanndurchspezialisierteIO-Librariesabgefedertwerden
IOHierachie
Applikation
High-LevelIO-Library
Zwischen-Schicht(zB MPIIO)
ClusterFileSystem
SpeicherServer/Medium
WelcheSpeicherMedien?
• Sehrschnell:Solid-State• FLASH/3D-Xpoint(neueTechnologievonIntel&Micron)/...• Sehrschnell,sehrteuer,vergleichsweisewenigKapazität
• SchnelleaberkleinerotierendePlatten• SAS,typischerweise2.5“mit10kRPModer15kRPM• 600Gbyte – 1.8TBaktuelltypischeKapzitäten
• Nearline-SASPlatten• NL-SAS,3.5“mit7.2kRPM• 6-10Tbyte aktuelltypischeKapazitäten
• Bänder• Langsam,gross,nurstreaming IO,unhandlich,günstig(jenachRechnung)
WelcheSpeicherMedien?
• Sehrschnell:Solid-State• InStorage-SystemenzB alsBurst-Buffer,CacheoderMeta-Daten-Speicherbenutzt
• SchnelleaberkleinerotierendePlatten• NutzungnimmtabzugunstenvonSolid-State
• Nearline-SASPlatten• StellentypischerweisedenGrossteil desPlattenplatzes
• Bänder• EventuellArchivoderBackup.TypischerweisenichtdirektausdemFilesystemadressierbar
EineFestplattemachtnochkeinStorage-System
• <milmmädchenrechnung>• Um10Pbyte zuspeichernbrauchtmanaktuell1000x10Tbyte Platten• NL-SASPlattehatMTBFvon1.2Mio Stunden...1.2Mio h/1000/24h=EinFehleralle50Tage
• Oder:NL-SASPlattehatBitErrorRatevon1/10^15bits ~=110TByte.10Pbyte einmalvollschreiben:~100BitFehler.
• Manbrauchtalso• FehlerkorrekturenundRedundanzen• Etwaswas1000Einzelschicksaleinwenige,grössere Blöckegruppiert
• (InWirklichkeitdeutlichmehr„Einzelschicksale“)
RAIDundErasure Coding
• RAID:RedundantArrayof In[expensive|dependent]Disks• HeuteTypischerweiseRAID-6:n+2Parity• RealisierttypischerweiseüberHardware-RAIDController
• Erasure Coding• RAID-6einespezielleFormvonErasure Coding (ggf inHardware)• AktuellvielEntwicklungumErasure Coding indieFilesystemezubekommen–ohneHW-Controller!
• EinigekommerzielleProduktesetztendiesum,OpenSource VariantennochindenKinderschuhen
Latenzen:ZeitzumLesendeserstenByte
RichardGerber
Bandbreiten
• WieschnellkönnenDatengestreamt werdenvon/zuPlatte?• N*10bisN*100GByte/ssindheutetypischfürgrosse Systeme(N*10PB)• Aggregiert!Also„vieleWNsredenmitvielenServern“• Single-StreamistbegrenztvonNetzwerk-interfaceundggf Speichermedium
• HängtallerdingsvonderApplikationab:• MaximaleBandbreiteistnurabrufbarwenngrosse Blöckegelesenwerden,undwenndiesimStreaming-Moduspassiert!
Latenzen undBandbreiten-Optimierung• Schreiben:Buffering
• SchnellerSpeichersammeltDatenundschreibtsiedann(ggf.streamingmodus)auflangsamerenSpeicher
• Lesen:Caching• EinganzerBlockwirdvomlangsamenindenschnellenSpeichergelesen,auchwennnureinTeildesBlocksangefragtwurde.DerBlockbleibterstmalimCache
• UnterschiedlicheOrte:InderNähederCPU,imWorker-Node,dedizierterIO-Node,spezialisierteStorage-Server,zusätzlichePlatteinStorageServer,imRAID-ControlleroderaufderPlatteselber
Local /GlobalausSichtdesWorker-Node• Local Storage:DieFestplatte(on-board)
• Altbekannt:FürOSund/tmp.Uninteressant• Aber:EventuellspeziellerIO-NodemitschnellemCache(SSD).„Local Read-Only Cache“(LROCimIBM-GPFSJargon)
• Cluster-LokalerStorage:• NetworkAttached ClusterFileSystem• NurimdediziertenClusterInterconnect(schnell)verfügbar,typischerweisenurfüreinHPCSystem
• GlobalerStorage:• ImCampusNetzwerk(odersogarweltweit)verfügbar.• ZBAusgangsortfürRohdatenoderpermanenterSpeicherort
VerschiedeneArtenvonClustered Storage
• Networkattachedstorage• Shared-diskFS• Verteiltes FS
• https://en.wikipedia.org/wiki/Clustered_file_system
Networkattached storage
• TypischerweiseNFS(NetworkFileSystem)Protokoll• CIFS/SMBoderAnderesindimUNIX-lastigen HPCUmfeldeigentlichnichtzufinden
• NFSistinLinuxquasiüberallzufinden• Kernel-NFSServer,NFSClientModul...• Mounten isttrivial:mount –tnfs server:/export/path /local/path
• VieleHerstellerbietenNFSAppliances an
NFSClient<->ServerKommunikation
http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.25.7841 (RusselSandberg)dasPaperstammtvon1986J
• DieKommunikationgehtimmerzwischenClientundServer• MehrPlattenplatzimServer
• Bottleneck:Netzwerkanbinung Server• MehrereServer
• Bandbreiten-Skalierungüber#Server• UnterschiedlicheNamespaces
• /mnt/nfs/server1• ...• /mnt/nfs/servern
Skalierung?NFSv3undNFSv4.0
SkalierunginNFSv3undNFSv4.0,Beispiel
EinzelneDisks/StorageServer
ClusterFileSystem
S1
S2
...
SN
C 1C 1C 1Client
C 1C 1C 1Client
C 1C 1C 1Client
C 1C 1C 1Client
SkalierungmittelsNFSv4.1/pNFSMeta-DataServer
DataServer1
DataServer2
DataServer3
DataServer4
C 1C 1C 1Client
C 1C 1C 1Client
C 1C 1C 1Client
C 1C 1C 1Client
NFSv4.1mount
1)Requestfile n
2)Ask DataServer3
3)Requestfile n
4)Serving file n
NFSv4.1/pNFS vergleichsweiseneu
• Einigegrosse Storage-HerstellerunterstützenNFSv4.1/pNFS• ServerhabennochnichtdenReifegradvongrossen NFSv3undNFSv4.0Appliances• ClientCodenochnichtsoausgereiftwiev3undv4.0• HerstellerundNutzersindzögerlich
• DESYwarmitNFSv4.1/pNFS ServerindCache Vorreiter• DESYhatca 1000ClientimEinsatzdieNFSv4.1/pNFS mounten
• AllerdingsnichtimHPCUmfeldJ
NFSSecurity@HPC
Security?
NFSSecurity
• OK,esgibtKerberised NFS(mitNFSv4)• MachtnurkeinerimRZ-Bereich(ichkennekeinen...)
• Werdarfmounten?• ServerhateineListevonIPAdressen/Host-NamenvonClienten diemountendürfen
• HPCCluster:IPAdressenundHostNamensindsicher™,undkönnennichtgefaked werden
• WerdarfaufDateneinesMountszugreifen?• UID/GIDbasierendeSecurity.ÜblicherweisesimpleUNIX-ACLs(User/Group/Others)
• HPCCluster:UID/GIDsindsicher™,undkönnennichtgefaked/missbrauchtwerden
„Echte“ClusterFileSysteme
• AmDESYimEinsatz• Lustre:HPCStorageamStandortDESY/Zeuthen• BeeGFS:GünstigerProjekt-SpaceimHPCClusterDESY/HH• GPFS(JetztSpectrum Scale):Online-Datennahme derneuerenDESYExperimente,schnelleAnalyse
GenerischesSchemavonCluster-File-System
StorageServer
StorageServerStorageServer
Meta-DataServerMeta-DataServer
ManagementServer
FastClusterInterconnect(zB InfiniBand)
WorkerNode
Network
KernelModule
KernelVFS
WorkerNode
Network
KernelModule
KernelVFS
WorkerNode
Network
KernelModule
KernelVFS
IONode
Network
KernelModule
KernelVFS
Cache/
Buffer
Oderauch:
StorageServer
StorageServerStorageServer
Meta-DataServerMeta-DataServer
ManagementServer
FastInterconnect(zB InfiniBand)
WorkerNode
Network
KernelModule
KernelVFS
WorkerNode
Network
KernelModule
KernelVFS
WorkerNode
Network
KernelModule
KernelVFS
IONode
Network
KernelModule
KernelVFS
Cache/
Buffer
Specialized ClusterInterconnect(zB CrayAries)
http://www.nersc.gov/users/computational-systems/cori/burst-buffer/burst-buffer/
BurstBuffer
• NetzwerktopologischsehrnaheandenCompute-Nodes• DadurchhoheBandbreite,zB CORI@NERSC
• „approximately 1.7TB/second of peak I/Operformance with 28MIOPs,andabout 1.8PBof storage“
• http://www.nersc.gov/users/computational-systems/cori/burst-buffer/burst-buffer/
• WichtigzB fürSnapshots/Checkpointing• Das(koordinierte)SchreibenderSnapshotsaufdieBurstBuffer gehtsehrschnell
• WenndieBerechnungwiederangelaufenistwerdendieDatenvomBurstBuffer aufdeneigentlichenStoragegeschrieben.Diesgeschiehtdeutlichlangsamer
EinigeProdukteimDetail:BeeGFS
• Highperformanceparallelfilesystemdeveloped2007fromCompetenceCenterforHigh-PerformanceComputing,Fraunhofer ITWM• Aim:ReplaceGPFSandLustrebysomethingeasytodeploy,config andadminister• OriginallynamedFhGFS itwasrenamedin2014toallowacommercialspinoff
• DevelopmentisdrivenbyFraunhofer,thecompanyThinkparQ offerssupport.• TheSoftwareisfreeofcharge• Licenseandcosts
• TheclientkernelmoduleisundertheGPL• StorageandManagementDaemons,currentlyclosedsource,butguaranteedinthecontextoftheDEEP-ERprojecttobecomeopen-source
• Commercialsupportoffered:Annuallicenseperstoragetarget
BeeGFS Facts• DistributedObjectandMetadata
• Aggregatedthroughputforobjectdata (usingstriping)• Loadbalancing forMetadata> Linux(only)based
• PackedforforRHEL,Debian,Suse• Supportx86_64andXeonPHI (proofofconceptforARM)
• Serverrunsinuserspace,andusesupportedfilesystemoftheOS• ObjectStoretestedwithxfs,ext4andzfs• MetadataStoredonext4filessystem (useextendedAttributes)
• Clientsarekernelmodules• Supportallkernelsfrom2.6.16tolatestvanilla,noKernelPatch• Automaticrebuildafterkernelupdate
• SupportnativeInfiniband/1GE/10GE/40GE• BeeGFS isimprovingfast
• Alreadythere:RaidLevel,HSMintegration• Upcoming:HA,Dataintegrity,erasurecoding
GPFSBasics• GeneralParallelFileSystem
nmatureIBMproductgenerallyavailableformorethen10years(GPFShasbeen• availableonAIXsince1998andLinuxsince2001)• n WorksonAIX,Linuxand(surprise!)Windows• n Adaptabletomanyuserenvironmentsbysupportingawiderangeofbasicconfigurationsanddisktechnologies
• n Providessafe,highBWaccessusingthePOSIXI/OAPI• n Basicfeatures:POSIXAPI,journaling• n Providesnon-POSIXadvancedfeatures
• n e.g.,DMAPI,data-shipping,multipleaccesshints(alsousedbyMPI-IO)• n ILM,integratedwithtape,disasterrecovery,SNMP,snapshots,robustNFSsupport
• n Providesgoodperformanceforlargevolume,I/Ointensivejobs• n Worksbestforlargerecord,sequentialaccesspatterns,hasoptimizations• forotherpatterns(e.g.,strided,backward)• nConvertingtoGPFSdoesnotrequireapplicationcodechangesprovidedthecodeworksinaPOSIXcompatibleenvironment
https://agenda.infn.it/getFile.py/access?sessionId=7&resId=0&materialId=0&confId=5516
WasGPFSnichtist:
• GPFSisnotaclient/serverfilesystemlikeNFS,CIFS(Samba)orAFS/DFSwithasinglefileserver.• GPFSnodescanbeanNFSorCIFSserver,butGPFStreatsthemlikeanyotherapplication.
• GPFSisnotaSANfilesystemwithdedicatedmetadataserver.• GPFScanruninaSANfilesystemlikemode,butitdoesnothaveadedicatedmetadataserver.
• GPFSavoidsthebottlenecksintroducedbycentralizedfileand/ormetadataservers.
https://agenda.infn.it/getFile.py/access?sessionId=7&resId=0&materialId=0&confId=5516
GPFSamDESY:Datennahme
StefanDietrich
Zusammenfassung
- IOwichtigeKomponentefürdasFunktioniereneinesHPCClusters
- IO&Storagewirdhäufigvernachlässigt...InderAusbildung,Nutzer-Planung(undmanchmalauchCluster-Planung)
- StorageeinweitesFeld- HeutehabenSieallesausAdmin-Sichtgelernt- NächstesMallernenSieallesausNutzer-Sicht- Undübendasfleissig
...Onemore thing:Prüfung
• Prüfung am27.7.ab14:00•Mündliche Prüfung bei Herrn Prof.Gülzow,Beisitzer Y.Kemp• Dauer ca20Minuten proPrüfling• Anmeldung undkonkrete Termine werden rechtzeitigbekannt gegeben.• Inhalt:Kurs undÜbungen,Materialien siehe Folien