View
149
Download
2
Embed Size (px)
Citation preview
Del concepte a la realitat: 16 anys de Gaia al CESCA/CSUC
Dr. Jordi Portell i de Morai l’Equip
Gaia de l’IEEC‐UB
/ ICCUB
J. Portell - 16 anys de Gaia al CESCA/CSUC 2
La missió Gaia
• Astrometria Global des de l’Espai:– Posicions i distàncies (3D)– Moviments propis– Velocitats radials– Fotometria multi‐color– Espectroscopia– >1000 milions d’objectes astronòmics– Precisió: ~15 μas
(cabell humà
a 2000km)
– Observació
no esbiaixada de
tot objecte més brillant de 20mag
• Catàleg astronòmic de referència per les properes dècades
J. Portell - 16 anys de Gaia al CESCA/CSUC 3
Gaia: El satèl·lit
• Òrbita: Lissajous
a L2– 1.5 milions km de la Terra
• Duració: 5 anys (+5?)• Instruments principals:
– 2 telescopis– 1 gran pla focal 106 CCD
(gigapixel)
• Dades:– ~7 Mbps, ~8h/dia– Fins a 3 estacions terrestres
(Madrid, Austràlia, Argentina)
Crèdits: Astrium / ESA
J. Portell - 16 anys de Gaia al CESCA/CSUC 4
Dades, dades, dades!
• 25 GB / dia
(65 GB descomprimits)115 TB en 5 anys
• 50 milions de mesures / dia (1 mesura = 10 petites fotos)
100.000 milions en 5 anys• Processament de dades a Terra:
– Algoritmes extremadament complexes– Moltes dades,
molt relacionades entre sí
• Cens Galàctic– Observació
sistemàtica de tot objecte suficientment
brillant per ser detectat
Models i simuladors per poder provar els sistemes de processamentPrototipus dels sistemes de processament de dades
J. Portell - 16 anys de Gaia al CESCA/CSUC 5
Projecte GDAAS
• Gaia Data Access and Analysis
Study– UB + CESCA + GMV, 2000‐2006
• Prova de concepte
pel sistema de reducció
de dades de Gaia
• Sistema “monolític”, o “all‐in‐one”– Model de dades– Simulador– Tractament inicial– Reconstrucció
d’actitud
– Enllaç
amb catàleg (cross‐match)
– Calibracions– Solució
Global Iterativa (GIS)
J. Portell - 16 anys de Gaia al CESCA/CSUC 6
GDAAS: Primers passos
• Primer hardware: IBM SP2 (any 2000)– 44 CPUs, 11 GFLOP/s
• Llenguatge: Java
(!!!)– Portabilitat
pel futur
(missió
fins al ~2020)
• Base de dades: Objectivity DB– Orientada a Objectes
• Primeres proves: petita escala– 1/1000 de densitat, <2 anys
J. Portell - 16 anys de Gaia al CESCA/CSUC 7
GDAAS: Millores en infraestructura
• Compaq AlphaServer (2001)– 32 CPUs, 53 GFLOP/s
• Base de dades: Oracle
• Resultats representatius (2005‐2006):– 1.1 milions d’estrelles (12mag)– 18 mesos
de missió
– 30 milions
de mesures (“trànsits”)
– 70 GB
telemetria simulada
• Rendiment (usant 11 CPUs + 3 Oracle):– Tractament inicial: 4 dies– 1ª
iteració
GIS: 8 dies
– Iteracions 2‐7 GIS: 49 dies– Base de dades: 200GB
J. Portell - 16 anys de Gaia al CESCA/CSUC 8
GDAAS: Solució global iterativa
• GDAAS va demostrar la factibilitat
del concepte GIS sobre dades tipus Gaia
– Astrometria: Posicions, moviments
propis, distàncies (paralaxis)– Reconstrucció
d’actitud
– ...a nivell de µas!
• A més:– Fotometria (milimagnituds)– Calibració
de cromaticitat (µas)
– Calibració
de LSF
J. Portell - 16 anys de Gaia al CESCA/CSUC 9
GDAAS: Lliçons apreses
• Accés directe a BD
segons ho necessitin els algoritmes: NO!
– Latència
massa alta
(accessos freqüents)Concepte “tren de dades”:Preparar blocs de dades perpassar als algoritmes
• Algoritmes senzills sobre moltes dades: NO!
– Millor agrupar operacions en
blocs més complexesMillor balanceig E/S vs. càrrega CPU
• Estimacions de necessitats de càlcul– Caldrà
molta
potència per Gaia...
• Gran sistema monolític?– Millor distribuït
J. Portell - 16 anys de Gaia al CESCA/CSUC 10
La creació de DPAC
• Gaia Data Processing and Analysis Consortium
(2006)
– Consorci Europeu multi‐disciplinar– Gran projecte conjunt de software
• 8 Unitats de Coordinació
(CU)– Científics i enginyers de software– Nucli de processament astromètric,
simulacions, arquitectura general,
objectes extesos i dobles,
fotometria, espectroscopia,
variabilitat, classificació
• 6 Centres de Processament de Dades
(DPC)– Centres de càlcul on ha de córrer el software implementat per les CUs
• Grup Gaia‐UB: Simulacions, Processament Inicial, Fotometria...– CESCA: Execució
de les simulacions i proves del processament inicial
J. Portell - 16 anys de Gaia al CESCA/CSUC 11
Processament diari de dades (IDT): Els inicis
• Transformació
de mesures “en brut” a dades amb significat científic
– Posicions– Brillantors– Colors– Refinament d’actitud– Monitorització
d’angle base
– Cross‐matching
• Primeres proves al CESCA (2006‐2008):– Càlcul (Java 1.5): 10 nodes
x 4 CPUs
– BD (Oracle 10g): 3 nodes
x 2 CPUs
– Fins a 26 milions d’estrelles– Fins a 44 milions de trànsits
(en 62h...)
– Algoritmes molt senzills
J. Portell - 16 anys de Gaia al CESCA/CSUC 12
Anys de preparació per IDT
• Més
funcionalitats i millors
algorismes– Reconstrucció
d’observacions realistes
– Refinament acurat d’actitud– Ús de les calibracions adequades– Determinació
de fons de cel
– Millors paràmetres d’imatge– Millor cross‐matching– Monitorització
exhaustiva
• Millores en infraestructura– Pròpia d’IDT (optimització, estabilitat)
“data‐driven”– Maquinari i programari
Intersystems Caché DB
J. Portell - 16 anys de Gaia al CESCA/CSUC 13
A punt pel Llançament
• Simulacions realistes full‐scale– TBs de dades de telemetria– Diversos dies, >50M trànsits/dia
• Proves exhaustives d’IDT– 24h
de dades processades
en 28h
...amb només 3 nodes
x 8 CPUs
(ESAC: ~8 nodes)– Proves a ESAC confirmen que
estem a punt!
J. Portell - 16 anys de Gaia al CESCA/CSUC 14
Entrem en Operacions
• Llançament: 19 de Desembre de 2013
J. Portell - 16 anys de Gaia al CESCA/CSUC 15
Les dades reals de Gaia
• El simulador
va resultar ser força acurat• IDT
va funcionar correctament des dels
primers dies de missió...però van caldre correccions i ajustos:“Patch releases”
cada 3‐4 setmanes,
cadascun amb les seves proves al CESCA.
J. Portell - 16 anys de Gaia al CESCA/CSUC 16
Monitorització de les operacions diàries
• Sistema web per comprovar el correcte funcionament de tots els sistemes (a bord i a terra)
– ...incloent algunes figures “per disfrutar”
J. Portell - 16 anys de Gaia al CESCA/CSUC 17
Gaia: Present i Futur a IEEC/UB + CESCA/CSUC
• Suport a operacions diàries
d’ESAC– Almenys fins 2019,
probablement 2024!– Proves pre‐releases IDT,
millores, anàlisis...– Darreres proves (Maig 2016):
50 milions de mesures (reals)
processades en 12h
(només 5 nodes)!
• Tasques per la Unitat de Coordinació
9
(explotació
del Catàleg)– Preparació
de les eines per l’accés als resultats de DPAC (arxiu de Gaia)
– Publicacions progressives: GDR1 prevista per Setembre 2016!– Projecte GENIUS
(FP7‐SPACE‐2013‐1), 2013‐2017
J. Portell - 16 anys de Gaia al CESCA/CSUC 18
GENIUS: Big Data amb Gaia
• CSUC: infraestructura per tasques de mineria de dades sobre Gaia (GDAF – Gaia Data Analytics Framework)
• Hardware:– 6 nodes x 96 CPUs– 4 TFLOP/s– 384 GB RAM– 72 TB disc– Exclusiu per GENIUS
• Software:– Hadoop (Cloudera 5.4.4 CDH)– Apache Spark (1.6)– HDFS (Hadoop Distributed File System), YARN (gestor de recursos),
Hadoop commons (llibreries), Spark ‘core’
+ API (Machine Learning, SQL)
• Volum actual dades simulades de Gaia (HDFS): 3,3TB– Estimació
per Operacions (~2018): desenes de TB
6 servers RSTORAGE 12D+ E5V3:• 2 x Intel Xeon™
E5‐2640v3 8 Core 2,6GHz, 22nm, 20MB, 90W• 8 x 8GB DDR4 2133MHz ECC REG• 2 x SSD Toshiba 128GB 19nm PCIe 6Gb/s MLC 7mm 19nm
NAND Flash Memory Multi‐Level Cell. 510/460MB/s. R/W
• 12 x HD 1TB, SATA 6 Gb/s 7.200 r.p.m 3,5 64MB Nearline
Enterprise Storage
J. Portell - 16 anys de Gaia al CESCA/CSUC 19
En resum
• Després de...– Més de 14 anys de preparació
de missió
– Uns 8 anys de construcció
del satèl∙lit
– 6 anys de prototipatge i 7 anys de desenvolupament
dels sistemes de processament de dades– Centenars d’astrònoms, científics i enginyers– Milions d’hores de CPU
...Gaia és una realitat!• Processament rutinari
de ~65GB
i ~50 milions de mesures
cada dia
– En bona part gràcies al CESCA/CSUC
• Primera publicació
del Catàleg (parcial) de Gaia: Setembre 2016– Preparació
dels sistemes d’explotació
de dades
Encara ens queden anys de feina!
J. Portell - 16 anys de Gaia al CESCA/CSUC 20
Gràcies per la vostra atenció!
http://gaia.ub.edu | [email protected] | GaiaApp
Finançament: MINECO – FEDER, ESP2014‐55996‐C2‐1‐R i MDM‐2014‐0369 ICCUB ('María de Maeztu'), FP7/2007‐2013 GENIUS FP7 ‐
606740