Introducció a Open Data / Big Data

Embed Size (px)

Citation preview

Open / Big Data

Conceptes bsicsbones prctiquesrecursos

Juli MinguillnEIMT / UOC

Taula de continguts

Conceptes bsics

Aspectes importants

42

Organitzaci de les dades

Linked data / Big data

Cicle de vida

Bones prctiques

Recursos

Conceptes bsics

Per qu dades obertes?

Qu s obert?No noms gratuit

Qu s una dada?No noms nmeros en taules

Qu s big?

Per qu dades obertes?

Per retornar a l'usuari / ciutad el que s seu

Per transparncia administrativa

Per impulsar la participaci ciutadana

Per dotar a l'usuari de competncies bsiques

Per poder informar millor

Per promoure la innovaci oberta

Per crear coneixement compartit

Per reduir el frau cientfic

...

Obert com a llibertat

Les 4 R de David Wiley:Reutilitzar

Revisar

Remesclar

Redistribuir

Accessible Manipulable Publicable

Aspectes importants

Aspectes tecnolgics:On publicar / trobar les dades obertes

Quin s el format de les dades

Quin s el format del fitxer

Dades esttiques / dinmiques

...

Aspectes legals:Establir una llicncia

Condicions d's

Disclaimer

Aspectes legals

Les dades (com fets) no poden ser patentades

Per les colleccions poden ser protegides

Estar penjat a Internet no equival a obert

Cal aclarir / explicitar:Traabilitat: origen de les dades

Condicions d's

Privacitat: el mal exemple de AOL

Qualitat: responsabilitat sobre les dades

Es pot fer pagar per lo pblic? El cas d'AEMET

Dades

42

Dades

Dada: 42

Informaci: la temperatura del pacient s de 42 graus ( C)

Coneixement: una febre de ms de 42 C pot provocar danys cerebrals

Saviesa: no deixar arribar la febre a 42 C

Organitzaci de les dades

Estructurades:Planes: taules, longitud fixa

Jerrquiques: longitud variable (exemple: Tweet)

No estructurades:Textos

Aspectes importants:Descripci

Semntica

Compactesa

Model de Tim Berners-Lee

* Documents no manipulables: PDF, TIFF

** Manipulables en un format propietari: XLS, SPSS

*** Usar formats oberts: CSV, JSON

**** Usar estndards per descriure els elements: XML

***** Enllaar amb altres dades: RDF

Linked Data

Dades llegibles per mquines web semntica

Principis bsics (Tim Berners-Lee):Identificar l'origen de cada dada

Enllaar per afegir context i significat

Gran volum de conjunts enllaats (graf)

Consultes via SPARQL, Yahoo QL, ...

Semntica: imatges amb edificis modernistes

Exemple: flickr+dbpedia

Dades dinmiques

Accs mitjanant una API:El servidor ofereix un punt d'entrada (servei web)

S'accepten querys ben formades

Es retornen les dades en el format especificat

Limitacions:Nombre de querys / resultats per segon / en total

Potser cal un registre / autenticaci prvia

Exemples:Twitter, flickr, dbpedia, open weather, ...

Big Data (3 V)

Variables(Variety)

Mostres(Volume)

Temps(Velocity)

Exemples de (not so) Big Data (I)

La UOC:Milers d'estudiants connectats (20000 / dia)

Centenars de variables (p.e. accions)

Al llarg d'un semestre acadmic

Servei de Bicing:Mxim de 190000 usuaris (ara 100000)

6000 bicicletes / 420 estacions

1250000 usos mensuals

Exemples de Big Data (II)

Walmart:8500 botigues (4253 als USA)

90% dels usuaris a menys de 15' d'una botiga

100000000 de consumidors per setmana

Milers de productes en venda

Altres: e-bay, Amazon, VISA, ...

Dades cientfiques (LHC 25 petabytes / any)

http://www.businessinsider.com/16-walmart-factshttp://www.statisticbrain.com/wal-mart-company-statistics/

10^15

Exemples de Big Data (III)

Xarxes socials:Facebook: 1000000000 usuaris

Linkedin: 200000000 usuaris

Twitter: 500000000 usuaris20000000 usuaris fake

230000000 usuaris actius al mes, 100000000 al dia

500000000 de tweets al dia (2500 bytes / tweet)

Google (24 petabytes / dia):1170000000 usuaris fent 12900000000 cerques al mes

http://en.wikipedia.org/wiki/List_of_social_networking_websites

Qui genera dades?

UsuarisXarxes socials

CorporacionsOperadors de telefonia / proveidors Internet

Consum, mercats, borsa,

Publicacions cientfiques

Administraci

Xarxes de sensorsMeteorologia

Smart cities

Rols

Productors

Infomediadors

Consumidors

Cicle de vida de les dades obertes

GeneraciPublicaciCapturaPreprocessamentAnlisiVisualitzaci

Captura

Objectiu: obtenir les dades necessriesDades esttiques

Dades dinmiques

Servidors web: logs

Quan tot falla:Web scrapping

Crowdsourcing

Procs costs i semi-automtic (o manual)

Preprocessament

Objectiu: preparar les dades per a ser analitzadesFusi de dades de diferents origens (join)

Agregaci (group by)

Selecci de mostres / variables (filter)

Transformaci de variables (p.e. unitats)

Clcul de noves variables

Anlisi

Objectiu: extraure coneixement de les dadesDetecci de patrons

Creaci de modelsClustering

Arbres de decisi

Regles d'associaci

InterpretaciClassificaci

Predicci

Importncia de les variables

Caracteritzaci

Visualitzaci

Objectiu: representar el coneixement extretEls humans som excelents processadors visualsForma, mida, color, posici, patrons, 2D/3D,

Per som dolents fent clculs:rees, proporcions,

Afegir context / semntica:Relacions

Mapes

La visualitzaci esdev la interfcie

La visualitzaci s un altre tipus d'anlisi

Bones prctiques

Smart cities:Live London underground map

NYC runners

Transport aeri: OpenFlights

Data journalism:The World at 7 billion

Death and Taxes

Esdeveniments: Agenda oberta

...

Portals de dades obertes

Ajuntaments de Barcelona, Badalona, Sabadell, Terrassa, Cornell, ...

Generalitat de Catalunya

Open Data Euskadi

datos.gob.es

data.gov.uk

publicdata.eu

data.gov

Altres portals

UCI ML: recerca en machine learning

KDD cup: competint pel millor predictor

CKAN

World Bank Open Data

Wikidata: posant ordre

Urban Observatory: dades de grans ciutats

Visual.ly

...

Eines per a la captura

Usar les API existents

Web scrappingA pl (llenguatge de programaci)

Scraperwiki (Python / Ruby / PHP)

Yahoo Query Language

A lo pobre (inspecci HTML)

Formularis

CrowdsourcingReCAPTCHA

Papeles de Brcenas / Indultmetro / 15Mpedia

Eines per al preprocessament

Google Refine (Open Refine)

Yahoo Pipes

Llenguatges de programaciAwk Perl Python

Recursos online:Mr. Data Converter

JSON editor online

Eines per a l'anlisi

Excel / OpenOffice

Paquets estadstics:SPSS

R

Gephi (anlisi de xarxes)

Llenguatges de programaci

Llibreries: Weka, RapidMiner, Orange, ...

Recursos online: SOCR (UCLA), StatPages

Eines per a la visualitzaci

IBM ManyEyes

Excel / OpenOffice

SPSS / R

Gephi

Processing

OpenFrameworks

CSS+HTML5+DOM+Javascript D3.js

OpenStreetMap

Altres: Wordle, Twitter, ...

Esdeveniments

Big Data Week1a edici: 22-28 abril 2013, 20000+ participants

2a edici: 5-11 maig 2014

ConfernciesKDD / MLDM

VLDB

Big Data

Hackathons (exemple: Europeana)

Curs + Taller sobre dades obertes UOC

Per saber-ne ms

Open Data An introduction

Decleg Open Data

Llicncies per Open Data

Big Data:Big Data: Welcome to the Petacentre

Big Data amb Hadoop

Article a EPI

Contacte

Juli Minguilln

jminguillona[at]uoc[dot]edu@jminguillonahttp://oer.uoc.edu/cursOpenData/

CC-BY-SA (c) Juli Minguilln, 2013