introducció a les dades obertes i altres hypes

Preview:

Citation preview

introducció a lesDADES OBERTES

i altres hypes

J. MinguillónEIMT / UOC

què és Open Data?

què és Open?

què es Data?

plural de "datum" (cosa donada)

idea: la mesura / quantitat / ...d'alguna cosa

"Qualsevol informació que facilita laformació d'una idea, d'un judici,

d'una conclusió."

piràmide D-I-K-W

"42" és una dada

"la temperatura del pacient és de42 ºC" és informació

"una febre de 42 ºC pot causardanys cerebrals" és coneixement

la saviesa és usar aquestconeixement pel bé comú

les dadesno són només

números

font: https://flic.kr/p/5A9X6P

taules, documents

wikipedia: pàgines / articles

flickr, instagram: imatges

twitter: tweets

metadades

font: https://flic.kr/p/87P3sc

Locals and Tourists

Eric Fischer

metadades de flickr

dades

=

estructura interna

x

valors possibles

atòmiques

estructurades

semi-estructurades

atòmiques

enters, reals, complexos

vectors (RGB, ...)

caràcters, cadenes

dades estructurades

tabulars: 1D, 2D, 3D, ...

jeràrquiques: tweets

relacions: grafs

dades semi-estructurades

documents (text)

pàgines web (HTML)

en resum

conèixer com són lesdades facilita la seva

manipulació posterior

què és Open?

obert com a

llibertat

font: https://flic.kr/p/6p2kFa

model de les 5 Rs

ReuseReviseRemix

Redistribute

Retain

lliure vs gratuït

https://theodi.org/blog/when-data-is-free-but-not-open

obert és una combinacióde la manca de

barreres tecnològiques

barreres legals

barrerestecnològiques

font: https://flic.kr/p/ad8i3

barreres tecnològiques

les dades han de ser

accessiblesdescarregablesmanipulables

el model de 5 estrelles

* no manipulables: pdf, tiff** propietàries: doc, ppt, xls*** formats oberts: txt, csv, json**** enllaçades: xml, rdf***** contextualitzades: xml, rdf

http://5stardata.info/en/

per ser obertes calen 3 estrelles

formats oberts

programari lliure

linked data

linked data

usar URIs per identificarusar HTTP per accedir

descriure dades amb metadadesenllaçar a dades relacionades

pensat per a màquines

exemple

<perfil id="jminguillona"> <website> https://ca.wikipedia.org/wiki/Usuari:Julià_Minguillón </website> <twitter> https://twitter.com/jminguillona </twitter> <orcid> https://orcid.org/0000-0002-0080-846X </orcid> <institució> http://www.uoc.edu </institució> ...</perfil>

perquè linked data?

extracció de dades de la webintercanvi / enriquiment de dades

construcció de coneixementcerques semàntiques

exemple: wikidata

quins són els municipisconfrontants amb Reus?

https://ca.wikipedia.org/wiki/Reus

https://www.wikidata.org/wiki/Q487096

accés a les dades

accés "estàtic"

dades en fitxers"fotografies" del passat

no definits pels usuaris finalsrepositoris de dades

consumides per humans

http://dadesobertes.gencat.cat/ca/cercador/detall-cataleg/?id=5

accés "dinàmic"

dades com un flux"fotografies" del presentparametritzades (API)

serveis onlineconsumides per aplicacions

ApplicationProgramming

Interface

https://www.programmableweb.com/category/all/apis

exemple: el Tecnoparc de Reus

equipaments (Generalitat de Catalunya)↓

geolocalització↓

API de flickr

<?xml version="1.0" encoding="UTF-8"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"xmlns:v="http://www.w3.org/2006/vcard/ns#" xml:base="http://opendata.gencat.cat/recursos/equipaments/vcard">

<v:VCard rdf:about="49176"><v:fn xml:lang="ca"><![CDATA[Tecnoparc Reus]]></v:fn><v:nickname xml:lang="ca"><![CDATA[Tecnoparc]]></v:nickname><v:adr><rdf:Description><v:street-address><![CDATA[ Av. de la Cambra de Comerç]]></v:street-address><v:locality><![CDATA[Reus]]></v:locality><v:postal-code><![CDATA[43204]]></v:postal-code><v:region><![CDATA[Baix Camp]]></v:region><v:country-name>Spain</v:country-name><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/></rdf:Description></v:adr><v:geo><rdf:Description><v:latitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">41.1591820489808</v:latitude><v:longitude rdf:datatype="http://www.w3.org/2001/XMLSchema#double">1.118734064933219</v:longitude></rdf:Description></v:geo><v:tel><rdf:Description><rdf:value><![CDATA[977 276977]]></rdf:value><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Tel"/><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Pref"/><rdf:type rdf:resource="http://www.w3.org/2006/vcard/ns#Work"/></rdf:Description></v:tel><v:category xml:lang="ca">Recerca</v:category><v:category xml:lang="ca">Parcs científics i tecnològics</v:category></v:VCard>

barreres legals

font: https://flic.kr/p/dQeTEq

barreres legals

accessible no vol dir obert

llicènciescondicions d'ús

EULAs

llicències per dades obertes

per fitxers / bases de dades

els fets no es poden registrar......però les col·leccions sí!

http://opendatacommons.org/licenses/

condicions d'ús

per dades de la webllenguatge legal

http://www.coca-colacompany.com/our-company/the-coca-cola-company-terms-of-use

EULA

End-User License Agreement

per aplicacions i serveis onlinellenguatge legal

poden ser absurdes!

https://www.eff.org/wp/dangerous-terms-users-guide-eulas

aspectes ètics

privacitatseguretat

transparència

altres aspectes a vigilar

qualitattraçabilitat

actualització

en resum

abans de publicar /reutilizar dades cal serconscients dels límits

per què open data?

per què no?

a qui pertanyen les dades?qui es/són els productors?

en molts casos, els usuaris!promouen la participació

redueixen el fraupermeten generar valor afegit

"data is the new oil" (C. Humby)

"data is the new soil" (D. McCandless)

RISP(reutilització informació sector públic)

lleis, normatives, ...certes incoherències

context legal

fonts de dades obertes

xarxes socialsscraped web data

repositorisadministració

organitzacions

exemples de repositoris

http://dadesobertes.gencat.cat

http://datos.gob.es

http://opendataday.cat/directori-portals-open-data

https://www.europeandataportal.eu

cicle de vida de lesdades obertes

les dades es...

generencapturen

emmagatzemenpreprocessen

analitzenvisualitzenpubliquen

generació

per humans / sensors / serveisen qualsevol moment / lloc

persistents / volàtilscaptura

emmagatzemamentpublicació

captura

repositorisAPIs

xarxes socialsdases de dades / logs

web scrappinghumans (captcha)

preprocessament

filtrat / selecciófusió (enriquiment)

extracció de característiquesconversió

resums / agregats

anàlisi

descriptors estadísticsinferència

no supervisat (clustering)supervisat (classificació)

importància de les variables...

visualització

anàlisi visualresums

informesdashboards

mapes / grafsinteractivitat

big data

big data

3 Vs

volumvarietatvelocitat

volum ésel nombre d'elements

mida de la mostra / població

varietat ésel nombre de valors diferents

dimensionalitat

velocitat éscom de ràpid es genera o canvia

longitudinal

altres Vs

veracitatvalor

variabilitatvisibilitat

...

exemple: Wal-Mart

(2015) 37 millions de clientscompren a Wal-Mart cada diad'una llista de 140,000 ítems

qui compra què i quan?per què?

exemple

incloure dades de contexttargetes de punts

inspecció dels productes (RFID)ús de càmeres i sensors

xarxes socials...

iniciativesopen data

sectors

turismeoci

educacióadministració

agenda oberta

civio

15mpedia

wheredoesmymoneygo?

...

contacte

jminguillona[at]uoc[dot]edu

@jminguillona

webpage

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.