26
 IEB2011 | eu.umap.eu 1  eu.umap.eu  Josu Azpillaga  

IEB2011, Umap

Embed Size (px)

DESCRIPTION

IEB2011 jardunaldietarako, Umap-en gaineko hitzaldia. By Aitzol Naberan eta Josu Azpillaga

Citation preview

   

IEB2011 | eu.umap.eu

1

 

eu.umap.eu 

Josu Azpillaga 

   

IEB2011 | eu.umap.eu

eu.umap.eu

● Ideia. Zer da umap.eu● Tresna. Nola dabil.● Emaitzak. Estatistika batzuk.● Aurrera begira. 

   

IEB2011 | eu.umap.eu

Zer da umap.eu?

   

IEB2011 | eu.umap.eu

Zer da umap.eu?

   

IEB2011 | eu.umap.eu

   

IEB2011 | eu.umap.eu

eu.umap.eu tresna... proba bat

   

IEB2011 | eu.umap.eu

eu.umap.eu. tresna

● Tuitak jasotzea, denbora errealean● Erabiltzaile euskaldun berriak harrapatzen● Hizkuntza detekzioa● Albisteak, gako­hitzak

   

IEB2011 | eu.umap.eu

Tuitak jasotzea, denbora errealean 

● Twitter. Streaming API– http://dev.twitter.com/pages/streaming_api

● Aukerak:– Location– Track (keywords)– Language and Country ­> users– Limit: eskaera berezia (50000)

● X (10) minutuz behin, eskaera berritu

   

IEB2011 | eu.umap.eu

class Client:      def __init__(self):          self.buffer = u''        self.conn = pycurl.Curl()          self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS))          self.conn.setopt(pycurl.URL, STREAM_URL)          self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values()))        self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive)          try:         self.conn.perform()        except pycurl.error, e:

        print "Error code: ", e[0]        print "Error message: ", e[1]

    def on_error(self, data):        import pdb;pdb.set_trace()        print data      def on_receive(self, data):        print data        self.buffer += data          if data.endswith("\r\n") and self.buffer.strip():              content = json.loads(self.buffer)            a = create_status_from_dic(content)            self.buffer = ""

   

IEB2011 | eu.umap.eu

Erabiltzaile euskaldun berriak harrapatzen

● Ehhhh.... algoritmo... 

● Hasteko erabiltzaile multzo batekin, nahikoa

● Garbiketa ere egiten da

● Norbanakoak bai; robotak?

● Eu... ondo; ca... ejem.

   

IEB2011 | eu.umap.eu

Hizkuntza detekzioa

● Aukera diferenteak

● Errazena? Google API !!!

● Onena? Google API!!!– http://code.google.com/apis/language/

● Lizentziak ez du baimentzen. Orduan?

   

IEB2011 | eu.umap.eu

Hizkuntza detekzioa

GuessLanguage erabiltzen dugu● LangID http://langid.net/ 

● Text cat http://odur.let.rug.nl/~vannoord/TextCat/

● LID http://web.me.com/dcavar/LID/

● Guess Language https://code.google.com/p/guess­language/

LangID Textcat LID GuessLanguage

Test 1. eu OK % 75 % 74 % 85 % 93

Test 2. eu OK % 76 % 88 % 96 % 95

   

IEB2011 | eu.umap.eu

Albisteak, gako­hitzak

● Gako­hitzak

– Hitz guztiak zenbatu eta batu– Logika

● Hitz normala: 1 point● Hash­a: 10 point● Tuit horrek link bat du: x1.1● Tuit hori retuit bat da: x1.1● ...● Aldatu liteke!

   

IEB2011 | eu.umap.eu

Albisteak, gako­hitzak

● Albisteak

– Link guztiak batu (ojo laburtzaileekin!)– x minutuz behin, aipatuenak kalkulatu– Aipatuen hoiek bisitatu eta informazio 

relebantea ekarri● OEmbed!!!!!!!!!!● HTML parserra ;­)

   

IEB2011 | eu.umap.eu

oEmbed vs HTML parser

http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN­6gdRE&format=json

{"provider_url": "http:\/\/www.youtube.com\/", "title": "BRIARD ON SCOOTER - scooting dog",

<h1 id="watch-headline-title"> <span id="eow-title" class="" dir="ltr" title="BRIARD ON SCOOTER - scooting dog"> BRIARD ON SCOOTER - scooting dog </span> </h1> <div id="watch-headline-user-info"> <a id="watch-username" class="inline-block" rel="author" href="/user/courteous1"><strong>courteous1</strong></a>

vs

   

IEB2011 | eu.umap.eu

eu.umap.eu tresna. kodea

● Kode guztia, horratx:– http://www.codesyntax.com/products

● cstwitterstatus● cstwitternews● cslanguagedetection

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk

● 2010eko urritik martxan (aurreko datuak...)● Datu orokorrak:

– Tuitak: 1.177.666 (aurrekoak beste 400.000)– eu tuitak: 151.969 (%13)– Erabiltzaileak: 2000tik gora jarraitzen. Eu 

aktiboak? 1200 inguru... gutxiago seguraski. 

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk

● eu tuiten bat egin duten erabiltzaileak, 6 hilabetean: +%60

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk● 2010/11tik hona tuit kopuruaren araberako 

erabiltzaileak

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk● 2010/11tik hona euskarazko tuit kopuruaren 

araberako erabiltzaileak

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk● 2011 / 04. Retuitak.● Tuitak (eu):  26.982● Retuitak (eu): 4.109 (%15)● Erabiltzaile retuiteatuenak (eraginkorrenak!): 

berria (225), kalaportu (126), argia (108), Sustatu (82), boligorria (75), euskalherrian (71), bildueh (57), zaldieroa (55), garanet (53), theklaneh (49), larbelaitz (48), luistxo (46), iturri (44), euskaljakintza (42), 17Korrika (41), info7irratia (40), zuzeu (40), dabidmp (36), robergutierrez (35), beaetaeneko (34), imnl (30), gaztea (30), tropela (30), teketen (29), Karrikiri (28), birasuegi (26), euskadi_irratia (25), ameslaria (25), EITBKultura (24), eitbcom (24), donostiakultura (24), ainhoaeus (24), baieuskarari (24), eguraldia (23), koldocas (23), goiena (22), zerdionk (22), hedoi_etxarte (21), jonabril (21), iPtx (21), jazpillaga (21), ueu_orokorra (20), exprai (20), GAZTEA (20), joxearanzabal (19), demonocrazy (19), IBIL2D (19), macmikel (18), kazetainfo (18), xletona (17), 

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk● 2011 / 04. Loturak.● Tuitak (eu):  26.982● Loturadunak (eu): 14.802 (%55!!!)● Hedabide(!) aipatuenak: 

eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310), zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132), etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87), otamotz.com (87), aiaraldea.com (86)

   

IEB2011 | eu.umap.eu

Emaitzak: datu batzuk● 2011 / 04. Albisteak.● Albisteak  albistegi automatikoan:  508● Nondik? 

eitb.com (49), argia.com (37), youtube.com (28), berria.info (26), gara.net (19), zuzeu.com (14), twitpic.com (12), sustatu.com (13), topatu.info (10), orekakomunikazioa.deusto.es (8), bildu.info (8), askatu.org (7), ezkerabertzalea.info (7), otamotz.com (6), bit.ly (6), ueu.org (6), hitzondo.net (6), diariovasco.com (5), askapena.org (5), ikasleabertzaleak.org (5), baisarean.org (5), feeds.feedburner.com (4), feedproxy.google.com (4), berriketan.info (4), imh.es (4), juankarh.blogspot.com (4), etxerat.info (4), elpais.com (3), euskaljakintza.com (3), albisteak.euskalherrian.info (3), eibar.org (3), bizkaie.biz (3), noticiasdegipuzkoa.com (3), flickr.com (3), imanolmurua.blogspot.com (2), deia.com (2), codesyntax.com (2), mukom.mondragon.edu (2), 

   

IEB2011 | eu.umap.eu

Aurrera begira

   

IEB2011 | eu.umap.eu

Eskerrik asko

@jazpillaga