131
Mějme Turingův stroj…

Big Social Data

Embed Size (px)

Citation preview

Page 1: Big Social Data

Mějme Turingův stroj…

Page 2: Big Social Data

Big Social Data2. 9. 2015 Josef Šlerka, malá doktorandská obhajoba Ústav informačních studií a knihovnictví

Page 3: Big Social Data

Obsah1. Nová média a sociální média

2. Data a Big Data

3. Big Social Data jako nové pole výzkumu

4. Social Network Analysis

5. Normalized Information Distance a jeho aplikace

6. Normalized Social Distance - vlastní výzkum

7. Případové studie

Page 4: Big Social Data

1. Nová a sociální média

Page 5: Big Social Data

Nová médiazákladní vymezení pole výzkumu

Page 6: Big Social Data

Nová média

V běžném diskursu se můžeme setkat s označením nová média jako se synonymem pro internet, mobilní telefony či herní konzole. (…) V obecnější rovině jsou tyto technologické artefakty spojeny s koncepty “digitálnosti, interaktivity, hypertexuality, virtuality, síťovosti a simultánnosti.”

(LISTNER, M. a kol.: New Media: a critical introduction. Routledge 2009, str. 13)

Page 7: Big Social Data

Nová média

Digitálností je třeba rozumět číselnou, digitální reprezentaci informací, která přináší nejen dematerializaci existence artefaktů, ale také umožňuje samotnou komunikaci a práci zprostředkovanou pomocí počítačů (například v internetové síti).

Interaktivnost představuje možnost postoupit od pasivní recepce k zapojení diváka či čtenáře.

Page 8: Big Social Data

Nová médiaHypertextualita odkazuje k provázání textů mezi sebou a především k nelinearnímu čtení.

Virtualita pak znamená vytváření digitálních prostředí, která umožňují různé typy teleprezence.

Síťovostí a simultánností se rozumí nejen nástup internetu, ale celkové uspořádání procesů ve společnosti.

Page 9: Big Social Data

Nová média

toto vymezení je deskriptivní

obsahuje prvky, které nejsou nutnou podmínkou (interkativita a pod.)

neposkytují dostatečné vymezení proti “starým” mediím

Page 10: Big Social Data

Manovich

Nabízí se tu přístup amerického teoretika ruského původu Lva Manoviche. Ten ve své knize The Language of New Media z roku 2001 charakterizuje nová média pomocí pěti základních atributů, které mají úzkou souvislost s informační vědou.

Page 11: Big Social Data

Manovich1. Princip číselné reprezentace - Což znamená, že každé “Novomediální dílo může být vymezeno formálně, matematicky. Například obraz nebo tvar lze popsat matematickou funkcí,” a z čehož vyplývá, že “Novomediální dílo je předmětem algoritmické manipulace. Uplatněním vhodného algoritmu můžeme například automaticky odstranit zrnitost z fotografie, vylepšit její kontrast, rozpoznat tvary nebo změnit proporce. Řečeno ve zkratce, média se stávají programovatelnými.”

Page 12: Big Social Data

Manovich

2. Princip modularity, kterou Manovich popisuje takto: "Jednotlivé prvky médií, obrazy, zvuky, tvary i jednání jsou reprezentovány jako soubory diskrétních vzorků, ať již jde o pixely, mnohoúhelníky, voxely, znaky, skripty. Na vyšší úrovni jsou tyto jednotky skládány do objektů, ale ponechávají si svojí oddělenou identitu."

Page 13: Big Social Data

Manovich

3. Princip automatizace jako další z atributů novomediálního díla vychází z číselného kódování a modulární struktury, které “umožňují automatizovat řadu operací při vytváření, manipulaci a přístupu k novým médiím. Lidská intencionalita proto může být z tvůrčího procesu alespoň částečně odstraněna.” Nejvíce viditelným je pro běžného učástníka mediálního světa efekt prohledávatelnosti obsahu, který nejlépe reprezentuje vyhledávač Google.

Page 14: Big Social Data

Manovich

4. Princip variability novomediálních artefaktů vychází z předchozích bodů. “Stará média zahrnovala lidského tvůrce, který osobně sestavoval prvky textů, obrazů nebo zvuků do určité kompozice, nebo sekvence. Tím, že byly uloženy do materiálu, je jejich souslednost pevně daná. Může být vytvořeno mnoho kopií původního originálu, které budou v souladu s logikou industriální společnosti zcela identické. Nová média jsou naopak charakteristická svou variabilitou.

Page 15: Big Social Data

Manovich5. Princip překódování kdy “Logika počítačů se vepisuje hluboko do kulturní úrovně médií již z toho důvodu, že nová média jsou vytvářena, rozšiřována, ukládána i archivována díky počítači. Způsoby, kterými počítače formují náš svět, reprezentují a zpřístupňují data, klíčové operace ovládající počítačové programy (…) zkrátka vše, co můžeme označit za ontologii, epistemologii a pragmatiku počítače, to vše ovlivňuje kulturní úroveň nových médií, jejich organizaci, nové žánry, ale také obsah.”

Page 16: Big Social Data

Předběžné poznámky

Nová média jsou charakteristická možností kopírování bez ztráty informace.

Nová média jsou často ukládána ve zkomprimované podobě (indexy v databázích, komprimační formát obrázků.)

Page 17: Big Social Data

Sociální médiapokračování základního vymezení pole výzkumu

Page 18: Big Social Data

Sociální média

Christian Fuchs upozorňuje na fakt, že nepanuje obecná shoda ohledně jejich přesného vymezení, když pojem sociální média zastřešuje jak blogy, tak tzv. social network sites (jako například Facebook), stejně jako mikroblogy (jako Twitter), různé wiki (kolektivně editované encyklopedie), ale také jiné stránky s uživatelsky generovaným obsahem nebo třeba stránky určené k sdílení obsahu.

Page 19: Big Social Data

Sociální médiaAmerická teoretička danah m. boyd říká, že principy sociálních sítí v textu Social Network Sites: Definition, History, and Scholarship umožňují:

1. vytvářet veřejné nebo poloveřejné profily uvnitř ohraničeného systému

2. vytvářet seznamy uživatelů, s nimiž jsem ve spojení prostřednictvím nějakých sociálních akcí

3. zobrazit a procházet listy těchto spojení a to nejen uživateli samotnému, ale také ostatním uživatelům

Page 20: Big Social Data

Sociální média

José van Dijck v The Culture of Connectivity navrhuje kriticky zkoumat sociální média jako techno-kulturní konstrukt a socioekonomickou strukturu tvořenou šesti základními částmi: vlastnictvím, technologiem, pravidly užívání, uživately, obchodním model a obsahem.

Page 21: Big Social Data

Sociální média

I přes různé názory na to, jak definovat sociální média jako specifický druh nových médií, se všichni autoři shodují v tom, že se jedná o virtuální prostor, ve kterém hraje zásadní roli možnost sociálních interakcí mezi uživately, a že tyto interakce mají specifický dopad na vytváření identity uživatelů, komunikačních situací a komunit.

Page 22: Big Social Data

Sociální média

Sociální média jako Facebook, Twitter či Instagram nabízejí celou řadu různých typů sociálních akcí. Na Facebooku je to kupříkladu přátelství, “to se mi líbí”, sdílení, komentář. Sociální média jsou novomediální prostředí pro masivní sociální interakci.

Vhodným frameworkem může být dramaturgická sociologie E. Goffmana.

Page 23: Big Social Data

Goffmanova teorie

Pokud chápeme chování uživatelů sociálních sítí v rámci dramaturgické sociologie, můžeme konkrétní profil uživatele a jeho sociální akce chápat jako součást osobní fasády. Z tohoto pohledu všechny prvky výstavby osobního profilu tvoří prvky fasády uživatele, které si uživatel volí s ohledem na svou osobní identitu. Volba jména, fotografie, míra nastavení soukromí, způsob vyplnění popisu a další jsou výrazem uživatelovy identity.

Page 24: Big Social Data

Goffmanova teorie

Identita sama ovšem vzniká z napětí mezi tím, jak se osoba vidí a jaké má postavení ve vztahu uvnitř skupiny a vztahů s okolím. Z pohledu strojového zpracování je výraz každé identity do značné míry možné strojově zpracovat a pokusit se v něm najít nějaké vzory.

Page 25: Big Social Data

Goffmanova teorieIlustrativním příkladem může být volba uživatelského jména na sociální síti Facebook. Jméno, respektive jeho podoba paří k informacím, které účastník získává před započetím komunikace. Zároveň je jeho volba ovlivněna velmi silně normou, kterou Facebook své uživatele zavazuje. Pravidla Facebooku zavazují uživatele k užití skutečného jména, nepoužívání speciálních symbolů, přezdívek apod. Pokud tedy uživatel toto pravidlo porušuje, dává tím jednoznačně najevo, že má nějaký problém s tímto pojetím.

Page 26: Big Social Data
Page 27: Big Social Data

Představení

Termínem představení myslí Goffman takovou činnost, "kterou jednotlivec provádí v době vyznačující se jeho trvalou přítomností ve společnosti konkrétního souboru pozorovatelů a která má na pozorovatele nějaký vliv." (Goffman str. 29). Scénou představení jsou jednotlivé stránky, skupiny či uživatelské profily a podobně, kde se interakce uskutečnují.

Page 28: Big Social Data

Představení

Z tohoto pohledu jsou sociální akce jako je postování statusů, lajkování příspěvků či jejich komentování prostředky takového představení. Uživatel má pro své představení k dispozici fasádu svého profilu, kde je možné sdílet o sobě různé informace. Sem patří kupříkladu i seznam stránek, které má označené jako oblíbené (viz Elaine Wallace, Isabel Buil a Leslie de Chernatony: Facebook ‘friendship’ and brand advocacy).

Page 29: Big Social Data

Předběžné poznámkySociální média lze vnímat jako prostor pro každodenní sebeprezentaci a jako scénu pro naše představení (interakce).

Tato jednání jsou sociální, mají intencionalitu a mohou být podrobena tradičnímu druhu výzkumu, ať již kvalitativnímu nebo kvantitativnímu.

V prostředí nových médií pak máme k dispozici záznamy těchto sociálních jednání jako data, která můžeme dále zpracovat.

Page 30: Big Social Data

2. Data (a Big Data)prvotní definice a vymezení

Page 31: Big Social Data

Data (vs informace)

"Informace je nějaká odlišnost, která vytváří rozdíl." (MacKay, 1969)

"Informace je (...) rozdíl, který dělá rozdíl." (Bateson, 1973)

"Dd datum = def. X je různé od Y, kde X a Y jsou dvě neinterpretované proměné a doména je ponechána k dalšímu výkladu." (Floridi 2011, str. 85)

Page 32: Big Social Data

Data (vs informace)

Podle Floridiho můžeme chápat data jako to, co je identické, nebo co vůbec umožňuje signál, který je pak možné symbolicky zakódovat. (Floridi 2011, str. 86)

Page 33: Big Social Data

Data (sémioticky)

“A sign, or representamen, is something which stands to somebody for something in some respect or capacity.” (Peirce)

Page 34: Big Social Data

Peirceovská typologie

znak (sign), jeho Objekt a jeho interpretant

sémiosis je činnost, která spojuje Z-O-I

sémiosis je potencionálně nekonečná

komplexní systém znaků

nejznámější ikon, index, symbol

Page 35: Big Social Data

Ikon a index

Ikon je znak, který se vztahuje k Objektu a denotuje ho jen díky svým vlastním rysům, které má bez ohledu na to, zda nějaký Objekt skutečně existuje anebo ne.

Index je znak, který se vztahuje na Objekt a denotuje ho tím, že je jím skutečně ovlivněný. Příkladem indexu je klepání na dveře.

Ikony ani indexy však nic netvrdí, nýbrž ukazují.

Page 36: Big Social Data

Symbol

Symbol je znak, který se vztahuje k Objektu a denotuje ho díky zákonu, většinou asociaci všeobecné ideje a tento zákon způsobuje interpretaci. Jinými slovy znak tu nemá vztah ani podobnosti a ani faktické souvislosti, ale jakési značky pravidla, které nám umožňuje spojení mezi jinak nespojitými věcmi.

Page 37: Big Social Data

Doplnění definiceData jsou symbolická (konvenční) vyjádření indexů skutečnosti, už obsahují určitý pohled. Ale nic neříkají.

Symboličnost je to, co umožňuje jejich uložení.

Míra konvenčnosti pak to, co umožňuje jejich komunikaci.

Rozdíl je v tomto případě působení.

Jde jen o doplnění Floridiho.

Page 38: Big Social Data

Big Datavymezení

Page 39: Big Social Data

Big Data

pojem pochází z oblasti zpracování digitálních dat

Původně: Termín "Big Data" se vztahuje na soubory dat, jejichž velikost je za schopností typických softwarových nástrojů je zachytit, ukládat, spravovat a analyzovat. (McKinsey, 2011)

Page 40: Big Social Data

Big Data - 3V a 1VDnes spíše důraz na jejich komplexnost:

volume (objem) dat narůstá exponenciálně.

velocity (rychlost) Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. (kamery, sociální sítě)

variety (různorodost, variabilnost) kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.

Page 41: Big Social Data

Big Data - 3V a 1V

veracity (věrohodnost) nejistá věrohodnost dat v důsledku jejich nekonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.

Page 42: Big Social Data

Změna cíle“small data” - obvykle byly designovány pro odpověď na nějaké konkrétní otázky, udržovaly se v agregacích

Big Data - obvykle existuje jen rámcová představa o možnostech využití, důraz je proto kladen na skladování co nejnižší granularity data

(Berman, Jules J.: Principles of big data : preparing, sharing, and analyzing complex information. 2013)

Page 43: Big Social Data

Technické důsledky

v poslední letech došlo k prudké demokratizaci v přístupu k velkým datům

levnější datové uložiště, rozvoj open source řešení pro zpracování (Hadoop, Elasticsearch aj.)

akcelerace vývoj data miningových nástrojů a statistických programů (R, Rapidminer a další)

Page 44: Big Social Data

3. Big Social Data jako nové pole Surface vs deep data

Page 45: Big Social Data

Big Social Data

Sociální média patří mezi významné producenty tzv. velký dat.

Sociální média produkují data nejen obsahová (statusy, tweety, fotografie a další), ale také značné množství formalizovaných typů informací, které vyjadřují nějaké sociální jednání nebo postoje.

Page 46: Big Social Data

Big Social DataTato perspektiva otevírá pro humanitní a sociální vědy novou perspektivu, kterou Manovich reflektuje ve svém textu Trending: The Promises and the Challenges of Big Social Data.

Prostřednictvím sociálních sítí a dalších zdrojů máme možnost přistupovat k velmi rozsáhlým záznamům o lidském chování jak do hloubky, tak do šířky. Nejsme již nuceni si vybrat mezi hloubkovým šetřením s malým počtem lidí, nebo dotazníkovým šetřením s velkým počtem respondentů.

Page 47: Big Social Data

Big Social DataThe rise of social media along with the progress in computational tools that can process massive amounts of data makes possible a fundamentally new approach for the study of human beings and society. We no longer have to choose between data size and data depth. We can study exact trajectories formed by billions of cultural expressions, experiences, texts, and links. The detailed knowledge and insights that before can only be reached about a few people can now be reached about many more people. (Manovich 2011)

Page 48: Big Social Data

4. Social Network Analysis Základní pojmy a principy

Page 49: Big Social Data

Social Network AnalysisAnalýza sociálních sítí je strategie pro výzkum sociálních struktur za využití teorie grafů.

Analýza sociálních sítí je klíčová technika v moderní sociologii.

K dispozici je celá řada nástrojů pro její provedení.

Základní text: Stanley Wasserman, Katherine Faust: Social Network Analysis - Methods and Applications

Page 50: Big Social Data

Stavební prvky grafuuzel (nodes, vertices, entities, items etc.)

vazba (ties, connections, relationships etc.)

vazby mohou mít směr případně váhu či jich může být víc

z pohledu sociologie mohou mít i kvality např. silné nebo slabé

Page 51: Big Social Data

Typologie grafů I.

Unimodal (jedna přímá vazba)

Multimodal (vícero přímých vazeb)

Affiliation (vazba prostřednictvím např. akce)

Multiplex Network (kvalitativně různé vazby)

Page 52: Big Social Data

Typologie grafů II.

Full (každý s každým)

Partial (tak nějak všichni)

Egocentric (já jsem centrum dění)

Page 53: Big Social Data

Typologie grafů III.

Centralized

Decentralized

Distributed

Page 54: Big Social Data
Page 55: Big Social Data

Co lze třeba měřitPočet hran (Degree Centrality)

Prostřednictví (Betweenness Centralities)

Blízkost (Closeness Centrality)

Hustota (Density), Dosažitelnost (Reachability)

Eigenvector Centrality

Shluky a komunity

Page 56: Big Social Data

Degree Centrality

počet přímých vazeb k dalším uzlům

měří aktivitu uzlů v síti.

uzly s vysokou hodnotou Degree Centrality jsou „spojky“ nebo „středy“ v této síti.

Page 57: Big Social Data

Closeness Centralitynejvyšší, jestliže z uzlu lze dosáhnout ke všem dalším uzlům v síti.

nejmenší hodnota součtu vzdáleností k ostatním uzlům

uzly snadno přijímají a přenášejí inovace.

uzly s vysokou mírou blízkosti středu mají velký vliv na to, co se v síti odehrává.

Page 58: Big Social Data

Betweenness - Bridgesnejvyšší pokud cesty mezi libovolnými dvěma uzly sítě vždy procházejí tímto uzlem.

měří, kolik cest mezi dvojicí uzlů prochází daným uzlem.

závora, propojení nebo zprostředkovatel rolí.

kontroluje tok informací v síti a umožňuje dobrou viditelnost všeho, co se děje v síti.

Page 59: Big Social Data

Hustota sítě

koeficient shlukování

okolí bodu či celá síť

počet hran/počet možných hran

čím vyšší číslo, tím vyšší hustota sítě

hustota = n * (n - 1) / 2

Page 60: Big Social Data

Reachability

počet uzlů dosažitelných z jedno bodu na jeden, dva či tři kroky

Page 61: Big Social Data

Eigenvector centralityLze počítat jen v neorientovaném grafu

Přidává k výsledku nejen počet vazeb uzlu, ale také počet vazeb uzlů, které mají uzly s ním spojené

Odhaluje i nepřímý vliv

Google Page Rank je varianta Eigenvector centality

Page 62: Big Social Data

Shlukování a komunity

segmentování podle vlastností

buď sdílené vlasnosti (degree)

nebo možná příslušnost do komunity

Page 63: Big Social Data

HomofilieSimilarity breeds connection. This principle — the homophily principle — structures network ties of every type, including marriage, friendship, work, advice, support, information transfer, exchange, comembership, and other types of relationship. The result is that people’s personal networks are homogeneous with regard to many sociodemographic, behavioral, and intrapersonal characteristics. Homophily limits people’s social worlds in a way that has powerful implications for the information they receive, the attitudes they form, and the interactions they experience. (Miller McPherson)

Page 64: Big Social Data

Podobnost

centrální roli homofilie a obecně možnosti počítání v sociálních sítích hraje podobnost, která je hybnou silou uspořádávání

podobnost lze ovšem formalizovat

Page 65: Big Social Data

Formální definicePodobnost (Similarity) měří jak blízko jsou jsi dvě instance. Čím “blíže” si dvě instance jsou, tím je číslo vyjadřující jejich blízkost nižší.

Nepodobnost (Dissimilarity) měří jak jsou dvě instance různé. Čím více se liší, tím je nepodobnost větší.

Vzdálenosti (Proximity/Distance) je vyjádřením je vyjádřením vzájemné podobnosti nebo nepodobnosti instancí.

Page 66: Big Social Data

Formální definice

Metrické vzdálenost (Distance metric) je specifickým případem vyjádření podobnosti instancí, které splňují následující tři podmínky, kdy d je vyjádřením vzdálenosti mezi instancemi x, y a z.

1. Minimality: d(x, y) => 0; d(x, y) = 0 iff x = y;

2. Symmetry: d(x, y) = d(y, x);

3. The triangle inequality: d(x, y) + d(y, z) ≥ d(x, z).

Page 67: Big Social Data

Formální definice

Tato vymezení samozřejmě nedefinují co podobnost je, ale jak s ní budeme zacházet jako s číselnou hodnotou a jaké vlastnosti bude mít specifické vyjádření.

Dekang Lin shrnuje tři základní intuice podobnosti v studii An Information-Theoretic Definition of Similarity takto:

Page 68: Big Social Data

Formální definiceIntuition 1: The similarity between A and B is related to their commonality. The more commonality they share, the more similar they are.

Intuition 2: The similarity between A and B is related to the differences between them. The more differences they have, the less similar they are.

Intuition 3: The maximum similarity between A and B is reached when A and B are identical, no matter how much commonality they share.

Page 69: Big Social Data

5. Normalized Information DistanceKolmogorov, Information Distance, Compression Distance, Web Distance

Page 70: Big Social Data

Kolmogorov a složitost

Teorie Kolmogorovy komplexity se snaží odpovědět na otázku “Co je nahodilý objekt?”

Představuje algoritmickou teorii informace a tvoří de facto doplněk teorie Shannona.

Page 71: Big Social Data

Složitost

Mějme k dispozici tři číselné řetězce v desítkové soustavě:

a) 3333333333

b) 3141596535

c) 84354279521

Který z nich bychom považovali za náhodný?

Page 72: Big Social Data

Složitost

Čím delší je popis postupu, který potřebujeme k popsání řetězce, tím je řetězec více komplexní. V Kolgomorově pojetí však nejde o popis v nějakém jazyce, ale existenci univerzalního počítačového stroje (Turingova stroje), který takový popis generuje, a délku tohoto programu.

Page 73: Big Social Data

Informační vzdálenost

Teorie informační vzdálenosti představuje rozšíření Kolmogorovy komplexity o myšlenku vzdálenosti mezi řetězci, respektive jejich podobnosti. Podle ní je minimální informační vzdálenost mezi dvěma instancemi (řetězce x a y) vyjádřená délkou nejkratšího programu, který transformuje jeden řetězec na druhý a naopak. Univerzální informační vzdálenost je vyjádřena pak vzorcem E(x,y) = max{K(x|y),K(y|x)}.

Page 74: Big Social Data

Informační vzdálenost

Vitányi a Cilibrasi od této myšlenky odvozují obecnou normalizovanou informační vzdálenost (normalized information distance), která by byla schopna produkovat i metrickou vzdálenost. Výsledkem je následující vzorec

Page 75: Big Social Data

NCDTeorie informační vzdálenosti je teoretická konstrukce, kterou není možné v praxi vytvořit, je totiž závislá na nespočitatelné funkci K. Je však možné použít jinou funkci, která se v reálném světě o podobnou funkčnost snaží. Těmito programy jsou dle autorů kompresní algoritmy, které mají za úkolu spočítat co největší bezztrátovou kompresi dat, tedy co největší redukci komplexit pomocí univerzálního programu.

Page 76: Big Social Data

NCD

Odpovídá to i zkušenosti, kterou máme z jejich každodenního používání. Pokud pomocí kompresního programu tzv. zabalíme dva soubory, které jsou si podobnější než jiné dva, rozdíl mezi výslednou délkou nového souboru a délkou odpovídající součtu délek původních souborů je menší.

Page 77: Big Social Data

NCD Komprese dat (také komprimace dat) je zpracování počítačových dat s cílem zmenšit jejich objem (jednotka bajt) při současném zachování informací v datech obsažených. Úkolem komprese dat je zmenšit datový tok při jejich přenosu nebo zmenšit potřebu zdrojů při ukládání informací. (Wikipedia)

Obvykle se snaží alg. nalézt opakující se sekvence znaků a vytvořit z nich slovník, který umožňuje odkaz na přesné místo.

Page 78: Big Social Data

Příklad komprese

P. Petyovský, Metody a algoritmy komprese dat. Od základních principů k aplikaci

Page 79: Big Social Data

NCDUpravený vzorec vypadá následovně:

Přičemž Z je kompresní algoritmus a x a y zůstávají řetězce určené k porovnání.

Formální důkazy Vitányiho a Cilibrase ukazují, že se jedná o plnohodnotnou distanční metriku.

Page 80: Big Social Data

NCDAutoři NCD provedli sérii testů navrženého postupu na celé řadě druhů řetězců (knihy, lidský genom, MIDI soubory), které se zdají potvrzovat univerzální charakter navrženého modelu a to včetně klasifikace heterogenních řetězců. Na vstupu v tomto experimentu byla data z genetiky, ukázky z literárních textů, MIDI soubory, binární počítačové programy a zkompilované programy ze zdrojových kodů programovacího jazky Java. Využit byl kompresní algoritmus bzip a metoda quartet clustering.

Page 81: Big Social Data
Page 82: Big Social Data

NCD

Experimenty dalších autorů potvrzují předchozí experimenty autorů, včetně předpokládané odolnosti NCD proti šumům v textu. Dále se věnují jeho dalším aplikacím například pro automatickou evaluaci strojového překladu. Další studie, za účasti autora původního týmu Paula Vitanyiho, pak sledují využití NCD při klastrování.

Page 83: Big Social Data

NCDv rámci semináře Digital Humanities provedli studenti Studia nových médií řadu experimentů, které naznačují univerzálnost postupu:

http://snm-blog.tumblr.com/post/42742243421/digital-humanities-6-complearn

http://janmarsicek.tumblr.com/post/44283514150/ncd-capek-macha-nemcova

http://jitkab.tumblr.com/post/38054898777/podobnost-seri%C3%A1l%C5%AF-podle-ncd

Page 84: Big Social Data

Normalized Web DistanceAplikace teorie informační vzdálenosti v NCD se omezuje pouze na řetězce, nikoli na ideje nebo pojmy. Proto se její autoři rozhodli příjít s metrikou, která toto omezení překračuje a tím je korpus World Wide Webu.

Podle Cilibrase je možné index vyhledávačů chápat jako uložení univerzální distribuce slov na stránkách a vyhledávač pak jako určitý druh pseudo-compressoru, který zohledňuje všechny dimenze lidského mínění.

Page 85: Big Social Data

Normalized Web DistanceVitanyi s odkazem na Shannon-Fano code a uchopení indexu korpusu jako pseudo-compressoru pak formalizuje novou metriku takto:

Kde f(x) je počet stránek obsahující x, f(x,y) je počet stránek obsahující obojí a N je počet celkově indexovaných stránek.

Page 86: Big Social Data

Normalized Web DistanceCilibrasi popisuje ve své dizertaci Statistical inference through data compression základní kontrast mezi oběma přístupy takto:

The first type is the NCD based on a literal interpretation of the data: the data is the object itself. The second type is the NGD masses of contexts expressing a large body of common-sense knowledge. It may be said that the first case ignores the meaning of the message, whereas the second focuses on it.

Page 87: Big Social Data

Normalized Web DistanceSérie experimentu provedené Cilibrasem a Vitanyim pomocí výsledků vyhledávače Google přináší v tomto ohledu velmi uspokojivé výsledky.[15] Předmětem experimentů byly názvy díla holandský malířů 17. století, názvy anglických románů, čísla a barvy a názvy Shakespearových děl. Ve všech případech dokázal postup díla správně rozdělit. Předmětem experimentu byla i rekonstrukce vazeb vyjádřených experty ve WordNetu. Zde byla přesnost mezi NGD a vazbou ve WordNetu 0.8725.

Page 88: Big Social Data

6. Normalized Social Distancevlastní aplikace informační vzdálenosti

Page 89: Big Social Data

Social DistanceV návaznosti na Goffmana můžeme říci, že identita člověka je tvořena osobní historií jeho sociálníhch jednání.Tato jednání vyjadřují jeho postoje.

Příslušnost k sociálním skupinám pak vyjadřuje určité preference a zájmy.

Sociální média jako Facebook a další nabízejí možnost analýzy takových to jednání zachycených v bi-modálních sítích.

Page 90: Big Social Data

Normalized Social Distance

Pokud NWD přináší myšlenku sémantické vrstvy informací, lze se odvážit ještě o jednu vrstvu dál a to na vrstvu pragmatickou, opírající se o množství podobností, které jednotlivé sociální skupiny tvoří. A definovat formálně metodu počítání vzdálenosti mezi dvěma sociálními skupinami.

Page 91: Big Social Data

Normalized Social DistanceFormálně vypadá takto:

Kdy f(x) je počet členů jedné subskupiny, f(y) je počet druhé subskupiny, f(x,y) vyjadřuje počet členů obou skupin a N je celkový počet členů skupiny.

Page 92: Big Social Data

Normalized Social Distance

Takto formálně vyjádřená vzdálenost by měla být schopna měřit vzdálenost libovolných dvou sociálních subskupin, které jsou zastřešeny jednotnou skupinou.

Kupříkladu v případě bimodální sítě navštěvníků místních restaurací na malém městě by takto šla počítat bízkost sociální blízkosti podniků.

Page 93: Big Social Data

Normalized Facebook Distance (NFD)NSD je ovšem metrika univerzální, kterou je možné přizpůsobit pro data ze sociálních sítí. V následujících případových studiích jsem ji aplikoval na případě sociální sítě Facebook v upravené podobě jako Normalized Facebook Distance (NFD), která počítá blízkost jednotlivých stránek na základě průniku jejich zapojených fanoušků.

Page 94: Big Social Data

NFD

Pokud chápeme popis uživatele de facto jako síť rozdílu v preferovaných stránkách, nabízí se možnost nejen věnovat se celkové charakteristice fanoušků prostřednictvím distančního modelu, ale také jejich podrobnější charakteristice, přesněji nalezení zřetelně odlišených subskupin.

Page 95: Big Social Data

NFD

Takováto matice je v podstatě bimodální sítí s relativně nízkou hustotou, zároveň ale může být podrobena některým klasickým exploračním technikám, jako je hierarchický klastering, multidimensionalní scaling či analýza základních komponent (PCA).

Page 96: Big Social Data

NFD

Pro průzkum takových matic jsem vytvořil aplikace Facebook profiling, který má na vstupu dva soubory. První je tabulka s distančním modelem fanoušků a druhým pak binární matice obsahující na řádcích ID uživatelů a ve sloupcích pak stránky, v nichž se fanoušci zkoumané stránky nejčastěji zapojují svým like.

Page 97: Big Social Data

7. Případové studieAplikace Normalized Social Distance v prostředí sociální sítě Facebook

Page 98: Big Social Data

Případové studie

Dělnická strana sociální spravedlnosti na českém Facebooku

Segment Beauty na českém Facebooku

Politické strany na českém Facebooku

Page 99: Big Social Data

Dělnická stranaukázka možností práce s maticí vzdáleností

Page 100: Big Social Data

DSSS

Stránka Dělnické strany sociální spravedlnosti, která je považována za tolerovanou formu neonacismu na české politické scéně. Minimální hranici pro průnik jsem v našem případě stanovili na 5% a blízkost menší než 0.7. V našem případě se jedná o data ze začátku roku 2014.

Distanční model stránky fanoušků aktivních na stránkách vypadá takto:

Page 101: Big Social Data
Page 102: Big Social Data
Page 103: Big Social Data
Page 104: Big Social Data
Page 105: Big Social Data

Segment BeautyShluky na základě NFD, profilace segmentu a analýza sdílených odkazů

Page 106: Big Social Data
Page 107: Big Social Data
Page 108: Big Social Data
Page 109: Big Social Data
Page 110: Big Social Data
Page 111: Big Social Data
Page 112: Big Social Data
Page 113: Big Social Data
Page 114: Big Social Data
Page 115: Big Social Data
Page 116: Big Social Data
Page 117: Big Social Data

Analýza sdílení

Pokud platí, že uživatelé patří do stejného klastru na základě blízkosti, pak by se tato blízkost měla projevit i v tom, co aktivně sdílí na svých stránkách, protože se de facto jedná o jinou podobu jejich sebeprezentace.

Nasledující grafy ukazují segmentaci stránek na základě síťového grafu nejčastěji sdílených odkazů na osobních stránkách aktivních uživatelů stránek.

Page 118: Big Social Data
Page 119: Big Social Data
Page 120: Big Social Data
Page 121: Big Social Data
Page 122: Big Social Data
Page 123: Big Social Data
Page 124: Big Social Data

Politické stranyKorelace mezi vztahem politických stran na Facebooku a během voleb do Evropského parlamentu

Page 125: Big Social Data

Předvolební mapa do PSP z roku 2013

Page 126: Big Social Data

Předvolební mapa do EU parlamentu z roku 2014

Page 127: Big Social Data

korelace stran na základě volebních výsledků v okrscích nad 5.000 obyvatel.

Page 128: Big Social Data

Vzájemná korelace

Pokud facebookové mapy blízkosti skutečně odráží realitu podobnosti stran, měly by korelovat se vzájemnou korelací výsledků stran z voleb.

Na vstupu máme tedy dvě matice. Jednu se vzájemnou vzdáleností stránek politických stran na Facebooku a druhou s korelacemi stran na základě volebních výsledků v okrscích nad 5.000 obyvatel.

Page 129: Big Social Data

Vzájemná korelace

Čím lépe odráží mapa z Facebooku reálný svět, tím by měla být korelace s korelační maticí z reálných voleb nižší (maximálně provázaný vztah vyjadřuje hodnota -1). Naopak hodnota 0 vyjadřuje naprostou nezávislost a data z Facebooku by pak neměla žádný vztah k offline světu

A skutečně: pro Českou republiku vyšla korelace -0.71 což je na sociální vědy číslo nebývale dobré. Pro Polsko: - 0.79, pro Slovensko: -0.67 a pro Německo: 0.7

Page 130: Big Social Data

7. Závěrshrnutí a diskuse

Page 131: Big Social Data

Děkuji za pozornosta diskuse…