Download pdf - ANALIZA ZNANJ IN SPOSOBNOSTI PODATKOVNIH … · za katero je značilen visok nivo informacijske intenzitete v vsakodnevnem življenju posameznikov, organizacij in delovnih mest s

UNIVERZA V LJUBLJANI

EKONOMSKA FAKULTETA

MAGISTRSKO DELO

ANALIZA ZNANJ IN SPOSOBNOSTI PODATKOVNIH

ZNANSTVENIKOV V SLOVENIJI

Ljubljana, september 2016 MATEJA GROBELNIK

IZJAVA O AVTORSTVU

Podpisana Mateja Grobelnik, študentka Ekonomske fakultete Univerze v Ljubljani, avtorica predloženega

dela z naslovom Analiza znanj in sposobnosti podatkovnih znanstvenikov v Sloveniji, pripravljenega v

sodelovanju s svetovalcem red. prof. dr. Jurijem Jakličem.

IZJAVLJAM

1. da sem predloženo delo pripravila samostojno;

2. da je tiskana oblika predloženega dela istovetna njegovi elektronski obliki;

3. da je besedilo predloženega dela jezikovno korektno in tehnično pripravljeno v skladu z Navodili za

izdelavo zaključnih nalog Ekonomske fakultete Univerze v Ljubljani, kar pomeni, da sem poskrbela, da

so dela in mnenja drugih avtorjev oziroma avtoric, ki jih uporabljam oziroma navajam v besedilu,

citirana oziroma povzeta v skladu z Navodili za izdelavo zaključnih nalog Ekonomske fakultete

Univerze v Ljubljani;

4. da se zavedam, da je plagiatorstvo – predstavljanje tujih del (v pisni ali grafični obliki) kot mojih lastnih

– kaznivo po Kazenskem zakoniku Republike Slovenije;

5. da se zavedam posledic, ki bi jih na osnovi predloženega dela dokazano plagiatorstvo lahko predstavljalo

za moj status na Ekonomski fakulteti Univerze v Ljubljani v skladu z relevantnim pravilnikom;

6. da sem pridobila vsa potrebna dovoljenja za uporabo podatkov in avtorskih del v predloženem delu in jih

v njem jasno označila;

7. da sem pri pripravi predloženega dela ravnala v skladu z etičnimi načeli in, kjer je to potrebno, za

raziskavo pridobila soglasje etične komisije;

8. da soglašam, da se elektronska oblika predloženega dela uporabi za preverjanje podobnosti vsebine z

drugimi deli s programsko opremo za preverjanje podobnosti vsebine, ki je povezana s študijskim

informacijskim sistemom članice;

9. da na Univerzo v Ljubljani neodplačno, neizključno, prostorsko in časovno neomejeno prenašam pravico

shranitve predloženega dela v elektronski obliki, pravico reproduciranja ter pravico dajanja predloženega

dela na voljo javnosti na svetovnem spletu preko Repozitorija Univerze v Ljubljani;

10. da hkrati z objavo predloženega dela dovoljujem objavo svojih osebnih podatkov, ki so navedeni v njem

in v tej izjavi.

V Ljubljani, dne 12.9.2016 Podpis študentke:_________________

i

KAZALO

UVOD ................................................................................................................................... 1

1 MASOVNI PODATKI IN ZNANOST O PODATKIH.............................................. 3

1.1 Uvod v masovne podatke in znanost o podatkih ....................................................... 3

1.2 Opredelitve masovnih podatkov ................................................................................ 7

1.3 Dimenzije masovnih podatkov .................................................................................. 9

1.3.1 Volumen podatkov ............................................................................................. 9

1.3.2 Hitrost pridobivanja podatkov ......................................................................... 11

1.3.3 Raznolikost podatkov ....................................................................................... 12

1.3.4 Vrednost podatkov ........................................................................................... 16

1.3.5 Masovni podatki v ožjem in širšem smislu ...................................................... 16

1.4 Znanost o podatkih .................................................................................................. 18

1.4.1 Opredelitev znanosti o podatkih ...................................................................... 18

1.4.2 Opredelitev podatkovnih znanstvenikov .......................................................... 20

1.4.3 Proces izvajanja znanosti o podatkih ............................................................... 21

1.5 Uporaba masovnih podatkov in znanosti o podatkih............................................... 24

1.6 Vpliv masovnih podatkov in znanosti o podatkih na uspešnost organizacije ......... 26

1.7 Vloga in pomen podatkovnih znanstvenikov v organizacijah ................................. 30

1.8 Povpraševanje po podatkovnih znanstvenikih ......................................................... 33

2 ZNANJA IN SPOSOBNOSTI PODATKOVNIH ZNANSTVENIKOV ................ 36

2.1 Podatkovni znanstveniki .......................................................................................... 36

2.2 Opredelitev znanj in sposobnosti podatkovnih znanstvenikov................................ 42

2.3 Znanja in sposobnosti podatkovnih znanstvenikov ................................................. 48

2.3.1 Izhodišča za kategorizacijo znanj in sposobnosti podatkovnih znanstvenikov 48

2.3.2 Znanstvena metoda .......................................................................................... 49

2.3.3 Programiranje ................................................................................................... 50

2.3.4 Management podatkov ..................................................................................... 53

2.3.5 Baze podatkov .................................................................................................. 55

2.3.6 Statistika ........................................................................................................... 57

2.3.7 Matematika ....................................................................................................... 60

2.3.8 Strojno učenje .................................................................................................. 61

2.3.9 Domenska znanja ............................................................................................. 63

2.3.10 Sposobnosti podatkovnih znanstvenikov ......................................................... 64

2.4 Pridobivanje znanj in sposobnosti podatkovnih znanstvenikov .............................. 67

2.5 Znanja in sposobnosti podatkovnih znanstvenikov v tujini (druge raziskave) ........ 71

2.5.1 Raziskava Harrisa, Vaismana & Murphya o identifikaciji različnih vlog

podatkovnih znanstvenikov .............................................................................. 71

2.5.2 Raziskava Hayesa o znanjih in sposobnostih podatkovnih znanstvenikov ter

delovanju v timih ............................................................................................. 75

ii

2.5.3 Raziskava Swana o sposobnostih, vlogah in karierni strukturi podatkovnih

znanstvenikov .................................................................................................. 79

3 RAZISKAVA O ZNANJIH IN SPOSOBNOSTIH PODATKOVNIH

ZNANSTVENIKOV V SLOVENIJI ......................................................................... 81

3.1 Izhodišča in namen raziskave .................................................................................. 81

3.2 Raziskovalna vprašanja ........................................................................................... 81

3.3 Metodologija raziskave ........................................................................................... 84

3.3.1 Zbiranje podatkov ............................................................................................ 84

3.3.2 Metode obdelave podatkov .............................................................................. 86

4 REZULATI RAZISKAVE IN DISKUSIJA ............................................................. 91

4.1 Značilnosti vzorca ................................................................................................... 91

4.2 Rezultati raziskave po vprašanjih ............................................................................ 92

4.2.1 Masovni podatki .............................................................................................. 92

4.2.2 Samoocena znanj ............................................................................................. 98

4.2.3 Pomembnost znanj ......................................................................................... 100

4.2.4 Pomembnost sposobnosti ............................................................................... 101

4.2.5 Pretekle izkušnje in izobraževanje ................................................................. 103

4.3 Razvrščanje v skupine ........................................................................................... 105

4.3.1 Razvrščanje na podlagi samoocene znanj ...................................................... 105

4.3.2 Razvrščanje na podlagi pomembnosti znanj in sposobnosti .......................... 106

4.4 Diskusija ................................................................................................................ 107

4.5 Omejitve raziskave ................................................................................................ 131

SKLEP .............................................................................................................................. 132

LITERATURA IN VIRI ................................................................................................. 139

PRILOGE

KAZALO TABEL

Tabela 1: 25 zaželjenih znanj in sposobnosti iz leta 2014 (LinkedIn) ................................. 35

Tabela 2: Seznam znanj iz raziskave Harris-a, Murphy-a & Vaisman-a ............................. 45

Tabela 3: Klasifikacija odgovorov in dimenzije raznolikosti podatkov .............................. 94

Tabela 4: Raznolikost podatkov glede na dimenzijo (n = 92).............................................. 95

Tabela 5: Identifikacija porazdelitev oziroma vzorca znanj na podlagi koeficienta

asimetrije in koeficienta sploščenosti (n = 92) .................................................. 129

KAZALO SLIK

Slika 1: Pojavljanje ključnih besed »big data« in »data science« v Googlovi bazi

podatkov literature ................................................................................................... 6

iii

Slika 2: Spletno iskanje preko iskalnika Google ključnih besed »big data« in »data

science« in »data scientist« po letih ........................................................................ 7

Slika 3: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega

nabora podatkov (2013–2015)............................................................................... 10

Slika 4: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega

nabora podatkov po geografskih področjih (2015) ............................................... 11

Slika 5: Povprečno ocenjeni % podatkov glede na to ali so pridobljeni iz notranjih ali

zunanjih virov ........................................................................................................ 12

Slika 6: Strukturirani in nestrukturirani podatki .................................................................. 13

Slika 7: Povprečno ocenjeni % podatkov glede na njihovo strukturiranost ........................ 14

Slika 8: Ogrodje za opredelitev raznolikost podatkov ........................................................ 15

Slika 9: Kriteriji za opredelitev masovnih podatkov po IDC .............................................. 17

Slika 10: Proces izvajanja znanosti o podatkih ................................................................... 21

Slika 11: Ogrodje za management informacij ..................................................................... 30

Slika 12: Integracija masovnih podatkov v tradicionalno IT arhitekturo ............................ 32

Slika 13: Število delovnih mest iz področja znanosti o podatkih po Evropi ....................... 34

Slika 14: Faze v življenjskem ciklu vrednosti podatkov v povezavi s ključnimi tipi

podatkovnih znanstvenikov ................................................................................... 37

Slika 15:Znanja in sposobnosti glede na različne vloge za učinkovito sodelovanje med

oddelkom informatike in podatkovnimi znanstveniki ........................................... 40

Slika 16: Človeške zmožnosti v širšem smislu .................................................................... 42

Slika 17: Conway-ev Vennov diagram potrebnih znanj podatkovnih znanstvenikov......... 43

Slika 18: Znanja in sposobnosti podatkovnih znanstvenikov po OECD (2015) ................. 44

Slika 19: Kombinacija kategorij znanj in kategorij skupin za samoidentifikacijo .............. 74

Slika 20: Samoocena znanj in sposobnosti sodelujočih v raziskavi (n=490) ...................... 76

Slika 21: Samoocena svoje vloge v organizaciji (n=490) ................................................... 77

Slika 22: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji

(n=490) .................................................................................................................. 77

Slika 23: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji –

izbrali samo 1 vlogo (poslovni manager n = 65, razvijalec n = 47, kreativec n =

25, raziskovalec n = 101) ...................................................................................... 78

Slika 24: Postopek razvrščanja v skupine............................................................................ 89

Slika 25: Struktura vzorca po spolu, starosti, smeri in stopnji izobrazbe (n = 92) .............. 92

Slika 26: Največja obdelana količina/volumen podatkov (n = 92) ..................................... 93

Slika 27: Raznolikost podatkov (n = 92) ............................................................................. 94

Slika 28: Razvrščanje anketirancev glede na izbrano raznolikost podatkov (n = 92) ......... 96

Slika 29: Vrednost podatkov (n = 92) ................................................................................. 97

Slika 30: Povprečne ocene samoocene znanj (n = 87–91) .................................................. 99

Slika 31: Povprečne ocene pomembnosti znanj (n = 84–91) ............................................ 101

Slika 32: Povprečne ocene pomembnosti sposobnosti (n = 90–92) .................................. 102

Slika 33: Izkušnje (n = 89) ................................................................................................ 103

Slika 34: Izobraževanje (n = 92) ....................................................................................... 104

iv

Slika 35: Identificirane skupine samoocena znanj v primerjavi z identificiranimi

skupinami na podlagi pomembnosti znanj in sposobnosti (n = 65) ..................... 118

Slika 36: Identificirane skupine glede na stopnjo izobrazbe – Samoocena znanj (n = 83) 121

Slika 37: Identificirane skupine glede na smer izobrazbe – Samoocena znaj (n = 83) ..... 122

Slika 38: Identificirane skupine glede na spol – Samoocena znanj (n = 83) .................... 123

Slika 39: Identificirane skupine glede na izkušnje – Samoocena znanj (n = 83) ............... 124

Slika 40: Identificirane skupine glede na izobraževanje – Samoocena znanj (n = 83) ..... 125

Slika 41: Identificirane skupine glede na obdelane količine podatkov – Samoocena

znanj (n = 83) ....................................................................................................... 126

Slika 42: Identificirane skupine glede na raznolikost podatkov – Samoocena znanj

(n = 83) ................................................................................................................. 127

Slika 43: Identificirane skupine glede na koristi dela s podatki – Samoocena znanj

(n = 83) ................................................................................................................. 128

Slika 44: Porazdelitve znanj po izbranih anketirancih – Samoocena znanj ....................... 130

Slika 45: Identificirane skupine glede na porazdelitev znanj – Samoocena znanj

(n = 83) ................................................................................................................. 131

1

UVOD

Napredek na področju informacijske tehnologije in komunikacij je spremenil naš način

življenja, način kako delujemo in poslujemo, kako se izobražujemo, raziskujemo in kako

se zabavamo (Gams, 2008). Postali smo t. i. informacijska družba, v kateri je ustvarjanje,

distribucija in manipulacija informacij postala najbolj značilna ekonomska in kulturna

aktivnost (Gams, 2008). IBM (INSINC, 1997) definira informacijsko družbo kot družbo,

za katero je značilen visok nivo informacijske intenzitete v vsakodnevnem življenju

posameznikov, organizacij in delovnih mest s pomočjo uporabe tehnologij za široko

področje osebnih, družbenih, izobraževalnih in poslovnih aktivnosti ter s sposobnostjo

hitrega prenosa, zajema in izmenjave digitalnih podatkov med različnimi viri ne glede na

razdaljo. Da bi lahko vse zbrane podatke organizacije spremenile v konkurenčno prednost,

potrebujejo nove stile vodenja, novo kulturo sprejemanja odločitev ter nova znanja in

sposobnosti (McAfee & Brynjolfsson, 2012, str. 59). Podatkovna naravnanost organizacij

(angl. data-driven) sicer ni nov koncept, saj organizacije že od nekdaj uporabljajo merjenje

in podatke za izboljšanje poslovnih odločitev. Vendar pa tehnološke zmožnosti zbiranja in

obdelovanja ogromne količine strukturiranih in nestrukturiranih podatkov zahtevajo bolj

poglobljeno strategijo uvedbe masovnih podatkov (angl. big data) in znanosti o podatkih

(angl. data science) v organizacije. Revolucija masovnih podatkov in znanosti o podatkih

je veliko močnejša od analitike, ki se jo je uporabljalo v preteklosti. Sedaj lahko namreč

organizacije merijo bolj natančno kot kdaj koli prej. Lahko delajo boljše napovedi in

sprejemajo pametnejše odločitve. Lahko postavijo uspešnejše cilje na področjih, na katerih

so do sedaj prevladovale odločitve na podlagi občutka in intuicije, kot pa na podatkih

(McAfee & Brynjolfsson, 2012, str. 62).

Če so se na eni strani povečale možnosti zbiranja in shranjevanja podatkov, so se po drugi

strani razvile tudi nove tehnologije na področju strojne in programske opreme za analizo in

obdelavo večje količine podatkov. Skupaj z razvojem tega področja se je pojavila potreba

po specifičnih znanjih, s pomočjo katerih je mogoče iz velike količine različnih podatkov

pridobiti uporabne informacije za izboljšanje poslovnih odločitev. Splošna analitika in

koncept Druckerja in Deminga »Tistega kar ne meriš, ne moreš nadzirati« (McAfee &

Brynjolfsson, 2012, str. 62) se v organizacijah uporablja že dolgo, vendar pa je do sedaj

analitika bila omejena na obvladljive količine bolj ali manj strukturiranih podatkov s

pomočjo splošno sprejetih analitičnih orodij. Pri uvajanju strategije masovnih podatkov in

znanosti o podatkih je ključnega pomena učinkovit management sprememb (McAfee &

Brynjolfsson, 2012, str. 62). Kot enega glavnih izzivov pri uvajanju strategije masovnih

podatkov in znanosti o podatkih se izpostavlja pomanjkanje posameznikov s specifičnimi

znanji in sposobnostmi ustvarjanja dodane vrednosti s pomočjo manipulacije s podatki. Na

podlagi te potrebe po novih znanjih s področja analitike masovnih podatkov se povečuje

povpraševanje po podatkovnih znanstvenikih (angl. data scientists).

2

Namen magistrskega dela je na podlagi literature in že izvedenih raziskav na področju

masovnih podatkov in znanosti o podatkih boljše razumeti ter opredeliti znanja in

sposobnosti podatkovnih znanstvenikov, s pomočjo raziskave med podatkovnimi

znanstveniki v Sloveniji pa ugotoviti trenutna znanja in sposobnosti ter s pomočjo

primerjave podati smernice razvoja na tem področju v Sloveniji.

Identificirala sem tri področja, na katerih vidim prednosti izvedbe takšne raziskave v

Sloveniji. Z boljšim pregledom trenutnega stanja znanj, sposobnosti in identifikacijo

različnih segmentov podatkovnih znanstvenikov v Sloveniji bi, kot prvo, omogočili

identifikacijo ustrezne terminologije, povezane z različnimi potrebami/vlogami

podatkovnih znanstvenikov v organizacijah. Organizacijam bi tako omogočili, da ustrezno

identificirajo potrebe, znanja, sposobnosti in vloge podatkovnih znanstvenikov ter te

potrebe ustrezno komunicirajo navzven pri iskanju kadrov. S tem lahko zmanjšajo stroške

iskanja ustreznih kadrov. Pravilno definirane vloge pripomorejo tudi pri sistematizaciji

delovnih mest ter pri definiciji razvoja karierne poti zaposlenega podatkovnega

znanstvenika. Zadovoljstvo z delovnim mestom in razvojem karierne poti bo na ta način

motivator za dolgoročno razmerje med zaposlenim in organizacijo. Kot drugo, bodo lahko

posamezni podatkovni znanstveniki dobili vpogled v stanje svojih znanj in sposobnosti. S

tem bodo lahko identificirali svoje konkurenčne prednosti kot tudi izboljšali znanja in

sposobnosti na področjih, ki so mogoče slabše zastopana. V komunikaciji z organizacijami

bodo tudi lažje prepoznali primernost delovnega mesta in si prihranili čas in stroške pri

prijavi na delovna mesta, za katera mogoče ne ustrezajo. In nenazadnje bo raziskava

omogočala ponudnikom izobraževalnih storitev (fakultete, ustanove, organizacije), da

lahko ponudijo ustrezna znanja za zadovoljitev potreb posameznikov in organizacij po

izobraževanjih podatkovnih znanstvenikov.

Cilj magistrskega dela je s pomočjo raziskave med slovenskimi podatkovnimi znanstveniki

oziroma posamezniki, ki se ukvarjajo s podatki, identificirati trenutna znanja in

sposobnosti ter z uporabo metod multivariantne analize identificirati segmente

podatkovnih znanstvenikov v Sloveniji. Na podlagi rezultatov raziskave ter primerjave z

raziskavami, narejenimi v tujini, bom skušala ovrednotiti trenutna znanja in sposobnosti

podatkovnih znanstvenikov v Sloveniji ter na podlagi tega podala priporočila za razvoj

ustreznih sposobnosti in znanj podatkovnih znanstvenikov v prihodnosti.

Identificirala sem naslednja vprašanja, na katera želim v okviru magistrskega dela

odgovoriti:

Kdo so podatkovni znanstveniki in v čem se podatkovni znanstveniki razlikujejo od

podatkovnih analitikov (če se)?

Kakšni so trendi na področju masovnih podatkov in znanosti o podatkih ter kako

pripomorejo k uspešnosti organizacije?

Kakšna je vloga podatkovnih znanstvenikov v organizaciji?

3

Katera so potrebna znanja in sposobnosti podatkovnega znanstvenika in kako jih

pridobijo?

Kakšna so trenutna znanja in sposobnosti podatkovnih znanstvenikov v Sloveniji?

Na kakšen način posamezniki v Sloveniji trenutno pridobijo znanja, potrebna za delo

kot podatkovni znanstveniki?

Katere skupine podatkovnih znanstvenikov obstajajo v Sloveniji glede na njihova

znanja in sposobnosti ter kakšne so značilnosti ter razlike med njimi?

Ugotoviti v čem se identificirane skupine v Sloveniji razlikujejo v primerjavi s

skupinami, identificiranimi v tujih raziskavah?

Kakšna so priporočila ter ključne spremembe, potrebne za razvoj tega področja v

Sloveniji?

Magistrsko delo je sestavljeno iz štirih poglavij. V prvem poglavju je predstavljen koncept

masovnih podatkov in znanosti o podatkih. V sklopu razumevanja obeh konceptov sem

opredelila podatkovne znanstvenike in prikazala proces izvajanja znanosti o podatkih ter

različne primere uporabe. V prvem poglavju je prikazan tudi vpliv navedenih konceptov na

uspešnost organizacij ter izpostavljeni problemi pri vključevanju masovnih podatkov in

znanosti podatkov v strategijo organizacije, med katerimi je tudi pomanjkanje

posameznikov z ustreznimi znanji in sposobnostmi. Poglavje sem zaključila s prikazom

povpraševanja po podatkovnih znanstvenikih. V drugem poglavju sem opredelila znanja in

sposobnosti podatkovnih znanstvenikov. V uvodu poglavja sem najprej prikazala

kompleksnost vlog in posameznikov, ki se ukvarjajo z znanostjo o podatkih ter

problematiko razlikovanja med njimi. V nadaljevanju pa sem bolj konkretno opredelila

znanja in sposobnosti podatkovnih znanstvenikov, ki so bila uporabljena pri oblikovanju

vprašalnika. V drugem poglavju sem opredelila različne možnosti pridobivanja znanj in

sposobnosti ter predstavila rezultate drugih raziskav v povezavi z znanji in sposobnostmi

podatkovnih znanstvenikov. Tretje poglavje vključuje zasnovo, raziskovalna vprašanja,

metodologijo in izvedbo raziskave o znanjih in sposobnostih podatkovnih znanstvenikov v

Sloveniji. V četrtem poglavju so predstavljene značilnosti vzorca, rezultati raziskave po

raziskovalnih vprašanjih, potek razvrščanja v skupine ter diskusija.

1 MASOVNI PODATKI IN ZNANOST O PODATKIH

1.1 Uvod v masovne podatke in znanost o podatkih

Posamezniki in organizacije z vsakodnevnim delovanjem danes ustvarimo več podatkov

kot kadar koli do sedaj. Kot je rekel Eric Schmidt, izvršni direktor organizacije Google,

vsake dva dni ustvarimo toliko podatkov, kot smo jih v celotni zgodovini človeštva pa vse

do leta 2003 (Siegler, 2010). To naj bi znašalo kar 5 eksabajtov podatkov (Siegler, 2010).

Za merjenje velikosti baz podatkov tako že dolgo ni več dovolj samo uporaba gigabajtov (v

nadaljevanju GB), terabajtov (v nadaljevanju TB), temveč se velikosti podatkov merijo v

4

petabajtih (v nadaljevanu PB), eksabajtih (v nadaljevanju EB), zetabajtih (v nadaljevanju

ZB) ter jotabajtih (v nadaljevanju JB) (Nickyinthecoluds, 2015). McKinsey Global Institute

(Manyika et al., 2011, str. 5) ocenjuje, da so organizacije v letu 2010 globalno shranile več

kot 7 EB novih podatkov, medtem ko so uporabniki shranili več kot 6 EB podatkov. Prav

tako vsako minuto na portalu Google opravimo 2 milijona iskanj, na portal YouTube

naložimo za 72 ur videoposnetkov, pošljemo 204 milijonov elektronskih sporočil,

ustvarimo 1,8 milijona Facebook všečkov, pošljemo 278.000 tweetov in ustvarimo 571

novih spletnih strani (Qmee, 2015). Podatki nastajajo povsod: na družbenih medijih (angl.

social media) kot so Twitter, Facebook, LinkedIn, Instagram itd., spletnih straneh, ob

izvedbi nakupnih transakcij, ob aktivaciji GPS signalov mobilnih telefonov, z uporabo

RFID značk, na mobilnih aplikacijah in prav vse te podatke je mogoče shraniti v digitalni

obliki.

Podatki (angl. data) izvirajo iz latinske besede »datum«, ki pomeni »dana stvar« (angl. »a

thing given«) (Stanton, 2013, str. 8). Kljub temu, da se izraz »podatek« uporablja že od leta

1500 naprej, se je moderna uporaba začela šele v letih 1940 in 1950, ko so elektronski

računalniki začeli sprejemati in obdelovati podatke (Stanton, 2013, str. 8). Gonilna sila

napredka na področju zajema, shranjevanja in obdelave podatkov temelji na osnovnih

zakonih iz področja računalništva ter tehnološkega napredka informacijske družbe. V

nadaljevanju navajam nekaj najbolj relevantnih:

Moorov zakon, ki pravi, da se procesorska moč računalnikov podvoji na vsake dve leti

oziroma bolj podrobno, da se število tranzistorjev na centralno procesni enoti (CPE)

podvoji vsake dve leti. Z naraščanjem števila tranzistorjev na CPE to pomeni tudi večjo

učinkovitost in hitrost delovanja. Leta 2000 je na primer število tranzistorjev na CPE

znašalo 37,5 milijonov, leta 2009 pa že 904 milijonov (Moorov zakon, 2015). Danes

ponudniki centralno procesnih enot vgrajujejo tranzistorje v velikosti 14 nm. V avgustu

2015 pa je IBM razvil čip, kjer so tranzistorji postavljeni v velikosti 7 nm, kar naj bi

Moorov zakon ponovno vzpostavilo kot vzdržen (Here's why IBM's new computer chip

matters, 2015).

Metcalfov zakon, ki pravi, da je vrednost omrežja (W) proporcionalna s kvadratom

števila vozlišč/uporabnikov (n). Z naraščanjem velikosti omrežja njena vrednost raste

eksponentno (W = n2), dokler stroški omrežja ostajajo enaki ali pa se zmanjšujejo.

Zakon je sprva veljal za telekomunikacijska omrežja in naprave, danes pa se uporablja

tudi v družbenih medijih. Večje kot je število uporabnikov družbenega medija, večjo

vrednost ima družbeni medij za skupnost. (Metcalfe’s Law, 2015).

Sidgemorov zakon, ki definira rast omrežnega prometa. Zakon pravi, da se promet

preko omrežij podvoji vsake tri mesece: Promet (nov) = Promet (star) * 2 (Jin, Li,

Zhang, Cheng, Yu, Noguchi, 2002, str. 60).

Andreesenov zakon, ki pravi, da stroški pasovne širine oziroma prenosne

zmogljivosti omrežja padajo eksponentno in so obratno sorazmerni s Sidgemorovim

5

zakonom: Stroški (novi) = Stroški (stari) * ½ (Jin, Li, Zhang, Cheng, Yu, Noguchi,

2002, str. 60).

Lewis/Flemingov zakon, ki opisuje ekonomijo »brez trenj« v smislu, da eksponentna

rast spodbuja nove tržne ideje z večjimi dobički. Vendar je v sklopu hitre rasti potrebno

pričakovati tudi eksponentni padec, ko se na trgu pojavijo novi, bolj napredni sistemi.

Zakon opisuje enačba: Tržni Delež (čas) = 1/(1+ K * B * čas), kjer »K« predstavlja

konstanto, »B« pa parameter učenja (Jin, Li, Zhang, Cheng, Yu, Noguchi, 2002, str.

60).

Napredek v informacijski tehnologiji na področju zmožnosti zajemanja, shranjevanja in

obdelave vedno večje količine podatkov predstavlja pomembno prelomnico v razvoju nove

vrste konkurenčnih prednosti organizacij. Stroškovno učinkovito shranjevanje podatkov,

konvergenca pametnih naprav, družbenih omrežji, širokopasovnih komunikacij in analitike

so na novo definirali odnose med proizvajalci, distributerji in potrošniki izdelkov in

storitev, hkrati pa ustvarili nove izzive in priložnosti. Olofson & Vesset (2012) to

konvergenco imenujeta inteligentna ekonomija. Sama zmožnost shranjevanja in dostop do

podatkov namreč nista dovolj, šele ko imamo možnost podatke analizirati in na podlagi

rezultatov sprejemati boljše odločitve ustvarjamo konkurenčno prednost (Olofson &

Vesset, 2012). Z napredkom v tehnologiji smo si povečali možnosti zajema veliko večje

količine podatkov, različnih tipov podatkov, ki nastajajo z veliko hitrostjo. Ti podatki

prihajajo iz različnih (ne)zaupanja vrednih virov, ki lahko organizaciji prinesejo dodano

vrednost. Navedeni koncepti se povezujejo s pojmoma masovni podatki (angl. Big Data) in

znanostjo o podatkih (angl. Data Science).

Pojem masovni podatki ni popolnoma nov. Omenja se ga že v prvi polovici 19. stoletja, ko

je veliki količini podatkov prvo veljavo dal Fremont Rider, knjižničar na Univerzi

Wesleyan. Ocenil je, da se bo količina knjig na Ameriških univerzah povečala na več kot

200 milijonov do leta 2040 (Tuitt, 2013). Dandanes na primer le knjižnica Yale hrani

približno 12,5 milijonov knjig v kar 20 stavbah na področju Univerze (Tuitt, 2013).

Največji preboj se je verjetno zgodil leta 1996, ko je digitalno shranjevanje podatkov

postalo bolj stroškovno učinkovito kot shranjevanje papirja (Tuitt, 2013). Izraz »masovni

podatki« (angl. Big Data) se je prvič uporabil leta 1997, ko sta raziskovalca M. Cox in D.

Ellswot napisala članek, v katerem sta identificirala, da bo rast podatkov postala problem

za obstoječe računalniške sisteme (Tuitt, 2013). Leta 2000 je sledila študija Petra Lymana

in Hala R. Vairana, ki je prva kvantificirala kapaciteto shranjevanja računalniških sistemov

kot skupno vsoto novih in originalnih informacij, ki jih na leto ustvarimo na celem svetu

(leta 1999 naj bi na celem svetu proizvedli približno 1,5 EB unikatnih informacij) (Tuitt,

2013). Že leto kasneje po študiji Lymana in Variana je Doug Laney objavil raziskavo 3D

Data management: Controlling Data Volume, Velocity and Variety, ki so v obdobju

desetletja postale osnovne dimenzije masovnih podatkov, ki so bolj podrobno opisane v

nadaljevanju (Tuitt, 2013).

6

Slika 1, s pomočjo Google books Ngram Viewerja (Google Ngram Viewer, 2016),

prikazuje kolikokrat se določene besede ali besedne zveze pojavljajo v literaturi v

angleškem jeziku v obdobju od leta 1800 do leta 2008 (opomba: rezultati so tukaj omejeni

le na izraze v angleškem jeziku iz Googlove baze podatkov literature). Razvidno je, da se

je izraz masovni podatki pojavljal že v preteklosti, frekvenca pojavljanja pa se poveča od

leta 1980 naprej. V 80-ih letih prejšnjega stoletja se je namreč za zelo praktično izkazala

uporaba velikih količin podatkov kot osnova za sprejemanje odločitev (Dhar, 2013, str.

67). V 90-ih letih pa se je z zrelostjo relacijskih podatkovnih baz in avtomatizacijo

procesov razmahnila uporaba strojnega učenja (angl. machine learning) ter podatkovnega

rudarjenja (angl. data mining). Podatkovno rudarjenje je namreč učinkovito v zaznavanju

subtilnih struktur oziroma vzorcev v velikih količinah podatkov. Slaba stran teh metod je,

da poleg vzorcev v podatkih (signala) zaznajo tudi šume (Dhar, 2013, str. 67). V tem je

tudi razlog, da se skupaj z masovnimi podatki omenja tudi znanost o podatkih (angl. data

science), katere pojavljanje v literaturi precej dobro »sledi« trendu pojavljanja masovnih

podatkov.

Slika 1: Pojavljanje ključnih besed »big data« in »data science« v Googlovi bazi podatkov

literature

Vir: Google Ngram Viewer, 2016

S pomočjo orodja Google Trends (Google Trends, 2016) pa lahko spremljamo

priljubljenost ključnih besed glede na iskane izraze, ki jih vpišemo v Googlov spletni

brskalnik. Slika 2 prikazuje globalna spletna iskanja po ključnih besedah: »big data«,

»data science« in »data scientist« od leta 2005 do leta 2015 (opomba: za iskanje omejeno

le na Slovenijo ali za globalno iskanje slovenskih prevodov teh besed – masovni podatki,

znanost o podatkih, podatkovni znanstvenik – ni bilo rezultatov). Ugotovimo lahko, da se je

priljubljenost masovnih podatkov od leta 2012 zelo povečala, zanimanje za znanost o

podatkih v primerjavi z masovnimi podatki raste bolj počasi, a zmerno. Večje zanimanje se

7

kaže tudi za podatkovne znanstvenike (angl. data scientist), katerih vlogo in pomen bom

razložila v nadaljevanju.

Slika 2: Spletno iskanje preko iskalnika Google ključnih besed »big data« in »data

science« in »data scientist« po letih

Vir: Google Trends, 2016.

V nadaljevanju bom opredelila pojma masovni podatki in znanost o podatkih, predstavila

vlogo podatkovnih znanstvenikov v organizacijah in pojasnila kakšno vlogo imajo masovni

podatki, znanost o podatkih in podatkovni znanstveniki pri uspešnosti organizacije.

1.2 Opredelitve masovnih podatkov

Masovni podatki danes veljajo za popularen trend, ki se v osnovi nanaša predvsem na

problem volumna/hitrosti/raznolikosti podatkov (angl. Volume/Velocety/Variety problem).

Glavna prednost masovnih podatkov je, da lahko s pomočjo analize le-teh pridobimo

zanimive vzorce in informacije, ki so bili poprej skriti, saj jih zaradi velike količine dela in

časa ni bilo mogoče pridobiti. Sedaj pa jih lahko uporabimo za analizo, sprejemanje

odločitev ter razvoj novih produktov in storitev, kar predstavlja znatno konkurenčno

prednost. Organizacije, kot so Google, Facebook, Amazon, LinkedIn, WallMart so

nekatera izmed prvih, ki so začela uspešno izkoriščati prednosti, ki jih ponujajo masovni

podatki, v obliki personalizirane uporabniške izkušnje, razvojem novih izdelkov in storitev

na podlagi podatkov (angl. data product) ter uporabe novih poslovnih modelov (Lorica,

Howard & Dumbill, 2012).

8

Zaradi dejstva, da pojem masovni podatki in vse kar dojemamo pod strategijo vpeljave

masovnih podatkov vpliva in zajema širok spekter poslovnih procesov, tehnologij in

strokovnih znanj, prihaja pri razumevanju tega pojma do določenih nejasnosti. Z

namenom, da bi pridobila čim boljši pregled nad obsegom razumevanja tega področja sem

v nadaljevanju zbrala definicije pojma masovnih podatkov, objavljene s strani različnih

raziskovalnih ustanov (Gartner, Forrester, IDC, McKinsey, O’Reilly), raziskav in

organizacij, ki se ukvarjajo z masovnimi podatki in analitiko (Microsoft, Oracle, IBM).

Gartner opredeli masovne podatke kot informacijska sredstva velikega obsega, visokih

hitrosti in zelo različnega tipa, ki zahtevajo stroškovno učinkovite oblike obdelave

informacij za okrepljen vpogled v poslovanje in odločanje (What is big data, 2015).

Forrester definira masovne podatke kot mejo sposobnosti organizacije, da shranjuje,

obdeluje in dostopa (angl. SPAstore, process, access) do vseh podatkov, ki jih potrebuje za

delovanje, sprejemanje odločitev, zmanjšanje tveganja in zadovoljitev potreb svojih

potrošnikov (Gualtieri, 2012).

Po International Data Corporation (v nadaljevanju IDC) definiciji so masovni podatki

nova generacija tehnologij in arhitekturnih rešitev, katerih namen je pridobiti ekonomsko

vrednost iz velike količine različnih tipov podatkov s pomočjo visoko-intenzivnega

shranjevanja, raziskovanja in analize teh podatkov. Definicija vključuje strojno opremo,

programsko opremo in druge storitve, ki združujejo, organizirajo, ravnajo, analizirajo in

vizualizirajo podatke preko vseh značilnosti (Vesset et al., 2012, str. 1).

McKinsey Global Institute (Manyika et al., 2011, str. 1) opredeli masovne podatke kot

nabor podatkov, katerih obseg presega zmožnosti tipičnih programskih orodij baz

podatkov za zajem, shranjevanje, management in analizo. Opredelitev je z namenom

subjektivna in vključuje drsno definicijo, kakšen naj bi bil obseg nabora podatkov, da bi se

ga definiralo kot masovne. Definicijo naslanjajo na predpostavko, da bo z napredkom

tehnologije skozi čas rasel tudi obseg podatkov, ki bo kvantificiran kot masovni podatki.

Prav tako se lahko definicija razlikuje od sektorja do sektorja, glede na to kakšna

programska orodja so na voljo in kakšen obseg nabora podatkov je pogost v določeni

dejavnosti. Napovedujejo, da naj bi masovni podatki obsegali od nekaj par TB do več PB

(Manyika et al., 2011).

Po O’Reilly (Lorica, Howard & Dumbill, 2012) so masovni podatki podatki, ki prekašajo

procesne kapacitete tradicionalnih sistemov baz podatkov. Podatkov je preveč, se prehitro

»premikajo« ali ne ustrezajo arhitekturni strukturi baze podatkov. Da bi lahko pridobili

vrednost iz takšnih podatkov, je potrebno poiskati drugačne načine za njihovo obdelavo

(Lorica, Howard & Dumbill, 2012).

9

Oracle navaja, da je potrebno pri definiciji masovnih podatkov upoštevati vse štiri ključne

značilnosti: volumen, hitrost, raznolikost in vrednost (Oracle, 2015).

IBM ovrednoti masovne podatke kot podatke, ki jih definirajo trije atributi: volumen,

raznolikost in hitrost (IBM What is big data?, 2015).

V raziskavi Big data executive survey (2012, str. 4) so masovne podatke opredelili kot

termin, ki se ga uporablja za opis nabora podatkov, ki je tako velik, kompleksen in ki

zahteva zelo hitro procesiranje, da takšne podatke postane težko ali nemogoče obdelati z

uporabo standardnih orodij za analitiko in podatkovne baze. Obdelava takšnih podatkov

pogosto zahteva programsko opremo, ki se vzporedno izvaja na desetine, stotine ali celo

tisočine strežnikih. Rast masovnih podatkov vključuje razmah družbenih medijev, videov,

fotografij, nestrukturiranih besedil, poleg vseh ostalih podatkov, ki so zbrani preko

različnih naprav, vključujoč pametne telefone. Med marsikatere izzive masovnih podatkov

sodijo: zajem, shranjevanje, iskanje, deljenje, analiza in vizualizacija podatkov (Big data

executive survey, 2012, str. 4).

S pomočjo naštetih opredelitev menim, da na izraz masovni podatki lahko gledamo v

ožjem in širšem smislu. V kolikor na izraz gledamo v ožjem smislu, gre predvsem za

opredelitev tega, kakšne značilnosti morajo imeti podatki, da jih lahko opredelimo kot

»masovne«. Večina definicij »masovnosti« podatkov ne povezuje le s količino podatkov

(volumen), temveč so enako pomembne tudi ostale dimenzije podatkov: hitrost, s katero

podatki nastajajo, raznolikost virov/strukture podatkov, zaupanje v podatke ter vrednost

podatkov. V nadaljevanju sem zato vsebinsko opredelila štiri najbolj pogosto omenjene

dimenzije masovnih podatkov: volumen (angl. volume), raznolikost (angl. variety), hitrost

(angl. velocity) in vrednost (angl. value).

1.3 Dimenzije masovnih podatkov

1.3.1 Volumen podatkov

Poročilo raziskovalne agencije McKinsey iz leta 2011 je ocenilo, da količina podatkov na

svetu raste s približno 40 % stopnjo letno (Manyika et al., 2011, str. 16). Z napredkom

tehnologije na področju shranjevanja podatkov imajo organizacije danes možnost shraniti

ogromne količine podatkov. Velike količine podatkov se dejansko tudi shranijo, saj so se

stroški shranjevanja podatkov občutno pocenili (na primer: danes lahko shranimo celotno

svetovno zalogo glasbe na napravo v vrednosti 500 $) (Dhar, 2013, str. 67). Glavna

prednost, ki se jo pridobi s sposobnostjo obdelave velikega obsega nabora podatkov je, da

se lahko s pomočjo večjih vzorcev, ki so boljši približek populaciji, gradi bolj natančne

napovedne modele. Večanje nabora podatkov predstavlja izziv obstoječim tradicionalnim

strukturam informacijskih tehnologij, saj masovni podatki zahtevajo razširljivo

skladiščenje in porazdeljen pristop k poizvedovanju. Rešitve so na voljo v obliki

10

podatkovnih skladišč ali rešitev, ki izhajajo iz Apache Hadoop – Hadoop je platforma,

razvita s strani organizacije Yahoo, ki omogoča porazdelitev računalniških problemov

preko večjega števila strežnikov (Lorica, Howard & Dumbill, 2012). Na spletni skupnosti

KDnuggets (Piatetsky, 2015) so že četrto leto zapored izvedli kratko spletno raziskavo med

podatkovnimi znanstveniki in analitiki, v kateri so jih povprašali »Kako velik je bil

največji nabor podatkov, ki ste jih analizirali ali na njih uporabili metode podatkovnega

rudarjenja?« (Piatetsky, 2015). Rezultati iz leta 2015, na podlagi 459 odgovorov, kažejo na

podoben vzorec iz preteklih let, ki je ostal razmeroma stabilen od leta 2012, in sicer da

večina podatkovnih znanstvenikov in analitikov ne obdeluje zares velikih podatkov. Slika

3 prikazuje rezultate po letih. Večina odgovorov (52,8 % v letu 2013, 54,3 % v letu 2014

in 55,6 % v letu 2015) se giblje v obsegu GB. Mediana je bila med 11 GB in 100 GB za

vsako leto 2012–2015. Zmerno rast je bilo zaznati pri posameznikih, ki obdelujejo nabore

podatkov v velikosti PB (iz 2,5 % v letu 2013 se je povečalo na 4,6 % v letu 2015).

Majhen, a značilen, prepad pa je bilo zaznati v obsegu od 1–10 PB, ki ločuje analitike, ki

obdelujejo komercialna podatkovna skladišča v velikosti TB in tiste, ki obdelujejo podatke

v velikosti več PB.

Slika 3: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega nabora

podatkov (2013–2015)

Vir: G. Piatetsky, Poll results: Where is big data?, 2015.

Slika 4 prikazuje rezultate ankete po geografskih področjih, razdeljenih glede na velikost

obdelanih podatkov. Največji delež posameznikov, ki obdelujejo podatke v TB ali več,

prihaja iz Združenih držav Amerike in Kanade (25,6 %). Na drugem mestu sta Avstralija in

Nova Zelandija (22,2 %), sledijo pa Azija (21,7 %) in Evropa (20,7 %) (Piatetsky, 2015).

11

Slika 4: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega nabora

podatkov po geografskih področjih (2015)

Vir: G. Piatetsky, Poll results: Where is big data?, 2015.

1.3.2 Hitrost pridobivanja podatkov

Hitrost se nanaša na vedno večjo stopnjo hitrosti, s katero pridobivamo podatke. V

preteklosti so finančni sistemi za trgovanje že vzpostavili sisteme, ki se lahko spopadejo s

hitrostjo prejemanja podatkov in to spremenili v svojo prednost (Lorica, Howard &

Dumbill, 2012). Z razvojem interneta, pametnih mobilnih telefonov in večje

razpoložljivosti dostopa do svetovnega spleta posamezniki predstavljamo konstanten vir

geolokacijskih podatkov v obliki slik, videa, besedila ipd. Pred, med in po nakupu izdelka

ali storitve se generira tok podatkov nazaj do ponudnika (poleg končne prodaje se beležijo

tudi vse vmesne interakcije). Z izkoriščanjem teh informacij za izgradnjo sistemov za

priporočanje (angl. recommendation systems), da posameznik opravi dodatne nakupe,

organizacije pridobivajo vidno konkurenčno prednost (Lorica, Howard & Dumbill, 2012).

Pomembnost dimenzije hitrosti masovnih podatkov leži v hitrosti povratne zanke. To

pomeni, da je potrebno delovati in ukrepati na podlagi podatkov v realnem času. Bolj tesna

je zanka, večja je konkurenčna prednost (Lorica, Howard & Dumbill, 2012). Tehnologija

dimenzije hitrosti masovnih podatkov obsega od paketne obdelave (angl. batch processing)

ob določenih intervalih do konstantnega toka podatkov (angl. streaming data) v realnem

času. Paketna obdelava je značilna za tradicionalna podatkovna skladišča. Konstanten tok

podatkov pa predstavlja domeno različnih tehnologij: kompleksno procesiranje dogodkov

(angl. complex event processing, v nadaljevanju CEP), analiza besedil (angl. text

analytics), strojno učenje in dogodkovno naravnana arhitektura (angl. event-based

architectures) (Olofson & Vesset, 2012, str. 5). Ker je podatkov preveč, da bi jih shranili v

celoti, je smiselno shraniti podatke, kjer aplikacija zahteva takojšen odziv na vhodne

podatke – kot so na primer mobilne aplikacije za spletne igre in športne stave (Lorica,

Howard & Dumbill, 2012).

12

1.3.3 Raznolikost podatkov

1.3.3.1 Opredelitev raznolikosti podatkov

Raznolikost podatkov lahko opredelimo z vidika več različnih dimenzij. Podatki so lahko

opredeljeni z vidika podatkovnega tipa (strukturirani, delno strukturirani in nestrukturirani

ipd.), vira pridobitve (notranji, zunanji) ter izvora (generirani s strani naprav ali človeka)

(Hayes, 2014a). Bistvo tretje dimenzije masovnih podatkov tj. raznolikosti podatkov, je v

tem, da lahko kljub različnim virom podatkov, različnega izvora in nestrukturiranosti

podatkov iz njih izluščimo urejeno znanje, ki ga lahko uporabi človek ali pa se ga uporabi

kot vhodne podatke v aplikacijo (Lorica, Howard & Dumbill, 2012).

1.3.3.2 Zunanji in notranji podatki

V raziskavi The Emerging Returns on Big Data (2013, str. 18) so podatke, ki jih generira

organizacija ali pa so pod nadzorom organizacije (Hayes, 2014a), opredelili kot notranje

ter podatke, ki so generirani s strani virov izven organizacije, kot zunanje podatke. Med

notranje podatke sodijo podatki, ki izhajajo iz različnih poslovnih dogodkov: registracija

potrošnika, izdelava izdelka, sprejem naročila, prodaje, proizvodnje, podpore potrošnikom,

kadrovske službe itd. (The Emerging Returns on Big Data, 2013, str. 18). Zunanji podatki

pa izvirajo iz drugih ponudnikov podatkov (npr. telekomunikacijske organizacije, ki

hranijo podatke o lokaciji in gibanju potrošnikov; angl. third-party data providers), spletne

skupnosti, viri odprtih podatkov (angl. open data sources) in družbenih medijev, kot so

Facebook, Twitter, Google+ itd. (The Emerging Returns on Big Data, 2013, str. 18). Slika

5 prikazuje, da povprečno ocenjen % notranjih in zunanjih podatkov v organizaciji znaša

60–70 % notranjih podatkov ter 29–38 % zunanjih podatkov. Višji % zunanjih podatkov pa

je zaznati v azijsko-pacifiški regiji.

Slika 5: Povprečno ocenjeni % podatkov, glede na to, ali so pridobljeni iz notranjih ali

zunanjih virov

Vir: The Emerging Big Returns on Big Data, 2015, str. 20, Slika II-8.

13

1.3.3.3 Strukturirani in nestrukturirani podatki

Viri, od koder se pridobiva podatke, se med seboj razlikujejo. To pomeni, da ne ustrezajo

vedno urejeni strukturi vrstic in stolpcev v relacijskih bazah podatkov. Nestrukturirani

podatki so podatki, ki nimajo strukture, definirane s strani sheme ali programske kode

(Olofson & Vesset, 2012, str. 7) oziroma nimajo vnaprej opredeljenega podatkovnega

modela in/ali niso organizirani po vnaprej določenih pravilih (Hayes, 2014a). To pomeni,

da jih ni enostavno analizirati kot lahko analiziramo strukturirane podatke. Slika 6

prikazuje razliko med strukturiranimi in nestrukturiranimi podatki po Olofson & Vesset

(2012, str. 8).

Slika 6: Strukturirani in nestrukturirani podatki

Vir: C.W. Olofson &D. Vesset, Big Data: Trends, Strategies, and SAP Technology, 2012, str. 8.

Po principu masovnih podatkov naj, v kolikor je mogoče, shranjujemo vse podatke, ki so

na voljo. Ni pa nujno, da so vsi shranjeni v relacijskih bazah podatkov, katerih omejitev je

statična narava shem (Lorica, Howard & Dumbill, 2012). Kot je prikazano, imajo še vedno

pomembno vlogo baze podatkov, kjer se za poizvedovanje uporablja poizvedbeni jezik

SQL (angl. Structured Query Language). SQL baze še vedno dobro obvladujejo velike

količine strukturiranih podatkov, ki imajo konsistentno, poznano strukturo in omogočajo

redno poročanje, rudarjenje in ponavljajoče se analize na takšnih podatkih. Po drugi strani

pa nestrukturirani podatki nimajo identificirane interne strukture (Lorica, Howard &

Dumbill, 2012). Gre za masiven neorganiziran konglomerat različnih objektov, ki nimajo

prepoznane vrednosti dokler niso identificirani in shranjeni v organizirani obliki. Po

obdelavi, s pomočjo specializiranih programskih orodij, je mogoče po takšnih podatkih

iskati in jih kategorizirati z namenom pridobivanja vpogleda v podatke (Structured and

unstructured data: What is it?, 2013). Zato pomembnejšo vlogo pridobivajo baze podatkov,

ki ne slonijo na relacijski naravi shem, temveč na stolpičnih bazah podatkov, optimiziranih

14

za pridobivanje vnaprej preračunanih informacij, poznane kot NoSQL (angl. Not-only

SQL). NoSQL baze podpirajo predvsem dimenzijo raznolikosti masovnih podatkov.

Sprejemajo namreč podatke iz različnih virov, v različnih podatkovnih tipih in različnega

izvora, na katerih je potem mogoče s programsko kodo pregledati, filtrirati in organizirati

podatke (predvsem v Hadoop aplikacijah) (Olofson & Vesset, 2012, str. 8). Slika 7

prikazuje, da naj bi po raziskavi The Emerging Big Returns on Big data (2015, str. 19) 50

% podatkov v evropskih organizacijah bilo strukturiranih, 25 % nestrukturiranih ter 25 %

delno strukturiranih (npr. XML, HTML označena besedila).

Slika 7: Povprečno ocenjeni % podatkov glede na njihovo strukturiranost

Vir: The Emerging Big Returns on Big Data, 2015, str. 19, Slika II-7.

1.3.3.4 Podatki, generirani s strani naprav ali človeka

Podatki, generirani s strani naprav (angl. machine-generated data), so podatki, ki so

izračunani oziroma zbrani avtomatsko in brez človeškega posredovanja (npr. meta podatki)

(Hayes, 2014a). Izhajajo iz rasti števila senzorjev in naprav, ki merijo in zapisujejo

dogodke in situacije v fizičnem svetu. Rezultat predstavljajo strukturirani podatki v

razponu od enostavnih senzoričnih zapisov do kompleksnih računalniških dnevniških

zapisov. Njihova dobro strukturirana narava je primerna za računalniško obdelavo, njihova

velikost in hitrost pa presega okvire tradicionalnih pristopov (Vale, 2013). Primeri takšnih

podatkov so (Vale, 2013):

podatki iz senzorjev:

fiksni senzorji: domače naprave, vremenski senzorji, prometni senzorji, znanstveni

senzorji, varnostne slike in posnetki (video),

mobilni senzorji: lokacija mobilnega telefona, avtomobili, satelitski posnetki;

podatki iz računalniški sistemov (podatki o uporabniku, podatki o dogodkih,

formatirani zgodovinski podatki):

dnevniški zapisi (angl. logs),

spletni dnevniki (angl. web logs).

15

Podatki, generirani s strani potrošnikov (angl. human-sourced information), so podatki, ki

so jih ustvarili oziroma vnesli ljudje (potrošniki, uporabniki). So skoraj v celoti

digitalizirani in shranjeni vsepovsod, od osebnih računalnikov, mobilnih telefonov do

družbenih medijev. Podatki so delno strukturirani ali nestrukturirani. Mednje spadajo

naslednji podatki (Vale, 2013):

družbeni mediji: Facebook, Twitter, Tumblr ipd.,

blogi in komentarji,

osebni dokumenti,

slike: Instagram, Flickr, Picasa ipd.,

posnetki: YouTube ipd.,

spletna iskanja,

vsebina mobilnih podatkov: besedilna sporočila,

zemljevidi, ustvarjeni s strani potrošnikov,

elektronska pošta.

Slika 8: Ogrodje za opredelitev raznolikost podatkov

Vir: B. E. Hayes, The what and where of big data: A data definition framework, 2014a.

Slika 8 prikazuje ogrodje za opredelitev raznolikosti podatkov po Hayes (2014a). Model

razločuje tip podatkov od vira pridobitve podatkov. Stolpca predstavljata tip podatkov

(strukturirani ali nestrukturirani), vrstice pa vir pridobitve podatkov (zunanji ali notranji).

Podatki so tako lahko razporejeni v enega od štirih kvadrantov, kjer je nadaljnja razdelitev

narejena še na nivoju izvora podatkov (generirani s strani naprav ali človeka). S pomočjo

ogrodja vidimo, da lahko nestrukturirane podatke organizacija pridobi tako iz notranjih

16

virov (npr. odprta vprašanja v raziskavi, vpisi opomb iz klicnega centra) kot tudi iz

zunanjih virov (npr. komentarji na Twitterju, slike na Pinterestu). Nestrukturirani podatki

so primarno generirani s strani človeka. Tudi strukturirane podatke organizacija pridobi iz

notranjih (npr. ocenjevalne lestvice v raziskavah, spletni dnevniki) in zunanjih virov (npr.

GPS podatki o tweetih, ocene na družbenih omrežjih npr. Yelp). Strukturirani podatki

vključujejo podatke, generirane s strani človeka in naprav (Hayes, 2014a).

1.3.4 Vrednost podatkov

V kontekstu masovnih podatkov se vrednost nanaša na stroške tehnologije in na vrednost,

ki se jo lahko pridobi iz masovnih podatkov. Stroški so pomembni predvsem iz vidika tega,

ker predstavljajo ključni faktor novosti v masovnih podatkih. Podatkovna skladišča,

management podatkov v realnem času na področju trgovanja, napovedovanje vremena,

zaznavanje goljufij, nestrukturirane vsebine, analiza besedil (angl. text analytics) in visoko

učinkoviti sistemi za znanstveno raziskovanje obstajajo že leta. Kar je sedaj drugače, so

sistemi, ki so bili prej na voljo le vladnim agencijam ali le majhnemu naboru velikih

organizacij v določenih dejavnostih, sedaj pa so na voljo širšemu trgu. Kombinacija

razpoložljive programske opreme in nižanje cen strojne opreme je povzročila, da so

tehnologije lažje dostopne. Vrednost masovnih podatkov se lahko opredeli z nižjimi

stroški kapitala (programske, strojne opreme in infrastrukture), operativno

učinkovitostjo (nižji stroški dela zaradi uporabe bolj učinkovitih metod za integracijo,

management, analizo in dostavo podatkov) in izboljšanem poslovnih procesov (povečanje

prihodkov ali dobička na račun novih ali boljših načinov poslovanja, vključujoč izboljšave

v komercialnih transakcijah, trajnem managementu skupnosti in primerni distribuciji

socialnih, zdravstvenih in izobraževalnih storitev) (Olofson & Vesset, 2012, str. 6).

1.3.5 Masovni podatki v ožjem in širšem smislu

Na podlagi opisanih dimenzij sklepam, da lahko podatke opredelimo kot masovne v ožjem

smislu takrat, ko ustrezajo vsaj dvema od treh dimenzij masovnih podatkov (volumen,

hitrost, raznolikost), vendar vedno z namenom prinašanja vrednosti (četrta dimenzija)

organizaciji v obliki nižjih stroškov, večji učinkovitosti ali izboljšanju poslovnih procesov.

Kako kvantificirano opredeliti volumen, hitrost in raznolikost, povzema klasifikacija po

IDC (Vesset et al., 2012, str. 2), prikazana v Sliki 9 . V sklop trga masovnih podatkov se

vključuje podatkovne baze (ne glede na to, ali gre za relacijske ali ne), ki presegajo 100

TB, ki so implementirane na razširljivi arhitekturi in ki vsebujejo podatke iz dveh ali več

virov/podatkovnih tipov ali ko je stopnja hitrosti zbiranja podatkov zelo visoka. Podobno

se lahko za masovne opredelil podatkovne baze, katerih količina je sicer manjša kot 100

TB, vendar je letna stopnja rasti generiranih podatkov 60 % ali več, poleg tega so

implementirane na razširljivi infrastrukturi in vključujejo podatke dveh ali več tipov/virov

ali ko je stopnja hitrosti zbiranja podatkov zelo visoka (Vesset et al., 2012, str. 2).

17

Slika 9: Kriteriji za opredelitev masovnih podatkov po IDC

Vir: D. Vesset et al., Wordlwide Big Data Technology and Services 2012–2016 Forecast., 2012, str. 2, Slika

1.

Iz opisanih značilnosti masovnih podatkov lahko ugotovimo tudi, da ni dovolj le-te tako

opredeliti. Potrebno jih je shraniti, imeti možnost dostopa do njih ter znanja, sposobnosti in

orodja, da jih lahko ustrezno obdelamo in rezultate obdelav uporabimo za sprejemanje

boljših odločitev. Zaradi omenjene večdimenzionalnosti podatkov in novega pristopa k

obdelavi je očitno, da masovni podatki potrebujejo nov pristop, novo strojno in

programsko opremo ter druge spremembe, povezane z organizacijo, kulturo in

sprejemanjem odločitev. Menim, da masovni podatki tako v širšem smislu po IDC (Vesset

et al., 2012, str. 1) »predstavljajo novo generacijo tehnologij in arhitekturnih rešitev,

katerih namen je pridobiti ekonomsko vrednost iz velike količine različnih tipov podatkov

s pomočjo visoko intenzivnega shranjevanja, raziskovanja in analize teh podatkov«. Tudi

Boyd & Crawford (2012) v članku Critical questions for Big Data, objavljenem v

Information, Communications and Society Journal, definirata masovne podatke kot

kulturni, tehnološki in znanstveni fenomen, ki temelji na prepletanju tehnologije

(maksimiziranje računalniške moči in natančnosti algoritmov za zbiranje, povezovanje in

primerjavo velikega nabora podatkov), analize (zmožnost iz velikega nabora podatkov

identificirati vzorce z namenom, da pridobimo ekonomsko, tehnično, družbeno ali pravno

prednost/odločitev) in mitologije (splošno razširjenega spoznanja, da veliki nabori

podatkov nudijo višjo stopnjo inteligence in znanja, ki lahko ustvarijo vpoglede, ki so bili

prej nemogoči, v duhu resnice, natančnosti in objektivnosti).

18

1.4 Znanost o podatkih

1.4.1 Opredelitev znanosti o podatkih

Ravno v širšem smislu razumevanja masovnih podatkov so le-ti tesno povezani s

področjem znanosti o podatkih. Področje znanosti o podatkih predstavlja rešitev, kako

odkriti potencialne vpoglede, ki se skrivajo v masovnih podatkih in kako premostiti izziv

volumna/hitrosti/raznolikosti/vrednosti masovnih podatkov, ki so bili predstavljeni v

prejšnjem poglavju (Voulgaris, 2014, str. 15). Masovni podatki predstavljajo gonilo

sprememb na področju zbiranja, shranjevanja, managementa, analiziranja in vizualizacije

podatkov. Vendar pa masovni podatki potrebujejo znanost o podatkih z namenom, da

(Somohano, 2013):

na podlagi podatkov odkrijemo, česar ne vemo,

pridobimo napovedni vpogled v podatke, na podlagi katerega lahko sprejemamo boljše

odločitve,

ustvarimo nove izdelke in storitve na podlagi podatkov (angl. data products), ki imajo

takojšen vpliv na poslovanje,

komuniciramo uspešne poslovne zgodbe na podlagi podatkov,

gradimo zaupanje v sprejemanje odločitev, ki prinašajo poslovno vrednost.

Termin znanost o podatkih sej je pojavil še pred pojavom masovnih podatkov. Že leta 1962

je John W. Turkey v knjigi The Future of Data Analysis napovedal vzpon novega tipa

analize podatkov, ki bo predstavljal bolj znanost (angl. science) kot metodologijo. Prvi je

izraz znanost o podatkih uporabil Peter Naur leta 1974 v knjigi Concise Survey of

Computer methods (Press, 2012). Znanost o podatkih je definiral kot znanost ukvarjanja s

podatki, ko so le-ti enkrat bili pridobljeni, odnos podatkov do tega, kar predstavljajo, pa je

delegiran na druga področja in znanosti (Press, 2012). To pomeni, da je takrat za

podatkovnega znanstvenika veljal vsak, ki je imel znanja in sposobnosti za delo z

računalnikom in ki je poleg tega razumel semantiko podatkov. Znanost o podatkih je večjo

prepoznavnost pridobila v 80-ih letih prejšnjega stoletja preko ene svojih najbolj

prepoznavnih metod: podatkovnega rudarjenja. Konferenca Data Science, Classification,

and Related Methods iz leta 1996 je pripomogla k prepoznavnosti znanosti o podatkih med

raziskovalci ter k ločevanju od drugih izrazov v sklopu analize podatkov (klasifikacija, na

primer, ni tako širok pojem kot znanost o podatkih). To je pomagalo pri postopni umestitvi

znanosti o podatkih kot neodvisnega področja (Press, 2012). Leta 1997 je bil ustanovljen

dnevnik Knowledge Discovery and Data Mining, ki je definiral podatkovno rudarjenje kot

pridobivanje informacij iz velikih baz podatkov. Podatkovno rudarjenje je s tem, kot ena

izmed prvih metod znanosti o podatkih, pridobilo na popularnosti in spoštovanju

znanstvene skupnosti (Press, 2012). V 90-ih letih so potrebe po tem področju postale bolj

očitne, ko je velikost baz podatkov začela naraščati. Leta 2002 je izšel Data Science

Journal, ki se ukvarja z vsem, kar je povezano s podatki: zbiranje, analiziranje,

19

modeliranje ter vsemi možnimi aplikacijami pridobljenega znanja iz podatkov (Press,

2012). Leta 2009 sta raziskovalca Yangyong Zhu in Yun Xiong v svoji publikaciji

Introduction to Dataology and Data Science zapisala, da je znanost o podatkih nova veja

znanosti, izrazito različna od naravne znanosti in družbene znanosti. Razmah znanosti o

podatkih je omogočil razvoj vzporednega računanja (izvrševanje računalniških procesov

sočasno na več procesorjih), naprednega procesa analize podatkov (strojnega učenja) in

povečanje računske moči z znižanjem cen (Voulgaris, 2014, str. 15–19).

Definicije znanosti o podatkih danes večinoma govorijo o interdisciplinarnem področju –

kombinaciji znanj in sposobnosti iz različnih področij za obdelavo (masovnih) podatkov.

Stanton (2013, str. ii) opredeli znanost o podatkih kot nastajajoče področje delovanja, ki se

ukvarja z zbiranjem, pripravo, analizo, vizualizacijo, managementom in ohranitvijo

velikega nabora informacij. Čeprav znanost o podatkih najbolj tesno povezujemo s

področjem baz podatkov in informatiko, je potrebnih še veliko drugih znanj in sposobnosti.

O’Reilly (Lorica, Howard & Dumbill, 2012) definira znanost o podatkih kot disciplino, ki

kombinira znanja iz matematike, programiranja in znanosti. Raziskava Big data executive

survey (2012, str. 8) pa je znanost o podatkih opredelila kot disciplino, ki združuje uporabo

različnih stopenj statistike, podatkovne vizualizacije, računalniškega programiranja,

podatkovnega rudarjenja, strojnega učenja in arhitekture podatkovnih baz, z namenom

reševanja kompleksnih podatkovnih problemov.

Gre za določena področja, ki se s podatki in njihovo analizo ukvarjajo že veliko prej od

pojava masovnih podatkov. Pri tem se postavlja vprašanje, zakaj bi potrebovali nov izraz

za področje, za katerega že od nekdaj uporabljamo uveljavljena znanja iz statistike in

matematike. Dhar (2013) argumentira, da se znanost o podatkih od statistike in drugih

znanstvenih področjih razlikuje v več pogledih. Pri tem se naslanja predvsem na to, da

znanost o podatkih za osnovo jemlje masovne podatke – zelo heterogene in nestrukturirane

podatke, ki izhajajo iz med seboj kompleksno povezanih omrežji. Tradicionalne statistične

metode delujejo dobro na manjšem naboru podatkov. Baze podatkov pa lahko dandanes

zavzemajo več milijonov vrstic in stolpcev. Tehnični izziv predstavlja tudi razvoj modelov,

ki se bodo boljše izkazali pri analizi tako velike količine podatkov ter zaznali nelinearne

odnose in interakcije med elementi. Tradicionalni podatkovni modeli tako niso več

primerni za pridobivanje znanja, saj so v svoji osnovi optimizirani za hiter dostop in

agregacijo podatkov z namenom odgovoriti na vprašanje »Kateri podatki ustrezajo temu

vzorcu?«, ne pa tudi za iskanje vzorcev v masovnih podatkih, kjer je osnovno vprašanje

»Kateri vzorci ustrezajo tem podatkom?«. Analiza takšnih podatkov zahteva integracijo in

interpretacijo z namenom izluščiti znanje s pomočjo orodij iz področja računalništva,

ekonometrije, lingvistike, sociologije in drugih disciplin (Dhar, 2013). Podobno

ugotavljajo pri The field guide to data science (2015), da znanost o podatkih podpira in

vzpodbuja preklop med deduktivnim razmišljanjem (vezanim na domneve) in induktivnim

razmišljanjem (vezanim na vzorce). To predstavlja korenito spremembo od tradicionalnih

analitičnih pristopov. Induktivno razmišljanje in raziskovalna analiza podatkov

20

predstavljajo namreč osnovo za izboljšanje domnev in odkritje novih analitičnih prijemov.

Z aktivnim kombiniranjem sposobnosti za deduktivno in induktivno razmišljanje znanost o

podatkih ustvarja okolje, kjer modeli realnosti niso več statistični, temveč se jih neprestano

preverja, osvežuje in izboljšuje dokler ni najden boljši model (The field guide to data

science, 2015, str. 22).

1.4.2 Opredelitev podatkovnih znanstvenikov

Z rastjo organizacij, popularnostjo masovnih podatkov in znanosti o podatkih se je pojavila

tudi potreba po tem, da se posameznike, ki se ukvarjajo z znanostjo o podatkih, ustrezno

opredeli. Termina »poslovni analitik« ali »podatkovni analitik« (ali drugi – Hal Varian iz

Googla je uporabil tudi izraz »statistik« (Voulgaris, 2014, str.22)) naj ne bi v celoti zajela

osredotočenosti na uporabo podatkov z neposrednim in značilnim vplivom na poslovanje

organizacij. Septembra 2005 je bil v vladnem poročilu prvič, čeprav precej generično,

definiran izraz »data scientist« oz. podatkovni znanstvenik. V poročilu so podatkovne

znanstvenike opredelili kot informacijske in računalniške znanstvenike, inženirje

podatkovnih baz in inženirje programske opreme, programerje, področne strokovnjake,

knjižničarje, arhivarje in druge, ki so ključni za uspešen management digitalne zbirke

podatkov (Voulgaris, 2014, str. 17–19). Večjo prepoznavnost pa je izraz pridobil šele nekaj

let kasneje, ko sta D. J. Patil in Jeff Hammerbacher v članku Harvard Business Review:

Data Scientist: The Sexiest Job of the 21st Century bolj podrobno definirala podatkovne

znanstvenike kot posameznike, ki uporabljajo tako podatke kot znanost, da ustvarijo nekaj

novega (Davenport & Patil, 2012). Podobno definicijo je podal Voulgaris (2014, str. 18):

podatkovni znanstveniki so posamezniki, ki poiščejo smisel v masovnih podatkih. S

pomočjo uporabe visoko naprednih tehnologij, znanj in sposobnosti izpeljejo uporabne

informacije iz masovnih podatkov, po navadi v obliki novega izdelka ali storitve na

podlagi podatkov (angl. data product).

Pri pregledu literature sem zasledila, da trenutno še ni enotnega prevoda in definicije

pojmov, ki so v angleščini že precej uveljavljeni: data scientist, data science ipd. V

terminološkem slovarju informatike (islovar.org) prevoda teh pojmov žal še ni. Pri

pregledu drugih virov ter slovarjev sem zasledila, da se je za prevod pojma big data

science že uporabljalo znanost masovnih podatkov (Linguee, 2015). Data scientist pa je že

bil omenjen v člankih časopisa Delo (Pavlovič, 2014), Sobotna priloga (Žerdin, 2014),

ADP FDV (Štebe & Bezjak, 2012) in člankih revije MonitorPro (Ferle, 2013), in sicer kot:

podatkovni znanstvenik, redkeje tudi kot podatkovni analitik (Politiki na lovu za

podatkovnimi analitiki, 2013). Tudi drugi viri navajajo naziv podatkovni znanstvenik

(Crnoja & Jastrić, 2013). V osnovi oba izraza podatkovni znanstvenik in podatkovni

analitik sicer ustrezno zajameta pomen vloge takšnega posameznika v organizaciji –

pridobivanje, odkrivanje in uporaba znanja iz podatkov za izboljšanje odločitev. Vendar

menim, da je izraz podatkovni znanstvenik bolj ustrezen, saj zajame širše področje

strokovnih znanj in sposobnosti, ki naj bi jih podatkovni znanstvenik imel in so opisana v

21

drugem sklopu magistrskega dela. Menim, da je z izrazom podatkovni znanstvenik bolj

poudarjen ravno vidik znanosti, znanstvene metode pri delu podatkovnega znanstvenika ter

nova znanja in sposobnosti, potrebna za delo z vsemi dimenzijami masovnih podatkov

(volumen, raznolikost, hitrost in vrednost) in izvajanje procesa znanosti o podatkih. Pri

znanosti gre za odkrivanje in razvoj znanja, kar pa zahteva ustrezna vprašanja glede sveta

in domneve, ki jih je mogoče preveriti na podatkih s statističnimi metodami. Kot bo v

nadaljevanju predstavljeno v Conway Vennovem diagramu (Conway, 2015) je znanost o

podatkih, s čimer se ukvarja podatkovni znanstvenik, »dosežena« pri prekrivanju vseh

področij (matematike in statistike, programiranja ter strokovnega domenskega znanja).

Menim, da je prav tako besedna zveza podatkovni znanstvenik bližje angleškemu prevodu

data scientist (vezano predvsem na angl. science, znanost). Zaradi vsega navedenega bom

v magistrskem delu uporabljala naziv podatkovni znanstvenik.

1.4.3 Proces izvajanja znanosti o podatkih

Znanost o podatkih je umetnost spreminjanja podatkov v akcije (The field guide to data

science, 2015, str. 21). Za bolj podroben pregled in razumevanje področja dela, ki ga

opravlja podatkovni znanstvenik, v nadaljevanju predstavljam osnovni okvir za proces

izvajanja znanosti o podatkih (prirejeno po O’Neill & Schutt, 2013, str. 36–41; Voulgaris,

2014, str. 133–149; Somohano, 2013; The field guide to data science, 2015, str. 29–33), ki

je prikazan na Slika 10.

Slika 10: Proces izvajanja znanosti o podatkih

Vir: C. O’Neill & R. Schutt, Doing Data Science, 2013, str. 41, Slika 2–2.

22

Proces znanosti o podatkih zajema naslednje faze:

1. faza: zbiranje podatkov (angl. Data Acquisition), priprava podatkov (angl. Data

Preparation), čiščenje podatkov (angl. Data Cleaning),

2. faza: raziskovanje podatkov (angl. Data Exploration), prikaz podatkov (angl. Data

Representation), odkrivanje podatkov (angl. Data Discovery),

3. faza: učenje iz podatkov (angl. Learning from data),

4. faza: kreiranje novega izdelka ali storitve na podlagi podatkov (angl. Creating a data

product),

5. faza: vizualizacija podatkov (angl. Data Visualization).

Kot je razvidno iz zgornjega prikaza (Slika 10) so faze med seboj ciklično prepletene. To

pomeni, da si osnovne faze sicer sosledno sledijo, hkrati pa nekatere predstavljajo tudi

korak, kjer podatkovni znanstvenik sprejme odločitev, ali potrebuje ponoviti kakšno

prejšnjo fazo ali pa nadaljevati z naslednjo. Posamezne faze procesa znanosti podatkov so

bolj podrobno predstavljene v nadaljevanju (prirejeno po O’Neill, Schutt, 2013, str. 36–41;

Voulgaris, 2014, str. 133–149; Somohano, 2013; The field guide to data science, 2015, str.

29–33).

Faza priprave podatkov je verjetno najbolj časovno zahtevna in najmanj zanimiva faza v

procesu znanosti o podatkih. Vendar pa gre za zelo pomemben korak, saj ta faza

predstavlja osnovo za vse nadaljnje korake v procesu. Napake, ki se naredijo v fazi

priprave podatkov, bodo podatkovnega znanstvenika namreč spremljale čez celoten proces.

Faza priprave podatkov vključuje zbiranje, procesiranje in čiščenje podatkov. Podatki v

osnovi izhajajo iz realnega sveta, v katerem posamezniki in organizacije izvajamo svoje

aktivnosti (uporabljamo Facebook, Twitter, opravljamo spletne nakupe, pošiljamo

elektronsko pošto, pregledujemo spletne strani, opravljamo telefonske pogovore ipd.). S

pomočjo shranjevanja teh aktivnosti v obliki podatkov podatkovni znanstvenik pridobi

določen nabor surovih podatkov (transakcije, kliki na spletne povezave in dnevniške

datoteke, podatki iz senzorjev, mobilnih telefonov, dokumenti, elektronska pošta, zapisi na

družbenih medijih). Te podatke je potrebno najprej pregledati in prečistiti z namenom, da

bodo primerni za analizo. To je prvi korak pri oblikovanju razpoložljivih podatkov v nabor

podatkov (angl. data set), torej skupino podatkovnih točk, običajno normaliziranih, ki se

jih lahko uporabi pri izgradnji analitičnega podatkovnega modela ali v sistemu strojnega

učenja. Podatkovni znanstvenik lahko pri pripravi podatkov uporabi različne načine

procesiranja podatkov: Hadoop Definition File System (v nadaljevanju HDFS) za

shranjevanje podatkov za nadaljnje analize, Extract Transform Load (v nadaljevanju ETL)

in MapReduce za branje podatkov (opomba: bolj podrobno bosta predstavljena v

nadaljevanju), redukcijo dimenzij, vzorčenje, združevanje (angl. joining), strganje (angl.

scraping) ali mešetarjenje (angl. wrangling). Za procesiranje podatkov že obstajajo

različna programska orodja, kljub temu pa mora podatkovni znanstvenik podatke pripraviti

v .JSON ali v katerem drugem podobnem tipu podatkov. V kolikor so podatki v

23

popolnoma unikatnem tipu mora podatkovni znanstvenik napisati lasten program za dostop

in prestrukturiranje podatkov v obliko, ki bo razumljiva sistemom za branje podatkov. Pri

branju velike količine podatkov je priporočljivo, da se najprej pripravi poskusno branje na

relativno majhnem naboru podatkov. Na ta način podatkovni znanstvenik zagotovi, da bo

končni nabor podatkov lahko uporaben za načrtovane analize. V sklopu priprave podatkov

podatkovni znanstvenik izvede tudi čiščenje podatkov, ki zahteva določen nivo

razumevanja podatkov. Pri čiščenju podatkov zapolni manjkajoče vrednosti, preveri

relevantnost podatkov in izloči podatke, ki vključujejo napačne ali problematične podatke,

izvede normalizacijo podatkov ter preveri neodvisnost podatkov. Čiščenje podatkov

vključuje tudi obdelavo osamelcev (angl. outliers). Osamelce se lahko iz nabora podatkov

odstrani ali pa se prilagodi model, da ustreza obstoju osamelcev. Odločitev temelji na

podlagi različnih faktorjev, kot so: število osamelcev, podatkovni tip podatkov in

občutljivost modela na njihov obstoj. Za čiščenje in transformacijo podatkov podatkovni

znanstvenik uporablja različna orodja ali programske jezike, kot so Python, R skripte,

poizvedbeni jezik SQL ali vse naštete. Priporočljivo je, da si podatkovni znanstvenik

posamezne korake te faze shrani, v primeru, da jih bo potrebno ponoviti ali jih opisati v

poročilu. Rezultat faze priprave podatkov je strukturirana oblika podatkov, pripravljena za

nadaljnje analize.

Preden pa se podatkovni znanstvenik loti modeliranja je potrebna najprej izvedba t. i.

raziskovalne analize podatkov (angl. Exploratory Data Analysis – v nadaljevanju EDA).

Raziskovalna analiza podatkov predstavlja ključen del procesa izvajanja znanosti o

podatkih in je primarno namenjena predvsem samemu podatkovnemu znanstveniku.

»Raziskovanje« v tem kontekstu pomeni, da se lahko razumevanje problema, ki ga

podatkovni znanstvenik rešuje oziroma želi rešiti, spreminja v procesu analize. Osnovno

orodje raziskovalne analize podatkov so grafikoni in osnovna opisna statistika. Gre za

sistematičen pregled podatkov s prikazom distribucij spremenljivk, transformacijo

podatkov, iskanjem potencialnih povezav med spremenljivkami z uporabo razsevnih

grafikonov in z generiranjem opisnih statistik za te spremenljivke (srednje vrednosti, mere

razpršenosti, identifikacija osamelcev). Pri raziskovalni analizi ne gre le za uporabo orodij,

temveč tudi za razumevanje odnosa podatkovnega znanstvenika do podatkov, ki jih

analizira. V kolikor želi podatke razumeti, mora pridobiti intuicijo, razumeti oblike in

povezati razumevanje procesa, kako so bili podatki pridobljeni, s samimi podatki. Kljub

temu, da je v sklopu raziskovalne analize podatkov vključene veliko vizualizacije, je

potrebno razlikovati le-to od končne vizualizacije podatkov, ki je namenjena komunikaciji

končnih rezultatov in ugotovitev. Na podlagi rezultatov raziskovalne analize podatkov

lahko podatkovni znanstvenik ugotovi, da podatki dejansko niso ustrezni zaradi

podvojenih, manjkajočih, neustreznih vrednosti ali pa podatki sploh niso bili zajeti, ali pa

so bili zajeti napačno. V tem primeru se mora podatkovni znanstvenik ponovno vrniti k

viru podatkov in zbrati večjo količino podatkov ali več časa nameniti čiščenju podatkov.

To je lahko iterativen proces, dokler podatki niso ustrezni in primerni za modeliranje.

24

V fazi učenja iz podatkov podatkovni znanstvenik pripravi model, ki predstavlja poskus

razumevanja in predstavitve narave realnosti z določenega (matematičnega) vidika. Gre za

umetno ustvarjen konstrukt, kjer so vse odvečne podrobnosti odstranjene. Podatkovni

znanstvenik oblikuje model z uporabo različnih orodij iz področja statistike in strojnega

učenja: opisne statistike in statističnega sklepanja, klasifikacije in segmentacije, regresijske

analize in napovedovanja. Izbira modela je odvisna od vsebine problema, ki ga podatkovni

znanstvenik obravnava. Lahko gre za klasifikacijski problem, napovedni problem ali

osnovni opisni problem.

Podatkovni znanstvenik v zadnji fazi ugotovitve interpretira, pripravi vizualizacije in

poročila ter rezultate na ustrezen način predstavi nadrejenim, sodelavcem ali pa jih objavi

v publikaciji. Namen znanosti o podatkih je namreč določiti in razumeti, kaj vse se skriva

pod površjem in kakšno uporabno vrednost lahko prinese do končnih uporabnikov. Proces

znanosti o podatkih je ponavljajoč se razvojni proces, ki vključuje odkrivanje in učenje na

podlagi podatkov. Vizualizacija vključuje grafično predstavo pomena analiziranih

podatkov na intuitiven, zanimiv in relevanten način do končnega uporabnika, ki je lahko

tudi interaktiven. S pomočjo vizualizacije lahko podatkovni znanstvenik pridobi boljšo

predstavo česa še ne ve in lahko na ta način boljše razume omejitve modelov, vrednost

podatkov in boljše obvladuje negotovost v podatkih.

Cilj analize je alternativno lahko tudi izgradnja prototipa na podlagi analiziranih

podatkov (angl. data product). Nov izdelek ali storitev, ki temelji na kombinaciji

podatkov in algoritmov, predstavlja dodatno vrednost organizaciji. Na podlagi podatkov

uporabi inteligentno metodo procesiranja podatkov, ki predstavlja uporabno vrednost za

organizacijo in njene potrošnike. Primeri takšnih izdelkov ali storitev na podlagi podatkov

so: klasifikator nezaželene elektronske pošte, algoritem za rangiranje spletnih strani v

spletnih iskalnikih z relevantnimi rezultati na podlagi spletnega iskanja, sistem za

priporočanje (angl. recommendation system), mrežna statistika in grafikoni, ki jih LinkedIn

prikazuje svojim potrošnikom ali geografski informacijski sistem, kot je MapQuest, ki

potrošnikom nudi uporabne geografske informacije o določeni lokaciji. Tisto, kar razlikuje

znanost o podatkih od statistike, je, da se takšen »podatkovni produkt« vgradi nazaj v

realni svet, kjer potrošniki interaktivno uporabljajo produkt, kar posledično generira več

podatkov, ki podatkovnemu znanstveniku omogočajo izboljšave tega produkta.

1.5 Uporaba masovnih podatkov in znanosti o podatkih

Uporaba znanosti o podatkih ne temelji zgolj na analizi podatkov. IDC (Olofson & Vesset,

2012, str. 11–12) definira uporabo znanosti o podatkih na podlagi treh dimenzij aktivnosti,

dejavnosti in poslovnih procesov:

Dimenzija aktivnosti se nanaša na uporabo znanosti o podatkih za vzpostavitev

spletnih strani za družbene medije ali igralne aplikacije, ali pa za posredovanje dostopa

25

do informacij. Aktivnost vključuje: analitiko (podatkovno rudarjenje,

večdimenzionalne analize, vizualizacijo podatkov), operacije (urejanje spletne strani,

procesiranje spletnih naročil) in dostop do informacij (dostop do informacij na podlagi

iskanja in dostop do vsebin iz različnih podatkovnih virov).

Tehnologije znanosti o podatkih se vzpostavljajo kot podpora procesom komercialnim,

neprofitnim ali vladnim organizacijam. Kot bo predstavljeno v nadaljevanju se izzivi

organizacij povezujejo s poslovnimi in organizacijskimi spremembami, povezanimi z

uporabo znanosti o podatkih. Uporaba znanosti o podatkih z vidika dimenzije

poslovnih procesov sega preko različnih poslovnih področij: management odnosov s

strankami (angl. Customer Relationship Management, v nadaljevanju CRM),

management oskrbovalne verige (angl. Supply Chain Managemnt, v nadaljevanju

SCM), administracije (s poudarkom na financah, računovodstvu, management

človeških virov, pravu, itd.), raziskav in razvoja, management z informacijskimi

tehnologijami, management tveganji, itd.

Poleg področij, ki segajo preko različnih dejavnosti, kot so finance, trženje,

informatika, obstaja še veliko možnih načinov uporabe masovnih podatkov in znanosti

o podatkih, ki so povezane s specifično dejavnostjo. V ta sklop spada: optimizacija

logistike in transportne dejavnosti, optimizacija cen v maloprodaji, ravnanje z

intelektualno lastnino v medijih in zabavni dejavnosti, izkoriščanje naravnih virov na

področju nafte in plina, ravnanje z garancijami v predelovalni dejavnosti,

preprečevanje kriminalnih dejanj, napovedovanje ocene škode na področju

zavarovalništva, odkrivanje prevar na področju bančništva, zdravljenje bolnika in

odkrivanje prevar v zdravstvu, športna statistika in športne stave, turizem.

Z razvojem masovnih podatkov in znanosti o podatkih so na popularnosti pridobila

določena orodja in tehnologije. Vsa temeljijo na paradigmi, da skupina računalnikov, ki

tvorijo segment, delujejo občutno bolj učinkovito, kot pa posamezni (super)računalnik –

pod predpostavko, da je v segmentu dovolj veliko število računalnikov. Inovacija v osnovi

izhaja iz inteligentnega in prilagojenega pristopa k načrtovanju ključnih nalog, da so le-te

učinkovito prerazporejene na segmente računalnikov (Voulgaris, 2014, str. 27). Če

omenim nekatere (Voulgaris, 2014, str. 24–27):

MapReduce – vzporedni, distribucijski algoritem, ki razdeli kompleksno nalogo na

serijo manjših, bolj enostavnih nalog in jih reši na zelo učinkovit način s povečanjem

hitrosti izvedbe celotne kompleksne naloge ter znižanjem stroškov računskih virov.

Hadoop distribuirani datotečni sistem (HDFS) – odprto-kodna platforma, ki

omogoča uporabo tehnologije vzporednega računalništva. V osnovi omogoča delo z

masovnimi podatki, ki je obvladljivo tako, da jih razdeli na manjše dele, ki so

prerazporejeni preko mreže računalnikov. V osrčju Hadoop sistema je MapReduce.

Napredna analiza besedil (angl. Advanced Text Analytics) – pogostokrat se omenja

tudi kot obdelava naravnega jezika (angl. Natural Language Processing – v

nadaljevanju NLP). Gre za področje analize podatkov, ki vključuje tehnike za

26

procesiranje nestrukturiranih besedilnih podatkov z namenom pridobiti uporabne

informacije in poslovno analitiko. Napredna analiza besedil lahko tudi prepozna

sentiment v objavah na družbenih medijih. To pomeni, da lahko prepozna, ali so

komentarji določenega posameznika sarkastični ali literarni. Napredek na tem področju

gre pripisati uporabi algoritmov umetne inteligence v Hadoop okolju.

Programski jeziki za obdelavo podatkov masovnih podatkov (npr. Pig, R itd.) –

programski jeziki, ki jih je mogoče učinkovito uporabiti na velikem obsegu podatkov

oziroma masovnih podatkih. Ti programski jeziki so bili razviti z namenom

obvladovanja masovnih podatkov in integracije z Hadoop okoljem (programski jezik

Pig je dejansko del Hadoop ekosistema). Programski jezik R, statistični jezik, ki je bil

razvit še pred razmahom masovnih podatkov, je bil sedaj nadgrajen, kar omogoča

integracijo z Hadoop in obdelavo datotek v HDFS.

Alternativne strukture baz podatkov (npr. HBase, Cassandra, MongoDB itd.) –

baze podatkov za arhiviranje, poizvedbe in urejanje masovnih podatkov z uporabo

vzporednih računalniških tehnologij. V nasprotju s tradicionalnimi bazami podatkov so

ti tipi shem oblikovani za masovne podatke. To pomeni, da so zelo fleksibilni v načinu,

kako berejo oziroma zapisujejo podatke v bazo. Vsaka od teh shem ima svoje prednosti

in slabosti, vendar so vse primerljivo boljše, ko število zapisov ali število polj naraste

preko določene meje.

Znanost o podatkih lahko organizaciji zagotovi pomembno strateško prednost. Gre za

področje, ki se bo v prihodnosti še razvijalo in pridobilo na popularnosti v smislu poslovne

vrednosti, tehnologije in znanja. Sprejetje tega področja na akademski in ravni dejavnosti

se kaže v vedno večjem številu konferenc, znanstvenih člankov, knjig, nastajanju spletnih

skupnosti, spletnih vsebin, masovnih odprtih spletnih tečajev (angl. Massive Open Online

Course – v nadaljevanju MOOC) in razvoju diplomskih in podiplomskih programov (o

katerih bo več govora v nadaljevanju) (Voulgaris, 2014, str. 18). Kljub napredku na

področju tehnologij, skalabilnosti, analitičnih metod pa znanost o podatkih ni le nabor

uporabnih orodij, metodologij in znanj. Gre tudi za popolnoma nov način razmišljanja o

podatkih. Ta premik v razumevanju seveda zahteva tudi določene spremembe na nivoju

organizacije in posameznika (Voulgaris, 2014, str. 27).

1.6 Vpliv masovnih podatkov in znanosti o podatkih na uspešnost

organizacije

»Boljše informacije in dostop do informacij sami po sebi ne vplivajo bistveno na

učinkovitost in uspešnost organizacije, ključno vprašanje je, kaj organizacije naredijo s

temi informacijami. Poslovna inteligenca prinaša poslovno vrednost le, če informacije v

organizaciji uporabimo na pravilen način« (Lukman, 2009, str. 22). Management

informacij v organizaciji je proces, pri katerem informacije smatramo kot strateški vir za

izboljšanje učinkovitosti in uspešnosti organizacije (Lukman, 2009, str. 23).

27

Pri tem se postavlja vprašanje, ali uvedba strategije masovnih podatkov in inteligentna

uporaba podatkov s pomočjo znanosti o podatkih dejansko vpliva na uspešnost

organizacije. The field guide to data science (2015, str. 24) omenjajo, da znanost o

podatkih predstavlja konkurenčno prednost, ki izhaja predvsem iz izboljšanja odločitev.

Način odločanja v organizacijah se razvija že več kot pol stoletja. Pred pojavom poslovne

inteligence so se odločitve sprejemale na podlagi instinkta, večinskega glasu ali najboljših

argumentov. Hitra razširitev razpoložljivih podatkov in orodij za dostop in uporabo

podatkov omogoča temeljne spremembe v načinu odločanja v organizacijah. Znanost o

podatkih je potrebna, da se ohrani konkurenčnost v naraščajočem, s podatki bogatem,

okolju (The field guide to data science, 2015, str. 24). V nadaljevanju omenjam štiri

raziskave, izvedene v tujini, ki so predstavile pozitivne učinke podatkovne naravnanosti,

uporabe masovnih podatkov in znanosti o podatkih na uspešnost organizacije.

MGI in McKinsey Business Technology Office so v raziskavi iz leta 2011 (Manyika et al.,

2011) proučevali vpliv masovnih podatkov na petih različnih področjih: zdravstvo v ZDA,

javni sektor v Evropi, maloprodaja v ZDA ter globalno proizvodne in osebne lokacijske

podatke. Ugotovili so, da so masovni podatki generirali vrednost na prav vsakem od teh

področij. Ocenjujejo, da lahko na primer trgovec z uporabo masovnih podatkov

potencialno poveča svojo operativno maržo za 60 % ali več. Če bi v zdravstvu v ZDA

kreativno in učinkovito uporabljali masovne podatke s ciljem povečati učinkovitost in

kakovost storitev, bi sektor lahko ustvaril več kot 300 milijard $ vrednosti vsako leto. Dve

tretjini tega zneska bi bili na račun znižanja stroškov za približno 8 %. V razvitih

gospodarstvih Evrope bi vladna administracija lahko prihranila več kot 100 milijard € na

račun izboljšanja operativne učinkovitosti. Še več prihrankov bi generirala uporaba

masovnih podatkov za zmanjšanje napak, prevar ter povečanje zbiranja davčnih prihodkov.

Uporabniki storitev, ki jih omogočajo osebni lokacijski podatki, bi lahko dodatno

generirali 600 milijard $ potrošniškega presežka. V raziskavi so o stanju masovnih

podatkov podali naslednje ugotovitve (Manyika et al., 2011):

1. Podatki so prisotni v vsaki dejavnosti in poslovni funkciji in so postali pomemben

faktor produktivnosti, dela in kapitala.

2. Obstaja pet načinov, kako masovni podatki ustvarjajo vrednost:

a) masovni podatki pripomorejo k transparentnosti informacij in povečajo frekvenco

njihove uporabe,

b) organizacije sedaj ustvarijo in shranijo veliko več transakcijskih podatkov v

digitalni obliki, kar lahko izkoristijo za zbiranje bolj natančnih in podrobnih

informacij o učinkovitosti vseh poslovnih procesov,

c) masovni podatki omogočajo bolj podrobno segmentacijo potrošnikov, katerim

lahko nato bolj natančno prilagodimo izdelke in storitve,

d) napredna analitika lahko bistveno izboljša poslovne odločitve,

e) masovne podatke lahko uporabimo za izboljšanje obstoječih in za razvoj naslednje

generacije izdelkov in storitev.

28

3. Masovni podatki bodo postali osnova za konkurenčno prednost in rast posameznih

organizacij.

4. Masovni podatki bodo podprli nove načine za rast produktivnosti in porabe

potrošnikov.

5. Masovne podatke bodo uporabljali na različnih področjih, vendar bodo nekatera

področja masovne podatke boljše izkoristila. V raziskavi so primerjali pretekle podatke

o produktivnosti v različnih sektorjih v ZDA s potencialom, ki ga lahko pridobijo z

uporabo masovnih podatkov (uporabili so indeks, ki združuje različne kvantitativne

metrike). Ugotovili so, da se priložnosti in izzivi razlikujejo med sektorji. Računalniški

in informacijski sektor kot tudi finance, zavarovalništvo in vladne službe imajo boljša

izhodišča za razvoj potenciala s pomočjo masovnih podatkov.

6. Prišlo bo do pomanjkanja nujno potrebnega znanja, da bodo organizacije lahko v celoti

izkoristile prednosti masovnih podatkov. Do leta 2018 bo v ZDA primanjkovalo od

140.000 do 190.000 posameznikov s poglobljenimi analitičnimi sposobnostmi, kot tudi

1,5 milijona managerjev in analitikov z znanjem, kako na podlagi analize masovnih

podatkov sprejemati učinkovite odločitve.

7. Da bi lahko zajeli celoten potencial masovnih podatkov, se bo potrebno soočiti z

marsikaterimi izzivi iz področja zasebnosti, varnosti, intelektualne lastnine ter

odgovornosti.

V MIT Centru za digitalno poslovanje (angl. MIT Center for Digital Business) v

sodelovanju z McKinsey Business Technology Office so prav tako preverjali domnevo, ali

so podatkovno naravnane organizacije res bolj uspešne (McAfee & Brynjolfsson, 2012 str.

63). Na podlagi strukturiranih intervjujev o organizacijskih in tehnoloških praksah s

predstavniki 330 severno-ameriških organizacij ter podatki iz njihovih letnih poročil so

ugotovili, da bolj ko so se organizacije opisale kot podatkovno naravnane, boljše so imele

rezultate na podlagi objektivnih mer finančnih in operativnih rezultatov. Organizacije v

zgornji tretjini znotraj njihove dejavnosti po uporabi podatkovno naravnanega odločanja,

pa so bile v povprečju 5 % bolj produktivne in 6 % bolj profitabline kot njihovi konkurenti.

Razlika je ostala statistično značilna tudi z vključitvijo prispevka dela, kapitala, nakupa

storitev in tradicionalnih investicij v informacijsko tehnologijo. Razlika se je zrcalila tudi v

merljivi rasti delniških vrednotenj (McAfee & Brynjolfsson, 2012, str. 64).

New Vantage Partners so poleti leta 2012 izvedli raziskavo (Big Data Executive Survey,

2012) med vodstvenimi kadri organizacij Fortune 500. Z uporabo poglobljenega

vprašalnika s 65 vprašanji so želeli, med drugim, ugotoviti, zakaj masovni podatki

predstavljajo tako pomembno področje za organizacije in v kateri fazi razvoja se

organizacije nahajajo. Rezultati raziskave so pokazali, da 85 % vprašanih načrtuje uporabo

masovnih podatkov ali pa jih že uporablja. Kot primarni razlog, da organizacije investirajo

v masovne podatke so vprašani navedli izboljšanje analitičnih sposobnosti ter zmožnost

sprejemanja boljših poslovnih odločitev. Iniciative za uporabo masovnih podatkov izhajajo

iz 17. različnih poslovnih področij, vendar več kot 50 % vprašanih kot največjo priložnost

29

uporabe masovnih podatkov navaja izboljšanje uporabniške izkušnje in boljši vpogled v

potrošnika (angl. customer insight). Kot najpomembnejši cilj in potencialno nagrado

uporabe masovnih podatkov so navedli sposobnost analiziranja podatkov različnih

podatkovnih tipov iz različnih virov in ne toliko management z velikim naborom podatkov

(40 % vprašanih je pri komentarju na definicijo masovnih podatkov v vprašalniku omenilo

raznolikost, kompleksnost in kakovost podatkov, samo 10 % vprašanih je omenilo količino

podatkov). Vprašani so kot osnovo za uspeh masovnih podatkov navedli, da je ključno

sodelovanje med več različnimi oddelki, predvsem med oddelkom za informatiko in

drugimi poslovnimi oddelki. Največjo oviro oziroma izziv pri implementaciji pa ne vidijo

toliko v tehnologiji, temveč v ljudeh. Prav tako vsi pričakujejo, da bodo vzpodbude na tem

področju imele velik vpliv na poslovanje njihove organizacije.

V Sloveniji je mogoče približno oceno stanja pridobiti na podlagi stopnje zrelosti poslovne

inteligence v slovenskih organizacijah, ob predpostavki, da lahko poslovno vrednost, ki si

jo obetamo od poslovne inteligence dosežemo s spremembami procesa poslovnega

odločanja, in sicer v taki smeri, da bo odločanje uresničevalo kulturo odločanja na podlagi

dejstev (angl. fact-based decision making), namesto kulture odločanja na podlagi intuicije

(angl. gut-based decison making) (Jaklič, Lukman& Popovič, 2010, str. 23). V sklopu

raziskave, ki je bila izvedena med 141 predstavniki slovenskih organizacij, je bila

ugotovljena splošna zrelost poslovne inteligence z vidika treh komponent poslovne

inteligence: tehnologije poslovne inteligence, kakovosti informacij in uporabo informacij v

poslovanju. Na podlagi rezultatov vprašalnika, ki je vključeval vse tri komponente, so bile

identificirane štiri skupine zrelosti poslovne inteligence: nezrele organizacije, tehnološko

napredne organizacije, organizacije z naprednim managementom informacij in zrele

organizacije. V Sloveniji naj bi zastopanost skupin bila približno enakomerna,

prevladovala pa naj bi skupina tehnološko naprednih organizacij. V sklopu vprašalnika je

bil tudi sklop vprašanj, vezan na uporabo analitičnih orodij oziroma uporabe načinov

dostopa do podatkov v organizaciji. Vprašanci so med drugim ocenjevali prisotnost

podatkovnega rudarjenja na lestvici od 1 – ni prisotno do 7 – zelo prisotno. Na celotnem

vzorcu (n = 141) je bila povprečna vrednost 2,8. Po identificiranih skupinah organizacij

glede na zrelost poslovne inteligence pa so najvišjo povprečno vrednost dosegle zrele

organizacije (4,839) ter tehnološko napredne organizacije (3,078), sledijo nezrele

organizacije (1,741) in organizacije z naprednim managementom informacij (1,514)

(Lukman, 2009, str. 70). Glede na to, da je bila raziskava izvedena spomladi leta 2008 in

glede na porast popularnosti področij od takrat, lahko pričakujemo, da se je prisotnost

orodij podatkovnega rudarjenja samo še povečala.

Drugih raziskav, specifično vezanih na temo uporabe masovnih podatkov ali znanosti o

podatkih, v slovenskih organizacijah oziroma v Sloveniji nisem zasledila.

30

1.7 Vloga in pomen podatkovnih znanstvenikov v organizacijah

Učinek masovnih podatkov in znanosti o podatkih danes predstavlja pomemben premik v

oddelkih informatike v organizacijah. Preko potrebe po izgradnji nove infrastrukture, do

zaposlovanja posameznikov z novimi in drugačnimi znanji in sposobnostmi, bodo masovni

podatki in znanost o podatkih na dolgi rok spremenili tudi funkcijo oddelka informatike

(Evans et al., 2015, str. 4). Podatki se pretakajo v, iz in preko organizacije tako hitro, da

tradicionalne tehnike managementa podatkov niso več ustrezne. To pomeni, da je na

podatke potrebno gledati bolj celovito s pomočjo ogrodja za management informacij (angl.

information management framework) (Evans et al., 2015, str. 4). Senzorji, ki generirajo

milijone TB podatkov na dan spreminjajo obstoječe sisteme za management podatkov in za

management podatkovnih skladišč. Javni zunanji nestrukturirani viri podatkov, kot so

podatki iz družbenih medijev, silijo skupine informacijskih tehnologij (angl. Information

Technology, v nadaljevanju IT), da večkrat delujejo izven požarnega zidu (Evans et al.,

2015, str. 4). Da bi lahko IT organizacije uspešno vključevale nove konkurenčne prioritete,

potrebujejo nove tehnologije, znanja in procese. Potrebno je, da začnejo zasnovati in

izvajati celotno storitveno platformo na podlagi analitike masovnih podatkov.

Slika 11: Ogrodje za management informacij

Vir: Evans et al., IT’s Challenge: Bringing Structure to the Unstructured World of Big Data, 2015, str. 4,

Slika 2.

31

Slika 11 prikazuje ogrodje za management informacij (Evans et al., 2015, str. 4). Preko

življenjskega cikla informacij (pridobiti, shraniti, procesirati in uporabiti) so prikazane štiri

ključne komponente managementa informacij:

informacijska arhitektura, ki vključuje vizijo, principe in standarde ter informacijske

domene in razmerja;

management informacij, ki vključuje politike, organizacijsko strukturo, informacijsko

skrbništvo in performančne metrike;

management podatkov, ki vključuje podatkovni model, management matičnih

podatkov (ang. master data management), management kakovosti podatkov in

podatkovna varnost;

v sklopu četrte komponente orodja in tehnologije, pa so vse komponente povezane

preko aplikacijske arhitekture.

Ključne komponente managementa informacij prinašajo strateške in operativne poslovne

prednosti. Na strateškem nivoju predstavljajo poglobljeno poznavanje potreb potrošnikov

preko zajemanja informacij in analize 360 stopinjskega pogleda na potrošnika ter boljše

segmentacije potrošnikov in izboljšanega ujemanja izdelkov in storitev s specifičnimi

potrebami potrošnikov. Na operativnem nivoju pa predstavljajo boljše razumevanje

stroškov ter razpoložljivost podatkov preko prodajnih kanalov in učinkovitosti kampanj –

kar prinaša prihranke v času in izvedbi novih kampanj (Evans et al., 2015, str. 4).

Da bodo lahko organizacije in IT oddelki znotraj organizacij lahko obvladovali navedene

prioritete, potrebujejo nove tehnologije, znanja, sposobnosti in procese. Začeti morajo tudi

z zasnovo in uporabo platform, ki bodo pokrile vse storitve, ki temeljijo na masovnih

podatkih in znanosti o podatkih. Polno integrirana platforma, ki bi jo organizacije lahko

kupile in začele takoj uporabljati še ne obstaja, obstajajo pa različne možnosti za vsako od

komponent managementa informacij (Evans et al., 2015, str. 5).

Slika 12 prikazuje integracijo masovnih podatkov s tradicionalno IT arhitekturo. Podatki

različnih tipov (strukturirani, nestrukturirani) in iz različnih virov (CRM, ERP, drugi

notranji in zunanji viri) se tradicionalno preko ETL procesa shranjujejo v podatkovno

skladišče. Tam se pripravlja OLAP kocke, poročila, področna podatkovna skladišča. Preko

ELT procesa se podatki iz virov ter podatki iz tradicionalnih podatkovnih skladišč

prenašajo tudi v kataloge masovnih podatkov, kjer se jih obdeluje s strani ekipe

podatkovnih znanstvenikov. Rezultati iz obeh virov se uporabijo za vizualizacijo in

organizacijsko poročanje v obliki nadzornih plošč, poročil, analiz v realnem času ipd., ki

jih uporabljajo različni deležniki (vodstvo, poslovni analitiki, skrbniki baz podatkov idr.)

(Evans et al., 2015, str. 5).

32

Slika 12: Integracija masovnih podatkov v tradicionalno IT arhitekturo

Opomba: CRM pomeni management odnosov s potrošniki (angl. Customer Relationship Management); ERP

pomeni orodja za načrtovanje virov organizacij (angl. Enteprise Resource Planning); ETL pomeni

ekstrakcija, transformacija in nalaganje podatkov (angl. Extract, Transform, Load); ELT pomeni ekstrakcija,

nalaganje, transformacija podatkov (angl. Extract, Load, Transform).


Slika 3.

Pri pregledu literature sem zasledila, da različni viri izpostavljajo različna področja in

izzive, s katerimi se srečuje management. Po Gartnerju bodo morale organizacije zaradi

uporabe masovnih podatkov poiskati nove načine, da bodo informacijski viri lahko

predstavljali vzvode za rast organizacije, več spoznanj pridobiti iz analize masovnih

podatkov, napovedovati prihodnja obnašanja, trende in rezultate ter uvesti sistemski

management informacij, da bodo lahko obvladala rastoče potrebe po informacijah in

usmerjala inovacije (Big data management and analytics, 2015). O’Reilly (Lorica, Howard

& Dumbill, 2012) napoveduje, da se bodo morale organizacije naučiti komunicirati in

interpretirati rezultate analiz. Za poslovne probleme pa bodo morale postaviti konkretne

poslovne cilje. McAfee & Brynjolfsson (2012, str. 66) izpostavljata pomen ustreznega

vodenja z jasnim postavljanjem ciljev, uvajanje ustreznih orodij in tehnologij, sprememba

procesa odločanja in načina sprejemanja odločitev, spremembo kulture v organizaciji ter

iskanje in management talentov. Davenport, Barth & Bean (2012) poudarjajo, da bodo

podatkovno naravnane organizacije morale svojo pozornost nameniti hitrosti pridobivanja

33

podatkov in ne zgolj zalogi podatkov (angl. streaming analytics omogoča procesiranje

podatkov v realnem času, ko se dogodek izvaja, z namenom izboljšanja izida). Davenport,

Barth & Bean (2012) tudi organizacijsko umeščajo analitiko izven IT funkcije, v samo

jedro poslovanja organizacije – v operativne in proizvodne funkcije. Prav tako pa

izpostavljajo, da se bodo organizacije morale bolj zanašati na podatkovne znanstvenike in

na izdelčne in procesne razvijalce kot pa na podatkovne analitike. Tudi v sklopu raziskave

Big Data Executive Survey (2012, str. 8) so ugotovili, da ima kar 70 % vprašanih

odločevalcev v organizacijah na področju masovnih podatkov namen zaposliti podatkovne

znanstvenike, vendar jim to že sedaj predstavlja velik izziv.

1.8 Povpraševanje po podatkovnih znanstvenikih

Z namenom poudariti vlogo in pomen podatkovnih znanstvenikov v organizacijah sem v

nadaljevanju zbrala ugotovitve raziskav, povezanih z ovrednotenjem povpraševanja po

podatkovnih znanstvenikih.

Raziskava MGI in McKinsey’s Business Technology Office (Manyika et al., 2011)

napoveduje, da bo do leta 2018 samo v ZDA nastala od 50 do 60 % vrzel med ponudbo in

povpraševanjem po poglobljenem analitičnem znanju. Torej, pomanjkanje od 140.000 do

190.000 posameznikov z naprednimi znanji na področju statistike ali strojnega učenja in

1,5 milijona managerjev in analitikov s sposobnostmi uporabe analitike masovnih

podatkov za sprejemanje učinkovitih odločitev. Čeprav so analizo opravili v ZDA, menijo,

da bo pomanjkanje poglobljenega analitičnega talenta svetovni trend. Države z višjim

številom posameznikov s poglobljenim analitičnim znanjem na prebivalca bodo v

prihodnosti predstavljale privlačen vir teh sposobnosti za druga geografska področja preko

migracije ali preko zaposlitev v organizacijah. Po Gartnerju so napovedali, da bo do leta

2015 4,4 milijone delovnih mest na področju informatike po svetu namenjenih podpori

delu z masovnimi podatki (Chordas, 2014, str. 23). Povpraševanja zajema vse od

inženirjev masovnih podatkov (angl. big data engineer), podatkovnih analitikov (angl.

data analyst) do poslovnih analitikov (angl. business analyst). Največji izziv pa naj bi bilo

najti podatkovne znanstvenike, saj gre za posameznike, ki imajo ključno vlogo pri uporabi

masovnih podatkov: podatke priskrbijo in jih uporabijo za poslovne odločitve (Chordas,

2014, str. 23).

Tudi glede na raziskavo Talent Map 2014 (Number of chief digital officers doubled in

2013, 2013) se je število Chief Digital Officers oz. CDO v letu 2013 podvojilo.

Eksponentna rast naj bi se nadaljevala tudi v prihodnjih letih, tako v nove sektorje kot tudi

v druge države. Glede na raziskavo naj bi CDO bili moški, v starosti od 30 do 49 let z

letno plačo od 250.000 $ do 750.000 $. CDO prevladujejo v oglaševanju, medijih,

založništvu, neprofitnih organizacijah ter v finančnem sektorju. Rastoči sektorji

vključujejo trgovinsko dejavnost, kozmetiko, modo ter področje hrane in pijače. Sephora,

L’Oreal, Benetton in McDonalds so v letu 2013 vsi zaposlili Chief Digital Officers. CDO v

34

Evropi predstavljajo 23 % vseh CDO. V raziskavi so prvič sledili rastočemu digitalnemu

nazivu – Chief Data Officer. Predstavlja pozicijo osebe, ki upravlja s podatkovnimi

sredstvi organizacije, v preteklosti pa so to vlogo bolj opisovali nazivi chief analytics

officer, chief data scientist in podobni. Raziskava je identificirala 197 oseb, ki imajo takšen

naziv. Napovedujejo, da naj bi se to število do konca leta 2013 povišalo na 250 oseb. V

sklopu že omenjene raziskave New Vantage Partners Big Data Executive Survey (2012,

str. 8) so ugotovili, da ima kar 70 % vprašanih odločevalcev v organizacijah na področju

masovnih podatkov namen zaposliti podatkovne znanstvenike, vendar jih 80 % meni, da

jim to predstavlja velik izziv. Kot primarno metodo za zapolnitev te funkcije se

organizacije odločajo za nove zaposlitve. Tudi organizacije, ki so izredno analitično

orientirane (imajo 500 ali več analitikov), verjamejo, da se znanj in sposobnosti za delo z

masovnimi podatki ne more pridobiti s pomočjo dodatnih izobraževanj. Organizacije se

tako ozirajo tudi zunaj njihove panoge, da poiščejo strokovnjake iz akademskega okolja ali

drugih poslovnih področij z ustreznimi znanji in sposobnostmi.

Po podatkih Evropske Akademije za znanost o podatkih (v nadaljevanju EDSA) (EDSA,

2015) naj bi v Evropi v obdobju od 13. julija 2015 do 10. novembra 2015 bilo na voljo več

kot 12.500 delovnih mest iz področja masovnih podatkov in znanosti o podatkih. Podatki o

delovnih mestih so pridobljeni s pomočjo podatkovnega rudarjenja iz spletnih portalov kot

so LinkedIn, Monster, Indeed in Stack Overflow. Kot filter pri iskanju so upoštevane

izpeljanke izraza »data science«. Kot je razvidno (Slika 13), je največ delovnih mest na

voljo v Veliki Britaniji, Nemčiji, Nizozemski, Irski, Franciji, Španiji in Italiji.

Slika 13: Število delovnih mest iz področja znanosti o podatkih po Evropi

Legenda: število delovnih mest

Vir: EDSA, 2015.

35

Nekatere raziskave so podale tudi zanimive ugotovitve, da analitična znanja in sposobnosti

niso dovolj le na operativnem nivoju, temveč bi osnove morali poznati tudi vodje,

managerji, direktorji informatike (v nadaljevanju CIO) in drugi, ki sprejemajo odločitve.

Pri The Big Data London Group (Raywood, 2012) so na primer ugotovili, da 78 %

vprašanih meni, da obstaja pomanjkanje znanj in sposobnosti iz področja masovnih

podatkov, a tudi, da jih 70 % meni, da obstaja prepad v znanju med posamezniki, ki se

operativno ukvarjajo z masovnimi podatki in njihovimi naročniki projektov (managerji,

direktorji informatike). Tudi v raziskavi New Vantage Partners (Big Data Executive

Survey, 2012, str. 4) 43 % vprašanih meni, da je sposobnost nadrejenih in poslovnih vodij

uporabe podatkov in analitike za transformacijo poslovanja manj kot zadovoljiva. Trende

glede povpraševanja po delovnih mestih, povezanih z analitiko in masovnimi podatki, je

zaslediti tudi pri spletnih mestih, namenjenih iskalcem in ponudnikom zaposlitev. Podatki

iz analize znanj, sposobnosti in izkušenj preko 330 milijonov uporabnikov omrežja

LinkedIn v letu 2014 so razkrili 25 najbolj zaželjenih znanj in sposobnosti (angl. skills)

(Tabela 1), ki so pripomogli k novi zaposlitvi ali pa so pritegnili zanimanje delodajalcev

(Murthy, 2014).

Tabela 1: 25 zaželjenih znanj in sposobnosti iz leta 2014 (LinkedIn)

Mesto Naziv (angl.) Naziv

1 Statistical Analysis and Data Mining Statistična analiza in podatkovno rudarjenje

2 Middleware and Integration Software Vmesno programje in programska oprema za

integracijo

3 Storage Systems and Management Pomnilniški sistemi in management pomnilniških

sistemov

4 Network and Information Security Omrežja in informacijska varnost

5 SEO/SEM Marketing Optimizacija spletnih strani (SEO) in iskalno trženje

(SEM)

6 Business Intelligence Poslovno obveščanje

7 Mobile Development Razvoj mobilnih aplikacij

8 Web Architecture and Development

Framework Spletna arhitektura in razvoj programskih ogrodij

9 Algorithm Design Zasnova algoritmov

10 Perl/Python/Ruby Programski jeziki Perl/Python/Ruby

11 Data Engineering and Data Warehousing Podatkovni inženiring in podatkovna skladišča

12 Marketing Campaign Management Management trenjskih kampanj

13 Mac, Linux and Unix Systems Mac, Linux in Unix sistemi

14 User Interface Design Zasnova uporabniških vmesnikov

15 Recruiting Zaposlovanje

16 Digital and Online Marketing Digitalno in spletno trženje

17 Computer Graphics and Animation Računalniška grafika in animacija

18 Economics Ekonomija

19 Java Development Razvoj z Java programskim jezikom

20 Channel Marketing Trženje prodajnih kanalov

21 SAP ERP Systems SAP sistemi za celovite programske rešitve (ERP)

22 Integrated Circuit (IC) Design Zasnova integriranih vezij (IC)

23 Shell Scripting Languages Skriptni jezik Shell

24 Game Development Razvoj računalniških iger

25 Virtualization Virtualizacija

Vir: S. Murthy, The 25 hottest skills that got people hired in 2014, 2014.

36

Organizacije trenutno pomanjkanje posameznikov z opisanimi znanji in sposobnostmi

lahko rešujejo na različne načine. Kandidate lahko poiščejo in pridobijo iz akademskih

okolij ali iz drugih sektorjev izven svoje dejavnosti. Nekateri investirajo v izobraževanje

obstoječih potencialnih zaposlenih ali pa razpišejo delovna mesta in kandidata izberejo na

podlagi intervjujev. Odvisno od delovnega mesta in potreb lahko namesto ene same osebe

zaposlijo in sestavijo tim strokovnjakov iz področja znanosti o podatkih. Nekatere

organizacije pa se poslužujejo storitev svetovanja in na projektih, povezanih z masovnimi

podatki in znanostjo o podatkih, sodelujejo s specializiranimi organizacijami (v Sloveniji

npr. Insight, d.o.o, Ektimo, d.o.o., Revelo, d.o.o.). Ne glede na način, kako se organizacija

loti iskanja podatkovnega znanstvenika ali drugih delovnih mest, povezanih z znanostjo o

podatkih, je ključno, da pred tem definira, kaj za organizacijo pomeni biti podatkovno

naravnan (Chordas, 2014, str. 26). V osnovi to pomeni tesnejše sodelovanje med poslovno

stranjo in IT oddelkom, večjo pozornost je potrebno nameniti managementu informacij in

podatkov z namenom, da boljše spoznajo, kakšne podatke imajo, kako jih interpretirajo,

kdo jih uporablja, kako ti uporabniki med seboj sodelujejo ter kdo nosi lastništvo in

odgovornost (Chordas, 2014, str. 26).

2 ZNANJA IN SPOSOBNOSTI PODATKOVNIH ZNANSTVENIKOV

2.1 Podatkovni znanstveniki

Vedno večja vloga informacijsko komunikacijskih tehnologij in konvergenca različnih

znanstvenih disciplin, kot so matematika in statistika ter tudi naravoslovne in družbene

vede z informatiko, predstavljata po Organizaciji za ekonomsko sodelovanje in razvoj (v

nadaljevanju OECD) (2015, str. 261) pomemben trend v poklicih, povezanih s podatki. Ta

konvergenca je omogočila tudi pojav novega razreda podatkovnega strokovnjaka –

podatkovnega znanstvenika – katerega naziv še ni v celoti sprejet, vendar je s strani

različnih avtorjev uporabljen za opis »nove« discipline, kategorije dela oziroma karierne

poti, katere pomembnost raste skupaj z masovnimi podatki (OECD, 2015, str. 261). OECD

(2015, str. 254) hkrati opozarja, da trenutno tudi še ne obstaja splošno sprejeta definicija

znanj in sposobnosti podatkovnih znanstvenikov. Rivera & Haverson (2014) prav tako

omenjata, da trenutno še ni standarda glede uporabe nazivov podatkovni znanstvenik in

ostalih nazivov, povezanih s podatki (podatkovni analitik, podatkovni rudar, podatkovni

inženir, statistik, analitik ipd.), ki bi jasno razločeval med različnimi vlogami. Rivera &

Haverson (2014) ugotavljata, da gre za vloge, ki so med seboj komplementarne in obsegajo

široko paleto različnih znanj in sposobnosti. Vzroki za slabo definicijo tega področja so

povezani s tem, da gre za relativno nova področja, ki v literaturi niso še dobila dovolj

pozornosti v primerjavi z drugimi informacijsko komunikacijskimi znanji in sposobnostmi

ter s tem, da se področje še vedno neprestano razvija (OECD, 2015, str. 254).

Znanja in sposobnosti podatkovnih znanstvenikov, med drugim, izhajajo iz osnovne smeri

izobrazbe, delovnih nalog, značilnosti in odgovornosti delovnega mesta, ki ga posameznik

37

opravlja ter drugih dejavnikov. Potrebno se je zavedati, da posamezniki, ki se v večji meri

ukvarjajo z znanostjo o podatkih lahko opravljajo delo analitika, programerja, vodje,

managerja, profesorja, svetovalca, podjetnika itd. Za ilustracijo obsežnosti področja je v

Prilogi 1 predstavljeno 115 različnih nazivov delovnih mest, neposredno povezanih z

masovnimi podatki ali znanostjo o podatkih na podlagi 7500 LinkedIn kontaktov

(Granville, 2013). Posamezniki z omenjenimi nazivi se lahko v različni meri ukvarjajo z

znanostjo o podatkih: od popolnoma operativnih nalog v procesu znanosti o podatkih do

vodstvenih položajev, ki zahtevajo dodatna znanja in sposobnosti. Kar je skupno vsem

navedenim nazivom strokovnjakov na področju podatkov je to, da delo s podatki zavzema

večinski delež njihovega dela (OECD, 2015, str. 255). Slika 14 prikazuje kako lahko naziv

podatkovni znanstvenik zajema širok spekter nazivov in vlog v procesu znanosti o

podatkih preko življenjskega cikla vrednosti podatkov (angl. data value cycle) (OECD,

2015, str. 255). Nazivi vključujejo vloge, ki zbirajo podatke (skrbniki baz podatkov,

skrbniki podatkov, vnosni referenti ali načrtovalci baz podatkov), analizirajo podatke s

pomočjo analitike (statistiki, aktuarji, znanstveniki, analitiki) ter do določene mere takšni,

ki sprejemajo odločitve na podlagi podatkov (managerji, inženirji) (OECD, 2015, str. 254).

Pri opredelitvi znanj in sposobnosti podatkovnega znanstvenika sem zato upoštevala, da

podatkovni znanstvenik lahko vodi ekipo drugih podatkovnih znanstvenikov ali

strokovnjakov, opravlja vodilno organizacijsko funkcijo, povezano s podatkovno

naravnanostjo ali vodi lastno organizacijo, delo s podatki pa zavzema večino njegovega

časa.

Slika 14: Faze v življenjskem ciklu vrednosti podatkov v povezavi s ključnimi tipi

podatkovnih znanstvenikov

Vir: OECD, Data-driven innovation: Big Data for Growth and Well-Being, 2015, str. 255, Slika 6.5.

38

Podatkovni znanstvenik preko podatkovno naravnanega pristopa ter z uporabo svojih znanj

in sposobnosti oblikuje domneve, odkriva zanimive informacije iz podatkov, pridobiva

napovedni vpogled v podatke, ki služi za izboljšanje prihodnjih odločitev, ustvarja t. i. nov

izdelek ali storitev na podlagi podatkov (angl. data product), zagotavlja vpogled v svoja

dognanja ter ustrezno komunicira uspešne zgodbe na podlagi podatkov drugim deležnikom

(Somohano, 2013; Voulgaris, 2014, str. 133).

Podatkovni znanstvenik pri svojem delu potrebuje in uporablja znanja iz različnih

znanstvenih področij: matematike, statistike, računalništva/programiranja, strojnega učenja

in domenska znanja določenega področja, na katerem deluje posameznik ali organizacija.

Kljub temu da podatkovni znanstveniki uporabljajo znanja iz navedenih področij,

Granville (2014, str. 73), na primer, podatkovnih znanstvenikov ne enači s statistiki,

podatkovnimi analitiki, programskimi inženirji ali poslovnimi analitiki. Podatkovni

znanstveniki imajo namreč znanja iz vsakega od teh področij, vendar pa imajo znanja tudi

izven le-teh področij (Granville, 2014, str. 73). Poleg analize podatkov podatkovni

znanstveniki namreč razvijajo algoritme, ki avtomatsko procesirajo podatke, na podlagi

katerih je mogoče pridobiti avtomatizirane napovedi in akcije. Primeri takšnih rešitev so:

avtomatski sistemi za izvajanje ponudb, ocenjevanje (v realnem času) vrednosti

nepremičnin v ZDA (npr. Zillow.com), visoko frekventno trgovanje, ujemanje Google

oglasnega sporočila s potrošnikom, ki je obiskal spletno stran s ciljem maksimiziranja

konverzije, vračanje relevantnih rezultatov iskanj na spletnem brskalniku Google, sistemi

za priporočanje (na primer priporočila potrošniku izdelkov in knjig na Amazon.com,

prijateljev na Facbook.com ali filmov na Netflix), odkrivanje goljufij in terorizma,

simulacija novih molekul za zdravljenje rakavih obolenj, zgodnje odkrivanje epidemij,

analiza Nasinih posnetkov z namenom odkrivanja novih planetov in asteroidov,

napovedovanje vremena, zdravstvene diagnoze, napovedovanje trenda sezonske gripe,

samo vozeča se vozila, prilagojen način oblikovanja cen v realnem času za hotelske

storitve itd. Pri vseh teh primerih so potrebna znanja iz statistike, matematike,

računalništva, domenskega znanja, strojnega učenja in TB podatkov (Granville, 2014, str.

12).

Zaradi prekrivanja področij dela ter znanj in sposobnosti med podatkovnimi znanstveniki

in ostalimi vlogami oziroma delovnimi mesti v nadaljevanju najprej navajam podobnosti in

razlikovanja med njimi, kot sta jih opredelila Granville (2014) in Evans et al. (2015).

Granville (2014, str. 74) pravi, da je razlika med podatkovnimi znanstveniki in statistiki

v tem, da imajo statistiki veliko več znanja iz področja statistike in matematike, kot je

potrebno za delo podatkovnega znanstvenika. Slednji do takšnega nivoja znanja dostopajo

s pomočjo visokonivojskih orodij (programov), kjer se naprednejši izračuni izvedejo v

obliki »črnih škatel« (angl. black box). Po drugi strani pa podatkovni znanstveniki

potrebujejo novejša statistična znanja, ki izhajajo iz podatkovno naravnanih robustnih

tehnologij, ki se jih lahko uporabi na novejših, obsežnih, hitro rastočih in včasih

39

nestrukturiranih podatkih. To vključuje tudi strukturiranje nestrukturiranih podatkov,

znanja iz področja taksonomij, procesiranje naravnega jezika ali podatkovno rudarjenje

besedil (angl. text mining) in poznavanje sistemov za management oznak (angl. tag

managemenet systems) (Granville, 2014, str. 74). Granville posameznike, ki se ukvarjajo s

projekti, naštetimi v uvodu tega poglavja, ne smatra kot statistike, temveč kot podatkovne

znanstvenike. Granville omenja tudi, da se bo čez čas prepad med statistiko in znanostjo o

podatkih skrčil (Granville, 2014, str. 12).

Po Granvillu se podatkovni znanstveniki razlikujejo tudi od računalniških inženirjev

(Granville, 2014, str. 9). Glavna razlika med podatkovnim znanstvenikom in računalniškim

inženirjem naj bi bila v načinu pristopa do podatkov. Računalniški inženir, podatkovni

arhitekt ali skrbnik baz podatkov uporablja ETL pristop (angl. ETL –

Extract/Transform/Load), podatkovni znanstvenik pa DAD pristop (angl. DAD –

Discover/Access/Distill). DAD pristop vključuje: odkritje – identifikacija dobrih

podatkovnih virov in metrik; dostopnost – dostop do podatkov preko programskega

vmesnika (angl. Application Program Interface, v nadaljevanju API), spletnega pajka

(angl. web crawler), prenosa podatkov ali preko dostopa do baze podatkov; izluščenje – iz

podatkov izlušči informacije, ki vodijo do boljših odločitev, večje donosnosti naložb in

akcij preko procesa znanosti o podatkih (Granville, 2014, str. 9). Računalniški inženir se

osredotoča na programsko opremo, načrtovanje baz podatkov, uporabo programske kode v

produkciji in zagotavlja neprekinjenost toka podatkov od vira, kjer so podatki zbrani, do

cilja, kjer so podatki procesirani s statističnimi metodami, algoritmi znanosti o podatkih ter

nato pripeljani nazaj na vir ali drugam (Granville, 2014, str. 9). Podatkovni znanstveniki

sicer ne optimizirajo toka podatkov, čeprav ga morajo razumeti, temveč optimizirajo korak

procesiranja podatkov: izluščijo vrednosti iz podatkov. Podatkovni znanstveniki tesno

sodelujejo z inženirji in poslovnimi uporabniki, da definirajo metrike, načrtujejo sheme za

zbiranje podatkov in zagotovijo, da je proces znanosti o podatkih polno in učinkovito

integriran v podatkovni sistem organizacije (Granville, 2014, str. 9–10).

Granville omenja tudi, da se podatkovni znanstveniki prav tako razlikujejo od

poslovnih analitikov. Granville (2014, str. 75) vlogo analitika opisuje kot posameznike, ki

sicer analizirajo podatke, vendar ne ustvarjajo sistemov ali arhitekturnih rešitev, ki

avtomatsko analizirajo, procesirajo podatke in izvajajo avtomatiziranje akcije na podlagi

avtomatsko zaznanih vzorcev in dognanj. Poslovni analitik je osredotočen na načrtovanje

baz podatkov (na najvišjem nivoju), ki zajema definiranje metrik, oblikovanje preglednih

plošč (angl. dashboard), pridobivanje in izvedbo poročil in oblikovanje sistemov za

obveščanje (Granville, 2014, str. 12). Poleg načrtovanja baz podatkov se ukvarja tudi z

ocenjevanjem donosnosti investicij na različnih poslovnih projektih. Nekateri poslovni

analitiki delajo v trženju, financah ali v oddelkih za oceno tveganj. Marsikatere od teh

nalog opravljajo tudi podatkovni znanstveniki, predvsem v manjših organizacijah. Poslovni

analitik in podatkovni znanstvenik med seboj sodelujeta. Na primer pri avtomatizaciji

poročil, optimizaciji pridobivanja podatkov in avtomatizaciji nalog podatkovnega analitika.

40

Po navadi organizacije najprej zaposlijo poslovnega analitika. Ko podatki in algoritmi

postanejo preveč kompleksni, se pridruži tudi podatkovnih znanstvenik (Granville, 2014,

str. 12–13).

Podobno razlikovanje med podatkovnimi znanstveniki in drugimi vlogami – analitiki,

raziskovalci, sistemskimi skrbniki, razvojnimi inženirji, poslovnimi uporabniki,

oblikovalci informacij in skrbniki baz podatkov – ugotavljajo tudi pri ATKearney (Evans

et al., 2015, str. 9). Izvajanje naprednih analiz v sklopu znanosti o podatkih zahteva delo z

velikimi količinami podatkov, pridobljenimi iz različnih virov, ki so pogosto delno ali v

celoti nestrukturirani. Podatkovni znanstveniki pri delu uporabljajo kombinacijo

programiranja, znanosti odločanja, poslovnega znanja, analitičnih tehnik in kreativnosti

(Evans et al., 2015, str. 9). Pogosto je vloga podatkovnega znanstvenika postavljena izven

oddelka za informatiko v poslovno enoto. Vzpon podatkovnih znanstvenikov naj bi tudi

razširil tradicionalne IT vloge in sposobnosti skrbnikov podatkovnih baz, razvijalcev in

sistemskih skrbnikov, da bodo bližje in bolj povezani s poslovno stranjo (Evans et al.,

2015, str. 9). Slika 15 prikazuje znanja in sposobnosti po različnih vlogah za učinkovito

sodelovanje med oddelkom informatike in podatkovnimi znanstveniki (Evans et al., 2015,

str. 9).

Slika 15:Znanja in sposobnosti glede na različne vloge za učinkovito sodelovanje med

oddelkom informatike in podatkovnimi znanstveniki


Slika 7.

Razvidno je, da ima podatkovni znanstvenik od vseh navedenih vlog, poleg inženirja

programske opreme, edini znanja in sposobnosti iz vseh navedenih področij. Največ znanj

41

in sposobnosti naj bi podatkovni znanstvenik imel iz napredne analitike, vizualizacije,

kreativnosti, analize podatkov in managementa baz podatkov. Sledijo znanja in

sposobnosti iz programiranja, domenska znanja in sposobnost sodelovanja ter znanja iz

integracije sistemov in razvoja aplikacij.

Pri razumevanju razlikovanja med posameznimi vlogami je potrebno pojasniti različne tipe

analitike, ki se omenjajo v sklopu ukvarjanja z masovnimi podatki in znanostjo o podatkih:

opisna (angl. descriptive), diagnostična (angl. diagnostic), napovedna (angl. predictive) in

predpisovalna (angl. prescriptive) analitika (Declues, 2015; Granville, 2014, str. 77).

Opisna analitika obravnava dogodke, ki so se zgodili sedaj, na podlagi toka podatkov. Po

navadi zajema pregledne plošče s podatki v realnem času ter poročila (Declues, 2015).

Diagnostična analitika se uporablja za raziskovanje vzrokov, zakaj se je nekaj zgodilo. Pri

trženjskih kampanjah, izvedenih na družbenih medijih, lahko uporabimo opisno statistiko,

da pridobimo podatek o številu objav, sledilcev, ogledov strani ipd. Z diagnostično

analitiko pa lahko pretekle trende združimo v enoten pogled z namenom ugotoviti, kaj je v

preteklosti delovalo in kaj ne (Declues, 2015). Napovedna analitika uporablja masovne

podatke za identifikacijo preteklih vzorcev z namenom napovedati prihodnje dogodke.

Nekatere organizacije uporabljajo napovedno analitiko za celoten prodajni proces, analizo

virov, število komunikacij, tipe komunikacij, družbene medije, dokumente, podatke iz

sistemov CRM, itd. (Declues, 2015). Predpisovalna analitika je zelo uporabna, vendar

njena uporaba še ni razširjena. Po podatkih Gartnerja naj bi 13 % organizacij uporabljalo

napovedno analitiko in le 3 % predpisovalno analitiko (Declues, 2015). Predpisovalna

analitika pa ponudi konkretne odgovore na specifična vprašanja (Declues, 2015).

Iz navedenih primerjav lahko zaključim, da lahko podatkovnega znanstvenika opredelim

kot strokovnjaka, ki se večino svojega časa ukvarja s podatki, pri čemer uporablja

raznolika znanja in sposobnosti iz več različnih znanstvenih področij z namenom, da iz

surovih (masovnih) podatkov preko znanosti o podatkih pridobi dodano vrednost. Menim,

da je na podlagi napisanega in vloge podatkovnega znanstvenika v organizaciji osnovni

cilj, da ima podatkovni znanstvenik ustrezna znanja in sposobnosti, da lahko izpelje vse

faze procesa znanosti o podatkih: od pridobivanja podatkov do končne vizualizacije ali

novega izdelka/storitve na podlagi podatkov.

V nadaljevanju sem najprej opredelila koncept znanj in sposobnosti človeka na splošno. Na

podlagi literature, strokovnih člankov in raziskav sem opredelila znanja in sposobnosti, ki

naj bi jih podatkovni znanstvenik imel v skladu z zgoraj definiranim ciljem in kako jih

lahko pridobi. V zadnjem delu tega poglavja pa sem predstavila ugotovitve raziskav iz

tujine glede identifikacije različnih segmentov podatkovnih znanstvenikov na podlagi

njihovih znanj in sposobnosti.

42

2.2 Opredelitev znanj in sposobnosti podatkovnih znanstvenikov

Za ustrezno opredelitev znanj in sposobnosti podatkovnih znanstvenikov je potrebno

najprej ustrezno opredeliti koncept znanj in sposobnosti v sklopu človeških zmožnosti.

Lipičnik (1998, str. 26) definira človeške zmožnosti v ožjem in širšem smislu (Slika 16).

Človeške zmožnosti v širšem smislu so zelo raznovrstne in se nanašajo na različna

področja človekovega življenja: psihične zmožnosti, fiziološke zmožnosti in fizične

zmožnosti. Glede na pridobivanje teh zmožnosti ločimo zmožnosti, ki jih je človek razvil

večinoma v povezavi z dednostnimi dispozicijami (mednje sodijo vse vrste sposobnosti)

ter zmožnosti, ki si jih je pridobil v času svojega življenja (mednje spada znanje vseh vrst).

Pod človeškimi zmožnostmi v ožjem smislu pa večinoma spadajo sposobnosti, znanje in

motivacija (Lipičnik, 1998, str. 26–27).

Slika 16: Človeške zmožnosti v širšem smislu

Vir: B. Lipičnik, Ravnanje z ljudmi pri delu, 1998, str. 27.

Lipičnik (1998) definira sposobnosti kot človekov potencial za razvoj določenih

zmožnosti. Sposobnosti se delijo na štiri skupine: intelektualne (inteligentnost in specifične

sposobnosti), motorične, senzorične in mehanske. Do izraza pridejo šele v kombinaciji z

znanjem, saj odločilno vplivajo na reševanje problemov s povsem neznanimi rešitvami.

Znanje po drugi strani omogoča reševanje znanih problemov. Takšnih, ki smo jih že videli

in rešili. Iz sposobnosti, ki jih ima vsak posameznik, lahko sklepamo na njegov prihodnji

uspeh, vendar je napoved veliko natančnejša, če znamo odgovoriti tudi na vprašanje, kaj

hoče. Tako so sposobnosti, znanje in motivacija osrednje zmožnosti in poglavitna

43

človekova mobilizacijska sila, ki nam daje možnosti za doseganje uspeha. Iz tega razloga

si te zmožnosti prizadevamo spoznati in nanje vplivati (Lipičnik, 1998, str. 28). V

magistrskem delu sem se odločila za obravnavo znanj in sposobnosti podatkovnih

znanstvenikov, torej obravnavo človekovih zmožnosti v ožjem smislu (brez motivacije).

Kljub temu vlogo in vpliva motivacije ne gre zanemariti. V okviru sposobnosti pa sem se

osredotočila predvsem na specifične intelektualne sposobnosti.

V nadaljevanju predstavljam opredelitev znanj in sposobnosti podatkovnih znanstvenikov,

kot so opredeljene v Conway Vennovem diagramu, raziskavi Analyzing the Analyzers

(Harris, Murphy& Vaisman, 2013), OECD (2015), The field guide to data science (2015)

in masovnega odprtega spletnega tečaja na Courseri.

Conway (2015) Vennov diagram potrebna znanja podatkovnih znanstvenikov (Slika 17)

prikazuje na način, da posameznik potrebuje znanja iz različnih področij, da postane

podatkovni znanstvenik. Podatkovni znanstvenik naj bi imel znanja iz področij

programiranja, matematike in statistike ter strokovna znanja iz področja delovanja

organizacije, imenovana tudi poslovna domenska znanja (Conway, 2015).

Slika 17: Conway Vennov diagram potrebnih znanj podatkovnih znanstvenikov

Vir: D. Conway, The Data Science Venn Diagram, 2015.

Conway (2015) pravi, da so bila ta področja izbrana, ker nobeno od področij ni specifično

ter ker je vsako zase pomembno. Vendar kombinacija znanj enega področja samo z enim

od drugih navedenih področij še ne pomeni, da gre za znanost o podatkih. Znanje

programiranja je za znanost o podatkih nujno, saj so podatki »dobrina, s katero se trguje

elektronsko« (Conway, 2105). Programiranje ne vsebuje nujno ozadja iz računalništva.

Pomembno je, da je posameznik lahko sposoben manipulirati tekstovne datoteke na nivoju

ukazne vrstice, razume vektorske operacije ter razmišlja algoritemsko. Ko enkrat

podatkovni znanstvenik pridobi in očisti podatke, je iz njih potrebno pridobiti informacije,

44

ki bodo omogočale boljše odločitve. To je mogoče z ustreznimi matematičnimi in

statističnimi metodami, ki zahtevajo vsaj osnovno poznavanje teh orodij. Kombinacija

uporabe znanj iz področja programiranja ter matematike in statistike Conway (2015)

smatra »le« kot strojno učenje, kar pa ni dovolj za izvajanje znanosti o podatkih. Pri

znanosti gre za odkrivanje in razvoj znanja, kar pa zahteva ustrezna vprašanja glede sveta

in domneve, ki jih je mogoče preveriti na podatkih s statističnimi metodami (Conway,

2105). Na drugi strani poslovna domenska znanja oziroma strokovna znanja iz delovanja

organizacije ter matematična in statistična znanja definirajo tradicionalnega raziskovalca.

Kombinacija znanj programiranja in strokovnih znanj iz delovanja organizacije

predstavljajo posameznike, ki so sposobni pridobiti in strukturirati podatke o področju

delovanja organizacije. Na teh podatkih so ti posamezniki sposobni uporabiti linearno

regresijo in pridobiti koeficiente, žal pa jim manjka razumevanja, kaj ti koeficienti

pomenijo. Posamezniki iz kombinacije teh dveh področij so najbolj »nevarni«, saj znajo

pripraviti veljavno analizo, toda brez razumevanja ozadja rezultatov (Conway, 2015).

Podobno kot Conway (2015) tudi OECD (2015, str. 270) opaža, da bodo podatkovni

znanstveniki oziroma vsi, ki se ukvarjajo s podatki, morali vedno bolj kombinirati znanja

in sposobnosti z namenom zbiranja, analize in uporabe podatkov preko vrednostnega cikla

podatkov na način, ki jasno ustvarja dodano vrednost za organizacijo. Slika 18 prikazuje,

kako naj bi znanja kombinirali iz področja informatike (razvoj programske opreme,

management baz podatkov, strojno učenje) kot tudi iz področja statistike ter domensko

specifična znanja in sposobnosti iz poslovnih ved, trženja, financ in zdravstva (OECD,

2015, str. 269). Dodatno so v diagramu, napram Conwayu, dodali še »mehke sposobnosti«,

ki so vedno bolj zaželene, kot so komunikacija, kreativno mišljenje ter sposobnost

reševanja problemov (OECD, 2015, str. 269).

Slika 18: Znanja in sposobnosti podatkovnih znanstvenikov po OECD (2015)

Vir: OECD, Data-driven innovation: Big Data for Growth and Well-Being, 2015, str. 270, Tabela 6.16.

45

Podobno strukturo znanj podatkovnih znanstvenikov so povzeli tudi pri The field guide to

data science (2015, str. 39). Podatkovni znanstvenik naj bi imel znanja iz področja

informatike (potrebno za manipulacijo in obdelavo podatkov), matematike (nudi

teoretično strukturo, v kateri se obdeluje probleme iz znanosti podatkov, saj so za

razumevanje osnov velike večine algoritmov potrebna znanja iz statistike, geometrije,

linearne algebre itd.) in domenskega znanja (razumevanje, katere probleme je dejansko

potrebno rešiti) (The field guide to data science, 2015, str. 39). Poudarili pa so, da je

verjetno največji problem najti takšne posameznike, ki bodo imeli znanja iz vseh treh

področij. Zato omenjajo, da je kritična komponenta znanosti o podatkih predvsem dober

tim, ki bo pokril vsa tri področja znanj (The field guide to data science, 2015, str. 39).

V sklopu raziskave Analyzing the analyzers (Harris, Murphy & Vaisman, 2013) so v

vprašalniku opredelili znanja, ki so jih vprašanci razvrstili glede na to, katera področja

znanj najbolj obvladajo pri svojem delu. Z vprašanji so želeli razumeti in opredeliti

podskupine na podlagi tega, kakšno mnenje imajo vprašanci o sebi in svojem delu.

Pripravili so seznam 22 generičnih znanj (Tabela 2), ki naj bi pokrila širok razpon

uporabnih znanj, ki jih podatkovni znanstvenik uporablja pri svojem delu. Zraven vsakega

področja znanj so bili navedeni konkretni primeri kot pomoč pri razumevanju in

razvrščanju (Harris, Murphy & Vaisman, 2013).

Tabela 2: Seznam znanj iz raziskave Harrisa, Murphya & Vaismana

Skupina znanj Znanja (slo.) Znanja (angl.)

Matematika /

operacijsko raziskovanje

Algoritmi (npr.: računska zahtevnost,

teorija iz področja računalništva)

Algorithms (ex: computational

complexity, CS theory)

Matematika /


Bayesova/Monte Carlo statistika (npr.:

MCMC – Markov Chain Monte Carlo,

BUGS – Bayesian inference Using

Gibbs Sampling)

Bayesian/Monte-Carlo Statistics

(ex: MCMC, BUGS)

Matematika /


Grafični modeli (npr.: družbena omrežja,

Bayesove mreže)

Graphical Models (ex: social

networks, Bayes networks)

Matematika /


Matematika (npr.: linearna algebra,

analiza realnih števil, računanje)

Math (ex: linear algebra, real

analysis, calculus)

Matematika /


Optimizacija (npr.: linearno, integralno,

konveksno, globalno programiranje)

Optimization (ex: linear, integer,

convex, global)

Matematika /


Simulacije (npr.: diskretne, zvezne,

simulacije na podlagi agentov)

Simulation (ex: discrete, agent-

based, continuous)

Poslovne vede Poslovna znanja (npr.: management,

razvoj poslovanja, vodenje proračuna)

Business (ex: management,

business development, budgeting)

Poslovne vede Razvoj izdelkov (npr.: zasnova,

management projektov)

Product Development (ex: design,

project management)

Programiranje Zaledno programiranje (npr.:

Java/Rails/Objective C)

Back-End Programming (ex:

JAVA/Rails/Objective C)

Programiranje Čelno programiranje (npr.: JavaScript,

HTML, CSS)

Front-End Programming (ex:

JavaScript, HTML, CSS)

Programiranje

Sistemska administracija (npr.: *nix

operacijski sistemi, administracija baz

podatkov – DBA, oblačne tehnologije)

Systems Administration (ex: *nix,

DBA, cloud tech.)

se nadaljuje

46

Tabela 3: Seznam znanj iz raziskave Harrisa, Murphya & Vaismana (nad.)

Skupina znanj Znanja (slo.) Znanja (angl.)

Statistika Klasična statistika (npr.: splošni linearni

modeli, ANOVA)

Classical Statistics (ex: general

linear model, ANOVA)

Statistika

Manipulacija podatkov (npr.: regularni

izrazi, R, SAS, spletno »strganje«

podatkov)

Data Manipulation (ex: regexes, R,

SAS, web scraping)

Statistika Znanost (npr.: zasnova eksperimentov,

tehnično pisanje/objavljanje)

Science (ex: experimental design,

technical writing/publishing)

Statistika

Prostorska statistika (npr.: geografske

spremenljivke, geografski informacijski

sistemi – GIS)

Spatial Statistics (ex: geographic

covariates, GIS)

Statistika Raziskave in trženje (npr.: multinomska

porazdelitev)

Surveys and Marketing (ex:

multinomial modeling)

Statistika Časovna statistika (npr.: napovedovanje,

analiza časovnih vrst)

Temporal Statistics (ex:

forecasting, time-series analysis)

Statistika

Vizualizacija (npr.: statistične grafike,

mapiranje, spletne vizualizacije

podatkov)

Visualization (ex: statistical

graphics, mapping, web-based

dataviz)

Strojno učenje / masovni

podatki

Masovni in porazdeljeni podatki (npr.:

Hadoop, Map/Reduce)

Big and Distributed Data (ex:

Hadoop, Map/Reduce)


podatki

Strojno učenje (npr.: drevesa odločanja,

nevronske mreže, metoda podpornih

vektorjev – SVM, razvrščanje v skupine)

Machine Learning (ex: decision

trees, neural nets, SVM, clustering)


podatki

Strukturirani podatki (npr.: SQL, JSON,

XML)

Structured Data (ex: SQL, JSON,

XML)


podatki

Nestrukturirani podatki (npr.: noSQL,

podatkovno rudarjenje besedil)

Unstructured Data (ex: noSQL, text

mining)

Vir: H. Harris, S. Murphy &M. Vaisman, Analyzing the Analyzers: An Introspective Survey of Data Scientists

and Their Work, 2013, str. 30.

Harris, Murphy & Vaisman (2013) so na podlagi zbranih podatkov znanja razvrstili v

skupine in vsako skupino znanj primerno poimenovali. Tako so prišli do naslednjih skupin

znanj: matematika/operacijsko raziskovanje, statistika, programiranje, poslovne vede

in strojno učenje/masovni podatki. Ugotovili so, da so vprašanci podobno rangirali

prostorsko statistiko in raziskave in trženje – ali so jih rangirali relativno visoko ali

relativno nizko. Analiza je pokazala, da je vsako od 22 generičnih znanj bilo zelo močno

povezano z eno samo identificirano skupino znanj z izjemo strukturiranih podatkov in

strojnega učenja. Strukturirani podatki, ki so bili uvrščeni v skupino strojno

učenje/masovni podatki, so bili močno povezani tudi s skupino programiranje. Strojno

učenje, ki pa je bilo uvrščeno v strojno učenje/masovni podatki, pa je bilo močno povezano

s skupinama matematika/operacijsko raziskovanje in statistika (Harris, Murphy &

Vaisman, 2013).

Na masovnem odprtem spletnem tečaju Data Science Specialization ponudnika

Coursera.org so znanja in sposobnosti podatkovnih znanstvenikov opredelili z vidika

izvajanja procesa znanosti o podatkih. Specializacija je podprta s strani Univerze John

Hopkins in jo izvajajo uveljavljeni predavatelji omenjene univerze. Tečaj pokriva, poleg

47

konceptov znanosti o podatkih tudi vsa orodja (nadzor različic, markdown, git, GithHub,

R, RStudio), ki jih bo posameznik potreboval za izvajanje celotnega procesa znanosti o

podatkih, od postavljanja pravih vprašanj do oblikovanja domnev in objavljanja rezultatov.

Podatkovni znanstvenik naj bi tako imel znanja, da pridobi (preko spleta, preko API-jev,

iz baz podatkov ali drugih virov) in prečisti podatke. Pri tem potrebuje ustrezna znanja iz

področja računalništva, baz podatkov in znanje programskih jezikov (opomba: na

Coursera.org so se osredotočili na programski jezik R – branje podatkov v R, dostop do R

paketov, pisanje R funkcij, razhroščevanje ter profiliranje, organiziranje in komentiranje R

kode – lahko pa se uporabi tudi Python ali kateri drugi: Julia, Scala). Pri izvajanju

raziskovalne analize podatkov mora poznati ustrezne raziskovalne tehnike za

združevanje podatkov iz področja statistike (multivariantna analiza, statistično

modeliranje) ter sposobnosti vizualizacije. Kot pomembno področje znanj in sposobnosti

omenjajo zagotavljanje ponovljivosti raziskav (angl. reproducible research). V sklopu

sodobne analize podatkov ponovljivost raziskav predstavlja koncepte in orodja v ozadju

ideje, da so znanstveni zaključki objavljeni skupaj s podatki in programsko kodo, da lahko

drugi preverijo zaključke analize podatkov ali pa jih nadgradijo. Pomembnost tega

področja se veča z naraščajočo kompleksnostjo analiz podatkov, večanjem obsega

podatkov in zahtevnosti izračunov. Podatkovni znanstvenik naj bi imel ustrezna znanja iz

področja programiranja, statističnih metod in orodij, ki omogočajo objavo analize

podatkov v enotnem dokumentu (npr. Jupyter.org). Iz področja statistike je predvsem

pomembno področje znanj iz statističnega sklepanja (angl. statistical inference). Gre za

proces pridobivanja zaključkov glede populacije ali znanstvenih resnic iz podatkov. Pri

statističnem sklepanju se uporablja znanja iz področij statističnega modeliranja,

podatkovno usmerjenih strategij, preverjanja domnev, vzorčenja itd. Podatkovni

znanstvenik naj bi imel tudi znanja iz področja regresije. Ključno področje znanj pa je

napovedovanje in strojno učenje. V sklopu tega naj bi podatkovni znanstvenik poznal

osnovne koncepte, kot so: nabor podatkov za učenje in testiranje, prekomerno prileganje

(angl. overfitting), stopnje napak, različne napovedne modele (regresija, klasifikacija,

naivni Bayes, naključni gozd (angl. random forest)) ter osnovni proces strojnega učenja od

zbiranja podatkov, kreiranja značilnosti, algoritme ter načine za ovrednotenje napovednega

modela. Rezultat procesa znanosti o podatkih je izdelek ali storitev, narejena na podlagi

analize podatkov. V sklopu takšnega »izdelka« so avtomatizirane kompleksne analitične

naloge ali pa gre za uporabno tehnologijo, ki izkoristi napovedne modele, algoritme ali

inference z namenom, da se rezultate predstavi širšemu občinstvu (Coursera, 2016).

Na podlagi pregleda različnih znanj in sposobnosti podatkovnega znanstvenika iz tega

poglavja sem v nadaljevanju opredelila konkretna znanja in sposobnosti, ki bodo služila

kot podlaga za vprašalnik za raziskavo znanj in sposobnosti podatkovnih znanstvenikov v

Sloveniji.

48

2.3 Znanja in sposobnosti podatkovnih znanstvenikov

2.3.1 Izhodišča za kategorizacijo znanj in sposobnosti podatkovnih znanstvenikov

Pri opredelitvi konkretnih znanj in sposobnosti podatkovnih znanstvenikov sem v osnovi

izhajala iz procesa znanosti o podatkih, predstavljenem v prvem poglavju ter

interdisciplinarnosti področja dela podatkovnih znanstvenikov iz prejšnjega poglavja. To

pomeni, da sem vključila širok nabor znanj iz različnih znanstvenih področij (statistike,

informatike, programiranja, matematike in ekonomije), ki se lahko uporabljajo za

reševanje problemov organizacij iz različnih dejavnosti, z namenom zajema vseh različnih

profilov posameznikov, ki se ukvarjajo z znanostjo o podatkih. Veliko različnih tehnologij

in tehnik je bilo razvitih in prilagojenih z namenom združevanja, manipuliranja,

analiziranja in vizualizacije masovnih podatkov (Manyika et al., 2011, str. 27). Seznam

znanj trenutno ne predstavlja celostnega pogleda na znanja podatkovnih znanstvenikov, saj

se metode in orodja neprestano razvijajo z namenom reševanja vedno novih problemov

(Manyika et al., 2011, str. 27). Prav tako različni problemi zahtevajo uporabo različnih

tehnik in tehnologij iz različnih področij glede na naravo problema in cilje projekta

znanosti o podatkih.

Pri kategorizaciji znanj podatkovnega znanstvenika sem upoštevala določene

predpostavke. Pri pregledu znanj, ki jih omenja literatura, sem ugotovila, da bo težavno

postaviti ustrezno ločnico med posameznimi področji znanosti, saj se tehnike med seboj

prekrivajo in povezujejo. Kot je bilo prikazano v prejšnjem poglavju, je struktura znanj

podatkovnega znanstvenika zelo obširna in kompleksna. Če bi pogledali hierarhično, npr. v

Conwayevem diagramu, se znanja podatkovnih znanstvenikov na najvišjem nivoju

nanašajo na znanstvena področja (matematika, statistika, informatika, strojno učenje,

poslovna domenska znanja itd.), na nivoju nižje pa sledijo specifična znanja (optimizacija,

multivariantna analiza, zaledno programiranje, regresija, simulacije itd.). Nekatera

specifična znanja lahko razvrstimo tudi znotraj enega ali več znanstvenih področij – na

primer simulacija zahteva znanja tako iz statistike kot matematike ter programiranja za

samo izvedbo simulacij. Podoben primer je vizualizacija, ki se lahko nanaša na več

specifičnih področij, odvisno od namena in načina uporabe: vizualizacija podatkov opisne

statistike ali rezultatov strojnega učenja v Microsoft Excelu, SPSS Modelerju, MatLabu ali

Tableauju, vizualizacija podatkov v programskem jeziku R ali pa interaktivna spletna

vizualizacija s pomočjo JavaScripta. Pri »vsaki« vizualizaciji so potrebna podrobna znanja

programskega orodja, programiranja, statistike, strojnega učenja, osnov in pravil

vizualizacije itd. Pri opredelitvi znanj podatkovnih znanstvenikov sem le-ta, zaradi lažjega

pregleda in na podlagi različnih virov ter lastnih izkušenj, razporedila v skupine po

naslednjih področjih: znanstvena metoda, programiranje, management podatkov, baze

podatkov, statistika, matematika, strojno učenje ter domenska znanja s pripadajočimi

tehnikami. Problem nastane tudi pri kategorizaciji znanj programskih rešitev (SPSS, SAS,

Orange, RapidMiner, Weka, Tableau, Excel itd.), ki lahko pokrivajo več specifičnih

49

področij in tehnik oziroma je z njimi mogoče reševati različne probleme organizacije. Iz

nabora znanj sem zato izključila opredelitev znanj, vezane na specifične programske

rešitve, saj predstavljajo bolj tehnološko orodje, s katerim podatkovni znanstvenik izvede

določeno fazo v znanosti o podatkih. Poleg tega bi to lahko pristransko vplivalo na

rezultate, saj bi bili le-ti vezani na popularnost in dostopnost posameznega orodja. Pri

opredelitvi znanj podatkovnega znanstvenika sem tudi izključila poimenovanja

določenega sklopa znanj, na primer: analitika, spletna analitika, poslovna analitika,

podatkovna analitika, saj ti izrazi združujejo različne tehnike oziroma aktivnosti iz

različnih področij in bi bilo težko postaviti ustrezne ločnice.

2.3.2 Znanstvena metoda

Znanstvena metoda v najširšem smislu vključuje vse postopke in tehnike za objektivno

raziskovanje pojavov (Toš & Hafner-Fink, 1998). Znanstvena metoda vključuje zbiranje

empiričnih in merljivih dokazov, podvrženih določenim principom razmišljanja

(Hayes, 2014b). Znanstvena metoda vključuje naslednje splošne korake: 1) oblikovanje

raziskovalnega vprašanja; 2) oblikovanje hipoteze; 3) preverjanje domneve s pomočjo

poskusa/eksperimenta (v kolikor ni mogoče izvesti pravega eksperimenta, se podatke

pridobi preko opazovanja in merjenja); 4) analiza podatkov, na podlagi katerih se izpelje

zaključke (Hayes, 2014b). Hayes (2014b) verjame, da znanstvena metoda predstavlja

ključno vlogo v razumevanju katerih koli podatkov, ne glede na njihovo velikost, hitrost ali

raznolikost. Podatki namreč ne »govorijo« sami zase, temveč jim pomen dajo ljudje preko

ustvarjanja, zbiranja in interpretacije podatkov. Ljudje pa na žalost predstavljajo tudi vir

(namerne ali nenamerne) pristranskosti, ki lahko poslabša kakovost podatkov (Hayes,

2014b).

Načrtovanje poskusov/eksperimentov (angl. experimental design) – načrtovanje

poskusov je raziskovalna tehnika, ki se uporablja v vzročnem raziskovanju (angl. causal

research). Gre za primarno znanstveno metodo za vzpostavljanje vzročno-posledičnega

odnosa med spremenljivkami (Malhotra, 2012, str. 221). Podatkovni znanstvenik naj bi v

sklopu načrtovanja poskusov poznal koncepte neodvisnih, odvisnih in zunanjih

spremenljivk, testnih enot in naključne razdelitve na poskusno in kontrolno skupino. Pri

izvedbi poskusa podatkovni znanstvenik namreč določi testne enote in način, kako so te

enote razdeljene na homogene podskupine, določi katere neodvisne spremenljivke bo

spreminjal, manipulira eno ali več neodvisnih spremenljivk in nato opazuje in meri učinke

teh sprememb na odvisne spremenljivke, ob tem pa preverja vpliv zunanjih ali tujih

spremenljivk (Malhotra, 2012, str. 222–223). Podatkovni znanstvenik mora pri načrtovanju

poskusov upoštevati tudi notranjo (angl. internal validity) in zunanjo veljavnost. (angl.

external validity). Notranja veljavnost predstavlja veljavne sklepe glede učinka neodvisnih

spremenljivk na odvisne spremenljivke. Zunanja veljavnost pa predstavlja veljavne

posplošitve določenega poskusnega okolja na večjo populacijo. Cilj poskusov je doseči

zunanjo veljavnost (Malhotra, 2012, str. 224).

50

Zagotavljanje ponovljivosti raziskav (angl. reproducible resarch) – ponovljivost

raziskave predstavlja ključen koncept znanstvene metode. Vključuje koncepte in orodja, ki

jih podatkovni znanstvenik uporablja, da lahko znanstvene zaključke objavi skupaj s

podatki in programsko kodo in da lahko drugi preverijo zaključke analize podatkov ali pa

jih nadgradijo (Coursera, 2016). Podatkovni znanstvenik v raziskavo vključi podrobna

navodila za izvedbo analize podatkov, definira vire podatkov oziroma priloži podatke z

namenom, da je raziskavo mogoče ponoviti, bolje razumeti ali preveriti veljavnost (Kuhn,

2015). Zagotavljanje ponovljivosti raziskave ima še dodatne prednosti. Kot prvo omogoča

ponovljivost katerega koli dela procesa izvajanja znanosti o podatkih. Podatkovnemu

znanstveniku omogoča tudi, da ob ugotovljeni napaki ponovi določene dele procesa

znanosti o podatkih brez potrebe, da bi moral začeti od začetka. Prednost je nenazadnje

tudi v tem, da lahko podatkovni znanstvenik, ko pridobi nove vire podatkov, le-te

enostavno in smiselno integrira v proces znanosti o podatkih (O’Neill & Schutt 2013, str.

332).

2.3.3 Programiranje

Znanje programiranja je ključno področje, ki loči podatkovnega znanstvenika od

tradicionalnega poslovnega analitika ali statistika. Z znanjem programiranja lahko

podatkovni znanstvenik pokrije celoten proces izvajanja znanosti o podatkih – kadar koli

lahko napiše program, ki pridobi podatke iz baze podatkov, zažene algoritme strojnega

učenja na naboru podatkov (Ultimate skills checklist for your first data analyst job, 2015,

str. 5), razvije produkt/storitev na podlagi podatkov ali pripravi vizualizacijo podatkov.

Priporočljivo je znanje vsaj enega ali več programskih jezikov, ki so robustni, popularni in

razširljivi – sploh pri velikem naboru podatkov (Voulgaris, 2014, str. 53). Priporočljivo je

tudi, da ima podatkovni znanstvenik dober pregled nad področjem knjižnic in paketov,

povezanih s programskimi jeziki, ki se najpogosteje uporabljajo za izvajanje znanosti o

podatkih (Ultimate skills checklist for your first data analyst job, 2015, str. 5).

Med programske jezike, ki jih najbolj pogosto uporablja več kot 90 % podatkovnih

znanstvenikov, uvrščamo R, SAS in Python (Piatetsky, 2014). Voulgaris (2014, str. 54)

omenja tudi Java, C+, C# in Perl, ki so objektno orientirani jeziki (angl. object-oriented

languages), katerih prednost leži v tem, da omogočajo enostavno ustvarjanje kompleksne

programske kode. Proces znanosti o podatkih je mogoče izvajati tudi v drugih programskih

jezikih: Julia, Scala, Stata, Hadoop programski jeziki (Pig Latin, HiveQL, drugi),

Java, Unix shell/awk/sed, MATLAB, C/C++, Perl, Octave, Ruby, Lisp/Clojure, F# itd.

(Piatetsky, 2014). Od vseh naštetih bolj podrobno predstavljam R, Python, Julia, SAS,

Scala, MATLAB, Pig Latin ter zaledno (angl. back-end) in čelno (angl. front-end)

programiranje.

R je brezplačen odprtokodni programski jezik in programsko okolje za statistične izračune

in grafike. R ima sicer vse značilnosti objektno orientiranega programskega jezika (vse

51

podatkovne strukture se smatrajo kot objekti), vendar ga večina še vedno obravnava kot

statistično orodje (Voulgaris, 2014, str. 57–58). Programski jezik R je postal »de facto«

standard med statistiki za razvoj statistične programske opreme in se zelo široko uporablja

za razvoj statističnih programskih orodij in analizo podatkov. R je del GNU Projekta,

kolaboracije, ki podpira odprtokodne projekte (Manyika et al., 2011, str. 33). R podpira

aktivna in široka skupnost uporabnikov. Prednost R je predvsem v njegovi surovi moči

hitrih izračunov, zaradi česar so ga za razvoj svojih algoritmov uporabili Google,

Facebook, Twitter in drugi (Marr, 2015). R vključuje tudi široko paleto knjižnic (znanih

tudi kot paketov), ki omogočajo uporabniku, da opravi zahtevne naloge brez veliko

programiranja (Voulgaris, 2014, str. 57). V sklopu znanja R programskega jezika je

priporočljivo poznati naslednje R pakete: ggpolot2 (sistem za risanje grafikonov), dplyr

(nabor orodij za učinkovito manipulacijo nabora podatkov v R), ggally (dodatek k ggplot2,

za matrike in omrežja), ggpairs (dodatek k ggplot2), reshape2 (omogoča fleksibilno

preoblikovanje podatkov) (Ultimate skills checklist for your first data analyst job, 2015,

str. 5).

Python je visokonivojski programski jezik, ki je hkrati tudi najbolj popularen odprtokoden

programski jezik za delo z velikimi in kompleksnimi nabori masovnih podatkov. Prednosti

Pythona sta, da je zelo fleksibilen in da se ga je relativno enostavno naučiti. Kot R ima tudi

Python aktivno skupnost uporabnikov, predano izboljšanju jezika in pridobivanju novih

uporabnikov (Marr, 2015). V sklopu znanja Python programskega jezika je priporočljivo

poznati naslednje Python pakete: numpy (optimizirana Python knjižnica za izvedbo

numeričnih analiz, velikih večdimenzionalnih obsegov in matrik), pandas (optimizirana

Python knjižnica za izvedbo analize podatkov), matplotlib (Python knjižnica za 2D plot, ki

vključuje tudi MATLAB vmesnik), scipy (knjižnica za znanstvene in tehnične izračune),

scikit-learn (knjižnica za strojno učenje, narejena na podlagi NumPy, SciPy in matplotlib)

(Ultimate skills checklist for your first data analyst job, 2015, str. 5).

SAS je programski jezik, ki se ga uporablja v ozadju analitične platforme Statistical

Analysis Sistem (v nadaljevanju SAS). Platformo SAS se uporablja za statistično

modeliranje že od leta 1960, preko posodobitev in izboljšav pa ostaja popularna tudi danes.

Za razliko od ostalih programskih jezikov SAS ni brezplačen odportokoden programski

jezik (Marr, 2015).

Julia je razmeroma nov programski jezik, ki obstaja šele nekaj let, kljub temu pa je

popularen med podatkovnimi znanstveniki zaradi fleksibilnosti in enostavnosti uporabe.

Programski jezik je sicer mogoče uporabiti na širokemu spektru različnih problemov,

najbolj učinkovit pa se izkaže pri izkoriščanju moči porazdeljenih sistemov (angl.

distributed systems), kot je Hadoop (Marr, 2015).

Programski jezik Scala temelji na Javi in njegova prevedena (angl. compile) različica kode

se izvaja na Java Virtual Machine platformi, kar pomeni, da ga je mogoče zagnati na

52

skoraj kateri koli platformi. Tako kot Java je Scala postal popularen med podatkovnimi

znanstveniki in statistiki zaradi surove računske moči in razširljivosti (Marr, 2015).

MATLAB je programski jezik, namenjen delu z matrikami pri statističnem modeliranju in

razvoju algoritmov. MATLAB sicer ni odprtokoden programski jezik, se ga pa uporablja

na akademskem področju (Marr, 2015).

Pig Latin je Hadoop orientiran odprtokoden programski jezik. Gre za jezikovni nivo

Apache Pig platforme, ki se uporablja za Hadoop MapReduce naloge, ki razvrščajo

ogromne, porazdeljene nabore podatkov in na njih izvajajo matematične funkcije. Pig

Latin je možno kombinirati z drugimi jeziki: uporabniki lahko ustvarijo funkcije, ki v Pig

Latin niso privzeto podprte, na primer v Pythonu (Marr, 2015).

Znanja iz zalednega in čelnega programiranja (predstavljena v nadaljevanju) se izkažejo za

koristna predvsem pri implementaciji produkta/storitve na podlagi podatkov v

produkcijsko okolje – uporabniško aplikacijo. Podatkovni znanstvenik naj bi predvsem

imel osnovna znanja kot podlago za komunikacijo in usklajevanje analitične rešitve z

zalednim in čelnim razvijalcem. Zaledno programiranje (angl. Back End

Programming): Java/Rails./.NET/PHP/Ruby/Go lang – zaledno programiranje se nanaša

na strežnik, aplikacijo in bazo podatkov. Zaledni razvijalec razvija in vzdržuje tehnologijo,

ki poganja navedene komponente, s katerimi omogoča obstoj uporabniških aplikacij. Z

namenom komunikacije med strežnikom, aplikacijo in bazo podatkov se na strežniški

strani uporabljajo programski jeziki PHP, Ruby, Python, Go lang in .NET za razvoj

aplikacije. S strani baze podatkov pa se uporabljajo z namenom shranjevanja, iskanja ali

spremembe podatkov, ki so nato na voljo uporabniku preko čelne programske kode. V

sklopu znanj je priporočljivo tudi poznavanje in izkušnje s programskimi ogrodji (npr.

PHP ogrodja: Zend, Symfony in Laravel), izkušnje s programskimi orodji za nadzor

različic (angl. version control) in izkušnje z Linux razvojnim okoljem (Wales, 2014).

Čelno programiranje (angl. Front End Programming): JavaScript, HTML, CSS,

jQuery, AJAX – čelno programiranje je odgovorno za izgled uporabniškega vmesnika in

arhitekture uporabniške izkušnje. Z namenom doseganja teh ciljev je potrebno poglobljeno

znanje programskih jezikov HTML, CSS in JavaScript. Priporočeno je poznavanje ogrodij,

kot so Bootstrap, Foundation, Backbone, AngularJS in EmberJS, ki zagotavljajo dober

izgled vsebine ne glede na napravo, na kateri si uporabnik ogleduje vsebino. Pomembno je

tudi poznavanje knjižnic, kot sta jQuery in LESS, ki poenostavita delo s programsko kodo.

Pri čelnem programiranju se pogosto uporablja tudi AJAX – široko sprejeta tehnika za

uporabo JavaScripta, ki omogoča dinamično nalaganje z nalaganjem podatkov iz strežnika

v ozadju (Wales, 2014).

53

2.3.4 Management podatkov

Podatkovni znanstvenik se večino svojega časa ukvarja s podatki. S svojim delovanjem in

izvajanjem procesa znanosti o podatkih ima pregled, možnost in vpliv na obvladovanje

podatkov, arhitekturo, varnost, povezovanje, shranjevanje in kakovost podatkov ter druge

vidike t. i. managementa podatkov. Z ustreznimi znanji iz področja managementa podatkov

lahko podatkovni znanstvenik poveča učinkovitost in uspešnost izvajanja procesa znanosti

o podatkih. Management podatkov (angl. data management) vključuje in opisuje procese

za načrtovanje, definiranje, kreiranje, pridobivanje, vzdrževanje, uporabo, arhiviranje,

nadzor in integracijo podatkov (DAMA, 2014, str. 5). Po definiciji DAMA (2014, str. 10)

se management podatkov deli na več področij:

obvladovanje podatkov (angl. data governance) – načrtovanje, pregled in nadzor nad

managementom podatkov ter uporaba podatkov in podatkovnih virov z namenom

uresničevanja enotne strategije managementa podatkov,

management podatkovne arhitekture (angl. data arhitecture management) –

celostna struktura podatkov in podatkovnih virov, ki predstavljajo pomemben del

celotne arhitekture organizacije,

razvoj in oblikovanje podatkov (angl. data modeling and design) – analiza,

oblikovanje, izgradnja, testiranje in vzdrževanje podatkovnih virov skozi celoten

življenjski cikel podatkov,

shranjevanje podatkov (angl. data storage and operations) – strukturirana fizična

razporeditev podatkovnih sredstev za shranjevanje in management,

management varnosti podatkov (angl. data security management) – zagotavljanje

varnosti, zaupnosti in primernosti dostopa do podatkov,

integracija in interoperabilnost podatkov (angl. data integration and

interoperability) – pridobivanje, izločevanje, preoblikovanje, premikanje, dostava,

replikacija, povezava, virtualizacija in operativna podpora,

management dokumentov in vsebine (angl. document and content management) –

shranjevanje, zaščita, indeksiranje in omogočanje dostopa do podatkov, najdenih v

nestrukturiranih virih (digitalni in fizični zapisi) in omogočanje, da so ti podatki na

voljo za integracijo in interoperabilnost s strukturirano bazo podatkov,

management matičnih in referenčnih podatkov (angl. reference and master data

managmenet) – management deljenih podatkov z namenom zmanjšanja redundance in

zagotavljanja boljše kakovosti podatkov s pomočjo standardiziranih definicij in

uporabe vrednosti podatkov,

management podatkovnih skladišč in poslovne inteligence (angl. data warehousing

and business intelligence management) – management analitičnih procesov obdelave

podatkov in omogočanje dostopa za podporo odločanju ter poročila in analize,

management meta-podatkov (angl. metadata management) – zbiranje,

kategoriziranje, vzdrževanje, integracija, nadzorovanje in dostava meta-podatkov,

54

management kakovosti podatkov (angl. data quality management) – opredelitev,

nadzorovanje, vzdrževanje integritete podatkov in izboljšanje kakovosti podatkov.

Znanja podatkovnih znanstvenikov se nanašajo na vsa področja managementa podatkov.

Podatkovni znanstvenik uporablja podatke iz različnih virov za izvajanje znanosti o

podatkih, zato je bistvenega pomena, da pozna in razume, iz katerih podatkovnih virov so

podatki pridobljeni ter na kakšen način so bili izločeni, preoblikovani, poenoteni ter

povezani z drugimi podatki iz drugih podatkovnih virov. Razumevanje področij

managementa podatkov je pomembno tudi z vidika razumevanja vsebine in zakonitosti

podatkov ter predstavlja priložnost za generiranje idej glede morebitnih izpeljanih

spremenljivk ali drugačnega načina uporabe podatkov v sklopu izvajanja znanosti o

podatkih. S pomočjo znanj iz področja managementa podatkov podatkovni znanstvenik

lahko izvaja napredno načrtovanje uporabe prave kombinacije podatkovnih virov. Na ta

način lahko zelo hitro preoblikuje podatke iz podatkovnih virov, ki so že na voljo, z

namenom, da pridobi ustrezne vpoglede v potrošnike, poslovne procese in izdelke.

Podatkovni znanstvenik potrebuje tudi ustrezna znanja glede ocenjevanja kakovosti

podatkov (Eckerson) in kakovosti informacij (Epplerjev okvir). Kakovost podatkov je

pomembna z vidika vhoda v poslovno-inteligenčni sistem ter posredno pri izhodih iz

poslovno-inteligenčnega sistema, saj lahko kakovost podatkov vpliva na kakovost

informacij (Lukman, 2009, str. 20). S pomočjo razumevanja kakovosti podatkov in

kakovosti informacij podatkovni znanstvenik razume vsebino podatkov in lažje presoja,

katere podatke iz katerih podatkovni virov bo vključil v analizo, katere bo potrebno še

preoblikovati ali pa za katere bo potrebno ustrezno prilagoditi vrsto analize. Znanja iz tega

področja lahko skrajšajo čas izvajanja analiz, spodbudijo dodatne kontrole pri vnosu

podatkov v sistem ter izboljšajo kakovost analiz.

Oblikovanje informacij (vizualizacija) – področju, ki se ukvarja z načini za predstavitev

podatkov, pravimo vizualizacija podatkov in je opredeljeno kot »uporaba računalniško-

podprte, interaktivne, grafične reprezentacije podatkov za izboljšanje kognicije« (Leban,

2007, str.7). »Glavni namen vizualizacije je uspešno izkoristiti človeške sposobnosti

percepcije in prikazati podatke na tak način, da bodo postali pomembni vzorci v podatkih

nemudoma vidni« (Leban, 2007, str. 7). V sklopu znanj podatkovnega znanstvenika

govorimo o podpodročju vizualizacije podatkov, in sicer o področju

vizualizacije/oblikovanja informacij (angl. information vizualization/design). Znanja iz

oblikovanja informacij lahko podatkovni znanstvenik uporablja v več različnih fazah

izvajanja procesa znanosti o podatkih. V sklopu raziskovalne analize podatkov uporablja

različne vizualizacijske tehnike z namenom razumevanja podatkov in njihovih zakonitosti

ter identifikacije negotovosti v podatkih (na primer gruče primerov, osamelce, trende ter

relacije med spremenljivkami) (Leban, 2007, str. 2). Informacije oblikuje tudi z namenom

razumevanja rešitev analize, domnev in algoritmov podatkovnega rudarjenja (kjer je to

mogoče) ter za predstavitev rezultatov procesa znanosti o podatkih ali za kreiranje

izdelka/storitve, ki temelji na podatkih. »Glavna prednost uporabe vizualizacije je njena

55

interpretabilnost – odkrite zakonitosti lahko dejansko vidimo, zaradi česar je njihovo

razumevanje neprimerno boljše« (Leban, 2007, str. 2). Podatkovni znanstvenik naj bi zato

imel znanja iz celostnega pristopa k oblikovanju informacij, poznavanja posameznih

vizualizacijskih metod in njihovih zakonitosti, izbire ustrezne vizualizacijske metode in

znanja iz oblikovanja interaktivnosti (razvoj interaktivnih rešitev, produktov in

vmesnikov).

2.3.5 Baze podatkov

Prva faza v procesu znanosti o podatkih je ročno pridobivanje, shranjevanje in čiščenje

podatkov v obliko, ki bo primerna za izvoz ali nadaljnje analize (Ultimate skills checklist

for your first data analyst job, 2015, str. 12). Ta proces je v sklopu znanosti o podatkih

znan kot mešetarjenje podatkov (angl. data wrangling, data munging, data scraping)

(Ultimate skills checklist for your first data analyst job, 2015, str. 12). Gre za nalogo, ki

podatkovnemu znanstveniku lahko zavzame od 50 % do 80 % njegovega časa (Ultimate

skills checklist for your first data analyst job, 2015, str. 12). Zaradi različnih dimenzij

masovnih podatkov (volumen, hitrost, raznolikost) so podatki lahko strukturirani ali

nestrukturirani ali pa jih je težko obdelati. Zaradi tega je pomembno, da ima podatkovni

znanstvenik znanja, kako do podatkov dostopati, jih pridobiti, shraniti ter odpraviti

nepopolnosti v podatkih, za kar potrebuje znanja iz področja baz podatkov. Med znanja iz

področja baz podatkov sodijo poznavanje sistemov baz podatkov, ki temeljijo na

strukturiranih ali delno strukturiranih podatkih (centralni repozitorij za shranjevanje

podatkov katerih osnova je SQL), nestrukturiranih podatkih (baze podatkov, katerih

osnova je NoSQL), masovne in distribuirane podatke (Hadoop, MapReduce),

poizvedbene programske jezike SQL, HiveQL ter osnovna znanja iz sistemske

administracije.

Strukturirani podatki so podatki, ki jih je mogoče nemudoma identificirati znotraj

elektronske strukture, kot so relacijske baze podatkov (Oracle, DB2, SQL Server,

MySQL, PostgreSQL idr.). Kot delno strukturirane podatke po navadi razumemo XML

ali .JSON datoteke, ki vključujejo tekoče besedilo z določenimi podatkovnimi elementi, ki

jih je mogoče identificirati s pomočjo začetnih in končnih označb (angl. tags) (PcMag,

2016).

Nestrukturirani podatki so shranjeni v drugačnih bazah podatkov, znanih pod imenom

NoSQL. NoSQL pomeni »ne samo SQL« oziroma v angl. Not Only SQL. Uporablja se za

opis baz podatkov ali sistemov za management podatkov, ki podpirajo nove, bolj

učinkovite načine, kako dostopati do podatkov (npr. MapReduce), včasih tudi kot skriti

nivo pod standardnim jezikom za poizvedbe SQL (Granville, 2014, str. 3). Gre za novo

generacijo baz podatkov, ki so: nerelacijske, distribuirane, odprtokodne in vodoravno

razširljive (angl. horizontal scalable) (NoSQL, 2016). Vključujejo več različnih

značilnosti: nimajo sheme, imajo enostavno podporo za replikacijo, enostaven API, so

56

konsistentne in lahko obvladujejo ogromno količino podatkov itd. (NoSQL, 2016). Podatki

niso shranjeni v obliki tabel kot pri relacijskih bazah podatkov in ne temeljijo na

matematičnih razmerjih med tabelami. NoSQL baze podatkov se uporabljajo za

shranjevanje in hitro pridobivanje nestrukturiranih podatkov (Granville, 2014, str. 294).

Primeri takšnih baz podatkov so (NoSQL, 2016):

stolpične (angl. wide column store): Cassandra, HBase, IBM Informix idr.,

dokumentne (angl. document store): Apache CouchDB, CouchBase, MongoDB idr.,

ključ-vrednost (angl. key-value/tuple store): Azure Table Storage, Dynamo, Riak,

Aerospike idr.,

grafične (angl. graph): Allegro, InfiniteGraph, Neo4J, MarkLogic idr.,

multimodelne (angl. multimodel): ArangoDB, Datomic, OrientDB idr.,

objektne (angl. object): Versant, db4o, Objectivitiy idr.,

mrežne in oblačne (angl. grid & cloud): Oracle Coherence, GemFire, Infinispan idr.,

XML: eXist, Sedna, BaseX idr.,

večdimenzionalne (angl. multidimensional): Globals, GT.M, rasdaman idr.,

baze z več vrednostmi (angl. multivalue): U2, OpenInsight, Reality idr.,

dogodkovne (angl. event sourcing): EventStore,

baze za časovne vrste (angl. time series/streaming): Axibase,

druge: IBM Lotus/Domino, eXtremeDB idr.

Hadoop je napisan v Java programskemu jeziku in sestoji iz dveh ključnih komponent:

odprtokodne verzije Googlovega Global File System (v nadaljevanju GFS) in MapReduce.

Ključna ideja v ozadju GFS je kopiranje podatkov na več različnih strežnikov. Google je

na začetku to počel fizično, nato pa je ta postopek avtomatiziral. Formalna avtomatizacija

tega procesa predstavlja zasnovo GFS. Na Googlovem datotečnem sistemu temelji Hadoop

distribuiran datotečni sistem (HDFS). Podatki se shranjujejo v velike datoteke, z velikostjo

blokov od 64 MB do 256 MB. Ti bloki so replicirani na veliko število vozlišč (angl. nodes)

v skupini. Vodilno vozlišče (angl. master node) pa je obveščeno, če določeno vozlišče

»umre« (O’Neill & Schutt, 2013, str. 334).

MapReduce je algoritem in ogrodje, ki omogoča obdelavo masovnih podatkov. Razvit je

bil s strani Googla (O’Neill & Schutt, 2013, str. 321). MapReduce je tehnika, ki razdeli

nabore masovnih podatkov na manjše nabore, jih ločeno (a vzporedno) obdela na različnih

strežnikih ali računalnikih ter nato združi in agregira rezultate vseh podprocesov, da poda

končni odgovor (Granville, 2014, str. 60). Za izvedbo MapReduce je potrebno napisati dve

funkciji: mapper funkcijo in reducer funkcijo. Obe funkciji se izvedeta na velikem številu

računalnikov, ki predstavljajo lokalno okolje glede na shranjene podatke. Mapper vsako

podatkovno točko pretvori v urejen par v obliki (ključ, vrednost) (angl. key, value).

MapReduce ogrodje nato razvrsti rezultate in podrobno poišče vse ključe, ki se ujemajo in

jih razvrsti skupaj v eno skupino. Te skupine nato posreduje računalnikom, ki jih

57

procesirajo s pomočjo reducer funkcije. Rezultat reducer funkcije so v obliki (ključ, nova

vrednost), kjer nova vrednost predstavlja agregirano vrednost starih vrednosti. En reducer

skrbi za vse vrednosti za določen ključ (O’Neill & Schutt, 2013, str. 328). Takšna

distribuirana arhitektura omogoča obdelavo masovnih podatkov 1000-krat hitreje kot

tradicionalni (nedistribuirani) sistemi, v kolikor uporabimo 1000 strežnikov in razdelimo

glavni proces na 1000 podprocesov (Granville, 2014, str. 60).

Podatkovni znanstvenik mora zelo dobro poznati poizvedbeni jezik SQL (angl. structured

query language, SQL), ki je računalniški jezik, namenjen managementu podatkov v

relacijskih bazah podatkov. SQL je specializiran programski jezik, ki predstavlja osnovo za

vse ostale jezike, povezane z bazami podatkov: HiveQL (omenjen v nadaljevanju),

NoSQL, AQL, BigSQL ipd. (Voulgaris, 2014, str. 54). Tehnike SQL jezika vključujejo

sposobnosti dodajanja (angl. insert), poizvedovanja (angl. query), posodabljanja (angl.

update) in brisanja (angl. delete) podatkov. Z jezikom SQL lahko tudi nadzorujemo shemo

(strukturo) baze podatkov in dostop do podatkov (Manyika et al., 2011, str. 33).

HiveQL temelji na poizvedbenem jeziku in omogoča pisanje navodil v obliki programske

kode za Apache Hive, ki deluje v sklopu Apache Hadoop ali katerega drugega

porazdeljenega sistema platform (kot je na primer Amazon S3 datotečni sistem). HiveQL

temelji na poizvedbenem jeziku SQL in ima status odprtokodnega jezika (Marr, 2015).

Sistemska administracija (npr.: *nix, računalništvo v oblaku) – iz tehničnega vidika

pomembna znanja podatkovnega znanstvenika vključujejo poznavanje SSH protokola,

osnovnih LINUX in UNIX ukazov (sort, grep, head, tail, pipe operators, redirect

operators, cat, cron jobs itd.) ter računalništva v oblaku (angl. cloud computing).

2.3.6 Statistika

Podatkovni znanstvenik naj bi imel osnovno znanje iz statistike ter poznavanje določenih

konceptov in terminologije, ki jo uporabljajo statistiki (Granville, 2014, str. 4). Na primer

za izvedbo A/B preizkusa je potrebno razumevanje statistike za potrebe interpretacije

zbranih podatkov. Podatkovni znanstvenik naj bi imel znanja iz področja metod

vzorčenja, opisne statistike, verjetnostnih porazdelitev, statističnega preizkušanja

domnev, redukcije dimenzij, analize časovnih vrst, prostorske statistike ipd. Pri tem je

predvsem pomemben vidik znanja in razumevanja, kdaj določena tehnika predstavlja

primeren ali neprimeren pristop k problemu (Ultimate skills checklist for your first data

analyst job, 2015, str.7).

Vzorčenje (angl. sampling) – eden najpomembnejših konceptov v statistiki je vzorčenje.

Ko podatkovni znanstvenik zbira podatke, je to po navadi le omejen nabor vseh možnih

podatkov, ki bi jih bilo mogoče izbrati. Zbrani podatki tako predstavljajo vzorec, ki je

pridobljen iz večjega nabora podatkov, populacije (Ultimate skills checklist for your first

data analyst job, 2015, str. 7). Vzorčenje predstavlja postopke, s »katerimi izbiramo enote

58

populacije slučajno v vzorec in na njegovi osnovi ocenjujemo vrednosti parametrov ter

sklepamo o lastnostih populacije« (Košmelj & Rovan, 2007, str. 90). Enote, ki jih

izberemo v vzorec, so lahko »posamezne enote populacije ali skupine enot ali kako

drugače opredeljene enote (npr. geografska območja)« (Košmelj & Rovan, 2007, str. 90).

Razlikujemo med enostavnim slučajnim vzorčenjem ter vzorčenjem z omejitvami

(stratificirano vzorčenje, vzorčenja v skupinicah, vzorčenje v več stopnjah, sistematično

vzorčenje) glede na to, na kakšen slučajen način izberemo enote v vzorec (Košmelj &

Rovan, 2007, str. 90). Le na podlagi slučajnih vzorcev lahko sklepamo o lastnostih

populacije – govorimo o statističnem sklepanju, ki ga lahko izpeljemo z ocenjevanjem

parametrov z mejami zaupanja ali s statističnim preizkušanjem domnev (Košmelj &

Rovan, 2007, str. 89). Od načina vzorčenja je odvisna predvsem natančnost napovednega

modela. Pogosto se podatkovni znanstvenik pri delu s podatki sreča z manjkajočimi ali

nepopolnimi informacijami. Manjkajoče vrednosti je mogoče izbrisati/izključiti ali

nadomestiti. Pri izključitvi manjkajočih vrednosti iz analize se zmanjša tudi velikost

vzorca, kar poveča potencialno pristranskost rezultatov. Nadomeščanje manjkajočih ali

napačnih vrednosti pa vključuje različne tehnike kot je naključno vzorčenje ali

nadomeščanje z uporabo aritmetične sredine, statističnih distribucij ali modelov (The field

guide to data science, 2015 str. 95).

Opisna statistika (angl. descriptive statistics) – kvantitativne mere, s katerimi opišemo

značilnosti vzorca, so poznane kot opisne statistike – opišejo izbrane podatke v kompaktni

in uporabni obliki. Med opisne statistike sodijo srednje vrednosti: aritmetična sredina,

mediana, modus, geometrijska sredina ter mere variabilnosti: varianca, standardni odklon

in variacijski razmik (Ultimate skills checklist for your first data analyst job, 2015, str.7).

Verjetnostne porazdelitve (angl. probability distributions) – podatkovni znanstveniki ob

proučevanju podatkov, predvsem ob relativno velikih količinah podatkov, za predstavitev

le-teh uporabljajo porazdelitve (angl. distributions). Najbolj pogosto uporabljena

porazdelitev je normalna/Gaussova porazdelitev (N). Pogosto se uporabljajo še uniformna

porazdelitev (U), T-porazdelitev, eskponentna/Poissonova, binomična (B) porazdelitev, hi-

kvadrat, F porazdelitev in druge (Voulgaris, 2014, str. 135). Ni nujno, da skupina

podatkovnih točk sledi kateri od navedenih distribucij, vendar pa podatkovni znanstveniki

pogosto uporabijo katero od distribucij kot predlogo z namenom, da lahko uporabijo

različna statistična orodja, primerna za določeno distribucijo (Voulgaris, 2014, str. 135).

Normalizacija podatkov (na numeričnih spremenljivkah) omogoča podatkovnim

znanstvenikom, da preverijo, kako dobro se podatki prilegajo znanim distribucijam ter s

tem lahko identificirajo, ali obstajajo osamelci ali ne (Voulgaris, 2014, str.135).

Redukcija dimenzij (PCA analiza, faktorska analiza) – na veliko virov podatkov lahko

gledamo kot na ogromne matrike. Svetovni splet je lahko predstavljen kot tranzicijska

matrika. Kot matrike so pogosto predstavljeni tudi podatki iz družbenih medijev. Pri veliki

večini uporabe matrik se lahko ogromne matrike povzame z iskanjem »ožjih« matrik, ki so

59

v določenem smislu zelo blizu originalni matriki. Prednost »ožjih« matrik je, da imajo

majhno število vrstic ali stolpcev, ki jih lahko veliko bolj učinkovito uporabimo. Proces

iskanja takšnih »ožjih« matrik se imenuje redukcija dimenzij (Leskovec, Rajaraman, &

Ullman, 2014, str. 405). Visoko-dimenzionalne podatke je mogoče zamenjati z njihovo

projekcijo na najbolj pomembne osi. Osi ustrezajo največjemu eigenvektorju. Na ta način

pridobimo približke originalnih podatkov iz podatkov, ki imajo manj dimenzij in dobro

povzamejo originalne podatke (Leskovec, Rajaraman, & Ullman, 2014, str. 413).

Statistično preizkušanje domnev (angl. inferential statistics) – preizkušanje domnev

predstavlja statistično preizkušanje predpostavk glede srednjih vrednosti ali mer

variabilnosti. »Statistična domneva je trditev, ki se nanaša na parameter ali obliko

verjetnostne proazdelitve za spremenljivko v populaciji ali več populacijah. Ta trditev je

lahko pravilna ali nepravilna.« (Košmelj & Rovan, 2007, str. 196) Statistično preizkušanje

domnev je postopek, s katerim na podlagi vzorčnih podatkov ugotavljamo, ali je trditev, ki

jo izražamo v obliki domneve, verjetno pravilna ali verjetno nepravilna (Košmelj & Rovan,

2007, str. 196). S statističnimi tehnikami presojamo razmerja med spremenljivkami, ali so

se zgodila po naključju (»ničelna domneva«) ali pa so razmerja rezultat vzročnega

razmerja, ki je statistično značilno. Te tehnike se uporabljajo tudi pri zmanjšanju

verjetnosti za napako I. vrste (»napačno pozitivni«) in napako II. vrste (»napačno

negativni«). Primer statističnega preizkušanja domnev je A/B testiranje, kjer določimo,

kateri tip trženjskega materiala bo najbolj povečal prihodek (Manyika et al., 2011, str. 30).

Regresijska analiza (angl. regression analysis) – regresijska analiza je postopek,

namenjen analizi razmerij med odvisno spremenljivko in eno ali več neodvisnih

spremenljivk (Malhotra, 2012. str. 519). Gre za statistično tehniko, ki določa, kako se

vrednosti odvisne spremenljivke spreminjajo, s spremembami ene ali več neodvisnih

spremenljivk. Uporablja se pri podatkovnem rudarjenju ter pri napovedovanju, npr.

prodaje, na glede na različne trge in ekonomske spremenljivke, ki določajo, kateri

izmerljivi proizvodni parametri najbolj vplivajo na zadovoljstvo potrošnikov (Manyika et

al. 2011, str. 30). Pomemben koncept razumevanja podatkovnih znanstvenikov v sklopu

regresijske analize je, da kljub temu da lahko neodvisne spremenljivke razložijo varibilnost

v odvisni spremenljivki, to še ne pomeni nujno, da obstaja med spremenljivkami vzročna

povezava.

Statistika časovnih vrst (angl. temporal statistics) – statistika časovnih vrst je zbirka

metod za analizo podatkov iz časovnih vrst z namenom, da pridobimo smiselne statistike in

druge značilnosti podatkov. Statistika časovnih vrst vključuje analizo časovnih vrst (angl.

time series analysis). Gre za tehnike iz statistike in obdelave signalov za analizo

podatkovnih točk, ki predstavljajo vrednosti ob določenem času z namenom pridobiti

smiselne zaključke iz podatkov. Primeri analize časovnih vrst vključujejo urne vrednosti

indeksov delnic ali število bolnikov z določeno diagnozo na določen dan. V sklopu

statistike časovnih vrst se uporablja tudi napovedovanje (angl. time series forecasting). Na

60

podlagi preteklih vrednosti določene časovne vrste lahko uporabimo model z namenom

napovedovanja prihodnjih vrednosti v isti ali drugi časovni vrsti. Primeri vključujejo

napovedovanje prodaje ali napovedovanje števila ljudi, ki bodo prejeli določeno diagnozo

(Manyika et al., 2011, str. 31).

Prostorska statistika (angl. spatial statistics) – prostorska statistika ali prostorska analiza

vključuje tehnike, ki proučujejo nabor enot z uporabo njihovih topoloških, geometričnih ali

geografskih značilnosti. Podatki za prostorsko analizo so ponavadi pridobljeni iz

geografskih informacijskih sistemov (angl. geographic information systems – v

nadaljevanju GIS), ki zajamejo podatke skupaj z informacijo o njihovi lokaciji (npr. naslov

ali njihove geografske koordinate). Primera uporabe prostorske statistike sta kombinacija

podatkov o lokaciji s prostorsko regresijo (npr. kako pripravljenost potrošnika za nakup

izdelka korelira z njegovo lokacijo?) ali simulacije (kako bi veriga proizvodnje delovala s

proizvodnjo na različnih lokacijah?) (Manyika et al., 2011, str. 30). Statistično modeliranje

procesov v prostoru uporablja statistično linearno in nelinearno modeliranje (tudi s

programskim jezikom R) in se uporablja na različnih področjih: ekologiji, hidrologiji,

meteorologiji, epidemiologiji, biologiji in drugje (Uporabna statistika, 2016).

Simulacije (angl. simulations) – simulacije omogočajo modeliranje obnašanja

kompleksnih sistemov, ki se uporabljajo pri napovedovanju in načrtovanju. Za izvajanje

simulacij se uporabljajo različni algoritmi, med katerimi je najbolj znana Monte Carlo

simulacija. Temelji na ponavljajočem se naključnem vzorčenju – zaganjanje tisoče

simulacij, kjer vsaka temelji na različnih predpostavkah. Rezultat predstavlja histogram, ki

ponudi verjetnostno porazdelitev izidov. Primer uporabe vključuje ocenjevanje verjetnosti

doseganja finančnih ciljev glede na verjetnost uspeha različnih iniciativ (Manyika et al.,

2011, str. 31).

2.3.7 Matematika

Podatkovni znanstvenik naj bi bil sposoben prevesti besedne probleme v matematične

izraze, reševati enačbe, manipulirati algebrične izraze in imel osnovno znanje iz

teorije matrik (Ultimate skills checklist for your first data analyst job, 2015, str. 9;

Granville 2014, str.4). Prav tako naj bi imel znanja, kako narisati grafikone za različne

tipe funkcij (logaritemska, eksponenta in potenčna funkcija) z razumevanjem odnosa med

grafično funkcijo in njeno enačbo. Priporočljiva so tudi znanja odvodov in integralov,

optimizacije in linearne algebre. Ta področja matematike predstavljajo osnovo za

razumevanje strojnega učenja in efektivnega manipuliranja podatkov v podatkovnih

modelih (Ultimate skills checklist for your first data analyst job, 2015, str. 9).

Optimizacija (angl. optimization) – vključuje nabor različnih numeričnih tehnik, ki se

uporabljajo za prenove kompleksnih sistemov in procesov z namenom izboljšanja njihove

učinkovitosti glede na eno ali več objektivnih meril (npr. stroški, čas, zanesljivost). Primeri

61

optimizacije vključujejo izboljšanje operativnih procesov, kot so razporeditev časa, poti in

postavitev. Uporablja pa se tudi pri sprejemanju strateških odločitev: startegija določanja

obsega izdelkov, analiza povezanih investicij in strategija obsega raziskav in razvoja.

Primer optimizacijske tehnike so genski algoritmi (angl. genetic algorithms) (Maynika et

al., 2013, str. 29).

2.3.8 Strojno učenje

Algoritem je zaporedje pravil, operacij, ukazov, ki zagotavljajo rešitev problema v

končnem številu korakov. Nekatere osnovne naloge algoritmov lahko zajemajo

razvrščanje, iskanje ali reševanje računskih problemov (O’Neill & Schutt, 2013, str. 51).

Gre za osnovni koncept v računalništvu in osnovo za razvoj učinkovite programske kode,

priprave in obdelave podatkov in razvoja programske opreme (O’Neill &Schutt, 2013, str.

51). Za rešitev določenega problema se lahko uporabi različne algoritme, izbor ustreznega

pa je odvisen od njegove učinkovitosti in časa izvajanja, kar je ključnega pomena pri

obdelavi masovnih podatkov ali razvoju izdelka/storitve na podlagi podatkov (O’Neill&

Schutt, 2013, str. 51). Algoritmi za strojno učenje (angl. machine learning algorithms)

predstavljajo eno vrsto algoritmov, ki se uporablja v znanosti podatkov (drugi so še

optimizacijski algoritmi ter algoritmi za pridobivanje in obdelavo podatkov – npr.

MapReduce ali Pregel) (O’Neill & Schutt, 2013, str. 52).

Strojno učenje je poddomena računalništva (področja umetne inteligence), ki se ukvarja z

zasnovo in razvojem algoritmov, ki omogočajo računalnikom razvoj akcij na podlagi

empiričnih podatkov (Manyika et al., 2011, str. 29). Poudarek strojnega učenja je na

avtomatiziranem učenju in prepoznavi kompleksnih vzorcev z namenom sprejemanja

inteligentnih odločitev na podlagi podatkov (Manyika et al., 2011, str. 29). Algoritmi za

strojno učenje v osnovi sicer izhajajo iz računalniške znanosti, vendar se določene metode

in tehnike uporabljajo tudi iz statistike oziroma statističnega modeliranja (O’Neill &

Schutt, 2013, str. 52). Strojno učenje je popularna računalniška znanstvena disciplina, ki

predstavlja del izvajanja znanosti o podatkih in je tesno povezana s podatkovnim

rudarjenjem (Leskovec, Rajaraman, & Ullman, 2014, str. 1). Najbolj pogosto sprejeta

definicija podatkovnega rudarjenja je, da gre za odkrivanje »modelov« za podatke.

Statistiki gledajo na podatkovno rudarjenje kot na izgradnjo statističnega modela, ki

predstavlja podlago za distribucijo, iz katere so podatki pridobljeni (Leskovec, Rajaraman,

& Ullman, 2014, str. 1). Nekateri obravnavajo podatkovno rudarjenje in strojno učenje kot

sinonima. Podatkovno rudarjenje namreč ustrezno uporablja algoritme iz strojnega učenja.

Uporabniki strojnega učenja uporabijo podatke kot nabor podatkov za treniranje algoritma,

kot so Bayesove mreže, metoda podpornih vekotrjev (angl. support vector machines, v

nadaljevanju SVM), drevesa odločanja, skriti modeli Markova in mnogi drugi (Leskovec,

Rajaraman, & Ullman, 2014, str. 2). Strojno učenje je torej podatkovno-intenzivni

razvoj algoritmov (kot podatkovno rudarjenje), s poudarkom na prototipiranju

algoritmov za produkcijsko okolje, za obdelavo velikih količin podatkov, na podlagi

62

katerih je mogoče narediti napovedi (angl. predict), klasifikacijo (angl. classify),

segmentacijo (angl. cluster) in/ali izračunati predloge za ukrepanje na podlagi obdelanih

podatkov (Ultimate skills checklist for your first data analyst job, 2015, str. 10; O’Neill&

Schutt, 2013, str. 52). Strojno učenje se ukvarja tudi z razvojem avtomatiziranih sistemov

(prepoznavanje slik, govora, algoritmi za generiranje ponudb, angl. bidding algorithms,

algoritmi za targetirano oglaševanje, angl. ad targeting algorithms), ki se sami avtomatsko

osvežijo, neprestano preizkušajo, ponovno učijo in osvežujejo nabore podatkov za učenje,

preverjajo veljavnost in izboljšujejo ali odkrivajo nova pravila. Poddomena strojnega

učenja, zelo blizu umetni inteligenci (angl. artificial intelligence, v nadeljavnju AI), je

poglobljeno učenje (angl. deep learning) (Granville, 2014).

Za podatkovnega znanstvenika ni nujno, da ustvarja popolnoma nove algoritme za strojno

učenje, vendar pa je potrebno, da pozna najbolj pogoste algoritme in tehnike za strojno

učenje, od zmanjšanja dimenzij (metoda glavnih komponent) do nadzorovanega

(klasifikacija) in nenadzorovanega učenja (razvrščanje v skupine). Ni v celoti potrebno

poznavanje teorije in podrobnosti implementacij v ozadju teh algoritmov. Je pa potrebno

poznavanje prednosti in slabosti teh algoritmov, kot tudi kdaj jih je smiselno uporabiti

glede na kontekst problema ter kdaj ne (O’Neill &Schutt, 2013, str. 54; Ultimate skills

checklist for your first data analyst job, 2015, str. 10).V nadajevanju na kratko omenjam

osnovne algoritme in kocepte strojnega učenja, ki se jih uporablja v znanosti o podatkih.

Nadzorovano učenje (angl. supervised learning) – nadzorovano učenje je uporabno v

primerih, kjer je za določen nabor podatkov (nabor za trening, angl. training set) na voljo

določen razred (labela, značilnost), ki pa za ostale podatke (testni nabor, angl. test sest)

manjka in ga je potrebno napovedati, klasificirati (angl. classification). V sklop

nadzorovanega učenja spadajo: drevesa odločanja, naivni Bayesov klasifikator, navadna

regresija najmanjših kvadratov (angl. ordinary least squares regression), logistična

regresija, nevronske mreže, SVM in druge (Ultimate skills checklist for your first data

analyst job, 2015, str. 10). Med metode nadzorovanega učenja spadajo tudi metode za

združevanje (angl ensemble methods), kjer podatkovni znanstvenik uporabi več različnih

napovednih modelov z namenom, da pridobi boljše napovedne rezultate s pomočjo

kombiniranja modelov (Manyika et al., 2011, str. 29). Nenadzorovano učenje (angl.

unsupervised learning) – včasih cilj analize ni napovedovanje vrednosti določene

spremenljivke. Izziv včasih predstavlja odkritje implicitnih razmerij v določenem naboru

podatkov. Gre za nabor tehnik strojnega učenja, ki poišče skrite strukture v neoznačenih

podatkih (Manyika et al., 2011, str. 31). Najbolj pogost primer nenadzorovanega učenja je

razvrščanje enot v skupine (angl. clustering) na podlagi njihovih podobnosti in razlik. Ker

skupine niso vnaprej znane, se tak način učenja imenuje nenadzorovano učenje (Ultimate

skills checklist for your first data analyst job, 2015, str. 11). Med metode nenadzorovanega

učenja sodijo algoritmi za razvrščanje v skupine, metoda glavnih komponent (angl.

principal component analysis, v nadaljevanju PCA) in druge.

63

Nagrajevalno učenje (angl. Reinforcement learning) – določene situacije ne moremo

obravnavati le kot nadzorovano ali nenadzorovano učenje, temveč sodijo nekam vmes.

Obstaja namreč določena oblika povratnih informacij za vsak napovedni korak ali akcijo,

vendar pa ne obstaja točen razred (labela) ali mera za napake. Klasična oblika te kategorije

učenja vključuje neko obliko nagrade (angl. reinforcement) za vsako pravilno izvedbo,

akcijo. Agent za nagrajevalno učenje tako lahko izvaja akcije dokler se uči in s tem

neprekinjeno izboljšuje svoj notranji model za izvedbo boljših odločitev. Med metode

nagrajevalnega učenja sodijo: Q učenje (angl. Q-Learning), TD-učenje (angl. TD-learning)

in genski algoritmi (angl. genetic algorithms) (Ultimate skills checklist for your first data

analyst job, 2015, str.11).

Poglobljeno učenje (angl. Deep learning) – poznano tudi kot strukturirano učenje ali

hierarhično učenje je veja strojnega učenja, ki uporablja veliko število podobnih, a vseeno

različnih, poglobljenih arhitektur nevronskih mrež z namenom reševanja različnih

problemov (npr. procesiranje naravnega jezika) na različnih področjih (npr.

bioinformatika) (Mayo, 2016).

Procesiranje naravnega jezika – nabor tehnik iz domene računalništva (iz področja

umetne inteligence) in lingvistike, ki uporablja računalniške algoritme z namenom analize

človeškega (naravnega) jezika. Veliko tehnik NLP spada med tehnike strojnega učenja.

Procesiranje naravnega jezika se uporablja pri analizi sentimenta (angl. sentiment

analysis). Gre za uporabo NLP in drugih analitičnih tehnik z namenom identifikacije iz

ekstrakcije subjektivnih informacij iz besedil. Analiza sentimenta vključuje identifikacijo

značilnosti, vidika ali izdelka glede katerih se izraža sentiment z določanjem polarnosti

(npr. pozitivna, negativna ali nevtralna) in stopnjo moči sentimenta. Analiza sentimenta se

uporablja pri analizi družbenih medijev z namenom določanja, kako se različni potrošniški

segmenti in deležniki odzovejo na izdelke/storitve organizacije ali trženjske kampanje in

promocije (Manyika et al., 2011, str. 29–30).

Analiza omrežij (angl. network analysis) – nabor tehnik, ki se uporabljajo pri opredelitvi

razmerij med vozlišči v grafikonu ali omrežju. Pri analizi družbenih medijev se analizirajo

povezave med posamezniki in skupnostjo ali organizacijo: kako potujejo informacije, kdo

ima večji vpliv in nad kom ipd. Skozi ta proces je mogoče identificirati mnenjske voditelje

(angl. opinion leaders), ki se jih lahko nato targetirano nagovori, in identificirati ozka grla

v pretoku informacij v organizaciji (Manyika et al., 2011, str. 29).

2.3.9 Domenska znanja

Znanja poslovnega področja, dejavnosti ali domene, iz katere izhaja problem, so izjemne

vrednosti in zelo nenadomestljiva (The field guide to data science, 2015, str. 96). Poslovna

oziroma domenska znanja vklujčujejo poznavanje metod agilnega pristopa ali pristopa

»Waterfall«, razvoja izdelkov/storitev, razumevanje delovanja organizacije,

64

poznavanje dejavnosti, poznavanje dobrih praks metodologij podatkovnega

rudarjenja (CRISP-DM, SEMMA, DMAIC) ter vsa druga poslovna znanja (finance,

trženje, trženjsko raziskovanje, logistika, razvoj izdelka itd.), ki so relevantna za

organizacijo ali dejavnost (Voulgaris, 2014, str. 150). Omogočajo poglobljeno

razumevanje podatkov in faktorjev, ki vplivajo na analitični cilj, velikokrat pa

predstavljajo ključni diferenciator uspeha celotne ekipe, ki se ukvarja z znanostjo o

podatkih (The field guide to data science, 2015, str. 96). Domenska znanja vplivajo na to,

kako podatkovni znanstvenik izbira lastnosti, pripisuje podatke, izbira algoritme in

posredno vplivajo tudi na uspešnost projektov. Podatkovni znanstvenik mora pri izbiri

ustreznih tehnik poznati in upoštevati tudi omejitve glede implementacije rešitve procesa

znanosti o podatkih. Omejitve se nanašajo na sklop petih dimenzij: analitična

kompleksnost (odločitev glede uporabe različno kompleksnih algoritmov), hitrost (hitrost s

katero mora biti izvedena analitična rešitev oziroma čas, ki je potreben za razvoj in

implementacijo analitične rešitve), natančnost (sposobnost izvesti točne ali vsaj približne

rešitve oziroma podati mero zaupanja), velikost nabora podatkov (število vrstic) in

kompleksnost podatkov (podatkovni tip, kompleksnost podatkov, število

dimenzij/stolpcev, povezav med nabori podatkov) (The field guide to data science, 2015,

str. 69). Posameznik žal ne more biti domenski strokovnjak na vsakem področju. Zato se

podatkovni znanstveniki pogosto obračajo na druge analitike, domenske strokovnjake ter

druge sekundarne vire z namenom izgradnje razumevanja domenskega področja problema

(The field guide to data science, 2015, str. 96).

2.3.10 Sposobnosti podatkovnih znanstvenikov

Znanja iz različnih področij, omenjenih v prejšnjem poglavju, so pomembna, vendar niso

dovolj. Znanost o podatkih zahteva bolj sistematično razmišljanje ter kombiniranje

kreativnega pristopa k definiranju in reševanju problemov skupaj z obvladovanjem časa.

Podatkovni znanstvenik je posameznik, ki ga označuje nabor specifičnih značilnosti,

sposobnosti in načina razmišljanja, ne samo nabor znanj (Voulgaris, 2014, str. 37).

Od mehkejših sposobnosti podatkovnega znanstvenika se omenja več sposobnosti, ki so

značilna tako za podatkovne znanstvenike, kot za druga področja dela in vloge

posameznikov, ki se ukvarjajo z masovnimi podatki in znanostjo o podatkih. V

nadaljevanju sem na podlagi pregledane literature in razpisov za delovna mesta naredila

nabor sposobnosti, ki naj bi jih imel podatkovni znanstvenik. Glede na to, da lahko

podatkovni znanstvenik nastopa v zelo operativni vlogi izvajalca storitve ali pa tudi v vlogi

vodje ekipe, oddelka ali organizacije, naj opozorim, da se sposobnosti lahko nanašajo na

širše področje delovanja podatkovnega znanstvenika ter tudi na vse ostale vloge in

položaje, ki so povezani z znanostjo o podatkih. Pričakujem, da bodo pri nekaterih

posameznikih zaradi njihovih izkušenj ali položaja oziroma vloge v organizaciji določene

sposobnosti bolj izpostavljene, pri drugih pa druge.

65

Podatkovni zanstvenik naj bi v prvi vrsti bil predvsem radoveden glede stvari, ki jih

opazuje, kot so vzorci in odnosi ter razmerja med različnimi značilnostmi (Voulgaris,

2014, str. 38). Radovednost je ključna, da lahko podatkovni znanstvenik razstavi problem

in razišče odnose med podatki, ki na prvi pogled delujejo nepovezani (The field guide to

data science, 2015, str. 42). Radovednost dopolnjujejo disciplina, analitične sposobnosti

in sposobnosti reševanja problemov. To vključuje vse, od želje po raziskovanju in

razčlenitvi problema, do zelo jasno definiranega nabora domnev, ki jih je mogoče preveriti

(Lorica, Howard& Dumbill, 2012). Podatkovni znanstveniki rešujejo probleme

uporabnikov podatkov. Vendar preden lahko problem rešijo, ga je potrebno ustrezno

identificirati, kar pa ni vedno najlažje (Stanton, 2013, str. 14). Pomembno je, da zna

podatkovni znanstvenih pravilno definirati problem na takšen način, da lahko pridobi

učinkovite rešitve (Dhar, 2013, str. 70). Imeti mora širši pregled na dogajanjem, kar

vključuje razumevanje problema, pristop k problemu, definiranje ciljev in učinkov ter

razumevanje ozadja problema (zakaj). Za pristop k problemu in reševanju problemov sta

ključni tudi eksperimentiranje in kreativnost – sposobnost pogleda na problem na

različne, kreativne načine, ki v preteklosti niso še bili uporabljeni v takšnem kontekstu

(angl. thinking outside the box) (Chordas, 2014, str. 24; Lorica, Howard & Dumbill, 2012;

The field guide to data science, 2015, str. 42). Podatkovni znanstvenik mora imeti pogum

in domišljijo za preizkušanje novih stvari, razvoj in uresničenje novih idej, načrtovanje

eksperimentov in preverjanje veljavnosti poskusov (Chordas, 2014, str. 23–24; Dhar, 2013,

str. 69–70; Lorica, Howard & Dumbill, 2012;Voulgaris, 2014, str. 38–39).

Zelo pomembna sposobnost je tudi fleksibilnost in osredotočenost na cilj, ko je

podatkovni znanstvenik sposoben premagati napake, opustiti idejo, ki ne deluje, se iz tega

nekaj naučiti in poskusiti z novim pristopom. Znanost o podatkih je namreč serija »slepih

ulic« dokler prava pot ni identificirana. To zahteva unikaten set osebnostnih lastnosti –

potrpežljivost in vztrajnost (The field guide to data science, 2015, str. 42).

Da podatkovni znanstvenik razume svojo vlogo in pomen, so pomembne tudi sposobnosti,

povezane z njegovo podjetno naravnanostjo, ki vključujejo poslovni čut, prebrisanost

(angl. cleverness) in vztrajnost (Granville, 2014, str. 3; Chordas, 2014, str. 23; Lorica,

Howard & Dumbill, 2012). Ključna sta tudi sposobnost sprejemanja odločitev in pogum

– sposobnost podatkovnega znanstvenika, da izrazi svoje mnenje, poišče rešitev ter

prepriča in motivira management v smeri prave rešitve, včasih tudi v nasprotju z njihovo

voljo, v dobro organizacije, uporabnikov ali deležnikov (Granville, 2014, str. 4). Granville

(2014, str. 4) omenja, da bi podatkovni znanstvenik moral biti tudi strateg, tako v

poslovnem smislu, kot v tem, da je sposoben razviti strategijo zbiranja podatkov z

namenom pridobiti podlago za odločitve, ki omogočajo poslovni učinek. V sklopu pogleda

na podatkovnega znanstvenika kot stratega Stanton (2013, str. 6) omenja tudi sposobnost

posameznika, da lahko vidi celostno sliko določenega kompleksnega sistema. Seveda je

prvi korak najprej spoznavanje domenskega znanja in učenje, kako so podatki uporabljeni

v določenem kontekstu ali kako se povezujejo s trendi v dejavnostih (Chordas, 2014, str.

66

24). Ko podatkovni znanstvenik razvije razumevanje domenskega znanja, mora imeti

sposobnost predstave, kako se podatki prenašajo preko različnih sistemov in uporabnikov.

Pri tem, opozarja Stanton (2013, str. 6), je potrebno, da podatkovni znanstvenik dovolj

pozornosti nameni kakovosti. Ne glede na nabor podatkov, ki jih imamo, le-ti ne bodo

nikoli popolni. Podatkovni znanstveniki morajo poznati omejitve podatkov, s katerimi

delajo, znati morajo kvantificirati njihovo natančnost in na podlagi analize podati predloge

za izboljšanje kakovosti podatkov v prihodnje (Stanton, 2013, str. 6). Zato tudi sposobnost

načrtovanja predstavlja ključni vidik znanosti o podatkih, saj obstajajo različni načini,

kako se lotiti iste naloge, ki pa lahko imajo občutno drugačno porabo virov (Voulgaris,

2014, str.27).

V literaturi nisem zasledila, da bi bile omenjene sposobnosti podatkovnega znanstvenika v

povezavi s področjem vodenja projektov in vodenja na splošno. Menim pa, da so to

sposobnosti, ki bi jih posameznik moral imeti zaradi narave dela (predlaganje izboljšav,

razvijanje strategij, komuniciranje z naročniki, vodenje projektov ipd.) in dejstva, da

podatkovni znanstvenik ni le operativni izvajalec, temveč se pojavlja tudi na različnih

vodstvenih položajih ali pa kot vodja oddelka, tima (OECD, 2015, str. 255). Podatkovni

znanstvenik ponavadi deluje v sklopu raznolike ekipe strokovnjakov iz različnih področij

(odvisno od dejavnosti). Zelo redko podatkovni znanstvenik dela popolnoma ločeno in

samostojno v daljšem časovnem obdobju, saj se za reševanje problema poveže s

strokovnjaki, ki so iz področja, od koder izhaja problem, bolj izkušeni oziroma imajo več

znanja iz le-tega. Zato je pomembno, da ima podatkovni znanstvenik sposobnost dela v

timu. Podatkovni znanstvenik mora biti fleksibilen in imeti sposobnost hitrega prilagajanja

novemu poslovnemu področju, novim članov ekipe ali novim programskim orodjem

(Voulgaris, 2014, str. 27).

Ker imajo podatkovni znanstveniki ponavadi poglobljena znanja iz vsaj enega

znanstvenega področja (Lorica, Howard & Dumbill, 2012), kritično sposobnost

podatkovnega znanstvenika predstavlja prevajanje med tehničnimi izrazi računalništva in

statistike in slovarjem domenskega znanja managementa. Podatkovni znanstvenik mora

zato imeti dobre komunikacijske sposobnosti. Zaradi drugačnega področja znanj in

sposobnosti je pomembno, da ima podatkovni znanstvenik sposobnosti, da rešitve,

rezultate in ugotovitve učinkovito razloži, pojasni oziroma predstavi managementu. Tukaj

pride do izraza predvsem sposobnost pripovedovanja zgodb (angl. storytelling), tj.

sposobnost z uporabo podatkov predstaviti zgodbo in jo učinkovito prenesti različnim

deležnikom (Lorica, Howard & Dumbill, 2012; Stanton, 2013, str. 5). Pomembno je, da je

predstavitev prilagojena znanju in izkušnjam občinstva. Vključuje tudi vedenje o tem, na

kakšen način naj bodo podatki predstavljeni. Za učinkovito predstavitev podatkov pa

podatkovni znanstvenik potrebuje jasno razumevanje, kako so podatki shranjeni in med

seboj povezani ter razumevanje metapodatkov (opomba: podatki, ki opisujejo druge

podatke) (Granville, 2014, str. 4; Stanton, 2013, str. 6). Prednost za podatkovnega

znanstvenika je, če ima, poleg odličnih komunikacijskih sposobnosti, tudi občutek za

67

umetnost in prakso vizualizacije, kar pomeni, da je sposoben premostiti prepad med

človekom in računalnikom s posredovanjem analitičnih dognanj na smiseln način (Lorica,

Howard & Dumbill, 2012; Stanton, 2013, str. 6). Vizualizacija je tehnika, ki se uporablja

pri ustvarjanju slik, diagramov ali animacij z namenom komuniciranja, razumevanja in

izboljšanja rezultatov analize znanosti o podatkih (Manyika et al., 2011, str. 31). Prikaz

podatkov z vizualnimi metodami (grafikon, slika, video, avdio ipd.) je namreč bolj

učinkovit pri komunikaciji rezultatov vodstvu ali uporabnikom.

Stanton (2013, str. 6) kot pomembno sposobnost podatkovnega znanstvenika omenja tudi

sposobnost biti etičen oziroma razmišljati etično. Če so podatki dovolj pomembni, da se

jih odločimo zbirati, so ponavadi dovolj pomembni, da lahko vplivajo na človeška

življenja. Podatkovni znanstveniki morajo razumeti etično odgovornost, povezano z

zasebnostjo in morajo biti sposobni ustrezno predstaviti omejitve z namenom preprečiti

zlorabo podatkov ali rezultatov analiz. Tudi v Sloveniji varovanje osebnih podatkov,

informacij, dokumentov in znanja ureja zakonodaja v treh zakonih, ki posnemajo prakso in

informacijske zakone iz Evropske Unije: Zakon o varstvu osebnih podatkov (v

nadaljevanju ZVOP-1), Zakon o varstvu dokumentarnega in arhivskega gradiva ter arhivih

(v nadaljevanju ZVDAGA) in Zakon o avtorskih in sorodnih pravicah (v nadaljevanju

ZASP). Podatkovni znanstvenik mora biti, zaradi narave svojega dela, seznanjen z vsebino

teh zakonov in jih spoštovati.

Za podatkovnega znanstvenika je nenazadnje pomembno tudi, da goji strast učenja novih

stvari in do dela, s katerim se ukvarja ter da ima sposobnost »zaznavanja« podatkov

(Granville, 2014, str. 4). Zaradi hitrega napredka tehnologij na področju masovnih

podatkov in znanosti o podatkih mora biti podatkovni znanstvenik sposoben hitrega učenja

ter hitrega sprejetja novih metod in orodij (Voulgaris, 2014, str. 27). Radovednost, želja po

raziskovanju, učenju, strast in vztrajnost se zrcalijo na vseh vidikih življenja

podatkovnega znanstvenika (Granville, 2014, str. 4; Lorica, Howard & Dumbill., 2012).

2.4 Pridobivanje znanj in sposobnosti podatkovnih znanstvenikov

Ustrezno izobraževanje in pridobivanje izkušenj ter s tem sposobnosti je ključno, da

posameznik postane zanesljiv podatkovni znanstvenik. Posameznik, ki bi si želel danes

pridobiti ustrezna znanja in sposobnosti za delo na področju znanosti o podatkih ima na

voljo več možnosti. Na podlagi razpoložljivih podatkov iz literature, svetovnega spleta in

lastnih izkušenj v nadaljevanju navajam različne možnosti, ki jih imajo obstoječi in bodoči

podatkovni znanstveniki za izobraževanje na področju masovnih podatkov in znanosti o

podatkih.

Posameznik lahko znanja iz različnih področij pridobi v okviru formalne izobrazbe, ki je

tudi uradno potrjena z ustrezno stopnjo izobrazbe, certifikatom. Nekatere univerze in

fakultete, predvsem v tujini, so že prepoznale potencial rastočega trga po specifičnih

68

znanjih, saj ponujajo diplomske programe, delavnice in certifikate iz področij znanosti o

podatkih (Chordas, 2014). Mednje spadajo naslednje univerze iz Združenih Držav

Amerike: Univerza v Washingtonu (Seattle, WA), Univerza Northwestern (Evanston, IL),

UC Berkeley (Berkeley, CA), CUNY (New York, NY), Columbia University (New York,

NY) in Stanford University (Palo Alto, CA), če naštejemo le nekatere. Tudi v Evropi imajo

nekatere univerze že programe iz področja znanosti o podatkih, kot na primer Univerza v

Liechtensteinu (Information systems masters degree, 2015). V Evropi se je v okviru Odprte

Univerze (angl. The Open University) razvil inovativen projekt za ustanovitev EDSA

(EDSA, 2015). Gre za spletno platformo, katere namen bo izobraževanje podatkovnih

znanstvenikov v Evropi. Akademija bo analizirala znanja in sposobnosti preko glavnih

evropskih sektorjev, razvijala modularen in prilagojen program za zadovoljevanje

povpraševanja po podatkovnih znanstvenikih s temi znanji ter omogočila podprto

večjezično izobraževanje na različnih platformah. Med pobudniki za ustanovitev Evropske

Akademije za znanost o podatkih je poleg Univerz iz Švedske, Velike Britanije,

Nizozemske tudi Institut Jozef Stefan. Prvi tečaji so že na voljo od konca leta 2015

(EDSA, 2015). Univerze v Sloveniji imajo znotraj obstoječih programov posamezna

področja, povezana z različnimi znanji: matematika, statistika, poslovna informatika,

strojno učenje, podatkovno rudarjenje itd. Nisem pa zasledila programa, v celoti

namenjenega znanosti o podatkih, na način, kot so zastavljeni v tujini.

Druge organizacije (zasebne, kot strokovne organizacije) ponujajo certifikate in

delavnice: SAS, Teradata, INFORMS, TDWI, American Statistical Association, Data

Science Central, Statistics.com. V Sloveniji delavnice iz področja znanosti o podatkih že

ponujajo nekatere organizacije (Insight, d.o.o.).

Pri zaposlitvi podatkovnega znanstvenika se pojavlja vprašanje, ali je mogoče, da

pomanjkanje izkušenj nadoknadi s formalno akademsko izobrazbo. Veliko organizacij, ki

zaposluje podatkovne znanstvenike, meni, da so za takšno delovno mesto bolj pomembne

izkušnje (Voulgaris, 2014, str. 63). Obstajajo sicer delovna mesta, kjer napreden nivo

akademske izobrazbe lahko nadomesti delovne izkušnje, vendar je na področju znanosti o

podatkih več povpraševanja po delovnih izkušnjah. V osnovi, če ima podatkovni

znanstvenik formalno akademsko izobrazbo iz ustreznih področij (npr. informatika,

matematika, statistika itd.), potem ima dobro izhodišče za opravljanje nalog iz področja

znanosti o podatkih. Izkušnje pa posamezniku omogočajo, da lahko stvari naredi boljše in

najbolje izkoristi znanja, pridobljena iz formalne izobrazbe (Voulgaris, 2014, str. 63).

V letu 2015 sem zasledila štiri razpise za delovno mesto podatkovnega znanstvenika v

Sloveniji, in sicer s strani naslednjih organizacij: Celtra, Zemanta, Outfit7 in Singtel.

Delovna mesta so predstavljena v Prilogi 2. Vse naštete organizacije delujejo na

mednarodnih trgih na področju naprednih tehnologij in masovnih podatkov. Vsi oglasi so

bili objavljeni v angleškem jeziku, in sicer na spletnih straneh organizacije (Zemanta,

Outfit7, Singtel) ali preko portala LinkedIn (Celtra). Podrobnosti vsakega od štirih

69

razpisov so predstavljena Prilogi 2. Pri pregledu razpisov ugotavljam, da so izkušnje

osnovni pogoj za takšno delovno mesto, medtem ko je formalna izobrazba bila zahtevana

le pri dveh od štirih organizacij. Pri ostalih dveh, kjer formalna izobrazba ni bila omenjena,

gre za start-up organizaciji (Zemanta, Outfit7). Ustrezna formalna izobrazba pa je bila

zahtevana pri organizacijah Celtra in Singtel. V Celtri pričakujejo diplomsko ali

magistrsko izobrazbo iz enega od naslednjih področij: računalništva, matematike ali

statistike, v Singtelu pa magisterij iz področja matematike.

V sklopu samostojnega izobraževanja imajo posameniki za nabiranje znanj iz statistike,

matematike, strojnega učenja, podatkovnega rudarjenja, Hadoop tehnologij itd. veliko

različnih možnosti, saj je razpoložljivih virov veliko. Znanja si lahko pridobijo z branjem

knjig, strokovnih člankov, žurnalov, preko ogledov video posnetkov na spletu, udeležbo na

delavnicah oziroma tečajih za uporabo različnih analitičnih orodij, udeležbo na domačih in

mednarodnih konferencah, praktičnem delu na projektih (v službi, na fakulteti tekom

študija ali preko zanimivih lastnih projektov) ter udeležbo na t. i. masovnih odprtih

spletnih tečajih (MOOC). Nenazadnje bo organizacije zanimalo, kakšno dodano vrednost

lahko podatkovni znanstvenik prinese v organizacijo, tudi na podlagi preteklih izkušenj in

projektov. Ker imajo izkušnje pri delu podatkovnega znanstvenika pomembno vlogo pri

uspešni zaposlitvi in nadaljnjem delu, bom v nadaljevanju predstavila načine, kako lahko

podatkovni znanstvenik v Sloveniji pridobi izkušnje iz področja znanosti o podatkih.

Voulgaris (2014, str. 64–65) za nabiranje izkušenj iz področja znanosti o podatkih

priporoča, da si posameznik najprej izbere dejavnost oziroma področje, ki ga zanima in s

katerim se bi želel bolj poglobljeno ukvarjati. Organizacije namreč vidijo veliko prednost v

kolikor ima kandidat izkušnje iz dejavnosti, v kateri deluje organizacija. V nadaljevanju je

potrebno poiskati relevantne podatke, ki so odprto dostopni in na katerih lahko v praksi

preizkusimo pridobljeno znanje in uporabo orodij. V Sloveniji poteka tudi mednarodni

projekt OpenData.si, ki predstavlja izvedbo ideje, da smo za določen sklop podatkov

lastniki vsi prebivalci Slovenije in so posledično podatki brez licence. Nekaj projektov, ki

izhajajo iz javno odprtih podatkov, se nahaja na njihovi spletni strani OpenData.si:

napoved prihodov LPP avtobusov, ponudniki študentske prehrane na zemljevidu,

geolokacijsko podprti JSON API za vremenske podatke, prebrane s strani Agencije

Republike Slovenije za okolje – ARSO. Do nekaterih podatkov pa lahko dostopamo tudi

preko repozitorijev portala Nacionalnega interoperabilnostnega okvirja (NIO, 2015), ki

vsebujejo informacije o zbirkah in strukturi podatkov, njihovi uporabi ipd. Na portalu je

mogoče pridobiti podatke iz področja javne uprave, prometa, statistike in financ.

Pridobljene izkušnje lahko nato nadgradimo z udeležbo na natečaju ali tekmovanju iz

znanosti o podatkih. Zelo znana je platforma Kaggle.com, ki organizira spletna

tekmovanja iz izgradnje statističnih modelov in uporabo metod podatkovnega rudarjenja.

Udeležba na takšnem tekmovanju prinese pomembne izkušnje, dobra uvrstitev pa dodatno

potrditev o kakovosti dela za bodočega delodajalca. Posameznik lahko izkušnje pridobi

tudi preko pripravništva (plačanega ali ne) na relevantni poziciji v organizaciji, ki

70

omogoča vpogled v delo in razumevanje poslovnega okolja, delovne etike in seznanitev s

podatkovnimi procesi. V kolikor se pokaže priložnost, lahko v sklopu pripravništva

opravljamo delo za že zaposlenega podatkovnega znanstvenika, katerega izkušnje in

mentorstvo so neprecenljive. Prav tako pa lahko za organizacijo pripravimo študijo

primera ali zaključno delo na temo določenega problema analize podatkov, s katerim se

srečuje organizacija. Pri tem je seveda potreben dogovor glede vključitve občutljivih

podatkov v končno poročilo (Voulgaris, 2014, str. 65).

Mogoče ne toliko lastnih praktičnih izkušenj, pa vendar veliko izmenjavo izkušenj in

znanja drugih lahko pridobimo z udeležbo na različnih delavnicah (angl. workshops),

konferencah, družabnih skupinah (angl. community groups) ali skupnih druženjih

(angl. meetups). V tujini so že uveljavljene strokovne konference iz znanosti o podatkih,

kot so: Data Analytics Europe, Predictive Analytics World, GoPivotal Data Science,

Association for Computing Machinery (ACM), Institute of Electrical and Electronics

Engineers analytics/Big data/data science, Text Analytics News itd. (Granville, 2014, str.

87). V Sloveniji je bila v sodelovanju z Institutom Jožef Stefan na Bledu oktobra 2014

organizirana 17. konferenca o raziskovanju v znanosti (Discovery Science Bled, 2014).

Konferenca obsega razvoj in analizo metod za odkrivanje znanstvenih spoznanj iz področij

strojnega učenja, podatkovnega rudarjenja, inteligentne podatkovne analize kot tudi

njihovih aplikacij na različnih znanstvenih področjih. IBM Slovenija, d.o.o., organizira

letno konferenco Ključ do rešitev, kjer se predstavijo podjetja s konkretnimi primeri rešitev

analitičnih problemov (Ključ do rešitev Slovenija, 2014). V sklopu družabnih skupin v

Sloveniji deluje skupina Big Data Developers Slovenia (BigData Developers in Slovenia,

2015), ki je sponzorirana s strani IBM Slovenija, d.o.o., in šteje 227 članov. Organizirajo

brezplačna skupna druženja iz različnih področjih tehnologij masovnih podatkov (Hadoop,

R na Hadoop, SQL na Hadoop, analitika v realnem času, analiza besedil, vizualizacija,

NoSQL itd.). Skupina je bila ustanovljena v novembru 2014, do sedaj pa so organizirali pet

skupnih druženj. V letu 2015 je bila organizirana tudi delavnica Data Science Talks na

temo prediktivnega modeliranja v programskem jeziku R v sodelovanju z organizacijo

Ektimo, d.o.o., in Hekovnik start-up šolo (Data science talks: Predictive modeling using R,

2015). Z udeležbo na takšnih dogodkih, srečanjih dobimo priložnost za nova spoznanstva

in pridobimo realne organizacijske izkušnje, sploh če sodelujemo pri pripravi ali izvedbi

takšnih dogodkov.

Velik razmah pa so v zadnjem času doživeli tudi masovni odprti spletni tečaji – MOOC.

Izmed bolj poznanih so Coursera.org, Claudera.com in Udemy.com. Coursera in Udemy

ponujata veliko povezanih tečajev iz celotnega področja znanosti o podatkih, ki ga

organizirajo znane univerze (Univerza v Stanfordu, Univerza Johns Hopkins, Univerza v

Princetonu itd.). Gre za brezplačno spletno delavnico, kjer so predavatelji uveljavljeni

univerzitetni profesorji. Prednost masovnih odprtih spletnih tečajev je v tem, da etično

zavezujejo k lastnemu delu in da je pridobljen certifikat do neke mere enakovreden

formalni izobrazbi. Kot je bilo razvidno iz enega od razpisov za prosto delovno mesto

71

(Priloga 2), organizacije navajajo tudi opravljen certifikat MOOC kot del formalne

izobrazbe.

Pomemben vir znanj in opisov praktičnih izkušenj ponujajo tudi različni spletni portali

oziroma nišne spletne strani, povezane z znanostjo o podatkih. Njihova prednost leži

predvsem v tem, da so neprestano na voljo, ko posameznik potrebuje dodatne informacije,

ter da so brezplačni. Portal DataScienceCentral.com ponuja praktične projekte, primere

izvorne kode, navodila, tečaje in primere nabora podatkov. Ostali zanimivi portali so še:

Analyticsbridge.com, BigDataNews.com, Quora.com ipd.

Vsi posamezniki, ki delajo na področju znanosti o podatkih, se soočajo s pomembnim,

neprestanim izzivom, kako ohranjati ustrezna znanja in sposobnosti. Tehnologija,

povezana s podatki, napreduje zelo hitro in podatkovni znanstveniki morajo ostati v stiku s

splošnim razvojem, kot tudi z razvojem na specifičnem področju svojega delovanja.

Podatkovni znanstveniki pozdravljajo idejo kontinuiranega strokovnega razvoja v obliki

rednih kratkih tečajev o specifičnih temah, ki so v tistem trenutku aktualne in upajo, da bo

takšen sistem postal sprejet kot del njihovih vlog (Swan, 2008, st. 2).

Masovni podatki in znanost o podatkih zajemata zelo širok nabor področij, kar pomeni še

večji nabor različnih problemov, s katerimi se pri delu srečujejo organizacije in posledično

podatkovni znanstveniki. Prav zaradi širokega obsega in raznolikosti področij ter znanj,

sposobnosti in izkušenj posameznikov, je med podatkovnimi znanstveniki do neke mere

povzročilo naravno diferenciacijo specifičnih vlog, ki jih lahko podatkovni znanstvenik

opravlja. K temu je delno pripomogla tudi nestandardiziranost samega področja dela

podatkovnih znanstvenikov (OECD, 2015, Voulgaris, 2014, str. 31). V nadaljevanju

predstavljam tri raziskave, povezane s segmentacijo podatkovnih znanstvenikov.

2.5 Znanja in sposobnosti podatkovnih znanstvenikov v tujini (druge

raziskave)

2.5.1 Raziskava Harrisa, Vaismana & Murphya o identifikaciji različnih vlog

podatkovnih znanstvenikov

S ciljem boljšega razumevanja področja sposobnosti in znanj podatkovnih znanstvenikov

ter vzpostavitvijo ustreznejše terminologije za identifikacijo različnih vlog podatkovnih

znanstvenikov so v sklopu skupnosti DC2 Harlan Harris, Marck Vaisman in Sean Murphy

izvedli raziskavo med 250 profesionalnimi podatkovnimi znanstveniki. V sredini leta 2012

so posameznikom iz skupnosti dali v izpolnitev 10-minutni spletni vprašalnik, v katerem

so odgovarjali na vprašanja, povezana s svojimi znanji, sposobnostmi, izkušnjami, spletno

prisotnostjo (profili na spletnih omrežjih: LinkedIn, MeetUp, GitHub), izobrazbo ter

samostojnim izobraževanjem.

72

V raziskavi so spraševali po znanjih iz petih glavnih področij: poslovnega področja (razvoj

izdelkov, poslovanje), področja masovnih podatkov/podatkovnega rudarjenja

(nestrukturirani podatki, strukturirani podatki, strojno učenje, masovni in distribuirani

podatki), matematike/OR (optimizacija, matematika, grafični modeli, Bayesova/Monte

Carlo statistika, algoritmi, simulacije), programiranja (sistemska administracija, zaledno

programiranje, čelno programiranje) in statistike (vizualizacija, časovna statistika,

raziskave in trženje, prostorska statistika, znanost, manipulacija podatkov in klasična

statistika).

Segmente so oblikovali na podlagi dveh segmentacijskih spremenljivk: samoidentifikacije

(4 kategorije) ter znanj posameznika (5 kategorij). Na podlagi odgovorov so z metodo

razvrščanja v skupine identificirali 4 segmente podatkovnih znanstvenikov. Čeprav obstaja

med njimi določena mera prekrivanja (npr. vsi imajo znanja iz metodologije analize

podatkov, tehnologij masovnih podatkov ter procesa izvajanja znanosti o podatkih), pa

med segmenti obstajajo značilne razlike:

Podatkovni znanstveniki – poslovni vodje (angl. Data Businesspeople) so

posamezniki, ki so izrazito usmerjeni na povečanje dobička ter potrebujejo široko sliko

delovanja organizacije. Gre za vodje, managerje in podjetnike, vendar s tehničnimi

vrlinami. Ponavadi postanejo izkušeni (angl. senior) podatkovni znanstveniki, ki so

vodje ekipe, ki se ukvarja z znanostjo o podatkih. Pomembno vlogo predstavljajo tudi

kot vodje projektov iz področja znanosti podatkov. Pogosta smer izobrazbe takšnih

posameznikov je diploma tehnične smeri skupaj z izobrazbo MBA. Podatkovne

znanstvenike – poslovne vodje najpogosteje najdemo v večjih organizacijah ali pa kot

lastnike lastnih zagonskih organizacij (angl. start-up).

Podatkovni znanstveniki – kreativci (angl. Data Creatives) imajo znatna akademska

znanja in izjemne izkušnje iz področja tehnologij masovnih podatkov (npr. programska

orodja, namenjena analizi in managementu masovnih podatkov), strojnega učenja in

programiranja. Gre za posamenike, ki imajo sposobnosti delati na različnih področjih

in z različnimi orodij. Sami sebe dojemajo kot umetnike ali kot hekerje, ki so odlični v

vizualizaciji in odprtokodnih tehnologijah. To omogoča podatkovnim znanstvenikom –

kreativcem, da z malo napora menjajo vloge glede na potrebe. Najmanj izkušeni so iz

področja poslovnih ved, zato potrebujejo pomoč pri komuniciranju dodane vrednosti

njihovega dela. Podatkovni znanstveniki – kreativci so najbolj primerni za manjše

organizacije, kjer je fleksibilnost osnovna prednost vsakega zaposlenega. Kljub temu

lahko brez težav delajo tudi v večji organizaciji, kjer se ponavadi pridružijo ekipi bolj

poslovno usmerjenih strokovnjakov. Manjkajoča zananja in sposobnosti lahko

nadoknadijo preko delovnih izkušenj.

Podatkovni znanstveniki – razvojniki (angl. Data Developers) so usmerjeni na

tehnični vidik managementa podatkov, analize podatkov in razvoja programske opreme

73

z namenom opravljanja analitičnih, statističnih nalog ali nalog, povezanih s strojnim

učenjem. Njihovo področje dela zajema zajem podatkov preko različnih virov,

organizacija teh podatkov v bazah podatkov, opravljanje poizvedb ter analiza

rezultatov pozvedb s ciljem pridobiti čim bolj uporabne informacije. Podatkovni

znanstveniki – razvojniki so v osnovi programerji z dobrim znanjem kodiranja in

strojnega učenja. Poslovna in statistična znanja so relativno osnovna, odvisno od

posameznikove izobrazbe ter preteklih delovnih izkušenj. Rezultat dela podatkovnih

znanstvenikov – razvojnikov mogoče ne bo najbolj robustna analiza, zato se ponavadi

priključijo timu drugih podatkovnih strokovnjakov. Podatkovne znanstvenike –

razvojnike lahko najdemo v različnih dejavnostih. Pogosto jih zaposlujejo manjše

organizacije ali pa predstavljajo del tima, ki se ukvarja z znanostjo o podatkih v večjih

organizacijah. Posamezniki s preteklim znanjem iz področja informacijske tehnologije

oziroma diplomo iz področja računalništva se naravno najpogosteje razvijejo v

podatkovnega znanstvenika – razvojnika. Manjkajoča znanja in sposobnosti iz področij

statistike in poslovanja lahko razvijejo in izboljšajo preko delavnic in tečajev,

vzporedno pa pridobijo tudi izkušnje iz specifične dejavnosti. Podatkovni znanstvenik

– razvojnik ponavadi zavzema vlogo manj izkušenega (angl. junior) podatkovnega

znanstvenika, čeprav lahko napreduje tudi do vodstvenih pozicij z razvojem svojih

znanj in sposobnosti.

Podatkovni znanstveniki – raziskovalci (angl. Data Researchers) izhajajo ponavadi

iz akademskega sveta, z znanjem in izkušnjami iz statistike ali katerih koli drugih

znanosti, ki uporabljajo statistiko (npr. družbene vede). Napram drugim segmentom

podatkovnih znanstvenikov ima precej višji % podatkovnih znanstvenikov –

raziskovalcev visoko stopnjo izobrazbe (doktorat). Poslovna znanja so sicer slabše

zastopana, so pa odlični analitiki in pri pridobivanju zanimivih dognanj iz podatkov

uporabljajo matematična orodja. Njihova vloga pride najbolj do izraza pri

organizacijah, ki se še nikoli poprej niso srečevala z znanostjo o podatkih in nimajo

jasne usmeritve glede uporabe zbranih podatkov. Podatkovni znanstveniki –

raziskovalci so ponavadi del tima, ki se ukvarja z znanostjo o podatkih v večjih

organizacijah, poleg drugih podatkovnih znanstvenikov, ki dopolnijo znanja

raziskovalca z znanji iz področja programiranja in poslovnih ved, kar je osnovni pogoj

za razvoj novih uporabnih izdelkov in storitev na podlagi podatkov (angl. data

product). Posamezniki iz tega segmenta podatkovnih znanstvenikov se hitro učijo

novih stvari in lahko na ta način hitro pridobijo dodatna znanja, razvijejo svoje

sposobnosti ter postanejo zelo fleksibilni strokovnjaki, če je to potrebno.

Slika 19 prikazuje kombinacijo kategorij znanj in kategorij skupin za samoidentifikacijo.

Opazimo lahko značilno korelacijo: podatkovni znanstveniki – vodje projektov imajo

močna znanja iz področja poslovanja, medem ko so raziskovalci slabši na področju

programiranja, kreativci pa dobri v vseh kategorijah znanj.

74

Slika 19: Kombinacija kategorij znanj in kategorij skupin za samoidentifikacijo

Vir: H. Harris, S. Murphy &M. Vaisman, Analyzing the Analyzers: An Introspective Survey of Data Scientists

and Their Work, 2013, str. 13, Slika 3–3.

Kot peti segment podatkovnih znanstvenikov Voulgaris (2014, str. 31) omenja mešano

oziroma generično skupino podatkovnih znanstvenikov, ki naj bi veljala za najbolj

izkušenega strokovnjaka. Generični podatkovni znanstvenik je precej podoben

podatkovnemu znanstveniku – poslovnemu vodji, vendar brez širine izkušenj ali

intenzivnega poslovnega fokusa. Njihovo področje znanj vključuje programiranje,

statistiko in poslovne vede. So zelo fleksibilni tako kot podatkovni znanstveniki –

kreativci, vendar z razumevanjem poslovnega sveta. Večina novih podatkovnih

znanstvenikov, ki študira iz področja znanosti podatkov v mladih letih, postane ta segment

podatkovnih znanstvenikov. Generični podatkovni znanstveniki ustrezajo za delo v

različnih organizacijah, lahko delujejo neodvisno ali pa kot del tima. So zelo osebno

navdušeni nad področjem svojega dela – zaradi česar so si prvotno nabrali tako široko

področje znanj in sposobnosti. Glede na rast ponudbe delavnic in tečajev iz področja

znanosti o podatkih je pričakovano, da bodo v prihodnosti podatkovni znanstveniki

predvsem iz tega segmenta (Voulgaris, 2014, str. 34).

75

2.5.2 Raziskava Hayesa o znanjih in sposobnostih podatkovnih znanstvenikov ter

delovanju v timih

Raziskava neodvisne organizacije za tehnološke in tržne raziskave AnalyticsWeek, v

sodelovanju z Business over Broadway, je zajela 490 podatkovnih strokovnjakov (angl.

data professionals) iz malih in srednjih organizacij. Namen raziskave je bil boljše pojasniti

in razumeti vlogo znanosti o podatkih v poslovnem svetu. S pomočjo raziskave so razvili

sistem za ocenjevanje znanj in sposobnosti (angl. Data Skills Scoring System) z namenom

zajema pomembnih informacij glede podatkovnih strokovnjakov in njihovega delovnega

okolja (Hayes, 2015a, str. 2–4).

K sodelovanju so povabili posameznike, ki se ukvarjajo s podatki, preko različnih virov:

člane skupnosti AnalyticsWeek (več kot 20.000 strokovnjakov iz področja znanosti o

podatkih iz 12 držav) ter z vabili, poslanimi preko družbenih medijev Twitter in LinkedIn.

Prosili so jih za izpolnitev kratke ankete, v kateri so jih spraševali po njihovih znanjih in

sposobnostih v povezavi s podatki, izobrazbi, vlogi v organizaciji, članih tima,

zadovoljstvu z rezultati njihovega dela ipd. (Hayes, 2015a, str. 2).

Večina sodelujočih je bila iz Severne Amerike (68 %), zaposlenih v B2B organizacijah (79

%) z manj kot 1000 zaposlenimi (53 %) ter iz naslednjih dejavnosti: informacijska

tehnologija, finančne storitve, znanost/izobraževanje, svetovanje in zdravje/medicina (68

%). 75 % sodelujočih je bilo moških. 30 % sodelujočih je imelo diplomo, 49 % magisterij

ter 18 % doktorat (Hayes, 2015a, str. 2).

Znanost o podatkih so definirali kot področje, pod katerim so združena različna znanja in

sposobnosti. Identificirali so 25 znanj in sposobnosti, ki so jih razvrstili v pet kategorij: 1)

poslovne vede (B), 2) tehnologija (T), 3) programiranje (P), 4) matematika in modeliranje

(M), 5) statistika (S). Sodelujoče so prosili, da samoocenijo nivo svojega znanja oziroma

sposobnosti za vsako od 25. znanj in sposobnosti na lestvici od 0 (»Brez«) do 100

(»Strokovnjak«).

Slika 20 prikazuje samooceno znanj in sposobnosti 490 sodelujočih v raziskavi. Razvidno

je, da je nivo znanja različen glede na določeno znanje oziroma sposobnost. Sodelujoči so

izrazili višjo stopnjo samoocene na naslednjih področjih: komunikacija, strukturirani

podatki, podatkovno rudarjenje, znanost/znanstvena metoda in matematika. Nižjo stopnjo

samoocene pa so dodelili področjem: sistemska administracija, čelno in zaledno

programiranje, procesiranje naravnega jezika (NLP), masovni in distribuirani podatki ter

management podatkov v oblaku (Hayes, 2015a, str. 2).

76

Slika 20: Samoocena znanj in sposobnosti sodelujočih v raziskavi (n = 490)

Vir: B. E. Hayes, Optimizing your data science team, 2015a, str. 2, Slika 1.

Sodelujoči so v nadaljevanju ocenili, kateri od štirih opisov najbolje opiše njih same in

delo, ki ga opravljajo (vloga v organizaciji).

Slika 21 prikazuje rezultate odgovorov na vprašanje: »Kako bi najbolje opisali sebe in

delo, ki ga opravljate?« (možnih je bilo več odgovorov). Več kot polovica vprašanih je

odgovorila, da je njihova primarna vloga raziskovalec (angl. researcher), sledi poslovni

management (angl. business management), kreativec (angl. creative) ter razvijalec (angl.

developer) (Hayes, 2015a, str. 2).

77

Slika 21: Samoocena svoje vloge v organizaciji (n = 490)

Vir: B.E. Hayes, Optimizing your data science team, 2015a, str. 2, Slika 2.

Pri primerjavi samoocene znanj in sposobnosti glede na samooceno vloge v organizaciji so

ugotovili, da je vloga v organizaciji logično povezana s samooceno različnih znanj in

sposobnosti. Posamezniki z vlogo poslovnega managementa so, izmed vseh sodelujočih,

imeli najvišjo samooceno znanj in sposobnosti iz področja poslovnih ved. Razvijalci so

imeli najvišjo samooceno znanj in sposobnosti iz področja tehnologije in programiranja,

statistike in matematike ter modeliranja. Pri kreativcih pa nobeno posamezno znanje ali

sposobnost ni izstopalo, temveč so imeli zadovoljiv nivo znanj vseh področij (Hayes,

2015a, str. 3).

Slika 22: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji (n=

490)

Vir: B. E. Hayes, Optimizing your data science team, 2015a, str. 3, Slika 3

78

Pri pregledu samoocene znanj in sposobnosti glede na samooceno vloge v organizaciji je le

pri tistih, ki so izbrali samo eno vlogo v organizaciji (Slika 23), razvidno, katera specifična

znanja in sposobnosti izstopajo pri posamezni vlogi (Hayes, 2015b).

Slika 23: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji –

izbrali samo 1 vlogo (poslovni manager n = 65, razvijalec n = 47, kreativec n = 25,

raziskovalec n = 101)

Vir: B.E. Hayes, Investigating Data Scientists, their Skills and Team Makeup, 2015b.

77 % vprašanih je odgovorilo, da pri delu sodelujejo z drugimi podatkovnimi strokovnjaki

(enem ali več) na projektih, ki vključujejo analizo. V sklopu raziskave jih je zanimalo, ali

struktura tima vpliva na rezultate dela. Tiste, ki so odgovorili, da sodelujejo z drugimi

podatkovnimi strokovnjaki, so prosili za oceno članov tima, ali menijo, da so strokovnjaki

na katerem koli od petih področij znanj in sposobnosti. Rezultati so pokazali, da so bili

poslovni managerji bolj zadovoljni z rezultati dela, ko so imeli strokovnjake z znanji iz

področja matematike in modeliranja ter statistike v njihovem timu, kot pa, če jih niso imeli.

Prav tako so bili raziskovalci bolj zadovoljni z rezultati dela, če so delovali v timu s

strokovnjaki iz področja poslovnih ved in matematike ter modeliranja. Razvijalci pa so bili

bolj zadovoljni v kolikor so delovali v timu s strokovnjakom iz področja poslovnih ved. Le

pri kreativcih na zadovoljstvo z delom ni vplivala prisotnost strokovnjakov iz drugih

področij (Hayes, 2015a, str. 3).

79

V raziskavi zaključujejo, da so pri reševanju problemov, povezanih s podatki, potrebna

znanja in sposobnosti iz različnih področij: 1) poslovnih ved, 2) tehnologije, 3)

programiranja, 4) matematike in modeliranja ter 5) statistike. Nivo znanja iz vsakega

področja je povezan z vlogo v organizaciji. Podatkovni strokovnjaki, ki se opišejo kot

»poslovni managerji« imajo največ znanj iz poslovnih ved. Raziskovalci imajo največji

nivo znanj iz področja matematike in modeliranja ter statistike. Programerji iz tehnologije

in programiranja. Kreativci pa imajo določen nivo znanj iz vseh področij. Za učinkovito

izrabo podatkov organizacije potrebujejo time podatkovnih strokovnjakov s

komplementarnimi znanji in sposobnostmi. Različni podatkovni strokovnjaki v tim

doprinesejo svoja unikatna znanja in sposobnosti, ki jih lahko uporabijo v vseh treh fazah

podatkovno intenzivnih projektov: 1) postavljanje pravih vprašanj (poslovanje), 2)

pridobivanje pravih podatkov (tehnologija in programiranje) ter 3) analiza teh podatkov

(matematika in statistika) (Hayes, 2015a, str. 3–4).

2.5.3 Raziskava Swana o sposobnostih, vlogah in karierni strukturi podatkovnih

znanstvenikov

V raziskavi The skills, role and career structure of data scientists and curators: an

assesment of current practice and future needs (Swan, 2008), naročeni s strani JISC (Joint

Information Systems Committee), so proučevali vloge podatkovnih znanstvenikov v Veliki

Britaniji. Namen projekta je bil na podlagi raziskave pripraviti priporočila glede vlog in

kariernega razvoja podatkovnih znanstvenikov ter priporočila glede ponudbe

specializiranih sposobnosti raziskovalni skupnosti v Veliki Britaniji (Swan, 2008, str.1).

Raziskava je bila osredotočena na kvalitativne raziskovalne metode. V primarnem delu

raziskave so izvedli 57 delno strukturiranih poglobljenih intervjujev ter 4 skupinske

pogovore s podatkovnimi znanstveniki, knjižničarji in učitelji iz različnih področij

(biologije, astronomije, kemije, arheologije, geologije, ekologije, ekonomije in drugih

družbenih znanosti). Intervjuji in fokusne skupine so bile izvedene v Angliji, Severni Irski

in na Škotskem. Sledil je spletni vprašalnik (Swan, 2008, str. 6).

Že v zgodnji fazi zasnove raziskave so ugotovili, da obstaja problem uporabe ustrezne

terminologije, kako koga poimenovati in kako definirati, kdo se s čim ukvarja. Sponzor

projekta je uporabljal izraz »podatkovni znanstvenik« za opis proučevane vloge, kateri je

pripisal naloge obdelave, ohranjevanja in arhiviranja podatkov. V sklopu raziskave pa so

ugotovili, da posamezniki, ki sami sebe dojemajo kot podatkovne znanstvenike in ki sicer

opravljajo vse navedene naloge, največjo vlogo pripisujejo obdelavi podatkov. V veliki

večini primerov gre za diskretne vloge, ki jih opravljajo osebe z visoko stopnjo

specializacije (Swan, 2008, str. 7).

Na podlagi zbranih podatkov so identificirali 4 različne vloge podatkovnih znanstvenikov:

ustvarjalec podatkov (angl. Data Creator), podatkovni znanstvenik (angl. Data Scientist),

podatkovni vodja (angl. Data Manager) ter podatkovni knjižničar (angl. Data Librerian)

80

(Swan, 2008, str. 1). V praksi navedena terminologija v skupnosti analitikov še ni

uveljavljena. Prav tako so meje med posameznimi vlogami zabrisane (Swan, 2008, str. 1).

Ustvarjalec podatkov (angl. Data Creator) je raziskovalec z domenskim znanjem, ki

pridobiva podatke. Posamezniki iz tega segmenta imajo visok nivo znanj in izkušenj iz

obdelave, manipulacije in uporabe podatkov, ki so ga pridobili na podlagi izkušenj kot

rezultat potreb ali osebnih interesov (Swan, 2008, str. 8).

Podatkovni znanstvenik (angl. Data Scientist) je posameznik, ki deluje na področju

raziskovanja podatkov in ki opravlja različne funkcije. Tesno sodeluje z ustvarjalci

podatkov ali pa celo sam postane ustvarjalec podatkov. V osnovi so podatkovni

znanstveniki lahko domenski strokovnjaki, računalniški inženirji ali tehnologi informatike,

katerih karierni razvoj je od njih zahteval pridobitev znanj in sposobnosti iz discipline, iz

katere v osnovi niso izhajali (Swan, 2008, str. 8). Podatkovni znanstvenik skrbi za

kreativno pridobivanje in analizo podatkov, ki drugim omogoča delo z digitalnimi podatki

in razvoj tehnologij baz podatkov (Swan, 2008, str. 1). Nekateri podatkovni znanstveniki

so poudarili, da pomemben del njihovega dela predstavlja vloga »prevajalca«, ki ima

sposobnosti ustrezno komunicirati potrebe ustvarjalcev podatkov do managerjev podatkov,

s katerimi sodelujejo tudi pri tem, da so podatki shranjeni in dostopni na uporaben način

(Swan, 2008, str. 8).

Manager podatkov (angl. Data Manager) je računalniški inženir ali tehnolog

informatike, ki sprejema odgovornost za računalniške objekte, skladiščenje, neprekinjen

dostop in ohranjanje podatkov. Manager podatkov zelo tesno sodeluje s podatkovnim

znanstvenikom in zagotavlja, da so prave tehnološke možnosti na voljo celotni raziskovalni

ekipi. Nekateri managerji podatkov so svojo vlogo opisali kot podatkovne

»vodoinštalaterje«, saj pripeljejo »tok« podatkov iz enega mesta na drugo, pri katerem

zagotavljajo, da ta tok deluje pravilno in da se pomembni podatki ne izgubijo (Swan, 2008,

str. 8).

Podatkovni knjižničar (angl. Data Librarian) je oseba, ki je specializirana za

kuratorstvo, ohranjanje in arhiviranje podatkov. Originalno je naziv podatkovni knjižničar

bil rezerviran za knjižničarje, ki se ukvarjajo s podatki iz družbenih znanosti. Sedaj pa ta

naziv velja za osebe z znanji in sposobnostmi obdelave, urejanja in shranjevanja podatkov

v vseh disciplinah. To predstavlja pomembno področje, saj organizacije začenjajo

vzpostavljati digitalna skladišča za zbiranje in ohranitev raziskovalnih rezultatov. Nabori

podatkov predstavljajo del teh raziskovalnih rezultatov, ki so shranjeni v organizacijska

skladišča, za katera skrbi podatkovni knjižničar (Swan, 2008, str. 8).

V raziskavi poudarjajo, da so se do sedaj podatkovni znanstveniki »znašli« v svoji vlogi

bolj po spletu okoliščin kot načrtovano. Za vlogo podatkovnega znanstvenika so se

kvalificirali ali kot domenski strokovnjaki na določenem področju, ki so dodatna znanja in

81

sposobnosti za delo s podatki pridobili tekom dela, ali pa kot računalniški strokovnjaki, ki

so čez čas pridobili domenska znanja (Swan, 2008, str. 2). Večina podatkovnih

znanstvenikov v raziskavi je omenilo, da so znanja in sposobnosti pridobili ob delu zaradi

pomanjkanja pravih izobraževalnih priložnosti in stroškov (v času in denarju), povezanih z

udeležbo na primernih dogodkih (Swan, 2008, str. 2).

3 RAZISKAVA O ZNANJIH IN SPOSOBNOSTIH PODATKOVNIH

ZNANSTVENIKOV V SLOVENIJI

3.1 Izhodišča in namen raziskave

Pri načrtovanju empiričnega dela magistrskega dela sem sledila standardnim korakom

trženjskega raziskovanja (Malhotra, 2012). V nadaljevanju sem opredelila raziskovalni

problem ter na podlagi tega raziskovalna vprašanja in metodologijo raziskave.

Raziskava temelji na teoretičnih izhodiščih magistrskega dela, predstavljenih v prejšnjih

poglavjih. Raziskovalni problem je ugotoviti, kakšna so trenutna znanja in sposobnosti

podatkovnih znanstvenikov v Sloveniji ter kakšna je podobnost oziroma različnost z znanji

in sposobnostmi podatkovnih znanstvenikov v tujini. Namen raziskave je identificirati,

katere skupine podatkovnih znanstvenikov obstajajo v Sloveniji glede na njihova znanja in

sposobnosti ter kakšne so značilnosti ter razlike med njimi. Na podlagi razpoložljivih

podatkov menim, da ta raziskovalni problem v Sloveniji še ni bil raziskan.

Cilj je bil pridobiti vsaj 80 enot v vzorec iz naslova podatkovnih znanstvenikov oziroma

posameznikov, ki se poklicno ukvarjajo s katerim od naslednjih področij: znanstvenim

raziskovanjem, programiranjem, managementom podatkov, bazami podatkov, statistiko,

matematiko, strojnim učenjem ali poslovnimi vedami.

3.2 Raziskovalna vprašanja

Na podlagi raziskovalnega problema ter namena raziskave, z upoštevanjem teoretičnih

izhodišč, predstavljenih v prvem in drugem poglavju, sem oblikovala devet raziskovalnih

vprašanj, na katera želim odgovoriti v sklopu raziskave.

1. Ali se podatkovni znanstveniki v Sloveniji ukvarjajo z masovnimi podatki in kako

se to zrcali skozi različne dimenzije masovnih podatkov?

Kot predstavljeno v prvem poglavju se, v sklopu napredka v tehnologiji glede zmožnosti

shranjevanja vedno večje količine podatkov ter z razvojem boljših in hitrejših orodij za

analizo podatkov, znanost o podatkih tesno povezuje s pojmom masovnih podatkov. Kljub

temu, da je glavni cilj raziskave analiza znanj in sposobnosti podatkovnih znanstvenikov,

82

masovni podatki predstavljajo pomembno področje delovanja podatkovnih znanstvenikov.

Zato je eno od raziskovalnih vprašanj ugotoviti v kolikšni meri, če sploh, se v Sloveniji

posamezniki ukvarjajo z masovnimi podatki glede na različne dimenzije masovnih

podatkov: volumen, hitrost, raznolikost in vrednost. Rezultati, pridobljeni na podlagi

raziskave, bodo omogočali primerjavo s podatki iz raziskav, povezanih s posameznimi

dimenzijami masovnih podatkov, omenjenimi v prvem poglavju.

2. Katera znanja in sposobnosti so pomembna pri delu podatkovnega znanstvenika v

Sloveniji?

V sklopu raziskave želim ugotoviti, katera znanja in sposobnosti, predstavljena v poglavju

2.2, so trenutno pomembna pri delu podatkovnih znanstvenikov v Sloveniji oziroma

pomembno vplivajo na njihovo delo. Na podlagi rezultatov bo mogoče pridobiti vpogled v

stanje v Sloveniji glede pomembnosti posameznih znanj in sposobnosti.

3. Kakšna so dejanska znanja podatkovnih znanstvenikov v Sloveniji in ali obstaja

kakšna vrzel med znanji, ki jih imajo (na podlagi samoocene) in tistimi, ki so

dejansko pomembna pri njihovem delu oziroma vplivajo na uspešnost njihovega

dela?

Poleg pomembnosti znanj želim v sklopu raziskave ugotoviti, kakšna so dejanska znanja

podatkovnih znanstvenikov v Sloveniji. Na podlagi primerjave samoocene in pomembnosti

posameznega področja znanj želim ugotoviti, ali obstajajo značilne razlike med

pomembnostjo znanj in dejanskimi znanji, ki jih imajo. Rezultati, pridobljeni na podlagi

raziskave glede samoocene različnih področji znanj, bodo omogočali primerjavo s podatki

iz raziskav o znanjih podatkovnih znanstvenikov, predstavljenimi v poglavju 2.5.

4. Katere skupine podatkovnih znanstvenikov v Sloveniji lahko identificiramo na

podlagi samoocene znanj?

Na podlagi podatkov, pridobljenih v raziskavi, želim ugotoviti, katere skupine podatkovnih

znanstvenikov lahko identificiramo na podlagi samoocene znanj. V sklopu tega bo mogoče

primerjati značilnosti skupin podatkovnih znanstvenikov, identificiranih v raziskavah,

predstavljenih v poglavju 2.5.


podlagi pomembnosti znanj in sposobnosti pri delu?

Na podlagi podatkov, pridobljenih v raziskavi, želim ugotoviti, katere skupine podatkovnih

znanstvenikov lahko identificiramo na podlagi pomembnosti znanj in sposobnosti pri delu

podatkovnih znanstvenikov. V sklopu tega bo mogoče primerjati značilnosti skupin

podatkovnih znanstvenikov, identificiranih na podlagi samoocene znanj.

83

6. Ali obstaja kakšna vrzel pri identificiranih skupinah podatkovnih znanstvenikov

(na podlagi samoocene znanj) med znanji, ki jih imajo (na podlagi samoocene) in

tistimi, ki so dejansko pomembna pri njihovem delu oziroma vplivajo na

uspešnost njihovega dela?

Na podlagi primerjave samoocene in pomembnosti posameznega področja znanj, po

identificiranih skupinah na podlagi samoocene znanj, želim ugotoviti, ali obstajajo značilne

razlike med pomembnostjo znanj in dejanskimi znanji, ki jih imajo. Rezultati, pridobljeni

na podlagi raziskave, bodo omogočali vpogled, katera področja so bolj pomembna in bi jih

posamezniki znotraj skupine morali razvijati v prihodnosti.

7. Ali obstajajo kakšne razlike med identificiranimi skupinami podatkovnih

znanstvenikov na podlagi samoocene znanj glede na izobrazbo, smer izobrazbe,

spol, izkušnje in način izobraževanja?

Na podlagi identificiranih skupin podatkovnih znanstvenikov želim ugotoviti, ali obstajajo

razlike v značilnostih teh skupin glede na spol, izkušnje, način izobraževanja ter glede na

stopnjo izobrazbe ter smer izobrazbe. Na podlagi analize podatkov želim ugotoviti, ali je

za določeno skupino podatkovnih znanstvenikov določena izobrazba bolj primerna kot za

drugo skupino podatkovnih znanstvenikov.


znanstvenikov na podlagi samoocene znanj glede obdelane količine, raznolikosti

podatkov in koristi, ki jih dosegajo preko dela s podatki?

Na podlagi identificiranih skupin podatkovnih znanstvenikov želim ugotoviti, ali obstajajo

razlike v značilnostih teh skupin glede na količino in raznolikost podatkov, s katerimi so se

že srečali pri svojem delu. Na podlagi analize podatkov želim ugotoviti, ali določene

skupine podatkovnih znanstvenikov izstopajo pri posamezni dimenziji masovnih podatkov

v primerjavi z drugimi.

9. Ali je mogoče identificirati porazdelitve oziroma vzorce znanj po posameznih

področjih med identificiranimi skupinami podatkovnih znanstvenikov na podlagi

samoocene znanj?

Zaradi širokega področja znanj in sposobnosti, ki naj bi jih posameznik za delo

podatkovnega znanstvenika imel, se v literaturi (Granville, 2014, str. 75) in v raziskavah

(Harris, Murphy & Vaisman, 2013) omenja, da naj bi posameznik imel zelo poglobljena

znanja iz vsaj enega področja (statistike, matematike, programiranja, baz podatkov,

strojnega učenja) ter vsaj osnovna znanja iz drugih področij. Granville (2014) govori o t. i.

vertikalnih podatkovnih znanstvenikih, v raziskavi Analyzing the analyzers (Harris,

Murphy & Vaisman, 2013) pa so identificirali t. i. »T-obliko« znanj podatkovnih

84

znanstvenikov. V sklopu raziskave želim ugotoviti, ali je mogoče identificirati porazdelitve

oziroma vzorce znanj po posameznih področjih znanj med skupinami podatkovnih

znanstvenikov. Na podlagi tega želim ugotoviti, ali obstajajo podatkovni znanstveniki s t. i.

»T-obliko« znanj oz. če obstajajo posamezniki, ki imajo visoko stopnjo znanj na vseh

področjih.

3.3 Metodologija raziskave

3.3.1 Zbiranje podatkov

Vprašalnik, uporabljen v raziskavi, vključuje tri skupine vprašanj, katerim na koncu sledijo

demografska vprašanja. Vprašanja se nanašajo na postavljena raziskovalna vprašanja iz

prejšnjega poglavja. Prva skupina vprašanj se nanaša na posamezne dimenzije masovnih

podatkov: volumen, raznolikost, hitrost in vrednost. Druga skupina vprašanj se nanaša na

samooceno znanj ter oceno pomembnosti znanj in sposobnosti podatkovnih znanstvenikov.

Tretja skupina vprašanj se nanaša na pretekle izkušnje in pridobivanje znanj in sposobnosti

preko različnih načinov izobraževanja. Zadnji sklop vprašanj vključuje demografska

vprašanja glede spola, starosti, stopnje in smeri izobrazbe. Vprašanja so bila oblikovana na

podlagi teoretičnih izhodišč, predstavljenih v prvem in drugem poglavju.

Testiranje vprašalnika je potekalo v obdobju od 1. aprila 2016 do 23. aprila 2016.

Vprašalnik je bil testiran na devetih osebah iz različnih področij ukvarjanja s podatki:

programerji, statistiki/trženjski raziskovalci, poslovni analitiki in IT-analitiki. Največ

komentarjev v sklopu testiranja se je nanašalo na dolžino vprašalnika, saj je prvotna verzija

vprašalnika imela precej daljša navodila, bolj obsežne opise področij znanj ter ločeni

vprašanji za samooceno znanj in pomembnost znanj. V končni verziji vprašalnika sem

opise znanj in navodila skrajšala, kolikor je bilo mogoče, da sem ohranila pomembne

informacije in razumevanje področja. Vprašanji glede samoocene znanj in pomembnosti

znanj pa sem združila v dvojno tabelo tako, da je lahko udeleženec hkrati izpolnil

samooceno in pomembnost določenega področja znanj. Oba ukrepa sta bistveno skrajšala

čas izpolnjevanja vprašalnika. Sprva sem vsa vprašanja označila kot obvezna in dodala

opcijo »ne vem«. Tekom testiranja pa sem dobila povratno informacijo, da naj bi se pri

ocenjevanju znanj in sposobnosti vsak znal opredeliti in da odgovor »ne vem« ni potreben.

Tudi preglednost stopenj pomembnosti je bila z opcijo »ne vem«, z vidika udeleženca,

slabša. Končni vprašalnik je imel za vsa vprašanja nastavitev, da udeleženec dobi

opozorilo, v kolikor na vprašanje ne odgovori, vendar še vedno lahko nadaljuje brez

odgovora. Možnost »ne vem« sem pustila samo pri vprašanjih, kjer se je izkazalo, da

nekateri res niso znali odgovoriti in mi je bilo pomembno, da se tako opredelijo. Tekom

testiranja sem dobila tudi komentar, zakaj v vprašalnik ni vključeno vprašanje, na kateri

funkciji v organizaciji je posameznik zaposlen in iz katere dejavnosti izhaja organizacija, v

kateri delo opravlja. Teh spremenljivk nisem vključila v vprašalnik, saj so mi bolj

pomembna znanja in sposobnosti posameznika na splošno, ne glede na to, ali jih opravlja

85

za več različnih organizacij ali pa zase osebno. Ciljna skupina so namreč posamezniki in

ne organizacije, ki odgovarjajo zase osebno. Zanima me namreč, kaj posameznik počne

neodvisno od tega, ali dela za lastne potrebe ali za stranko. Torej, vsepovsod, kjer

uporablja svoja znanja in sposobnosti za delo s podatki. Zato sem v uvodnem nagovoru v

vprašalniku še bolj podrobno izpostavila ciljno skupino. Testiranje je izpostavilo tudi

vprašanje, zakaj bi udeleženec ocenjeval pomembnost določenega področja znanj, če pa

znanja ne uporablja, ne pozna oziroma ne ustreza njegovemu področju dela. Odločila sem

se, da ne bom omejevala odgovorov na pomembnost določenega področja znanja le na

tiste, ki ga poznajo ali uporabljajo. Menim, da tudi če udeleženec določenega znanja ne

uporablja ali pozna, še vedno lahko pomeni, da pa je pri njegovem delu pomembno, vendar

se ga mora še priučiti. Zato vprašanja nisem oblikovala tako, da bi ocenili pomembnost

samo pri področjih znanj, kjer so se udeleženci ocenili kot začetniki ali več.

Za zbiranje podatkov sem uporabila metodo spletnega anketiranja s pomočjo

strukturiranega vprašalnika, pripravljenega na podlagi pregleda teoretičnih izhodišč ter že

izvedenih raziskav. V vprašalniku sem uporabila različne merske lestvice: nominalno,

ordinalno in intervalno. Pri vprašanjih v drugem sklopu sem uporabila petstopenjsko

Likertovo lestvico. Pri določenih vprašanjih sem dodatno omogočila možnost »ne vem«.

Spremenljivke, njihovi opisi, vrednosti in merske lestvice so predstavljeni v Prilogi 3.

Osnovo za dodaten opis profilov posameznih skupin podatkovnih znanstvenikov so

predstavljale tudi demografske značilnosti anketirancev. Vprašalnik, ki je bil uporabljen v

raziskavi, se nahaja v Prilogi 4.

V raziskavo sem želela zajeti posameznike, ki se večino svojega časa ukvarjajo s podatki

oziroma s katerim od naslednjih področij: analitika, statistika, matematika, programiranje,

management podatkov, raziskovanje ali pa so vodje takšnih ekip. V uvodnem nagovoru

vprašalnika sem to še dodatno izpostavila. Takšni posamezniki so predstavljali populacijo.

Vzorčni okvir v tem primeru ne obstaja, saj ni popolnega seznama posameznikov, ki se v

Sloveniji ukvarjajo s katerim od naštetih področij. K izpolnitvi vprašalnika so na podlagi

preteklih izkušenj, sodelovanj in poznanstev bili povabljeni posamezniki iz različnih

organizacij: In516ht, d.o.o., Petrol, d.d., Inštitut Jožef Stefan, Studio Moderna, d.o.o., Spar

Slovenija, d.o.o., Si.Mobil, d.d., Zavarovalnica Triglav, d.d., ADD, d.o.o., Zavarovalnica

Maribor, d.d., Mercator, d.d., Kendu, d.o.o., Ekipa2, d.o.o., Javni holding Ljubljana, d.o.o.,

D.Labs, d.o.o., Adriatic Slovenica, d.d., Nova ljubljanska banka, d.d., Zavod za

pokojninsko in invalidsko zavarovanje Slovenije, IBM Slovenija, d.o.o., Ektimo, d.o.o.,

Revelo, d.o.o. , Hekovnik, Arhea Solutio, d.o.o., Valicon, d.o.o., Inštitut za raziskovanje

trga in medijev Mediana, d.o.o., Droga Kolinska, d.d., itd. Vprašalnik je bil objavljen tudi

na skupini Big Data Developers in Data Science Slovenia ter na Facebook strani

Udomačena Statistika. Povabilu k raziskavi je bila vključena tudi prošnja za posredovanje

vprašalnika drugim primernim posameznikom. Metoda vzorčenja je bilo namensko

priložnostno vzorčenje, saj so k izpolnitvi vprašalnika bili povabljeni le posamezniki iz

Slovenije, ki so ustrezali predhodno določenim kriterijem (ukvarjanje s podatki oziroma

86

ukvarjanje z vnaprej določenim področjem dela). Izpolnjevanje vprašalnika je potekalo od

26. 4. 2016 do 21. 5. 2016. Vprašalnik je v celoti izpolnilo 94 oseb. 47 pa je vprašalnik

izpolnilo le delno, zato sem jih izločila iz analize. Rezultati ankete so bili ustrezno

zakodirani v podatkovno bazo s 94 enotami in 126 spremenljivkami. Pri pregledu podatkov

se je izkazalo, da 2 enoti nista bili primerni za analizo, saj sta vsebovali preveliko število

neodgovorov. Končni nabor enot za analizo je zajemal 92 enot. Podatki so bili zbrani s

pomočjo spletnega orodja 1ka.si. Za analizo podatkov in vizualizacijo rezultatov pa sem

uporabila SPSS Statistics verzija 21 in MS Excel 2010.

Pri analizi podatkov sem uporabila metode opisnih statistik za prikaz rezultatov in

značilnosti vzorca, parametrične in neparametrične teste za preverjanje domnev ter metode

multivariantne analize (razvrščanje v skupine) za identifikacijo skupin podatkovnih

znanstvenikov glede na samooceno znanj in oceno pomembnosti znanj in sposobnosti.

3.3.2 Metode obdelave podatkov

3.3.2.1 Metode soodvisnosti

Pogosto proučujemo pojave, ki so zelo kompleksni. Da bi čim bolje poznali njihovo

naravo, moramo identificirati vse njihove bistvene lastnosti. Pri statističnem proučevanju

pojavov skušamo te lastnosti izmeriti pri vsaki enoti posebej. Tako dobimo množico

vrednosti spremenljivk, ki izraža naravo proučevanega pojava (Rovan, 2013, str. 2). Z

vprašalnikom sem skušala čim bolje identificirati in z merskimi lestvicami izmeriti

bistvene lastnosti podatkovnih znanstvenikov v Sloveniji. Na ta način sem lahko pridobila

množico vrednosti spremenljivk, ki izražajo naravo proučevanega pojava. V primeru

raziskave znanj in sposobnosti podatkovnih znanstvenikov v Sloveniji sem množico

spremenljivk proučevala kot celoto. V takšnih primerih z metodami soodvisnosti želimo

odkriti, kako in zakaj so spremenljivke povezane med seboj (Rovan, 2013, str. 6). Med

metode soodvisnosti za metrično vrsto merske lestvice spadajo: enostavna korelacija,

metoda glavnih komponent ter faktorska analiza. Omenjene metode soodvisnosti se

osredotočajo na odnose med spremenljivkami. Dodatno pa se lahko uporabi še metoda

razvrščanja enot v skupine. Ker sem v vprašalniku glede znanj in sposobnosti uporabila

več kot dve spremenljivki na metričnih merskih lestvicah, sem se odločila za uporabo

metode razvrščanja v skupine za identifikacijo skupin podatkovnih znanstvenikov.

Enostavno korelacijo pa sem uporabila za identifikacijo spremenljivk, ki visoko korelirajo

med seboj.

3.3.2.2 Opisna statistika in statistično preizkušanje domnev

Podatke, pridobljene s pomočjo vprašalnika, sem najprej analizirala z metodami opisne

statistike. Z namenom analize raziskovalnih vprašanj, predstavljenih v prejšnjem poglavju,

sem uporabila metode statističnega preizkušanja predpostavk (domnev) glede srednjih

87

vrednosti ali mer variabilnosti. Pri analizi rezultatov raziskave po vprašanjih sem pri

vprašanjih na nominalnih in ordinalnih merilnih lestvicah (en vzorec) uporabila hi-kvadrat

preizkus. Hi-kvadrat preizkus primerja niz opazovanih frekvenc s teoretičnimi. Na podlagi

preizkusa sem lahko ugotovila, ali so razlike med opazovanimi (dejanskimi) in teoretičnimi

(pričakovanimi) frekvencami statistično značilne. Pri vprašanjih na nominalnih merilnih

lestvicah z več možnimi odgovori sem za preverbo domneve, ali obstajajo razlike na

dihotomni odvisni spremenljivki med tremi ali več med seboj povezanimi skupinami,

uporabila Cochranov Q preizkus. Pri raziskovalnem vprašanju, povezanim s smerjo in

stopnjo izobrazbe ter pripadnostjo določeni skupini, dobljeni na podlagi razvrščanja v

skupine, sem uporabila kontingenčno tabelo s hi-kvadrat preizkusom. Kontingenčna

tabela s hi-kvadrat preizkusom se uporablja za ugotavljanje povezanosti med dvema (ali

tremi) neštevilskima spremenljivkama. Na ta način bo mogoče ugotoviti, ali obstaja

povezava med kategorično spremenljivko (stopnja izobrazbe, smerjo izobrazbe, spol) ter

razvrstitvijo v skupine.

Pri analizi rezultatov raziskave po vprašanjih sem pri intervalnih lestvicah (samoocena

znanj ter ocena pomembnosti znanj in sposobnosti) uporabila t-preizkus za preverjanje

domneve o aritmetični sredini. Na ta način sem lahko ugotovila, ali obstajajo statistično

značilne razlike (od samoocene 3 – Začetnik) v samooceni posameznih znanj ter ali

obstajajo statistično značilne razlike (od ocene pomembnosti 3) v oceni pomembnosti

znanj in sposobnosti. Z namenom ugotoviti, ali obstaja statistično značilna razlika v

povprečni samooceni znanja in povprečni pomembnosti znanja, sem uporabila t-preizkus

za odvisni merjenji (preizkus dvojic), saj sem iste enote primerjala glede na različne

značilnosti (samoocena in pomembnost določenega področja znanj). Z namenom

preverjanja domneve o primerjavi aritmetičnih sredin za več kot dve neodvisni merjenji

sem uporabila analizo varianc (angl. ANOVA). Primerjala sem aritmetične sredine

samoocene znanj, pomembnosti znanj in sposobnosti (odvisna spremenljivka) dobljenih

skupin, identificiranih preko postopka razvrščanja v skupine (neodvisna spremenljivka).

Na ta način sem lahko ugotovila, ali med identificiranimi skupinami dejansko obstajajo

statistično značilne razlike med spremenljivkami, ki bodo vključene v postopek

razvrščanja v skupine.

3.3.2.3 Priprava podatkov za multivariantno analizo

Pri uporabi faktorske analize, metode glavnih komponent ter pri metodi razvrščanja v

skupine je pomembno vprašanje, ali uporabiti centrirane (vsota centriranih podatkov je

enaka nič) ali standardizirane podatke (odkloni prvotnih podatkov od aritmetične

sredine, deljeni s pripadajočim standardnim odklonom) (Rovan, 2013, str. 4–10).

Vsaka od teh dveh vrst podatkov bo dala drugačne rezultate glede na to, v kolikšni meri se

razlikujejo variance spremenljivk v obeh primerih. Pri uporabi centriranih podatkov, kjer

izhodišče za analizo predstavlja kovariančna matrika, je vpliv posamezne spremenljivke

skladen z relativno velikostjo njene variance. Spremenljivke z večjo varianco imajo torej

88

večji vpliv na rezultate analize. Pri uporabi standardiziranih podatkov, kjer izhodišče za

analizo predstavlja korelacijska matrika, pa imajo vse spremenljivke zaradi enakih

varianc tudi enako močan vpliv na rezultate. Centrirani podatki so ustrezno izhodišče za

analizo glavnih komponent ter pri metodi razvrščanja v skupine v primerih, ko so vrednosti

vseh spremenljivk izražene v primerljivih enotah in kadar so višine varianc posameznih

spremenljivk tudi indikator vsebinske pomembnosti posameznih spremenljivk. V vseh

drugih primerih se uporabljajo standardizirani podatki (Rovan, 2013, str. 9). Kljub temu,

da so vse spremenljivke, ki bodo vključene v razvrščanje v skupine, merjene na isti lestvici

(intervalna), sem pri analizi uporabila standardizirane podatke in s tem za izhodišče

analize uporabila korelacijsko matriko, saj menim, da variabilnost spremenljivke ne

določa njenega pomena oziroma da imajo v razdalji enot vse spremenljivke enako težo.

3.3.2.4 Testiranje homogenosti odgovorov v okviru enega konstrukta – Cronbach alpha

Pri merjenju določenega pojava je potrebna zanesljivost merskega instrumenta (pri vsakem

merjenju pokaže enako vrednost). Žal je v družboslovju težko najti objektiven merski

instrument, katerega zanesljivost bi lahko nedvomno potrdili (Rovan, 2013, str. 2). V

raziskavi znanj in sposobnosti podatkovnih znanstvenikov v Sloveniji sem pomembnost

znanj in sposobnosti merila posredno, s pomočjo petstopenjskih in šeststopenjskih

Likertovih lestvic. Da bi nabor postavk (znanj in sposobnosti) dejansko meril isti pojav,

morajo biti odgovori konsistentni, kar pomeni, da morajo biti odgovori na različna

vprašanja iste lestvice (močno) korelirani med seboj (Rovan, 2013, str. 2). Zato sem kot

mero zanesljivosti lestvice uporabila Cronbach alfa. Matematično je definirana kot delež

variabilnosti v odgovorih, ki je posledica razlik med posameznimi enotami. To pomeni, da

se bodo pri zanesljivi lestvici odgovori razlikovali zato, ker imajo ljudje različna

mnenja/sposobnosti in ne zato, ker so različne ponovitve (postavke) med seboj različne.

Poleg korelacije med odgovori na zanesljivost lestvice vpliva tudi število postavk – več kot

jih je, zanesljivejša je lestvica. V splošnem veljajo za zanesljive lestvice, katerih je

Cronbach alfa večja od 0,8.

3.3.2.5 Razvrščanje v skupine

Metode razvrščanja v skupine so namenjene združevanju objektov (enot ali spremenljivk)

v skupine, za katere je značilno, da (Rovan, 2013, str. 2):

je vsaka skupina glede na določene lastnosti objektov homogena, njeni objekti so v tem

smislu medsebojno podobni in,

se mora vsaka skupina po proučevanih lastnostih objektov razlikovati od drugih skupin.

Pred pričetkom razvrščanja v skupine je ključno opredeliti osnovni cilj razvrščanja v

skupine oziroma raziskovalni problem. Raziskovalni problem po navadi vključuje

identifikacijo homogene skupine enot v populaciji in predstavlja osnovo za vse nadaljnje

89

odločitve. Zaradi narave mojega raziskovalnega problema (identifikacija skupin

podatkovnih znanstvenikov) sem se v nadaljevanju usmerila le v metodologijo, povezano z

razvrščanjem enot v skupine in ne v razvrščanje spremenljivk. Razvrščanje v skupine je

proces, ki vključuje več korakov (Slika 24), ki so bolj podrobno predstavljeni v

nadaljevanju (Mooi & Sarstedt, 2011, str. 237–240).

Slika 24: Postopek razvrščanja v skupine

Vir: E. Mooi & M. Sarstedt, A concise guide to market research, 2011, str. 240, Fig. 9.2

Zelo pomembno je natanko opredeliti tiste lastnosti, na podlagi katerih želimo enote

razvrstiti v skupine. Izbor lastnosti odločilno vpliva na razvrstitev enot v skupine (Rovan,

2013, str. 2). Pri večini analiz se v praksi za izbor lastnosti enot, ki se jih bo upoštevalo pri

razvrščanju v skupine, uporablja mešanica intuicije in razpoložljivosti podatkov, odločitev

pa lahko izhaja tudi iz narave raziskovalnega problema (Mooi & Sarstedt, 2011, str. 240).

Pri izbiri spremenljivk je predvsem pomembno to, da izbrane spremenljivke zagotavljajo

jasno ločnico med končnimi skupinami glede določenega raziskovalnega problema (Mooi

& Sarstedt, 2011, str. 242). Na podlagi napisanega sem za izbor spremenljivk za

razvrščanje v skupine upoštevala teoretična izhodišča, predstavljena v drugem poglavju ter

spremenljivke, uporabljene v že izvedenih raziskavah v tujini, predstavljene v poglavju

2.4.1. S ciljem identifikacije skupin podatkovnih znanstvenikov v Sloveniji je končna

odločitev glede nabora spremenljivk za razvrščanje vključevala spremenljivke, povezane s

samooceno znanj za prvo razvrščanje v skupine, pri drugem razvrščanju v skupine sem

upoštevala spremenljivke, povezane z oceno pomembnosti znanj in sposobnosti

udeležencev raziskave v Sloveniji. Podatke za razvrščanje v skupine sem pridobila s

90

spletnim vprašalnikom, ki je bil strukturiran na podlagi teoretičnih osnov, predstavljenih v

prvem in drugem poglavju, kar pomeni, da imajo vprašanja dobro teoretično osnovo. Kljub

temu pa obstaja možnost, da so udeleženci raziskave različno odgovarjali na vprašanja v

vprašalniku in s tem vplivali na kakovost pridobljenih podatkov.

Na splošno ni priporočljiva uporaba velikega števila spremenljivk za razvrščanje v

skupine, saj to povečuje verjetnost, da so si spremenljivke med seboj premalo različne. V

kolikor med spremenljivkami obstaja visoka stopnja korelacije, to pomeni, da

spremenljivke niso dovolj unikatne, da bi ustrezno identificirale skupine. V kolikor se v

razvrščanje v skupine vključi visoko korelirane spremenljivke (koeficient korelacije nad

0,9), bodo določeni vidiki, ki jih pokrivajo te spremenljivke, preveč izraženi v končni

rešitvi razvrščanja (Mooi & Sarstedt, 2011, str. 242). Z namenom rešitve tega problema se

navajajo različne možnosti, od redukcije dimenzij do zmanjšanja števila spremenljivk

(Mooi & Sarstedt, 2011, str. 242). Zaradi slabosti uporabe faktorske analize pri razvrščanju

v skupine sem se odločila, da bom v primeru visokih korelacij med spremenljivkami,

zajetimi v razvrščanje, smiselno presodila, ali bo mogoče spremenljivko izpustiti iz

nadaljnjega procesa razvrščanja.

Pri razvrščanju v skupine ločimo hierarhično razvrščanje, nehierarhično razvrščanje

(algoritem K-means) ter razvrščanje v dveh korakih (angl. two-step clustering). Vsaka od

teh metod uporabi drugačen pristop k razvrščanju najbolj podobnih enot v skupino. To

vključuje minimiziranje variance znotraj skupin ali maksimiziranje razlike med skupinami

(Mooi & Sarstedt, 2011, str. 243). K razvrščanju v skupine je smiselno pristopiti na način,

da se najprej izvede hierarhično razvrščanje v skupine, pri čemer se ugotovi, koliko skupin

je v populaciji in identificira začetne centroide skupin. Nato se model izpopolni z

nehierarhično metodo. Hierarhična metoda razvrščanja ima poleg prednosti (enostavnost,

ni potrebno vnaprej določiti števila skupin, prikaz razvrščanja z drevesom) tudi slabosti.

Največja slabost metode je ta, da je postopek enosmeren. To pomeni, da ko je enota enkrat

vključena v skupino, ostane v tej skupini. To pa včasih pomeni, da na ta način dobljene

skupine niso optimalne (Rovan, 2013, str. 2). Iz navedenega razloga sem se odločila, da v

prvi fazi izvedem hierarhično razvrščanje v skupine in rezultate (število skupin in začetne

centroide) uporabim v nehierarhični metodi K-means.

Podobnost oziroma različnost med pari enot se lahko izraža na podlagi neke vrste razdalje.

Enote, kjer je razdalja med njimi manjša, so si med seboj bolj podobne kot enote, kjer je

razdalja med njimi večja. Pri razvrščanju enot, ki so opredeljene s samimi metričnimi

spremenljivkami, se običajno uporablja ena izmed oblik razdalje Minkowskega: Evklidska

razdalja ali razdalja Manhattan (Rovan, 2013, str. 5). Za intervalne in razmernostne

lestvice je najbolj primerna kvadratna Evklidska razdalja, ki temelji na Evklidski razdalji

med dvema enotama, vendar zaradi kvadrata razdalje poveča pomembnost daljših razdalj

in zmanjša pomembnost majhnih razdalj (Rovan, 2013, str. 5). Kot metodo podobnosti

bom pri hierahičnem razvrščanju v skupine zato uporabila kvadratno Evklidsko razdaljo.

91

Na podlagi mer podobnosti oziroma različnosti se pri hierahičnem razvrščanju na različne

načine izračunajo mere različnosti med skupinami, ki določajo različne metode

hierarhičnega združevanja v skupine. Najpogosteje uporabljene metode hierahičnega

združevanja v skupine so (Mooi & Sarstedt, 2011, str. 250–252): minimalna metoda,

maksimalna metoda, povprečna metoda, metoda centroidov in Wardova metoda. Glede na

to, da pričakujem približno enako število enot v identificiranih skupinah in ker Wardova

metoda uporablja F vrednost v sklopu analize varianc, s čimer maksimizira značilnost

razlik med skupinami, sem pri hierarhičnem razvrščanju za združevanje skupin uporabila

Wardovo metodo. Glede odločitve o številu skupin je potrebno zagotoviti, da so skupine

dovolj majhne, da so enostavno razumljive in na podlagi katerih lahko sprejmemo

odločitve ter hkrati, da so dovolj velike, da so tudi profitabilne z vidika ciljnih aktivnosti.

Pri odločitvi o številu skupin si lahko pomagamo z različnimi pristopi (Mooi & Sarstedt,

2011, str. 253–255). Pri odločitvi o številu skupin sem najprej ocenila rezultate

hierarhičnega razvrščanja na podlagi dendograma in izračuna Calinski Harabsz VRC.

Pridobljene možne rešitve glede števila identificiranih skupin sem s pomočjo kvalitativne

primerjave skupin v sklopu K-means razvrščanja v skupine primerjala med seboj in izbrala

rešitev, ki bo omogočala ustrezno interpretacijo in velikost posameznih skupin. Pri razlagi

skupin sem si pomagala s pregledom srednjih vrednosti spremenljivk, vključenih v

razvrščanje. Samo v primeru, da se povprečne vrednosti spremenljivk v skupinah

statistično različne, gre za spremenljivke, ki se razlikujejo po skupinah (Mooi & Sarstedt,

2011, str. 261).

3.3.2.6 Mere asimetrije in mere sploščenosti

Z namenom odgovora na raziskovalno vprašanje, povezano z identifikacijo porazdelitev

oziroma vzorcev znanj anketirancev sem izračunala koeficient asimetrije (angl. Skewness)

in koeficient sploščenosti (angl. Kurtosis).V kolikor je koeficient asimetrije večji od 0, je

porazdelitev asimetrična v desno. V kolikor je enak 0 je porazdelitev simetrična ter v

kolikor je manjši od 0 je porazdelitev asimetrična v levo. V kolikor je koeficient

sploščenosti večji od 0, je porazdelitev koničasta. V kolikor je enak 0, je porazdelitev

normalna (angl. bell-shaped) ter v kolikor je manjši od 0, je porazdelitev sploščena.

Pridobljene rezultate sem uporabila za identifikacijo značilne porazdelitve za udeležence

raziskave.

4 REZULATI RAZISKAVE IN DISKUSIJA

4.1 Značilnosti vzorca

V raziskavi je sodelovalo 92 anketirancev. 59,8 % jih je bilo moškega spola, 40,2 % pa

ženskega. Prevladovali so anketiranci moškega spola. Največji delež anketirancev je

pripadalo starostni skupini od 26 do 35 let (51,1 %). Drugače pa je bilo 0 %, mlajših od 18

let, 1,1 % v starostni skupini od 18 do 25 let, 51,1 % v starostni skupini od 26 do 35 let,

92

35,9 % v starostni skupin od 36 do 45 let, 10,9 % v starostni skupini od 46 do 55 let in 1,1

% v starostni skupini 56 let ali več. Največji delež anketirancev je imel univerzitetno

izobrazbo (50 %). Sledili so anketiranci z magisterijem, doktoratom ali specializacijo (28,3

%) ter anketiranci s poklicno ali štiriletno srednjo šolo (13 %). Najmanj je bilo

anketirancev z višjo ali visoko šolo (8,7 %). V vzorec ni bilo zajetih anketirancev s stopnjo

izobrazbe osnovna šola ali manj. Največji delež anketirancev je kot svojo prevladujočo

smer izobrazbe izbralo računalništvo (26,1 %), sledita ekonomija in poslovne vede (19,6

%), splošno družboslovje (15,2 %), druge naravoslovne ali tehnične vede (14,1 %),

statistika (9,8 %) ter matematika (8,7 %). En anketiranec je kot smer izobrazbe izbral

fiziko (1,1 %). Slika 25 prikazuje strukturo vzorca po spolu, starosti, smeri izobrazbe in

stopnji izobrazbe.

Slika 25: Struktura vzorca po spolu, starosti, smeri in stopnji izobrazbe (n = 92)

4.2 Rezultati raziskave po vprašanjih

4.2.1 Masovni podatki

4.2.1.1 Volumen podatkov

Anketiranci so glede največje količine/volumna podatkov, s katero so se osebno do sedaj

ukvarjali (pridobili, obdelali, analizirali, odločali), najpogosteje izbrali možnost od 1 GB

93

do 1023 GB (44,6 %). Kot drugo najpogostejšo možnost so izbrali od 1 TB do 1023 TB z

23,9 %. Sledijo anketiranci, ki se ukvarjajo z 1 megabajt do 1023 megabajtov (v

nadaljevanju MB) z 21,7 %. Najmanj pa se jih ukvarja s kilo bajti (v nadaljevanu KB) ali

manj (1,1 %) in PB ali več (1,1 %). 7,6 % anketirancev pa je izbralo opcijo »ne vem«.

Slika 26: Največja obdelana količina/volumen podatkov (n = 92)

Na podlagi vzorčnih podatkov in hi-kvadrat preizkusa so razlike med izbranimi možnostmi

glede največje količine/volumna podatkov statistično značilne pri zanemarljivo majhni

stopnji značilnosti (Priloga 10). Sklepam lahko, da se je največ anketirancev do sedaj

ukvarjalo s podatki velikosti od 1 GB do 1023 GB.

4.2.1.2 Raznolikost podatkov

Pri vprašanju glede tega, s katerimi različnimi tipi/viri podatkov so se anketiranci že srečali

pri svojem delu, jih je največ (90,2 %) izbralo strukturirane podatke iz notranjih virov,

generirane s strani naprav (poslovne transakcije – nakupi, zaloge, računi ipd.; spletne

metrike iz spletnih dnevnikov; metrike iz nadzora procesov, senzorjev ipd.), drugo

najpogosteje (64,1%) pa so izbrali strukturirane podatke iz notranjih virov, generirane s

strani človeka (ocenjevalne lestvice v vprašalnikih – raziskave; ocenjevanje sposobnosti

ipd.). Najmanjkrat so izbrali nestrukturirane podatke iz notranjih virov, generiranih s strani

človeka (8,7 % – glasovna pošta, korporativni video, slike, avdio prepisi iz notranjih virov

organizacije) in nestrukturirane podatke iz zunanjih virov, generirane s strani človeka (7,6

% – slike na Instagramu, video posnetki na YouTube, avdio komentarji na spletnih mestih

ipd.).

94

Slika 27: Raznolikost podatkov (n = 92)

Na podlagi vzorčnih podatkov in Cochran Q preizkusa so razlike med % posameznih

možnosti statistično značilne pri zanemarljivo majhni stopnji značilnosti (Priloga 10).

Sklepam lahko, da so se anketiranci največkrat srečali s podatki o poslovnih transakcijah.

Tabela 4: Klasifikacija odgovorov in dimenzije raznolikosti podatkov

Odgovor v vprašalniku Človek/ Naprava Notranji/

Zunanji

Strukturirani/

Nestrukturirani

Poslovne transakcije (nakupi, zaloge, računi ipd.),

spletne metrike iz spletnih dnevnikov; metrike iz

nadzora procesov, senzorjev ipd.

Podatki generirani

s strani naprav Notranji Strukturirani

Ocenjevalne lestvice v vprašalnikih (raziskave);

ocenjevanje sposobnosti ipd.

Podatki generirani

s strani človeka Notranji Strukturirani

Vsebina elektronske pošte; vsebina dokumentov

znotraj organizacije; mnenja zaposlenih; komentarji

potrošnikov; zapisi opomb klicnega centra ipd.

Podatki generirani

s strani človeka Notranji Nestrukturirani

Datum in čas objave na Facebooku, Twitterju; GPS

podatki o Tweetih/Facebook objavah ipd.

Podatki generirani

s strani naprav Zunanji Strukturirani

Vsebina komentarjev na spletnih forumih; blogi,

zapisi in komentarji iz družbenih medijev; spletna

iskanja; vsebina SMS sporočil ipd.

Podatki generirani

s strani človeka Zunanji Nestrukturirani

Število všečkov na Facebooku; število retweetov;

ocene na družbenih medijih; spletne sledi ipd.

Podatki generirani

s strani človeka Zunanji Strukturirani

Glasovna pošta, korporativni video, slike,

ilustracije, avdio prepisi – iz notranjih virov

organizacije ipd.

Podatki generirani

s strani človeka Notranji Nestrukturirani

Slike na Instagramu, video posnetki na YouTube;

avdio komentarji na spletnih mestih ipd.

Podatki generirani

s strani človeka Zunanji Nestrukturirani

95

Anketirancem sem na podlagi tega, ali so izbrali določen odgovor ali ne, pripisala nove

izpeljane spremenljivke, glede na to, ali so izbrali odgovor, ki se na naša na eno od

dimenzij raznolikosti podatkov: strukturirani in nestrukturirani podatki, zunanji in notranji

podatki ter podatki, generirani s strani naprav in človeka. Tabela 4 prikazuje pregled

klasifikacije odgovorov in posamezne dimenzije raznolikosti podatkov (predstavljene v

poglavju 1.3.3). Iz podatkov je razvidno, da se je 96,7 % anketirancev že srečalo s podatki

s strani naprav, 79,3 % pa s podatki, generiranimi s strani človeka. Anketiranci so prav

tako večkrat izbrali, da so se srečali s podatki iz notranjih virov organizacije (97,8 %) kot

pa podatkov iz zunanjih virov organizacije (47,8 %). Vsi anketiranci (100 %) so izbrali

vsaj eno od možnih strukturiranih podatkov, polovica pa je izbrala vsaj eno možnost,

povezano z nestrukturiranimi podatki.

Tabela 5: Raznolikost podatkov glede na dimenzijo (n = 92)

Dimenzija Delež (v %)

Podatki, generirani s strani naprav 96,7 %

Podatki, generirani s strani človeka 79,3 %

Notranji viri 97,8 %

Zunanji viri 47,8 %

Strukturirani podatki 100,0 %

Nestrukturirani podatki 50,0 %

Na podlagi vzorčnih podatkov in Cochran Q preizkusa so razlike med odstotki posameznih

dimenzij raznolikosti podatkov statistično značilne pri zanemarljivo majhni stopnji

značilnosti (Priloga 10). Sklepam lahko, da so se anketiranci največkrat srečali s

strukturiranimi podatki v primerjavi z nestrukturiranimi, s podatki iz notranjih virov v

primerjavi iz zunanjimi ter podatki, generiranimi s strani naprav v primerjavi s podatki,

generiranimi s strani človeka.

Anketirance sem na podlagi frekvenc izbranih dimenzij podatkov razvrstila v skupine

glede na to, s katero dimenzijo podatkov so označili, da so se že srečali (Slika 28).

Največ anketirancev (31,5 %) se je že srečalo z vsemi dimenzijami raznolikosti

podatkov.

Sledijo anketiranci (20,7 %), ki so se srečali le s strukturiranimi, notranjimi podatki,

generiranimi s strani naprav. Zelo verjetno gre za »klasične« podatkovne analitike, ki

analize pripravljajo na strukturiranih podatkih, generiranih s strani naprav, ki jih črpajo

iz notranjih virov organizacije. Njihov delež v vzorcu je predstavljal eno petino vseh

udeležencev.

16,3 % anketirancev se je srečalo samo z notranjimi podatki (strukturiranimi in

nestrukturiranimi, generiranimi s strani naprav in človeka). Gre verjetno za »moderne«

96

podatkovne analitike, ki v svoje analize skušajo vključiti čim več podatkov iz notranjih

virov. Zanimivo je, da kombinirajo strukturirane in nestrukturirane podatke.

14,1 % se je srečalo samo s strukturiranimi podatki (zunanjimi in notranjimi,

generiranimi s strani naprav in človeka). Ta segment je zanimiv z vidika tega, da skuša

kombinirati strukturirane podatke iz notranjih virov s podatki iz zunanjih virov ne

glede na to, ali so generirani s strani naprav ali človeka. Še vedno pa gre za

podatkovnega analitika, saj se ukvarja le s strukturiranimi podatki, vendar podatke

pridobiva tudi iz zunanjih virov.

12 % anketirancev se je srečalo s strukturiranimi, notranjimi podatki (generiranimi s

strani človeka in naprav). Zelo verjetno gre za trženjske raziskovalce ali podatkovne

analitike, ki podatke iz raziskav kombinirajo s podatki, generiranimi s strani naprav iz

notranjih virov organizacije.

3,3 % anketirancev se je srečalo samo s strukturiranimi podatki iz notranjih virov,

generiranimi s strani človeka. Ta segment pa predstavlja »klasične« trženjske

raziskovalce, ki se srečujejo s strukturiranimi podatki, pridobljenimi iz raziskav.

2,2 % anketirancev se je srečalo samo z zunanjimi podatki (strukturiranimi in

nestrukturiranimi, generiranimi s strani naprav in človeka). Segment je zanimiv z

vidika tega, da gre za posameznike, ki strukturirane in nestrukturirane podatke

pridobivajo samo iz zunanjih virov ne glede na to, ali so generirani s strani naprav ali

človeka.

Slika 28: Razvrščanje anketirancev glede na izbrano raznolikost podatkov (n = 92)

97

4.2.1.3 Hitrost podatkov

47,8 % anketirancev je označilo, da so se že kdaj ukvarjali s podatki v realnem času (angl.

real time, streaming data), 47,8 % jih je označilo, da se še niso, 4,3 % pa jih je izbralo

opcijo »ne vem«. Delež takšnih, ki so se ukvarjali s podatki v realnem času, je torej enak

deležu takšnim, ki se še niso.

4.2.1.4 Vrednost podatkov

82,6 % anketiranih je kot najbolj otipljivo korist, ki jo dosegajo preko dela s podatki,

izbralo možnost boljšega odločanja na podlagi dejstev. Sledi izboljšanje izkušnje

potrošnika/uporabnika oziroma boljše razumevanje potrošnika (72,8 %). Bolj učinkovito

izvajanje procesov, načina dela, operacij ter povečanje prodaje/prihodkov sta dobili enako

število odgovorov (66,3 %). Sledi boljša kakovost izdelkov in storitev z 59,8 % in

zmanjšanje tveganja z 51,1 %. Najmanjkrat so anketiranci kot otipljivo korist izbrali

inovacije na področju izdelkov in storitev (39,1 %). 2 anketiranca (2,2 %) sta izbrala opcijo

drugo, pod katero je eden od njih navedel zaznavanje trendov.

Slika 29: Vrednost podatkov (n = 92)

Na podlagi vzorčnih podatkov in Cochran Q preizkusa so razlike med odstotki posameznih

možnosti izbranih otipljivih koristi statistično značilne pri zanemarljivo majhni stopnji

značilnosti (Priloga 10). Sklepam lahko, da so anketiranci najpogosteje kot otipljivo korist

dela s podatki izbrali boljše odločanje na podlagi dejstev.

98

4.2.2 Samoocena znanj

Anketiranci so pri 5. vprašanju ocenjevali svojo stopnjo znanja iz različnih področij znanj.

Pri tem je bila uporabljena intervalna lestvica od 1 – Ne poznam (ne uporabljam/ne ustreza

mojemu področju dela), 2 – Osnovno poznavanje (osnovno znanje, fokus je na

izobraževanju), 3 – Začetnik (znanje pripravnika, fokus je na pridobivanju izkušenj na

praktičnih primerih), 4 – Srednji nivo (samostojna kompetentna uporaba, fokus je na

izboljšanju znanja) do 5 – Napredni nivo (poglobljena znanja in kompetence, fokus je na

reševanju strokovnih problemov). Glede na to, da je določeno področje znanj lahko

pokrivalo več različnih znanj, aktivnosti, metod, so bili anketiranci naprošeni, da tudi v

primeru, da ne poznajo vseh znanj, naštetih znotraj določenega področja, ocenjujejo

tistega, ki ga poznajo ali uporabljajo. Za lažje razumevanje posameznega področja znanj je

bil kratek opis posameznega področja podan ob prehodu miške, čez besedilo znanja. Na to

vprašanje je odgovorilo od 87 do 91 anketirancev.

Prikaz frekvenčnih porazdelitev je prikazan v prilogi 5. Izmed vseh znanj so anketiranci

najbolj pogosto (modus), z najvišjo oceno (5 – Napredni nivo), ocenili: poizvedbeni jezik

SQL (45 %), Sistemi baz podatkov – relacijske baze podatkov (RDBMS): DB2, mySQL,

SQL Server ipd. (30 %), Opisna statistika in verjetnostne porazdelitve (29 %), Regresijska

analiza (30 %) in Statistično preizkušanje domnev (26 %).Z oceno 4 – Srednji nivo so

anketiranci najpogosteje (modus) ocenili Poslovna znanja (finance, trženje, logistika,

razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje) z 41 %, Oblikovanje

informacij (vizualizacija) z 37 %, Specifična znanja iz posameznega področja, dejavnosti

ali domene, iz katere izhaja problem z 40 %, Management podatkov z 35 % ter Linearna

algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov, manipulacija

matrik z 29 %. Znanstveno metodo so najpogosteje (28 %) ocenili z oceno 3 – Srednji

nivo. Več najpogosteje izbranih ocen se je pojavilo pri dveh področjih znanj. Pri znanjih,

povezanih z Delno strukturiranimi podatki: XML, .JSON je 24 % anketirancev izbralo

možnost 1 – Ne poznam ter 24 % oceno 4 – Napredni nivo. Podobno razhajanje je bilo tudi

pri Znanju programskih jezikov, npr. R, Python, SAS, Julija, Scala, Stata idr., kjer je 23 %

anketirancev izbralo 1 – Ne poznam in 23 % oceno 4 – Napredni nivo. Vsa ostala

navedena znanja so najbolj pogosto (modus) ocenili z najnižjo oceno (1 – Ne poznam). Če

omenim le tista, kjer je več kot polovica anketirancev izbrala opcijo (1 – Ne poznam):

Metodologije npr. CRISP-DM, SEMMA, DMAIC (63 %), Nagrajevalno učenje (63 %),

Obdelava naravnega jezika (59 %), Masovni in distribuirani podatki (Hadoop, MapReduce,

HiveQL) (57 %), Sistemi baz podatkov NoSQL (57 %), Poglobljeno učenje (57 %),

Prostorska statistika (52 %) in Nenadzorovano učenje (51 %).

Iz pregleda povprečnih ocen samoocene znanj (Slika 30) je razvidno, da imajo anketiranci

nadpovprečna znanja iz naslednjih področij (na podlagi povprečnih ocen samoocene znanj

je t-test pokazal statistično značilne razlike od ocene 3 – Začetnik pri zanemarljivi stopnji

značilnosti, Priloga 10): Poizvedbeni jezik SQL (3,7), Poslovna znanja (3,66), Oblikovanje

99

informacij (3,57), Specifična znanja iz posameznega področja, dejavnosti ali domene, iz

katere izhaja problem (3,48), Sistemi baz podatkov – relacijske baze podatkov (3,46),

opisna statistika in verjetnostne porazdelitve (3,46), Management podatkov (3,30; P =

0,015) ter Regresijska analiza (3,30; P = 0,03).

Slika 30: Povprečne ocene samoocene znanj (n = 87–91)

Povprečne ocene samoocen znanj iz področij Znanstvena metoda, Statistično preizkušanje

domnev, Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,

manipulacija matrik, Redukcija dimenzij, Znanja programskih jezikov, npr. R, Python,

SAS, Julia, Scala, Strata idr. ter Delo z delno strukturiranimi podatki .XML, .JSON na

podlagi t-testa (Priloga 10) niso pokazale statistično značilnih razlik od ocene 3 – Začetnik

100

pri stopnji značilnosti α = 0,05. Pri ostalih znanjih je t-test (Priloga 10) pokazal statistično

značilne razlike od ocene 3 – Začetnik pri zanemarljivi stopnji značilnosti, kar pomeni, da

so anketiranci vsa ostala znanja v povprečju ocenili slabše od 3 – Začetnik.

4.2.3 Pomembnost znanj

Anketiranci so pri 5. vprašanju ocenjevali tudi stopnjo pomembnosti iz različnih področij

znanj. Pri tem je bila uporabljena intervalna lestvica od 1 – Sploh ni pomembno do 5 –

Zelo je pomembno. Glede na to, da je določeno področje znanj lahko pokrivalo več

različnih znanj, aktivnosti, metod, so bili anketiranci naprošeni, da tudi v primeru, da ne

poznajo vseh znanj, naštetih znotraj določenega področja, ocenjujejo tistega, ki ga poznajo

ali uporabljajo. Za lažje razumevanje posameznega področja znanj je bil kratek opis

posameznega področja podan ob prehodu miške, čez besedilo znanja. Na to vprašanje je

odgovorilo od 84 do 91 anketirancev. Prikaz frekvenčnih porazdelitev je prikazan v prilogi

5. Izmed vseh znanj so anketiranci najbolj pogosto (modus), z najvišjo oceno (5 – Zelo je

pomembno), ocenili: Poslovna znanja (finance, trženje, logistika, razvoj izdelka,

poznavanje organizacije, trženjsko raziskovanje) z 42 %, Poizvedbeni jezik SQL z 43 %,

Specifična znanja iz posameznega področja, dejavnosti ali domene, iz katere izhaja

problem z 36 %, Sistemi baz podatkov – relacijske baze podatkov (RDBMS) z 32 %,

Opisna statistika in verjetnostne porazdelitve z 29 % ter Znanstvena metoda z 26 %. Z

oceno 4 so anketiranci najpogosteje (modus) ocenili Oblikovanje informacij (vizualizacija)

z 35 % ter Management podatkov z 29 %.Vsa ostala navedena znanja so najbolj pogosto

(modus) ocenili z najnižjo oceno (1 – Sploh ni pomembno). Če omenim le tista, kjer je več

kot polovica anketirancev izbrala opcijo (1 – Sploh ni pomembno): Sistemi baz podatkov

NoSQL (63 %), Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) (60 %),

Poglobljeno učenje (60 %), Metodologije, npr. CRISP-DM, SEMMA, DMAIC (56 %),

Obdelava naravnega jezika (NLP) (56 %), Nadzorovano učenje (53 %) in Nagrajevalno

učenje (59 %).

Iz pregleda povprečnih ocen pomembnosti znanj je razvidno, da so anketiranci kot

nadpovprečno pomembna označili naslednja znanja (na podlagi povprečnih ocen

pomembnosti znanj je t-test pokazal statistično značilne razlike od ocene 3, pri

zanemarljivi stopnji značilnosti, Priloga 10): Poslovna znanja (3,83), Oblikovanje

informacij (3,72), Specifična znanja iz posameznega področja, dejavnosti ali domene, iz

katere izhaja problem (3,64), Poizvedbeni jezik SQL (3,59), Sistemi baz podatkov –

relacijske baze podatkov (3,52), Management podatkov (3,47) ter Opisna statistika in

verjetnostne porazdelitve (3,31; P = 0,04).

Povprečne ocene pomembnosti znanj iz področij Znanstvena metoda, Statistično

preizkušanje domnev, Regresijska analiza, Znanje programskih jezikov, npr. R, Python,

SAS, Julia, Scala, Stata idr. in Redukcija dimenzij na podlagi t-testa (Priloga 10) niso

pokazale statistično značilnih razlik od ocene 3 pri stopnji značilnosti α = 0,05. Pri ostalih

101

znanjih je t-test (Priloga 10) pokazal statistično značilne razlike od ocene 3 pri

zanemarljivi stopnji značilnosti, kar pomeni, da so anketiranci vsa ostala znanja v

povprečju ocenili kot manj pomembna.

Slika 31: Povprečne ocene pomembnosti znanj (n = 84–91)

4.2.4 Pomembnost sposobnosti

Anketiranci so pri 6. vprašanju ocenjevali stopnjo pomembnosti različnih sposobnosti. Pri

tem je bila uporabljena intervalna lestvica od 1 – Sploh ni pomembno do 5 – Zelo je

pomembno. Na to vprašanje je odgovorilo od 90 do 92 anketirancev.

102

Prikaz frekvenčnih porazdelitev je prikazan v prilogi 5. Izmed vseh sposobnosti so

anketiranci najbolj pogosto (modus), z najvišjo oceno (5 – Zelo je pomembno), ocenili:

»Postavljati prava vprašanja, definirati problem« (74 %), »Sposobnost reševanja

problemov« (67 %), »Analitične sposobnosti« (67 %), »Strast do učenja novih stvari« (56

%), »Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij)« (50 %), »Strast

do dela s podatki« (52 %), »Biti potrpežljiv in vztrajen« (47 %), »Imeti sposobnost

kreativnega mišljenja« (46 %), »Nameniti pozornost kakovosti« (41 %), »Imeti sposobnost

timskega dela« (41 %), »Strateško razmišljati in načrtovati« (38 %), »Spoštovati zakone in

predpise« (40 %) ter »Biti moralen in etičen« (41 %). Z oceno 4 so anketiranci

najpogosteje (modus) ocenili »Pogum in samozavest zagovarjati svoje ugotovitve,

odločitve« (45 %), »Imeti dobre komunikacijske sposobnosti« (45 %), »Sposobnost

sprejemanja odločitev« (37 %), »Sposobnost pripovedovanja zgodbe na podlagi dejstev«

(34 %), »Sposobnost vodenja projektov« (36 %), »Voditeljske sposobnosti – imeti

sposobnost motiviranja in navduševanja drugih« (30 %) ter »Občutek za umetnost in

prakso vizualizacije« (32 %). Z oceno pomembnosti 3 pa so anketiranci najpogosteje

ocenili le sposobnost »Podjetniška naravnanost, imeti poslovni čut« (32 %).

Slika 32: Povprečne ocene pomembnosti sposobnosti (n = 90–92)

103

Iz pregleda povprečnih ocen pomembnosti sposobnosti je razvidno, da so anketiranci kot

nadpovprečno pomembne označili vse navedene sposobnosti (na podlagi povprečnih ocen

pomembnosti sposobnosti je t-test pokazal statistično značilne razlike od ocene 3, pri

zanemarljivi stopnji značilnosti, Priloga 10). Povprečna ocena pomembnosti sposobnosti

»Podjetniška naravnanost, imeti poslovni čut« na podlagi t-testa (Priloga 10) ni pokazal

statistično značilnih razlik od ocene 3 pri stopnji značilnosti α = 0,05. To pomeni, da ne

morem trditi, da so anketiranci v povprečju to sposobnost označili kot pomembno. Pri

ostalih znanjih je t-test (Priloga 10) pokazal statistično značilne razlike od ocene 3 pri

zanemarljivi stopnji značilnosti, kar pomeni, da so anketiranci vse ostale sposobnosti v

povprečju ocenili kot podpovprečno pomembne.

4.2.5 Pretekle izkušnje in izobraževanje

Anketiranci so izmed vseh naštetih dejavnosti, s katerimi so osebno že imeli izkušnje v

preteklosti, najpogosteje izbrali, da so opravljali pogodbena in/ali svetovalna dela iz

področja znanj in sposobnosti (74,2 %). 70,8 % anketirancev je imelo izkušnje s predavanji

na izobraževalni ustanovi ali predstavitvami na konferenci (70,8%). 66,3 % anketirancev je

že kdaj prostovoljno sodelovalo/svetovalo na različnih projektih. Malo manj kot 60 %

anketirancev je že imelo vodstveno pozicijo. 42,7 % jih je svoje delo objavilo v

zborniku/knjigi/časopisu ali drugi publikaciji, 34,8 % jih je že odprlo svojo organizacijo ali

pa so sodelovali kot sodelavec/partner pri ustanovitvi organizacije. 24,7 % jih ima svojo

spletno stran ali piše blog.

Slika 33: Izkušnje (n = 89)

104

Največ anketirancev (92,4 %) je kot način pridobivanja znanj in sposobnosti iz svojega

področja dela označilo formalno izobrazbo. 85,9 % anketirancev znanja in sposobnosti

pridobiva na konferencah, 72,8 % pa se jih je že udeležilo delavnice ali tečaja s

pridobitvijo certifikata. Več kot polovica anketirancev (57,6 %) je že sodelovala na

masovnem odprtem spletnem tečaju (npr. Coursera, Udemy ipd.), malo manj kot polovica

(46,7 %) pa že ima izkušnje z delom na »odprtih podatkih« (angl. open data). 37 %

anketirancev sodeluje v družabnih skupinah in srečanjih, 36 % ima izkušnje z

mentorstvom, 18,5 % pa s pripravništvom. 13 % se jih je že udeležilo natečaja/tekmovanja

na spletnem portalu Kaggle.com. Anketiranec je pod drugo zapisal še pridobivanje znanj in

sposobnosti preko službenih obveznosti.

Slika 34: Izobraževanje (n = 92)

V sklopu četrtega raziskovalnega vprašanja sem skušala na podlagi podatkov, pridobljenih

v raziskavi, ugotoviti, ali lahko identificiram homogene skupine podatkovnih

znanstvenikov v Sloveniji. Odločila sem se narediti dve razvrščanji v skupine na podlagi

dveh različnih sklopov segmentacijskih spremenljivk. Kot osnovo za prvo razvrščanje

posameznikov v skupine sem vključila spremenljivke iz vprašalnika, povezane s

samooceno znanj. Kot osnovo za drugo razvrščanje posameznikov v skupine, pa sem

vključila spremenljivke iz vprašalnika, povezane z oceno pomembnosti znanj in

sposobnosti. Na ta način bo možna primerjava med rezultati obeh razvrščanj v skupine. V

nadaljevanju predstavljam rezultate obeh razvrščanj v skupine.

105

4.3 Razvrščanje v skupine

4.3.1 Razvrščanje na podlagi samoocene znanj

Pri prvem razvrščanju sem kot relevantne spremenljivke vzela odgovore na vprašanja,

povezana s samooceno znanj. Udeleženci so pri 5. vprašanju ocenjevali svojo stopnjo

znanja iz različnih področij znanj. Pri tem je bila uporabljena intervalna lestvica od 1 – Ne

poznam (ne uporabljam/ne ustreza mojemu področju dela), 2 – Osnovno poznavanje

(osnovno znanje, fokus je na izobraževanju), 3 – Začetnik (znanje pripravnika, fokus je na

pridobivanju izkušenj na praktičnih primerih), 4 – Srednji nivo (samostojna kompetentna

uporaba, fokus je na izboljšanju znanja) do 5 – Napredni nivo (poglobljena znanja in

kompetence, fokus je na reševanju strokovnih problemov).

Pred pričetkom procesa razvrščanja sem najprej preverila, ali med spremenljivkami obstaja

bistvena kolinearnost. Pri preverjanju korelacij med spremenljivkami sem ugotovila, da sta

edini spremenljivki, ki visoko korelirata med seboj Nadzorovano strojno učenje in

Nenadzorovano strojno učenje (Pearsonov korelacijski koeficient = 0,924). Korelacija med

vsemi ostalimi spremenljivkami je bila manjša kot 0,9. Zaradi navedenega sem se odločila

iz nadaljnje analize izpustiti spremenljivko Nenadzorovano učenje. Preostale

spremenljivke (30) so še vedno predstavljale dobro osnovo za razvrščanje v skupine.

V naslednjem koraku sem izračunala Cronbach alpha za preverbo notranje konsistentnosti.

Cronbach alpha za 30 spremenljivk in velikost vzorca n = 83 (toliko udeležencev je v

celoti odgovorilo na vsa vprašanja, povezana s samooceno znanj) je znašal 0,931, kar

pomeni visoko stopnjo notranje konsistentnosti za spremenljivke, merjene na tej lestvici in

ta specifični vzorec. Ker je šlo za majhen vzorec in ker končnega števila skupin nisem

poznala vnaprej, sem se najprej odločila za izvedbo hierarhičnega razvrščanja v skupine.

Kot mero podobnosti oziroma različnosti med skupinami sem izbrala kvadratno evklidsko

razdaljo s standardiziranimi spremenljivkami. Za metodo razvrščanja v skupine sem

izbrala Wardovo metodo, saj sem pričakovala enako velike skupine.

Na podlagi hierarhičnega razvrščanja v skupine, pregleda dendograma in izračuna VRC

Calinski in Harabasz (Priloga 6 in Priloga 8) sem se odločila za nadaljevanje analize z

razvrstitvijo v 4 ali 5 skupin. V naslednjem koraku sem izvedla nehierarhično razvrščanje v

4 in 5 skupin s K-means algoritmom. Pri uporabi K-means algoritma sem kot izhodiščne

centroide upoštevala povprečne ocene (centroide), pridobljene iz hierarhičnega razvrščanja

v 4 in 5 skupin. Na podlagi kvalitativne primerjave razvrščanja v 4 in 5 skupin (Priloga 8)

lahko sklepam, da je razvrščanje v 5 skupin identificiralo določeno podmnožico enot

znotraj skupine C1 pri razvrščanju v 4 skupine, ki predstavlja drugačen in zanimiv nabor

znanj, kot skupina C2 pri razvrščanju v 5 skupin. Z razvrstitvijo v 5 skupin se tudi zmanjša

variabilnost znotraj skupin, vendar se na ta račun poveča število osamelcev v skupini C2.

Zaradi vsega navedenega sem se odločila, da je najbolj primerna razvrstitev v 5 skupin.

106

4.3.2 Razvrščanje na podlagi pomembnosti znanj in sposobnosti

Pri drugem razvrščanju sem kot relevantne spremenljivke vzela odgovore na vprašanja,

povezana s pomembnostjo znanj in sposobnosti. Udeleženci so pri 5. in 6. vprašanju

ocenjevali stopnjo pomembnosti znanja iz različnih področij znanj in pomembnost

sposobnosti pri njihovem delu. Pri tem je bila uporabljena intervalna lestvica od 1 – Sploh

ni pomembno do 5 – Zelo je pomembno.

Pred pričetkom procesa razvrščanja sem najprej preverila, ali med spremenljivkami obstaja

bistvena kolinearnost. Pri preverjanju korelacij med spremenljivkami sem ugotovila, da sta

edini spremenljivki, ki visoko korelirata med seboj, Nadzorovano strojno učenje in

Nenadzorovano strojno učenje (Pearsonov korelacijski koeficient = 0,940). Korelacija med

vsemi ostalimi spremenljivkami je bila manjša kot 0,9. Zaradi navedenega sem se odločila

iz nadaljnje analize izpustiti spremenljivko Nenadzorovano učenje. Preostale

spremenljivke (51) so še vedno predstavljale dobro osnovo za razvrščanje v skupine. V

naslednjem koraku sem izračunala Cronbach alpha za preverbo notranje konsistentnosti.

Cronbach alpha za 51 spremenljivk in velikost vzorca n = 68 (toliko udeležencev je v

celoti odgovorilo na vsa vprašanja, povezana s pomembnostjo znanj in sposobnosti) je

znašal 0,919, kar pomeni visoko stopnjo notranje konsistentnosti za spremenljivke,

merjene na tej lestvici in ta specifični vzorec.

Ker je šlo za majhen vzorec in ker končnega števila skupin nisem poznala vnaprej, sem se

najprej odločila za izvedbo hierarhičnega razvrščanja v skupine. Kot mero podobnosti

oziroma različnosti med skupinami sem izbrala kvadratno evklidsko razdaljo s

standardiziranimi spremenljivkami. Za metodo razvrščanja v skupine sem izbrala Wardovo

metodo, saj sem pričakovala enako velike skupine. Na podlagi hierarhičnega razvrščanja v

skupine, pregleda dendograma in izračuna VRC Calinski in Harabasz (Priloga 7 in Priloga

9) sem odločila za nadaljevanje analize z razvrstitvijo v 3, 4 ali 5 skupin. V naslednjem

koraku sem izvedla nehierarhično razvrščanje v 3, 4 in 5 skupin s K-means algoritmom. Pri

uporabi K-means algoritma sem kot izhodiščne centroide upoštevala povprečne ocene

(centroide), pridobljene iz hierarhičnega razvrščanja v 3, 4 in 5 skupin. Na podlagi

kvalitativne primerjave razvrščanja v 3, 4 in 5 skupin (Priloga 9) lahko sklepam, da je

razvrščanje v 5 skupin identificiralo določeno podmnožico enot znotraj skupine C1 pri

razvrščanju v 4 skupine, ki predstavlja drugačen in zanimiv nabor znanj. Razvrstitev v 3

skupine sicer da ustrezno rešitev, vendar je interpretacija zaradi majhnega števila

segmentov slabša. Z razvrstitvijo v 5 skupin bo mogoča tudi primerjava s skupinami,

pridobljenimi na podlagi samoocene znanj. Zaradi vsega navedenega sem se odločila, da je

najbolj primerna razvrstitev v 5 skupin.

107

4.4 Diskusija

Na podlagi vzorčnih podatkov in rezultatov analize podatkov v nadaljevanju predstavljam

ugotovitve po posameznih raziskovalnih vprašanjih.

1. Ali se podatkovni znanstveniki v Sloveniji ukvarjajo z masovnimi podatki in kako

se to zrcali skozi različne dimenzije masovnih podatkov?

Z namenom odgovoriti na zastavljeno raziskovalno vprašanje sem rezultate, pridobljene iz

raziskave v Sloveniji glede različnih dimenzij masovnih podatkov, primerjala z rezultati

raziskav, predstavljenih v prvem poglavju.

Na podlagi rezultatov raziskave KDnuggets.com (poglavje 1.4) glede največjega

obdelanega nabora podatkov po geografskih področjih največji delež posameznikov, ki

obdeluje podatke v TB ali PB, prihaja iz Združenih držav Amerike in Kanade (26,6 %).

Evropa je na četrtem mestu z 20,7 % posameznikov, ki so obdelali TB podatkov ali več. V

Evropi so drugače kot največji obdelan nabor podatkov največkrat (60 %) izbrali podatke v

velikosti GB, manj kot 20 % pa jih obdeluje podatke velikosti MB. Na podlagi raziskave

KDNuggets.com sklepam, da bodo rezultati za Slovenijo podobni – torej, udeleženci bodo

največkrat izbrali za največji obdelani obseg podatkov GB. Rezultati iz raziskave v

Sloveniji so pokazali, da je približno 25 % udeležencev kot največji volumen podatkov, s

katerim so se ukvarjali, izbralo TB ali PB, kar je v primerjavi z raziskavo KDnuggets.com

bolj na ravni Združenih držav Amerike in Kanade. Udeleženci raziskave v Sloveniji so kot

največji volumen podatkov največkrat (44,6 %) izbrali podatke od 1 GB do 2023 GB.

Rezultat je sicer nižji kot delež v raziskavi Kdnuggets.com, vendar še vedno lahko

sprejmemo sklep, da se udeleženci raziskave v Sloveniji največ ukvarjajo z obdelavo

podatkov velikosti GB (hi-kvadrat preizkus za porazdelitev je pokazal statistično značilne

razlike med dejanskimi in pričakovanimi frekvencami pri vprašanju glede največje

obdelane količine podatkov, pri zanemarljivo majhni stopnji značilnosti, Priloga 10).

Na podlagi raziskave The Emerging Big Returns on Big Data (2015, str. 19) so ugotovili,

da je v organizacijah v Evropi povprečno ocenjen % strukturiranih podatkov 50 %, delno

strukturiranih je 25 % ter 25 % nestrukturiranih podatkov. Povprečno ocenjen %

nestrukturiranih podatkov je najvišji v azijsko-pacifiški regiji, kjer znaša 34 %. Pričakovala

sem, da bo raziskava v Sloveniji pokazala podobne rezultate, in sicer, da se bo približno 25

% udeležencev že ukvarjalo z nestrukturiranimi podatki. Rezultati obeh raziskav sicer niso

v celoti primerljivi, saj so v raziskavi The Emerging Big Returns on Big Data (2015)

spraševali po stanju strukturiranih/nestrukturiranih podatkov v organizacijah, v raziskavi v

Sloveniji pa se je spraševalo posameznike glede tega, ali so se že srečali z različnimi tipi

podatkov. Vseeno sem raziskavo The Emerging Big Returns on Big Data (2015) uporabila

kot možno primerjavo stanja uporabe nestrukturiranih podatkov. S pomočjo rezultatov

raziskave v Sloveniji sem dobila vpogled v trenutno stanje uporabe nestrukturiranih

108

podatkov. Rezultati so pokazali, da se je 100 % udeležencev že ukvarjalo s strukturiranimi

podatki, kar je pričakovano, saj so v raziskavi sodelovali posamezniki, ki se ukvarjajo s

podatki. Bolj zanimiv je podatek, da se je 50 % udeležencev raziskave že ukvarjalo z

nestrukturiranimi podatki, kar je višje kot pričakovano. Kot nestrukturirani podatki so se

upoštevali vsi nestrukturirani podatki (besedilo, avdio, video, slike), generirani s strani

človeka.

Na podlagi raziskave The Emerging Big Returns on Big Data (2015, str. 20) so ugotovili,

da je v organizacijah v Evropi povprečno ocenjen % podatkov, pridobljenih iz notranjih

virov, 68 % ter iz zunanjih virov 32 %. Povprečno ocenjen % podatkov, pridobljenih iz

zunanjih virov, je najvišji v azijsko-pacifiški regiji, kjer znaša 38 %. Pričakovala sem, da

bo raziskava v Sloveniji pokazala podobne rezultate, in sicer, da se bo približno 32 %

udeležencev že ukvarjalo s podatki iz zunanjih virov. Rezultati obeh raziskav sicer niso v

celoti primerljivi, saj so v raziskavi The Emerging Big Returns on Big Data (2015)

spraševali po stanju podatkov iz zunanjih in notranjih virov v organizacijah, v raziskavi v

Sloveniji pa sem spraševala posameznike glede tega, ali so se že srečali z različnimi tipi

podatkov. Vseeno sem raziskavo The Emerging Big Returns on Big Data (2015) uporabila

kot možno primerjavo stanja uporabe podatkov iz zunanjih virov. S pomočjo rezultatov

raziskave v Sloveniji sem dobila vpogled v trenutno stanje uporabe podatkov iz zunanjih

virov. Rezultati so pokazali, da se je 97,8 % udeležencev že ukvarjalo s podatki iz

notranjih virov, kar je pričakovano, saj so v raziskavi sodelovali posamezniki, ki se

ukvarjajo s podatki, ki večinoma izvirajo iz notranjih virov organizacije. Zanimivo je, da

obstaja določen % posameznikov (2,2 %), ki se ukvarja s podatki izključno iz zunanjih

virov. S podatki iz zunanjih virov pa se je srečalo že skoraj 48 % udeležencev raziskave,

kar je višje kot pričakovano. Razlog za razliko v primerjavi z raziskavo, izvedeno v tujini,

je lahko tudi izbor in velikost vzorca, vključenega v raziskavo v Sloveniji. Kot podatki iz

zunanjih virov so se upoštevali vsi strukturirani in nestrukturirani podatki (besedilo, avdio,

video, slike), generirani s strani človeka ali naprave, ki so pridobljeni iz zunanjih virov

organizacije.

Na podlagi raziskave TDWI Big Data Analytics (Russom, 2011, str. 19) se 4 % analiz v

organizacijah opravlja, izvaja ali ponovno izvaja v realnem času, 4 % na nivoju ure, 5 %

vsake nekaj ur, 24 % dnevno, 14 % tedensko, 35 % mesečno ter 15 % letno. Na podlagi

raziskave sklepam, da se bo 4 % udeležencev že srečalo z obdelavo podatkov v realnem

času. Delež udeležencev, ki so v raziskavi v Sloveniji označili, da so se že ukvarjali s

podatki v realnem času je bil 47,8 %, kar je nad pričakovanji. Vseeno je pred primerjavo

podatkov med raziskavama potrebno upoštevati, da je šlo za drugačen vzorec in da obstaja

možnost, da so udeleženci raziskave v Sloveniji neustrezno razumeli definicijo podatkov v

realnem času, kar predstavlja tudi pomembno omejitev raziskave.

Na podlagi raziskave Big Data Executive Survey (2012, str. 5) organizacije uporabljajo

masovne podatke za širok nabor namenov. Med dve najbolj izpostavljeni prednosti

109

uporabe masovnih podatkov so največkrat izbrali boljše odločanje na podlagi dejstev (22

%) ter izboljšanje izkušnje potrošnika/uporabnika (22 %). Sledi povečanje

prodaje/prihodkov (15 %), inovacije na področju izdelkov in storitev (11 %), zmanjšanje

tveganja (11 %), boljša kakovost izdelkov in storitev (10 %) ter bolj učinkovito izvajanje

procesov (10 %). Rezultati raziskave v Sloveniji so pokazali, da so udeleženci raziskave

kot glavno otipljivo korist, ki jo dosegajo preko dela s podatki, prav tako izbrali boljše

odločanje na podlagi dejstev (82,6 %). Sledi izboljšanje izkušnje potrošnika/uporabnika

oziroma boljše razumevanje potrošnika (72,2 %), kar se ujema z rezultati iz zgornje

raziskave. Razlike se pojavijo šele pri ostalih koristih, saj so udeleženci v Sloveniji kot

tretjo najbolj otipljivo korist izbrali bolj učinkovito izvajanje procesov, načina dela,

operacij (66,3 %) in povečanje prodaje/prihodkov (66,3 %), medtem ko se je možnost bolj

učinkovito izvajanje procesov v zgornji raziskavi pojavilo šele na zadnjih mestih. V

Sloveniji so najmanjkrat izbrali inovacije na področju izdelkov in storitev (39,1 %),

medtem ko je ta opcija v zgornji raziskavi bila med prvimi štirimi.

Na podlagi rezultatov raziskave v Sloveniji in primerjave rezultatov z drugimi raziskavami

sklepam, da se posamezniki v Sloveniji z vidika volumna, raznolikosti in vrednosti

podatkov dejansko ukvarjajo z masovnimi podatki. Zaradi možnosti nerazumevanja

vprašanja glede dimenzije hitrosti masovnih podatkov ne morem sklepati, da je tudi ta

dimenzija ustrezno zastopana v Sloveniji.

2. Katera znanja in sposobnosti so pomembna pri delu podatkovnega znanstvenika v

Sloveniji?

Na podlagi vzorčnih podatkov iz raziskave v Sloveniji in rezultatov preizkusa o aritmetični

sredini (t-test, testna vrednost = 3, Priloga 10) za vsako povprečno oceno pomembnosti

posameznega področja znanj so rezultati pokazali, da so bile razlike statistično značilne

(pri zanemarljivo majhni stopnji značilnosti) pri naslednjih področjih znanj z najvišjo

povprečno oceno pomembnosti:

Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije

(povprečna ocena pomembnosti 3,83).

Oblikovanje informacij (vizualizacija) (povprečna ocena pomembnosti 3,72).


problem (povprečna ocena pomembnosti 3,64).

Poizvedbeni jezik SQL (povprečna ocena pomembnosti 3,59).

Sistemi baz podatkov – relacijske baze podatkov (RDBMS): DB2, mySQL, SQL

Server idr. (povprečna ocena pomembnosti 3,52).

Management podatkov (povprečna ocena pomembnosti 3,47).

Opisna statistika in verjetnostne porazdelitve (povprečna ocena pomembnosti 3,31).

110

V sklopu najnižjih povprečnih ocen pomembnosti znanj pa (navedenih je 6 področij z

najnižjo povprečno samooceno):

Metodologije, npr. CRISP-DM, SEMMA, DMAIC (povprečna ocena pomembnosti

1,94).

Obdelava naravnega jezika (NLP) (povprečna ocena pomembnosti 1,93).

Masovni in distribuirani podatki (povprečna ocena pomembnosti 1,89).

Sistemi baz podatkov – NoSQL baze podatkov (povprečna ocena pomembnosti 1,80).

Poglobljeno učenje (povprečna ocena pomembnosti 1,74).

Nagrajevalno učenje (povprečna ocena pomembnosti 1,73).

Na podlagi vzorčnih podatkov in rezultatov preizkusa o aritmetični sredini (t-test; testna

vrednost = 3; Priloga 10) za vsako povprečno oceno pomembnosti sposobnosti so

rezultati pokazali, da so bile statistično značilne razlike (pri zanemarljivo majhni stopnji

značilnosti) pri vseh navedenih sposobnostih, razen pri sposobnosti »Podjetniška

naravnanost, imeti poslovni čut«, kjer razlika ni bila statistično značilna pri stopnji

značilnosti α = 0,05.

Sklepam torej, da so zgoraj navedena znanja in vse sposobnosti, razen »podjetniške

naravnanosti«, bila s strani anketirancev ocenjena kot pomembna pri njihovem delu in

pomembno vplivajo na uspešnost njihovega dela. Zanimivo je, da so v sklopu

posameznikov, ki se večino svojega časa ukvarjajo s podatki, med najbolj pomembnimi

poslovna znanja, oblikovanje informacij in specifična znanja iz posameznega področja.

Pričakovala bi, da bodo pomembna predvsem znanja iz statistike, baz podatkov ali druga

znanja. Menim, da razlog verjetno leži v tem, da je rezultate analiz obdelave podatkov

potrebno predstaviti na jasen, enostaven in vizualno privlačen način, da bodo razumljivi

tudi ostalim deležnikom in seveda z namenom, da prinašajo poslovno vrednost, za kar pa

so potrebna poslovna znanja. V sklopu pomembnosti sposobnosti so kot najbolj pomembne

bile ocenjene postavljanje pravih vprašanj, sposobnost reševanja problemov ter analitične

sposobnosti. To dopolnjuje prejšnjo ugotovitev, da v osnovi podatkovni znanstveniki

rešujejo poslovne probleme za kar potrebujejo ustrezne sposobnosti, da znajo pravilno

definirati problem, se ga lotiti na pravi način in pri tem ustrezno uporabiti vsa svoja znanja.

3. Kakšna so dejanska znanja podatkovnih znanstvenikov v Sloveniji in ali obstaja

kakšna vrzel med znanji, ki jih imajo (na podlagi samoocene) in tistimi, ki so

dejansko pomembna pri njihovem delu oziroma vplivajo na uspešnost njihovega

dela?

Na podlagi vzorčnih podatkov iz raziskave v Sloveniji in rezultatov preizkusa o aritmetični

sredini (t-test; testna vrednost = 3; Priloga 10) za vsako povprečno samooceno

posameznega področja znanj so rezultati pokazali, da so bile razlike statistično značilne

111

(pri zanemarljivo majhni stopnji značilnosti) pri naslednjih področjih znanj z najvišjo

povprečno samooceno:

Poizvedbeni jezik SQL (povprečna samoocena 3,70).

Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije

(povprečna samoocena 3,66).

Oblikovanje informacij (vizualizacija) (povprečna samoocena 3,57).


problem (povprečna samoocena 3,48).

Sistemi baz podatkov – relacijske baze podatkov (RDBMS): DB2, mySQL, SQL

Server idr. (povprečna samoocena 3,46).

Opisna statistika in verjetnostne porazdelitve (povprečna samoocena 3,46).

Management podatkov (povprečna samoocena 3,30).

Regresijska analiza (povprečna samoocena 3,30).

V sklopu najnižjih povprečnih samoocen pa (navedenih je 6 področij z najnižjo

povprečno samooceno):

Metodologije, npr. CRISP-DM, SEMMA, DMAIC (povprečna samoocena 1,84).

Obdelava naravnega jezika (NLP) (povprečna samoocena 1,80).

Masovni in distribuirani podatki (povprečna samoocena 1,78).

Sistemi baz podatkov – NoSQL baze podatkov (povprečna samoocena 1,74).

Poglobljeno učenje (povprečna samoocena 1,73).

Nagrajevalno učenje (povprečna samoocena 1,69).

V primerjavi s pomembnostjo znanj, kjer so na prvem mestu Poslovna znanja in

Oblikovanje informacij, sta pri samooceni v povprečju najvišje ocenjeni znanji

Poizvedbeni jezik SQL ter Poslovna znanja. Oblikovanje informacij je na tretjem mestu,

medtem ko je pri pomembnosti na drugem mestu. Pri najnižje ocenjenih znanjih pa sta

seznama v celoti enaka. Zanimivo je, da je Regresijska analiza bila ocenjena kot

nadpovprečna glede samoocene znanja, pri pomembnosti pa je prejela nevtralno oceno 3.

Enako velja za področje znanj iz Linearna algebra in računstvo, odvodi in integrali,

funkcije in risanje grafikonov. Da bi ugotovila, ali obstaja statistično značilna razlika med

samooceno znanj in pomembnostjo znanj, sem na podlagi vzorčnih podatkov primerjala

povprečne samoocene znanja in ocene pomembnosti znanja. Primerjava med povprečno

samooceno znanja in povprečno oceno pomembnosti znanja je pokazala statistično

značilne razlike (preizkus dvojic) le pri Regresijska analiza (povprečna samoocena = 3,3;

povprečna pomembnost: 3,0; P = 0,02; Priloga 10) ter pri Linearna algebra in računstvo,

odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik (povprečna

samoocena = 3,1; povprečna pomembnost: 2,5; P = 0,000; Priloga 10). Pri navedenih

znanjih lahko torej trdim, da obstaja vrzel med obstoječimi znanji (na podlagi samoocene)

112

in pomembnostjo pri njihovem delu. Pri obeh se je izkazalo, da anketiranci menijo, da

imajo več znanj, kot so pomembna pri njihovem delu. Rezultat verjetno izhaja iz tega, da

se matematike in delno statistike podrobno učimo v sklopu formalne izobrazbe (osnovna

šola, srednja šola itd.), v praksi pa iz teh področij uporabljamo le znanja, ki so pri delu

pomembna. Anketiranci namreč opravljajo različne funkcije, pri katerih uporabljajo

različna znanja, glede na njihovo področje dela, prav vsi pa imajo podobna osnovna

izhodišča, npr. iz matematike.

Raziskava Hayesa o znanjih in sposobnostih podatkovnih znanstvenikov ter delovanju v

timih je pokazala, da so sodelujoči v povprečju izrazili višjo stopnjo samoocene na

naslednjih področjih: komunikacija, strukturirani podatki, podatkovno rudarjenje,

znanost/znanstvena metoda, matematika, management projektov, management podatkov in

statistika in statistično modeliranje. V povprečju pa so nižjo stopnjo samoocene dodelili

področjem: sistemska administracija, čelno in zaledno programiranje, procesiranje

naravnega jezika (NLP), masovni in distribuirani podatki ter management podatkov v

oblaku (Hayes, 2015a, str. 2). Pri primerjavi rezultatov med obema raziskavama je

razvidno, da so skupna področja višje samoocenjenih znanj: strukturirani podatki/relacijske

baze podatkov (SQL), management podatkov ter do določene mere statistika (v Sloveniji

področje regresijske analize, opisne statistike in verjetnostne porazdelitve). V Sloveniji so

visoko povprečno samooceno dobila še druga, zgoraj omenjena področja znanj, ki pa v

raziskavi Hayesa niso bila zajeta v vprašalnik v takšni obliki. V raziskavi Hayesa pa so bila

v povprečju višje ocenjena znanja iz matematike in znanosti/znanstvene metode, ki pa sta v

Sloveniji dobili v povprečju oceno 3 – Začetnik. Sklepala bi lahko, da imajo posamezniki v

tujini bolj močno formalno izobrazbo iz teh dveh področij oziroma se več posameznikov iz

teh dveh področij ukvarja z znanostjo o podatkih ali pa omenjena razlika izhaja le iz

drugačne sestave in velikosti vzorca.


podlagi samoocene znanj?

Glede na rezultate razvrščanja v skupine na podlagi samoocene znanj v poglavju 4.3.1 se

v Sloveniji pojavlja 5 skupin podatkovnih znanstvenikov. S pomočjo centroidov skupin

sem v nadaljevanju pripravila interpretacijo vsake posamezne skupine.

Interpretacija skupine C1: posamezniki v skupini C1 imajo v povprečju osnovna znanja

(2,1) iz programskih jezikov, npr. R, Python ter čelnega programiranja. Zaledno

programiranje pa so v povprečju ocenili z ne poznajo ali uporabljajo. V sklopu znanj iz

managementa in baz podatkov imajo povprečno oceno 3 pri oblikovanju informacij

(vizualizacija) in managementu podatkov. Osnovna znanja imajo v povprečju iz relacijskih

baz podatkov, delno strukturiranih podatkov in poizvedbenega jezika SQL. Masovnih in

distribuiranih podatkov, NoSQL baz podatkov ne poznajo, prav tako se ne ukvarjajo s

sistemsko administracijo. V sklopu statistike in matematike imajo najvišjo povprečno

113

oceno iz opisnih statistik in verjetnostnih porazdelitev (3,6), statističnega preizkušanja

domnev (2,9), regresijske analize (2,9) ter znanstvene metode (2,8). Najmanj poznajo ali

uporabljajo prostorsko statistiko (1,2) , optimizacije (1,5) in simulacije (1,2). Celoten sklop

strojnega učenja v povprečju ne poznajo ali ne uporabljajo. Prav tako v povprečju ne

poznajo metodologij AGILE, LEAN, WATERFALL in CRISP-DM, SEMMA, DMAIC.

Osnovna znanja imajo iz specifičnih znanj iz posameznega področja ali domene, iz katere

izhaja problem (2,4) ter začetna znanja iz področja poslovnih znanj (3,2). Na podlagi

navedenih značilnosti sem to skupino poimenovala »Trženjski raziskovalci - analitiki«.

Interpretacija skupine C2: Posamezniki iz skupine C2 imajo v povprečju osnovna znanja

iz programskih jezikov (2,0) ter začetna znanja iz zalednega programiranja (2,6) in čelnega

programiranja (2,8). V sklopu znanj iz managementa in baz podatkov imajo znanja na

srednjem nivoju poizvedbenega jezika SQL (3,9) ter iz relacijskih baz podatkov (3,7).

Začetna znanja imajo na področju managementa podatkov (2,9), oblikovanja informacij

(2,9) ter dela z delno strukturiranimi podatki (2,5). Masovnih in distribuiranih podatkov,

NoSQL baz podatkov ne poznajo, pri sistemski administraciji poznajo osnove. Na

področju statistike in matematike znanj v povprečju ne poznajo ali ne uporabljajo, ali pa

poznajo le osnove (znanstvena metoda, opisna statistika, linearna algebra in računstvo,

odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik, optimizacija).

Celoten sklop strojnega učenja v povprečju ne poznajo ali ne uporabljajo. Prav tako ne

poznajo metodologij CRISP-DM, SEMMA, DMAIC. Bolj so seznanjeni z metodologijami

AGILE, LEAN, WATERFALL (2,6). Začetna znanja imajo iz specifičnih znanj iz

posameznega področja ali domene, iz katere izhaja problem (3,3) ter srednji nivo znanj iz

področja poslovnih znanj (3,8). Na podlagi navedenih značilnosti sem to skupino

poimenovala »Podatkovni analitiki«.

Interpretacija skupine C3: Posamezniki iz skupine C3 imajo v povprečju napredna

znanja iz programskih jezikov (4,5) ter srednji nivo znanj iz zalednega programiranja (2,8)

in čelnega programiranja (3). V sklopu znanj iz managementa in baz podatkov imajo

srednji nivo znanj iz oblikovanja informacij (4,4), poizvedbenega jezika SQL (4,3),

relacijskih baz podatkov (4,3), delno strukturiranih podatkov (3,8) in managementa

podatkov (3,7). Začetna znanja imajo na področju sistemske administracije (3,4), masovnih

in distribuiranih podatkov (2,7) in NoSQL baz podatkov (2,8). V sklopu statistike in

matematike imajo pri vseh področjih znanj v povprečju srednja ali napredna znanja, prav

tako na področju strojnega učenja. Na področju domenskih znanj pa imajo začetni nivo

znanj iz AGILE, LEAN, WATERFALL ter CRISP-DM, SEMMA, DMAIC metodologij,

pri ostalih domenskih znanjih pa srednji nivo. Posamezniki iz te skupine so v primerjavi z

ostalimi skupinami edini, ki imajo največje število področij znanj ocenjeno s povprečno

oceno 3 ali več. Na podlagi navedenih značilnosti sem to skupino poimenovala

»Podatkovni znanstveniki«.

114

Interpretacija skupine C4: Posamezniki iz skupine C4 v povprečju ne uporabljajo ali ne

poznajo zalednega programiranja. Začetna znanja imajo iz programskih jezikov (2,7) in

čelnega programiranja (1,6). V sklopu znanj iz managementa in baz podatkov imajo srednji

nivo znanj iz oblikovanja informacij (3,8), začetni nivo iz managementa podatkov (3,4),

poizvedbenega jezika SQL (3,2), relacijskih baz podatkov (2,8). V povprečju imajo osnove

iz dela z delno strukturiranimi podatki (1,9). Masovnih in distribuiranih podatkov, NoSQL

baz podatkov v povprečju ne poznajo, prav tako se ne ukvarjajo s sistemsko administracijo.

V sklopu statistike in matematike imajo pri vseh področjih znanj v povprečju srednji nivo

znanj, razen pri prostorski statistiki (2,4), simulacijah (2,9), optimizaciji (3). Iz področja

strojnega učenja imajo v povprečju osnovna znanja, razen pri obdelavi naravnega jezika

(1,4), ki ga ne poznajo ali uporabljajo ter analize omrežij (2,7), kjer imajo začetna znanja.

Na področju domenskih znanj pa imajo osnovni nivo znanj iz obeh metodologij. Srednji

nivo znanj pa imajo iz specifičnih znanj (3,8) in poslovnih znanj (4,2). Na podlagi

navedenih značilnosti sem to skupino poimenovala »Raziskovalci«.

Interpretacija skupine C5: Posamezniki iz skupine C5 imajo v povprečju srednji nivo

znanj iz zalednega programiranja (4,1) ter osnovni nivo iz čelnega programiranja (3,4) ter

programskih jezikov (3,3). Znanja programiranja najbolj izstopajo v tej skupini od vseh

naštetih skupin. V sklopu znanj iz managementa in baz podatkov imajo napredni nivo

znanj iz relacijskih baz podatkov (4,6) in poizvedbenega jezika SQL (4,7). Srednji nivo

znanj imajo iz managementa podatkov, oblikovanja informacij, dela z delno

strukturiranimi podatki in sistemsko administracijo. So edina skupina, ki ima začetni nivo

znanj na področju NoSQL baz podatkov (2,8) ter masovnih in distribuiranih podatkov

(2,5). V sklopu statistike in matematike imajo pri vseh področjih znanj v povprečju začetni

nivo znanj, razen pri linearni algebri in računstvu (3,5) in prostorski statistiki (1,8). Iz

področja strojnega učenja imajo v povprečju osnovna znanja, razen pri nadzorovanem

učenju (2,6), kjer imajo začetna znanja. Na področju domenskih znanj pa imajo srednji

nivo znanj AGILE, LEAN, WATERFALL metodologij ter osnove iz CRISP-DM,

SEMMA, DMAIC metodologij. Srednji nivo znanj pa imajo iz specifičnih znanj (3,8) in

poslovnih znanj (3,7). Na podlagi navedenih značilnosti sem to skupino poimenovala

»Programerji«.

Raziskava Harrisa, Vaismana & Murphya o identifikaciji različnih vlog podatkovnih

znanstvenikov je identificirala štiri segmente: Podatkovni znanstveniki – poslovni vodje,

Podatkovni znanstveniki – kreativci, Podatkovni znanstveniki – razvojniki ter Podatkovni

znanstveniki – raziskovalci. Posamezni segmenti so opisani v poglavju 2.5.1. Pri poskusu

primerjave skupin, identificiranih v Sloveniji, sem ugotovila, da primerjava ni smiselna, saj

so vsi segmenti v tujini imeli znanja iz metodologije analize podatkov, tehnologij

masovnih podatkov in procesa izvajanja znanosti o podatkih. V Sloveniji se je izkazalo, da

so znanja, povezana s tehnologijo masovnih podatkov (Masovni in distribuirani podatki in

Sistemi baz podatkov – NoSQL baze podatkov), dobila v povprečju samooceno znanj in

pomembnosti pod 2. To pomeni, da to področje slabo poznajo in hkrati trenutno ni

115

pomembno pri njihovem delu. Raziskava v Sloveniji je v osnovi pokazala le identifikacijo

skupine C3 – Podatkovni znanstveniki, ki imajo, poleg skupine C5 – Programerji, edini od

skupin v povprečju vsaj začetna znanja (povprečna ocena 3) iz omenjenih področij. Ta

ugotovitev je povezana s prvim raziskovalnim vprašanjem, kjer sem ugotovila, da

posamezniki v Sloveniji obdelujejo količine podatkov v obsegu TB in več ter se ukvarjajo

s podatki različnih tipov in različnih virov, vendar pa za to očitno ne uporabljajo tehnologij

masovnih podatkov (Hadoop, MapReduce, NoSQL baz podatkov) oziroma to počnejo le

posamezniki iz obeh omenjenih skupin.

Pri pregledu rezultatov raziskave Hayesa o znanjih in sposobnostih podatkovnih

znanstvenikov so rezultati bolj primerljivi, saj so bile tudi v tej raziskavi večje razlike med

identificiranimi segmenti podatkovnih znanstvenikov glede tehnologije masovnih

podatkov. Primerjavo sicer otežuje dejstvo, da so v raziskavi segmente oblikovali na

podlagi samoocene anketirancev v eno od skupin: poslovni management, razvijalec,

kreativec in raziskovalec. Na podlagi primerjave rezultatov raziskave v tujini in v Sloveniji

ugotavljam:

Da sta si med seboj primerljiva segment Razvijalec in skupina C5 – Programerji. Pri

obeh izstopajo znanja strukturiranih podatkov, čelnega in zalednega programiranja,

sistemske administracije ter masovni in distribuirani podatki v primerjavi z drugimi

identificiranimi skupinami.

Da sta si med seboj primerljiva segment Raziskovalec in skupina C4 – Raziskovalec.

Pri obeh izstopajo znanja statistike, znanstvene metode in matematika, slabši pa so na

področju programiranja. Razlika med skupinama obstaja v tem, da ima v tujini ta

segment tudi znanja iz strojnega učenja in podatkovnega rudarjenja, medtem ko imajo

v Sloveniji iz strojnega učenja v povprečju osnovna znanja (povprečna ocena 2).

Da sta si med seboj primerljiva segment Kreativec in skupina C3 – Podatkovni

znanstvenik. Pri obeh raziskavah gre za edini skupini, ki imata znanja iz vseh

navedenih področij.

Da je raziskava v tujini identificirala segment Poslovni management, ki ni primerljiv

z nobeno od identificiranih skupin v Sloveniji. Razlog verjetno leži v strukturi,

velikosti in načinu izbora enot, vključenih v raziskavo.

Da je raziskava v Sloveniji identificirala skupini C1 – Trženjskih raziskovalcev –

analitikov in C2 – Podatkovnih analitikov, ki nista primerljivi s segmenti,

identificiranimi v raziskavi v tujini.


podlagi pomembnosti znanj in sposobnosti?

Glede na rezultate razvrščanja v skupine na podlagi pomembnosti znanj in sposobnosti v

poglavju 4.3.2 se v Sloveniji pojavlja 5 skupin podatkovnih znanstvenikov. S pomočjo

centroidov skupin sem v nadaljevanju pripravila interpretacijo vsake posamezne skupine.

116

Interpretacija skupine C1: Posamezniki iz skupine C1 so s povprečno oceno

pomembnosti 4 ocenili naslednja področja: Zaledno programiranje, Relacijske baze

podatkov, Delo z delno strukturiranimi podatki, Poizvedbeni jezik SQL, Metodologije

AGILE, LEAN, WATERFALL, Specifična znanja in Poslovna znanja. V povprečju so s

srednjo pomembnostjo ocenili področja: Čelno programiranje, Management podatkov,

Oblikovanje informacij, Sistemska administracija in Optimizacija. S povprečno oceno

pomembnosti 2 pa so ocenili: Znanja programskih jezikov, Znanstvena metoda, Opisna

statistika in verjetnostne porazdelitve, Statistično preizkušanje domnev, Regresijska

analiza, Statistika časovnih vrst, Simulacije in Linearna algebra, računstvo, odvodi in

integrali, funkcije in risanje grafikonov, manipulacija matrik. Znanja iz področij Strojno

učenje, NoSQL baze podatkov in Masovni in distribuirani podatki so ocenili s povprečno

oceno pomembnosti 1. V sklopu sposobnosti so kot najbolj pomembne izpostavili

»Postavljati prava vprašanja, definirati problem«, »Sposobnost reševanja problemov«,

»Analitične sposobnosti«, »Nameniti pozornost kakovosti«, »Imeti sposobnost timskega

dela« in »Imeti dobre komunikacijske sposobnosti«. V povprečju so z najnižjo oceno

pomembnosti ocenili tri sposobnosti: »Podjetniška naravnanost, imeti poslovni čut«,

»Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling)« ter

»Občutek za umetnost in prakso vizualizacije«, kjer imajo povprečno oceno 3. Na podlagi

navedenih značilnosti sem to skupino poimenovala »Pomembna so znanja

programiranja, baz podatkov, analitične sposobnosti ter sposobnost reševanja

problemov«.

Interpretacija skupine C2: Posamezniki iz skupine C2 so s povprečno oceno

pomembnosti 4 ocenili področja: Opisna statistika in verjetnostne porazdelitve, Statistično

preizkušanje domnev, Znanstvena metoda, Regresijska analiza, Redukcija dimenzij,

Oblikovanje informacij, Poslovna znanja in Znanja programskih jezikov. S povprečno

oceno pomembnosti 3 so ocenili: Statistika časovnih vrst, Specifična znanja iz

posameznega področja, Linearna algebra, računstvo, odvodi in integrali, funkcije in risanje

grafikonov, manipulacija matrik, Management podatkov, Analiza omrežij in Simulacije. V

povprečju so najmanj pomembnosti pripisali področjem: NoSQL baze podatkov,

Nagrajevalno učenje in Metodologije AGILE, LEAN, WATERFALL in CRISP-DM,

SEMMA, DMAIC. V sklopu sposobnosti so kot najbolj pomembne izpostavili »Postavljati

prava vprašanja, definirati problem«, »Sposobnost reševanja problemov«, »Analitične

sposobnosti«, »Strast do dela s podatki« , »Strast do učenja novih stvari« in »Radovednost

glede opazovanih stvari (vzorcev, odnosov, razmerij)«,. V povprečju so z najnižjo oceno

pomembnosti ocenili dve sposobnosti: »Podjetniška naravnanost, imeti poslovni čut« ter

»Voditeljske sposobnosti – imeti sposobnost motiviranja in navduševanja drugih.«, kjer

imajo povprečno oceno 3. Na podlagi navedenih značilnosti sem to skupino poimenovala

»Pomembna so znanja statistike in oblikovanja informacij ter analitične sposobnosti,

sposobnosti reševanja problemov, radovednost in strast«.

117

Interpretacija skupine C3:Posamezniki iz skupine C3 so z najvišjo povprečno oceno 4

ocenili Poslovna znanja. S povprečno oceno pomembnosti 3 pa so ocenili znanja iz

področij Relacijske baze podatkov, Poizvedbeni jeziku SQL, Oblikovanje informacij

(vizualizacija), Management podatkov in Specifična znanja iz posameznega področja. S

povprečno oceno pomembnosti 1 ali 2 so ocenili NoSQL baze podatkov, Masovni in

distribuirani podatki, Sistemska administracija ter celotno področje statistike, matematike,

strojnega učenja in metodologij. Od sposobnosti so skoraj vse v povprečju ocenili s

povprečno oceno pomembnosti 4, razen »Podjetniška naravnanost, imeti poslovni čut«,

Voditeljske sposobnosti – imeti sposobnost motiviranja in navduševanja drugih«,

»Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling)« in »Občutek

za umetnost in prakso vizualizacije«. Na podlagi navedenih značilnosti sem to skupino

poimenovala »Pomembna so poslovna znanja, baze podatkov, management podatkov

in vse sposobnosti, razen podjetniških in kreativnih«.

Interpretacija skupine C4: Posamezniki iz skupine C4 so z najvišjo povprečno oceno

pomembnosti 5 ocenili Oblikovanje informacij (vizualizacija), Specifična znanja,

Relacijske baze podatkov, Management podatkov , Poslovna znanja in Poizvedbeni jezik

SQL. V tej skupini so s povprečno oceno pomembnosti 3 ali 4 ocenili znanja iz področja

baz podatkov in managementa podatkov celotnega področja statistike, strojnega učenja in

metodologij. Poleg skupine C5 so edini, ki so s povprečno oceno pomembnosti 3 ocenili

NoSQL baze podatkov ter Masovni in distribuirani podatki. Od sposobnosti so prav tako

edina skupina, ki ima več kot polovico sposobnosti, ocenjenih s povprečno oceno

pomembnosti 5 oziroma imajo vse sposobnosti ocenjene s povprečno oceno 4 ali 5. Na

podlagi navedenih značilnosti sem to skupino poimenovala »Vsa področja znanj in

sposobnosti so pomembna«.

Interpretacija skupine C5: Posamezniki iz skupine C5 so z najvišjo povprečno oceno

pomembnosti 5 ocenili Poizvedbeni jezik SQL. Povprečno oceno pomembnosti 4 so

dodelili področjem Poslovna znanja, Relacijske baze podatkov, Oblikovanje informacij

(vizualizacija), Specifična znanja iz posameznega področja, Management podatkov,

Opisna statistika in verjetnostne porazdelitve , Optimizacija, Regresijska analiza,

Znanstvena metoda in Statistično preizkušanje domnev. Pri vseh ostalih področjih znanj so

dodelili povprečno oceno pomembnosti 3, med drugim tudi NoSQL baze podatkov ter

Masovni in distribuirani podatki. Najnižjo povprečno oceno pomembnosti 2 so dodelili

področju Čelno programiranje. Zanimivo je, da z vidika sposobnosti nobena od naštetih

sposobnosti ni bila v povprečju ocenjena z zelo pomembno (5). Z najnižjo povprečno

oceno pomembnosti 3 so dodelili »Sposobnost sprejemanja odločitev«, »Strateško

razmišljati in načrtovati«, »Voditeljske sposobnosti – imeti sposobnost motiviranja in

navduševanja drugih«, »Sposobnost vodenja projektov, »Imeti sposobnost timskega dela«,

»Občutek za umetnost in prakso vizualizacije«, »Biti moralen in etičen« ter »Spoštovati

zakone in predpise«. Ostalim sposobnostim so dodelili povprečno oceno 4. Na podlagi

118

navedenih značilnosti sem to skupino poimenovala »Vse je pomembno –- razen

sposobnosti odločanja, vodenja.«

Slika 35: Identificirane skupine samoocena znanj v primerjavi z identificiranimi skupinami

na podlagi pomembnosti znanj in sposobnosti (n = 65)

Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila

kontingenčno tabelo za pregled identificiranih skupin na podlagi pomembnosti znanj in

sposobnosti po vseh petih skupinah, identificiranih na podlagi samoocene. Vsaka

identificirana skupina na podlagi samoocene znanj je predstavljala neodvisno

spremenljivko, vsaka identificirana skupina na podlagi pomembnosti znanj in sposobnosti

pa je predstavljala odvisno spremenljivko. Razvidno je, da je v skupini C1 – Trženjski

raziskovalci – analitiki 75 % posameznikov takšnih, ki so jim pomembna C3 – poslovna

znanja, baze podatkov, management podatkov in vse sposobnosti, razen podjetniških in

kreativnih, 25 % posameznikom pa so pomembna C2 – znanja statistike oblikovanja

informacij ter analitične sposobnosti, reševanja problemov, radovednost in strast. V

skupini C2 – Podatkovni analitiki prevladujejo posamezniki (67 %), ki so jim pomembna

C3 – poslovna znanja, baze podatkov, management podatkov in vse sposobnosti, razen

podjetniških in kreativnih, 33 % pa so pomembna C1 – znanja programiranja, baz

podatkov, analitične sposobnosti ter sposobnost reševanja problemov. V skupini C3 –

Podatkovni znanstveniki prevladujejo posamezniki (73 %), ki so jim pomembna C4 – Vsa

področja znanj in sposobnosti. V skupini C4 – Raziskovalci prevladujejo posamezniki, ki

so jim pomembna C2 – znanja statistike oblikovanja informacij ter analitične sposobnosti,

reševanja problemov, radovednost in strast, 25 % pa je takšnih, ki so jim C4 – Vsa

področja znanj in sposobnosti. Skupina C5 – Programerji je edina skupina, kjer so

zastopane vse identificirane skupine na podlagi pomembnosti znanj in sposobnosti.

119

Prevladujejo (44 %) posamezniki, ki so jim pomembna C1 – Znanja programiranja, baz

podatkov, analitične sposobnosti ter sposobnost reševanja problemov. Iz rezultatov je

razvidno, da se posamezniki pri delu, kjer so pomembna vsa področja znanj in sposobnosti,

v največji meri nahajajo v segmentu C3 – Podatkovni znanstveniki. To se ujema z

razvrščanjem v skupine na podlagi samoocene znanj. Posamezniki, ki so jim pomembna

vsa področja znanj in sposobnosti, se nahajajo tudi v segmentih C4 – Raziskovalci ter C5 –

Programerji, ki imajo verjetno največji potencial, da postanejo Podatkovni znanstveniki.

Znotraj segmenta C1 – Trženjski raziskovalci – analitiki očitno obstaja segment

posameznikov, ki so jim pomembna poslovna znanja, baze podatkov, management

podatkov in ne samo statistika in oblikovanje informacij. Ta segment ima potencial, da

postanejo C4 – Raziskovalci. Znotraj segmenta C2 – Podatkovni analitiki pa tudi obstaja

segment, kjer so pomembna znanja programiranja. Ta segment ima potencial, da postane

C5 – Programerji.

6. Ali obstaja kakšna vrzel pri identificiranih skupinah podatkovnih znanstvenikov

(na podlagi samoocene znanj) med znanji, ki jih imajo (na podlagi samoocene) in

tistimi, ki so dejansko pomembna pri njihovem delu oziroma vplivajo na

uspešnost njihovega dela?

Da bi ugotovila, ali obstaja statistično značilna razlika med samooceno znanj in

pomembnostjo znanj pri identificiranih skupinah podatkovnih znanstvenikov glede na

samooceno svojih znanj, sem na podlagi vzorčnih podatkov primerjala povprečne

samoocene znanja in ocene pomembnosti znanja po identificiranih skupinah. Primerjava

med povprečno samooceno znanja in povprečno oceno pomembnosti znanja je pokazala

statistično značilne razlike (preizkus dvojic) pri spodaj navedenih področjih znanj. Pri teh

znanjih lahko torej trdim, da obstaja vrzel med obstoječimi znanji (na podlagi samoocene)

in pomembnostjo pri njihovem delu.

Skupina C1: Trženjski raziskovalci – analitiki

Oblikovanje informacij (vizualizacija) (povprečna samoocena = 3,27; povprečna

pomembnost = 3,87; P = 0,007).

Sistemi baz podatkov – relacijske baze podatkov (RDBMS) (povprečna samoocena =

2,07; povprečna pomembnost = 2,53; P = 0,029).

Poglobljeno učenje (povprečna samoocena = 1,07; povprečna pomembnost = 1,36; P =

0,040).

Analiza omrežij (povprečna samoocena = 1,07; povprečna pomembnost = 1,57; P =

0,047).

Posamezniki iz skupine C1 menijo, da imajo pri teh znanjih v povprečju manj znanj kot pa

so pomembna pri njihovem delu (povprečne samoocene so bile nižje kot pa povprečne

ocene pomembnosti). Na podlagi rezultatov očitno ta segment potrebuje dodatna znanja iz

120

oblikovanja informacij in sistemov baz podatkov. Zanimivo je, da v sklopu pomembnosti

izstopajo analiza omrežij in poglobljeno učenje.

Skupina C2: Podatkovni analitiki

Čelno programiranje (povprečna samoocena = 2,83; povprečna pomembnost = 2,22; P

= 0,004).

Regresija (povprečna samoocena = 1,39; povprečna pomembnost = 1,11; P = 0,020).

Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,

manipulacija matrik (povprečna samoocena = 1,94; povprečna pomembnost = 1,28; P =

0,006).

Nadzorovano učenje (povprečna samoocena = 1,44; povprečna pomembnost = 1,11; P

= 0,029).

Posamezniki iz skupine C2 menijo, da imajo pri teh znanjih v povprečju več znanj, kot pa

so pomembna pri njihovem delu (povprečne samoocene znanj so bile višje kot pa

povprečne ocene pomembnosti).

Skupina C3: Podatkovni znanstveniki

Opisna statistika in verjetnostne porazdelitve (povprečna samoocena = 4,58; povprečna

pomembnost = 4,25; P = 0,039).

Redukcija dimenzij (povprečna samoocena = 4,83; povprečna pomembnost = 4,33; P =

0,026).

Posamezniki iz skupine C3 menijo, da imajo pri teh znanjih v povprečju več znanj, kot pa

so pomembna pri njihovem delu (povprečne samoocene znanj so bile višje kot pa

povprečne ocene pomembnosti).

Skupina C4: Raziskovalci



0,031).

Posamezniki iz skupine C4 menijo, da imajo pri tem znanju v povprečju več znanj, kot pa

je pomembno pri njihovem delu.

Skupina C5: Programerji

Poizvedbeni jezik SQL (povprečna samoocena = 4,74; povprečna pomembnost = 4,32;

P = 0,016).

121



0,011).

Poslovna znanja (povprečna samoocena = 3,68; povprečna pomembnost = 4,21; P =

0,047).

Posamezniki iz skupine C5 menijo, da imajo pri prvih dveh znanjih v povprečju več znanj,

kot pa so pomembna pri njihovem delu (povprečne samoocene znanj so bile višje kot pa

povprečne ocene pomembnosti). Pri Poslovna znanja pa menijo, da imajo premalo znanj,

kot pa so pomembna pri njihovem delu (povprečna samoocena znanj je bila nižja kot pa

povprečna ocena pomembnosti). Priporočala bi, da bi ta skupina izpopolnila poslovna

znanja v sklopu formalne izobrazbe.


znanstvenikov glede na izobrazbo, smer izobrazbe, spol, izkušnje in način

izobraževanja?


kontingenčno tabelo za pregled stopnje izobrazbe po vseh petih skupinah. Vsaka skupina

je predstavljala neodvisno spremenljivko, stopnja izobrazbe pa je predstavljala odvisno

spremenljivko.

Slika 36: Identificirane skupine glede na stopnjo izobrazbe – Samoocena znanj (n = 83)

Razvidno je, da v vseh skupinah prevladujejo posamezniki z univerzitetno izobrazbo

(okrog 50 %). Najnižji delež posameznikov z univerzitetno izobrazbo je v skupini C5, in

122

sicer 37 %. Delež posameznikov z magisterijem, doktoratom ali specializacijo je v

skupinah C1, C3, C4 in C5 od 32 % do 39 %, najnižji pa je v skupini C2 (11 %). Zanimalo

me je, ali obstaja povezava med identificiranimi skupinami podatkovnih znanstvenikov in

stopnjo izobrazbe. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat = 9,643; df = 12;

P = 0,647) ter dejstva, da obstaja prevelik delež celic, ki imajo pričakovano frekvenco

manj kot 5, ne morem trditi, da obstaja povezava med stopnjo izobrazbe in identificiranimi

skupinami podatkovnih znanstvenikov. Za identificirane skupine posameznikov na podlagi

samoocene znanj sem pripravila kontingenčno tabelo za pregled smeri izobrazbe po vseh

petih skupinah. Vsaka skupina je predstavljala neodvisno spremenljivko, smer izobrazbe

pa je predstavljala odvisno spremenljivko. Razvidno je, da v skupini C1 prevladuje smer

izobrazbe splošno družboslovje (38 %) in ekonomija (31 %), sledijo pa druge naravoslovne

in tehnične vede z 19 %. Zanimivo je, da v skupini C1 ni posameznikov z matematično ali

računalniško smerjo izobrazbe. Skupina C2 ima najbolj raznoliko sestavo glede smeri

izobrazbe, največ sicer prevladuje smer računalništvo (28 %) ter druge naravoslovne in

tehnične vede (22 %). 17 % pa izhaja iz ekonomske smeri ter 17 % iz splošnega

družboslovja. V skupini C3 prav tako prevladuje smer računalništvo (33 %), drugo mesto

pa si razdelijo ekonomija in poslovne vede (17 %), matematika (17 %) in statistika (17 %).

V skupini C4 je največ posameznikov iz ekonomskih in poslovnih ved (28 %) ter statistike

(28 %), sledi splošno družboslovje (22 %). Smer računalništvo najbolj prevladuje v skupini

C5 – Programerji, kar potrjuje poimenovanje skupine na podlagi samoocene znanj.

Drugače so v skupini C5 tudi posamezniki iz matematične smeri (16 %), ekonomije in

poslovnih ved (11 %) ter drugih naravoslovnih in tehničnih ved (11 %). Zanimivo je, da

med programerji ni posameznikov s statistično smerjo izobrazbe.

Slika 37: Identificirane skupine glede na smer izobrazbe – Samoocena znaj (n = 83)

123

Zanimalo me je, ali obstaja povezava med identificiranimi skupinami podatkovnih

znanstvenikov in smerjo izobrazbe. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat

= 44,867; df = 28; P = 0,023) bi sicer lahko sklepala, da obstaja povezava med smerjo

izobrazbe in identificiranimi skupinami podatkovnih znanstvenikov, vendar obstaja

prevelik delež celic, ki imajo pričakovano frekvenco manj kot 5, zato tega sklepa ne

morem sprejeti.


kontingenčno tabelo za pregled spola po vseh petih skupinah. Vsaka skupina je

predstavljala neodvisno spremenljivko, spol pa je predstavljal odvisno spremenljivko.


znanstvenikov in spolom. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat = 15,856;

df = 4; P = 0,003) lahko sklepam, da obstaja povezava med spolom in identificiranimi

skupinami podatkovnih znanstvenikov pri stopnji značilnosti P = 0,003. Slika 38 prikazuje,

da moški prevladujejo v skupinah C2 (61 %), C3 (83 %) in C5 (84 %). V skupini C1 je

število moških in žensk enakovredno. V skupini C4 pa prevladujejo ženske (74 %).

Slika 38: Identificirane skupine glede na spol – Samoocena znanj (n = 83)


kontingenčno tabelo za pregled izkušenj po vseh petih skupinah. Vsaka skupina je

predstavljala neodvisno spremenljivko, izkušnje pa so predstavljale odvisno spremenljivko

(možnih je bilo več odgovorov). Slika 39 prikazuje % posameznikov znotraj skupine, ki je

izbral določeno izkušnjo. Razvidno je, da je najvišji % (83 %) posameznikov v skupini C3

opravljalo pogodbena in/ali svetovalna dela, najmanjši % (63 %) pa v skupini C1. Kar 92

% posameznikov iz skupine C3 je že imelo predavanja na izobraževalni ustanovi ali pa so

imeli predstavitev svojega dela na konferenci, najmanj (47 %) jih je to možnost označilo v

skupini C2. Prostovoljna dela so najpogosteje izbrali v skupini C3 (83 %) ter najmanj v

skupini C5 (42 %). Je pa imela skupina C5 najvišji % posameznikov (68 %), ki so že imeli

124

vodstveno pozicijo, skupaj s skupinama C2 (65 %) in C1 (63 %). Najmanjši %

posameznikov je to možnost označilo v skupini C4 (44 %). 75 % posameznikov iz skupine

C3 in 61 % iz skupine C4 je svoje delo objavilo v zborniku/knjigi/časopisu ali drugi

publikaciji, najmanj (16 %) pa jih je to možnost izbralo v skupini C5. Podjetniške izkušnje

z odprtjem svoje organizacije imajo najpogosteje posamezniki v skupini C3 (58 %) in C5

(47 %), najmanj (6 %) pa v skupini C1. Skupina C3 ima tudi najvišji % posameznikov (58

%), ki ima svojo spletno stran ali piše blog, najmanj pa je takšnih v skupini C1 (13 %).

Slika 39: Identificirane skupine glede na izkušnje – Samoocena znanj (n = 83)


kontingenčno tabelo za pregled načinov izobraževanja po vseh petih skupinah. Vsaka

skupina je predstavljala neodvisno spremenljivko, načini izobraževanja pa so predstavljali

odvisno spremenljivko (možnih je bilo več odgovorov). Slika 40 prikazuje %

posameznikov znotraj skupine, ki je izbralo določeno izkušnjo. Razvidno je, da so pri vseh

skupinah, razen pri skupini C5 (95 %), 100 % izbrali samostojno izobraževanje. Najvišji %

posameznikov, ki je izbralo formalno izobrazbo, prihaja iz skupine C1 (100%), najmanj pa

iz skupin C2 (89 %) in C5 (89 %). Najvišji % posameznikov, ki so kot način izobraževanja

izbrali udeležbo na konferenci, prihaja iz skupine C3 (100 %) in najmanj iz skupine C5 (79

%). Delavnic ali tečajev so se v največji meri udeležili posamezniki iz skupine C1 (81 %)

in C5 (79 %), najmanj pa iz skupine C3 (58 %). Na masovnih odprtih spletnih tečajih je v

vseh skupinah sodelovala več kot polovica posameznikov, razen iz skupine C1 (31 %).

Najvišji % posameznikov, ki je sodeloval v masovnih odprtih spletnih tečajih prihaja iz

skupine C3 (75 %). S praktičnim delom na »odprtih podatkih« se največ ukvarjajo v

skupini C5 (68 %), najmanj pa v skupini C1 (19 %). V družabnih skupinah in srečanjih

največ sodelujejo posamezniki iz skupine C3 (75 %), najmanj pa v skupini C1 ( 13 %). Je

pa najvišji % posameznikov iz skupine C1 (31 %) izbralo pripravništvo. Na

125

natečajih/tekmovanjih je najvišji % posameznikov sodelovalo v skupini C3 (33 %),

najmanj pa v skupini C1 (6 %). Nobeden iz skupine C4 ni še sodeloval na

natečaju/tekmovanju.

Slika 40: Identificirane skupine glede na izobraževanje – Samoocena znanj (n = 83)


znanstvenikov glede obdelane količine, raznolikosti podatkov in koristi, ki jih

dosegajo preko dela s podatki?


kontingenčno tabelo za primerjavo med identificiranimi skupinami glede tega, s kakšno

količino podatkov so se do sedaj že ukvarjali. Vsaka skupina je predstavljala neodvisno

spremenljivko, raznolikost podatkov pa je predstavljala odvisno spremenljivko. Razvidno

je, da v vseh skupinah največji delež predstavljajo posamezniki, ki so se ukvarjali s podatki

v obsegu od 1 GB do 1023 GB. Delež takšnih, ki se ukvarjajo z 1 MB do 1023 MB, je

najvišji v skupini C1 (38 %) in C4 (33 %). Največji delež takšnih, ki se ukvarja s podatki

od 1 TB do 1023 TB se nahaja v skupini C3 (42 %). Visok je tudi v skupini C5 (32 %).

Zanimivo je, da edini, ki se ukvarjajo s PB ali več (6 %), prihajajo iz skupine C4. Največji

delež takšnih, ki je odgovorilo z »ne vem«, pa prihaja iz skupine C1 (19 %). Zanimalo me

je, ali obstaja povezava med identificiranimi skupinami podatkovnih znanstvenikov in

količino podatkov, s katero so se ukvarjali. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-

kvadrat = 20,674; df = 20; P = 0,417) ter dejstva, da obstaja prevelik delež celic, ki imajo

126

pričakovano frekvenco manj kot 5, ne morem trditi, da obstaja povezava med obdelano

količino podatkov in identificiranimi skupinami podatkovnih znanstvenikov.

Slika 41: Identificirane skupine glede na obdelane količine podatkov – Samoocena znanj

(n = 83)


kontingenčno tabelo za primerjavo med identificiranimi skupinami glede tega, s kakšnimi

tipi oziroma viri podatki so se že srečali. Vsaka skupina je predstavljala neodvisno

spremenljivko, raznolikost podatkov pa je predstavljala odvisno spremenljivko. Razvidno

je, da v C1 prevladujejo posamezniki, ki so se srečali z notranjimi, strukturiranimi podatki

(31 %). V C2 prevladujejo posamezniki, ki so se srečali z vsemi dimenzijami raznolikosti

podatkov (39 %). Največji delež takšnih posameznikov, ki se je srečal z vsemi

dimenzijami raznolikosti podatkov, je v skupini C3 (50 %). V skupini C4 prav tako

prevladujejo posamezniki, ki so srečali z vsemi dimenzijami raznolikosti podatkov (33 %),

na drugem mestu pa so posamezniki, ki so se srečali z notranjimi, strukturiranimi podatki

(28 %). V skupini C5 pa prevladujejo posamezniki, ki so se srečali z notranjimi,

strukturiranimi podatki, generiranimi s strani naprav (32 %). Zanimalo me je, ali obstaja

povezava med identificiranimi skupinami podatkovnih znanstvenikov in raznolikostjo

podatkov. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat = 36,336; df = 24; P =

0,051) ter dejstva, da obstaja prevelik delež celic, ki imajo pričakovano frekvenco manj kot

5, ne morem trditi, da obstaja povezava med raznolikostjo podatkov in identificiranimi

skupinami podatkovnih znanstvenikov.

127

Slika 42: Identificirane skupine glede na raznolikost podatkov – Samoocena znanj (n =

83)


kontingenčno tabelo za primerjavo med identificiranimi skupinami glede tega, kakšne

koristi menijo, da dosegajo preko dela s podatki.

Vsaka skupina je predstavljala neodvisno spremenljivko, koristi iz naslova dela s podatki

pa je predstavljala odvisno spremenljivko. Razvidno je, da je najvišji % posameznikov iz

skupine C3 (92 %) izbralo »Boljše odločanje na podlagi dejstev«, najmanjši % pa v

skupini C1 (75 %). Korist »Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše

razumevanje potrošnika« je izbralo največ posameznikov v skupini C5 (84 %) in najmanj v

skupini C1 (63 %). Korist »Bolj učinkovito izvajanje procesov, načina, dela operacij« je

izbralo največ posameznikov v skupini C2 (78 %) ter najmanj v skupini C1 (50 %). Korist

»Povečanje prodaje/prihodkov« je izbralo največ posameznikov v skupini C4 (72 %) in

najmanj v C1 (56 %). Pri koristi »Boljša kakovost izdelkov ali storitev« izstopa skupina

C3, kjer je to možnost izbralo kar 92 % posameznikov, najmanj pa C1 (38 %). Korist

»Zmanjšanje tveganja« je izbralo največ posameznikov v skupini C3 (58 %) in najmanj v

skupinah C1 in C4 (44 %). Koristi »Inovacije na področju izdelkov in storitev« je izbralo

največ posameznikov v skupini C2 (44 %) in najmanj v skupini C1 (19 %).

128

Slika 43: Identificirane skupine glede na koristi dela s podatki – Samoocena znanj (n =

83)

9. Ali je mogoče identificirati porazdelitve oziroma vzorce znanj po posameznih

področjih med identificiranimi skupinami podatkovnih znanstvenikov na podlagi

samoocene znanj?

Z namenom identifikacije porazdelitve oziroma vzorcev znanj sem rezultate glede

samoocene znanj za vse posameznike, ki so sodelovali v raziskavi, izvozila v Excel in

njihove samoocene znanj razvrstila od najmanjše do najvišje ter z orodjem »Sparkline« v

Excelu vizualizirala pridobljene rezultate. Izračunala sem koeficient asimetrije KA (angl.

skewness) ter koeficient sploščenosti KS (angl. kurtosis) za vsakega posameznega

udeleženca na podlagi njegove samoocene znanj. Po prvem pregledu podatkov sem

ugotovila, da je mogoče identificirati naslednje porazdelitve oziroma vzorce znanj

posameznikov:

»T-oblika« (angl. T-shaped), v kolikor sta KA in KS med -1 in 1. To so

posamezniki, ki imajo visoko samooceno znanj na določenem področju znanj ali parih

področjih znanj, na drugih področjih pa imajo začetna ali osnovna znanja. Njihova

porazdelitev znanj je simetrična ter približno podobna normalni porazdelitvi. Takšnih

je 31,5 % anketirancev.

»Minus-oblika« (angl. Dash-shaped), v kolikor je KA med -1 in 1 ter KS manjši od

-1. To so posamezniki, ki imajo simetrično porazdelitev znanj po področjih, vendar je

129

njihova porazdelitev bolj sploščena (KS je manjši od -1). To pomeni, da imajo iz veliko

področij znanj določeno stopnjo znanja, nikjer pa ne izstopajo ali pa hkrati izstopajo na

več področjih. Takšnih je 34,8 % anketirancev.

»Normalna I-oblika« (angl. Normal I-shaped), v kolikor je KA večji od 1 ter KS

med -1 in 1. To so posamezniki, ki imajo porazdelitev znanj asimetrično v desno. To

pomeni, da imajo določeno področje znanja, ki ima visoko oceno, pri ostalih pa imajo

zelo nizke samoocene znanja ali pa jih sploh ne poznajo. Njihova značilnost je še, da je

njihova porazdelitev precej podobna normalni (KS je med -1 in 1). To pomeni, da

imajo določeno poznavanje ostalih znanj, čeprav ne tako visoko kot pri »T-obliki«

posameznikih. Takšnih je 21,7 % anketirancev.

»Koničasta I-oblika« (angl. Peak I-shaped), v kolikor sta KA in KS večji od 1. To

so posamezniki, ki so podobni »normalni I-obliki«, vendar je njihova »koničastost« še

bolj izrazita (KS je večji od 1), kar še dodatno poudarja višjo oceno znanj iz samo

določenega področja. Takšnih je 5,4 % anketirancev.

»Unikatna oblika« (angl. Unicorn), v kolikor je KA manjši od -1 ter KS večji od 1.

Na podlagi podatkov sem identificirala tudi posameznike, ki imajo porazdelitve znanj

zelo asimetrične v levo (KA je manjši od -1) ter zelo »koničasto« porazdelitev. To

pomeni, da imajo visoko samooceno iz vseh znanj, kar jih naredi zelo unikatne.

Takšnih je 6,5 % anketirancev.

Tabela 6: Identifikacija porazdelitve oziroma vzorca znanj na podlagi koeficienta

asimetrije in koeficienta sploščenosti (n = 92)

Vzorec znanj n %

MINUS-OBLIKA 32 34,78%

T-OBLIKA 29 31,52%

NORMALNA I-OBLIKA 20 21,74%

UNIKATNA OBLIKA 6 6,52%

KONIČASTA I-OBLIKA 5 5,43%

Skupaj 92 100,00%

Slika 44 prikazuje porazdelitev znanj po izbranih anketirancih kot primer določene

porazdelitve znanj.

130

Slika 44: Porazdelitve znanj po izbranih anketirancih – Samoocena znanj

Za identificirane skupine posameznikov na podlagi porazdelitve znanj sem pripravila

kontingenčno tabelo za primerjavo z identificiranimi skupinami glede samoocene znanj.

Vsaka skupina je predstavljala neodvisno spremenljivko, porazdelitev znanj pa je

predstavljala odvisno spremenljivko. Razvidno je, da v skupinah C1 in C2 prevladujejo

posamezniki, ki imajo »Normalno I-obliko« porazdelitev znanj. Prav tako se posamezniki s

»Koničasto I-obliko« znanj pojavljajo le v skupinah C1 in C2. Na podlagi značilnosti teh

dveh skupin, predstavljenih v prejšnjih poglavjih, je to pričakovano, saj imajo znanja le iz

določenega področja (C1 iz statistike in vizualizacije ter C2 iz baz podatkov in poslovnih

znanj), pri ostalih področjih pa imajo osnovna znanja ali pa področja ne poznajo. V skupini

C3 prevladujejo posamezniki, ki imajo »Unikatno obliko« ter »T-obliko« porazdelitve

znanj. Ker se »Unikatna oblika« znanj pojavi le pri segmentu C3, s tem dodatno potrjuje

131

rezultate razvrščanja v skupine, da ta skupina izstopa tako po porazdelitvi znanj,

kombinaciji znanj kot povprečni samooceni znanj, zaradi česar so resnično unikatni. V

skupini C4 prevladujejo posamezniki, ki imajo »Minus-obliko« porazdelitev znanj.

Skupini C4 in C5 sta si z vidika porazdelitve znanj precej podobni, saj v obeh prevladujejo

posamezniki, ki imajo »T-obliko« in »Minus-obliko« porazdelitev znanj, kar pomeni, da

kombinirajo različna področja znanj oziroma imajo vsaj osnovna znanja iz vseh področjih

znanj.


znanstvenikov in porazdelitvijo znanj. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-

kvadrat = 84,155; df = 16; P = 0,000) bi sicer lahko trdila, da obstaja povezava med obliko

porazdelitve znanj in identificiranimi skupinami znanstvenikov, vendar obstaja prevelik

delež celic, ki imajo pričakovano frekvenco manj kot 5, zato preizkusa ne morem

upoštevati kot veljavnega.

Slika 45: Identificirane skupine glede na porazdelitev znanj – Samoocena znanj (n = 83)

4.5 Omejitve raziskave

Pri oblikovanju raziskovalnega načrta, metodologije ter pri sami izvedbi raziskave in

analizi podatkov sem skušala kar najbolj upoštevati standarde na področju trženjskega

raziskovanja (Malhotra, 2012). Kljub temu v nadaljevanju omenjam določene omejitve, ki

izhajajo iz različnih področij in vplivajo na rezultate raziskave.

Kot prvo omejitev naj navedem velikost vzorca – v kolikor bi bila velikost vzorca večja, bi

lahko bili rezultati bolj zanesljivi. Pri metodi vzorčenja je bilo uporabljeno priložnostno

namensko vzorčenje (neverjetnostno vzorčenje), kar pomeni, da vzorec ni reprezentativen

132

in rezultatov raziskave ni mogoče posplošiti na populacijo. Kljub temu so bili k raziskavi

povabljeni posamezniki, ki s svojim področjem dela pokrivajo širok spekter strokovnjakov,

ki bi se jih lahko uvrščalo med podatkovne znanstvenike. Ne morem pa zagotoviti, da gre

za nepristranski vzorec. Vzorec posameznikov, ki so sodelovali v raziskavi, je bil

povabljen k sodelovanju na podlagi splošno razpoložljivih informacij o njihovem področju

dela, preteklih izkušnjah, zapisov na LinkedInu ter osebnih poznanstev. V kolikor bi v

raziskavi sodelovale druge osebe, bi rezultati lahko bili drugačni.

Zaradi še neraziskane narave tega področja v Sloveniji uporaba pojmov v angleškem

jeziku, nedefiniranih pojmov oziroma splošnega konsenza glede razumevanja posameznih

področij, so lahko vprašanja bila razumljena drugače, kot pa je bilo namenjeno. To velja

predvsem za vprašanja o dimenzijah masovnih podatkov (hitrost). V vprašalniku sem sicer

skušala razumevanje poenotiti s kratkimi definicijami pojmov ter dodanimi angleškimi

prevodi k slovenskim izrazom. Dodatno je lahko k pristranskosti rezultatov vplivala sama

dolžina in težavnost vprašalnika.

Omejitve glede identificiranih skupin podatkovnih znanstvenikov vključujejo

predpostavko, da so v raziskavi sodelovali določeni posamezniki: programerji, podatkovni

analitiki, trženjski raziskovalci itd., kar je vplivalo na identificirane skupine.

SKLEP

Zaradi napredka v tehnologiji in možnosti shranjevanja ter obdelave velike količine

raznolikih podatkov, pridobljenih z veliko hitrostjo, so organizacije identificirale

popolnoma novo področje konkurenčnih prednosti. Na podlagi različnih teoretičnih

opredelitev pojma masovni podatki sem masovne podatke opredelila v ožjem in širšem

smislu. V kolikor na izraz gledamo v ožjem smislu, gre za opredelitev tega, kakšne

značilnosti morajo imeti podatki, da jih opredelimo kot masovne. V povezavi s tem sem

opredelila vse štiri dimenzije masovnih podatkov: volumen, raznolikost, hitrost in vrednost

in na podlagi klasifikacije po IDC opredelila podatke kot masovne v ožjem smislu takrat,

ko ustrezajo vsaj dvema od treh dimenzij masovnih podatkov (volumen, raznolikost,

hitrost), vendar vedno z namenom prinašanja vrednosti organizaciji v obliki nižjih

stroškov, večji učinkovitosti ali izboljšanju poslovnih procesov. Masovne podatke v širšem

smislu pa sem opredelila kot novo generacijo tehnologij in arhitekturnih rešitev, katerih

namen je pridobiti ekonomsko vrednost iz velike količine različnih tipov podatkov s

pomočjo visoko-intenzivnega shranjevanja, raziskovanja in analize teh podatkov. Področje

znanosti o podatkih pa predstavlja rešitev, kako odkriti potencialne vpoglede, ki se skrivajo

v masovnih podatkih in kako premostiti izziv vseh dimenzij masovnih podatkov.

Masovne podatke in znanost o podatkih so organizacije prepoznale kot področja, ki jim

lahko prinašajo vrednost v obliki večje transparentnosti informacij, povečanje frekvence

uporabe informacij, sprejemanje boljših poslovnih odločitev na podlagi analize podatkov,

133

optimizacije procesov, prihranka na stroških, povečanju prihodkov ali kreiranju novega

produkta ali storitve na podlagi podatkov. Z namenom izkoriščanja tega potenciala se je

povečalo povpraševanje po posameznikih s specifičnimi znanji in sposobnostmi, ki so

sposobni iz množice raznolikih podatkov pridobiti koristne informacije in jih na razumljiv

način implementirati v obstoječe procese in aktivnosti v organizaciji. Takšne posameznike

sem, zaradi specifičnega področja znanj in sposobnosti, ki ga imajo, opredelila kot

podatkovne znanstvenike. Menim, da je z izrazom podatkovni znanstvenik bolj poudarjen

ravno vidik znanosti, znanstvene metode pri delu podatkovnega znanstvenika ter nova

znanja in sposobnosti, potrebna za delo z vsemi dimenzijami masovnih podatkov in

izvajanje procesa znanosti o podatkih. Z novostmi, ki jih prinašajo masovni podatki in

znanost o podatkih, bo pomembno, da bodo organizacije poiskale nove načine, kako bodo

informacijski viri predstavljali vzvod za rast, kako bodo uvedli sistemski management

informacij za usmerjanje inovacij, kako se bodo soočile z izzivi iz področja zasebnosti,

varnosti, intelektualne lastnine ter odgovornosti in kako bodo ustrezno pozicionirale

podatkovne znanstvenike oziroma ekipe podatkovnih znanstvenikov v organizacijsko

shemo. Hkrati pa bodo te spremembe in razvoj od organizacij zahtevale tudi spremembo

kulture in odnosa do podatkov ter sprejemanja odločitev. Da bi organizacije lahko uspešno

vključevale nove konkurenčne prioritete, potrebujejo nove tehnologije, znanja in procese.

Organizacije bodo morale preko življenjskega cikla informacij (pridobiti, shraniti,

procesirati in uporabiti) upoštevati štiri ključne komponente managementa informacij:

informacijska arhitektura, management informacij, management podatkov ter orodja in

tehnologije. Začeti morajo z zasnovo in uporabo platform, ki bodo pokrile vse storitve, ki

temeljijo na masovnih podatkih in znanosti o podatkih.

Konvergenca različnih znanstvenih disciplin je omogočila pojav novega razreda

strokovnjaka – podatkovni znanstvenik – katerega naziv še ni v celoti sprejet, vendar je s

strani različnih avtorjev uporabljen za opis »nove« discipline, kategorije dela, katere

pomembnost raste skupaj z masovnimi podatki. Trenutno še ne obstaja standard glede

uporabe nazivov, povezanih s podatki (podatkovni analitik, podatkovni rudar, podatkovni

inženir, statistik ipd.) zaradi razmeroma novega področja dela ter neprestanega razvoja

tega področja. Podatkovnega znanstvenika sem v sklopu magistrskega dela opredelila kot

strokovnjaka, ki se večino svojega časa ukvarja s podatki ter preko podatkovno

naravnanega pristopa z uporabo svojih znanj in sposobnosti iz več različnih znanstvenih

področjih odkriva zanimive informacije iz podatkov, pridobiva napovedni vpogled v

podatke, ki služi za izboljšanje prihodnjih odločitev, ustvarja t. i. nov izdelek ali storitev na

podlagi podatkov, zagotavlja vpogled v svoja dognanja ter ustrezno komunicira uspešne

zgodbe, na podlagi podatkov, drugim deležnikom. Podatkovni znanstveniki se razlikujejo

od statistikov, računalniških inženirjev in podatkovnih analitikov v tem, da imajo znanja in

sposobnosti, da lahko samostojno izvedejo celoten proces znanosti o podatkih.

Pri odgovoru na vprašanje, katera znanja in sposobnosti naj bi podatkovni znanstvenik

imel, sem se oprla na proces izvajanja znanosti o podatkih, tujo literaturo ter raziskave,

134

povezane z znanji in sposobnostmi podatkovnih znanstvenikov, že izvedene v tujini.

Identificirala sem, da naj bi podatkovni znanstvenik imel znanja iz področij:

programiranja, managementa podatkov, baz podatkov, znanosti (znanstvena metoda),

statistike, matematike, strojnega učenja in domenskih znanj. V sklopu sposobnosti pa so

pomembne: analitične sposobnosti, sposobnost reševanja problemov, strast do učenja

novih stvari, strast do dela s podatki, radovednost, potrpežljivost, vztrajnost, pogum in

samozavest zagovarjati svoje odločitve, kreativno mišljenje, sposobnost timskega dela,

pozornost nameniti kakovosti, sposobnost sprejemanja odločitev, strateško razmišljanje,

sposobnost motiviranja in navduševanja drugih, občutek za umetnost in prakso

vizualizacije, podjetništvo, spoštovanje zakonov in predpisov ter moralnost in etičnost. Na

ta način ima namreč vse potrebno, da lahko samostojno izvede celoten proces znanosti o

podatkih.

Z namenom odgovoriti na vprašanja, ali se v Sloveniji ukvarjamo z masovnimi podatki, ali

tudi v Sloveniji obstajajo podatkovni znanstveniki ter kakšna znanja in sposobnosti imajo,

sem izvedla raziskavo, v kateri je sodelovalo 92 posameznikov iz Slovenije, ki se večino

svojega časa ukvarjajo s podatki. Povabljeni so bili k izpolnitvi strukturiranega spletnega

vprašalnika, ki je vključeval vprašanja, povezana z dimenzijami masovnih podatkov,

samooceno znanj, pomembnostjo znanj in sposobnosti, njihovimi dosedanjimi izkušnjami

ter načini izobraževanja.

Na podlagi podatkov, pridobljenih z vprašalnikom, sem ugotovila, da se določeni

posamezniki v Sloveniji z vidika dimenzije volumna (TB ali več), raznolikosti (vse

dimenzije podatkov) in vrednosti podatkov (boljše odločitve na podlagi dejstev) dejansko

ukvarjajo z masovnimi podatki v ožjem smislu. Hkrati pa sem z analizo samoocen znanj

ugotovila, da so ravno znanja iz področja tehnologije masovnih podatkov (masovni in

distribuirani podatki, sistemi baz podatkov – NoSQL baze podatkov) v povprečju najslabše

ocenjena (povprečna ocena je bila okrog 2 – osnove). Zanimivo je bilo, da so tudi z vidika

pomembnosti znanj omenjena znanja iz tehnologije masovnih podatkov slabo ocenjena

(povprečna ocena pomembnosti je bila okrog 2). Sklepam lahko, da se v Sloveniji

posamezniki ukvarjajo z masovnimi podatki v ožjem smislu, vendar pri tem ne uporabljajo

tehnologij masovnih podatkov oziroma teh tehnologij še ne uporabljajo v tolikšni meri, kot

so že sprejete v tujini.

Na podlagi podatkov iz raziskave sem ugotovila tudi, da so na splošno posamezniki v

Sloveniji v povprečju najvišjo samooceno znanj dodelili znanjem iz področij: baz podatkov

(SQL, relacijske baze podatkov, management podatkov), statistike (opisna statistika in

verjetnostne porazdelitve ter regresija), domenskih znanj (poslovna znanja, specifična

znanja iz področja iz katerega izhaja problem) ter oblikovanja informacij. Vsa omenjena

znanja, z izjemo regresije, so bila v povprečju tudi ocenjena kot najbolj pomembna pri

njihovem delu. Na splošno pa v povprečju slabo poznajo področja: metodologije strojnega

učenja, nagrajevalno in poglobljeno učenje, obdelavo naravnega jezika ter tehnologije

135

masovnih podatkov. Razlog je verjetno v tem, da ta znanja pri njihovem delu trenutno niso

pomembna, saj so ta področja znanj dobila tudi najnižjo povprečno oceno pomembnosti. Z

namenom približati tehnologijo masovnih podatkov (Hadoop, MapReduce, NoSQL baze

podatkov) ter napredna področja strojnega učenja posameznikom in organizacijam v

Sloveniji bi priporočala večjo vključitev primerov dobrih praks iz tega področja v sklopu

predstavitev na konferencah, povabilo strokovnjakov iz tujine v sklopu delavnic, konferenc

ali tečajev, boljše deljenje znanja v sklopu družabnih skupin in srečanjih ter v sklopu

formalnega izobraževanja vzpodbujanje uporabe tehnologij masovnih podatkov na odprtih

podatkih ali pa preko vzajemnega sodelovanja z organizacijami. Primeri dobre prakse in

prikazani dejanski učinki uporabe tehnologij masovnih podatkov bodo na ta način

vzpodbudili organizacije, da bodo začele razmišljati o uvajanju teh tehnologij.

Na podlagi statističnega preizkusa sem identificirala vrzel med povprečno samooceno

znanj in povprečno oceno pomembnosti le pri področjih znanj: regresijska analiza in

linearna algebra, računstvo, odvodi in integrali, funkcije in risanje grafikonov,

manipulacija matrik. Pri obeh se je izkazalo, da anketiranci menijo, da imajo več znanj, kot

pa so pomembna pri njihovem delu. Rezultat verjetno izhaja iz tega, da se matematike in

delno statistike podrobno učimo v sklopu formalne izobrazbe (osnovna šola, srednja šola

itd.), v praksi pa iz teh področij uporabljamo le znanja, ki so pri delu pomembna.

Anketiranci namreč opravljajo različne funkcije, pri katerih uporabljajo različna znanja

glede na njihovo področje dela, prav vsi pa imajo podobna osnovna izhodišča iz npr.

matematike.

Pri primerjavi rezultatov iz raziskave v Sloveniji in raziskave Hayesa glede samoocene

znanj sem ugotovila, da so skupna področja višje samoocenjenih znanj strukturirani

podatki/relacijske baze podatkov (SQL), management podatkov ter do določene mere

statistika (v Sloveniji področje regresijske analize, opisne statistike in verjetnostne

porazdelitve). Do razlik pa je prišlo pri področju znanj iz matematike in

znanosti/znanstvene metode, ki sta v Sloveniji dobili v povprečju oceno 3 – Začetnik.

Sklepala bi lahko, da imajo posamezniki v tujini bolj »močno« formalno izobrazbo iz teh

dveh področij oziroma se več posameznikov iz teh dveh področij ukvarja z znanostjo o

podatkih ali pa omenjena razlika izhaja le iz drugačne sestave in velikosti vzorca.

Ugotovila sem, da se posamezniki v sklopu pridobivanja znanj in sposobnosti poslužujejo

različnih načinov. Največkrat so omenili, da so znanja pridobili preko formalnega

izobraževanja. 86 % je kot način pridobivanja znanj in sposobnosti izbralo udeležbo na

konferenci, 73 % pa delavnico ali tečaj s pridobitvijo certifikata. Zanimiv je podatek, da se

jih je več kot polovica (57 %) že udeležila masovnega odprtega spletnega tečaja ter da jih

skoraj polovica (46 %) znanja pridobiva preko praktičnega dela na »odprtih podatkih«.

Izvajanje procesa znanosti o podatkih je namreč iterativen proces, ki zahteva čim več

izkušenj, da se število iteracij optimizira. Ravno ta znanja in sposobnosti pa lahko

pridobijo iz naslova masovnih odprtih spletnih tečajev ter praktičnega dela na »odprtih

136

podatkih«. Zanimiv je tudi podatek, da se jih je 13 % že udeležilo natečaja/tekmovanja (kot

je Kaggle.com), kjer se izpopolnjuje tudi sposobnosti izboljšanja procesa znanosti o

podatkih. S popularnostjo udeležbe na družabnih skupinah (kjer znanja pridobiva 37 %

anketirancev) se bo verjetno % udeležencev tekmovanj še povečal. Menim, da bi lahko

tudi v Sloveniji organizirali natečaj iz naslova znanosti o podatkih. Pri tem bi se lahko

uporabilo podatke, ki so že javno dostopni ali pa k sodelovanju povabilo organizacije.

Na podlagi razvrščanja v skupine z algoritmom K-means sem identificirala 5 skupin

posameznikov v Sloveniji, ki se med seboj razlikujejo glede samoocene svojih znanj.

Skupine sem na podlagi njihovih značilnosti poimenovala: »Trženjski raziskovalci –

analitiki«, »Podatkovni analitiki«, »Raziskovalci«, »Programerji« in »Podatkovni

znanstveniki«. V primerjavi z raziskavo Hayesa o znanjih in sposobnostih podatkovnih

znanstvenikov sem ugotovila podobnost med segmenti Razvijalec in »Programerji«,

Raziskovalec in »Raziskovalec« ter Kreativec in »Podatkovni znanstvenik«. V Sloveniji

nisem identificirala segmenta, ki bi bil primerljiv s segmentom Poslovni management,

identificiranim v raziskavi od Hayesa. Sem pa identificirala dva dodatna segmenta:

»Trženjski raziskovalci – analitiki« ter »Podatkovni analitiki«.

»Trženjski raziskovalci – analitiki« imajo začetni nivo znanj iz statistike in matematike ter

poslovnih znanj. Večini v tej skupini so pomembna poslovna znanja, baze podatkov,

management podatkov in vse sposobnosti, razen podjetniških in kreativnih. Menijo, da

imajo manj znanj, kot pa so pomembna iz področij: oblikovanja informacij, relacijskih baz

podatkov, poglobljenega učenja in analize omrežij. Z vidika dimenzije raznolikosti

podatkov se jih največji % ukvarja z notranjimi, strukturiranimi podatki, generiranimi s

strani naprav ali človeka (31 %). V tej skupini je najnižji % takšnih, ki so se srečali z vsemi

dimenzijami raznolikosti podatkov (13 %). Z vidika porazdelitve samoocene znanj v tej

skupini prevladujejo posamezniki (50 %), ki imajo »Normalno I-obliko« porazdelitev

znanj. To pomeni, da imajo določeno področje znanja visoko ocenjeno, pri ostalih pa imajo

zelo nizke samoocene znanja ali pa jih sploh ne poznajo. Priporočila bi, da ta skupina

predvsem razvija naprej znanja iz statistike in matematike, ki sta najmočnejši področji te

skupine. Manjka jim predvsem razširitev njihovih znanj (vsaj na osnove) iz področij znanj

programiranja, baz podatkov, managementa podatkov, strojnega učenja in domenskih

znanj, da bi postali »Podatkovni znanstveniki«. Predlagam, da bi se s programiranjem

seznanili preko uporabe programskega jezika R, v katerem bi se lahko hitro naučili izvedbo

ukazov iz področja statistike, ki bi jih lahko takoj uporabili pri svojem delu. Ker se pogosto

udeležujejo delavnic ali tečajev, bi lahko na kakšni od njih predstavili nove možnosti

vizualizacije, osnove baz podatkov ter metode strojnega učenja, ki bi jih lahko kar

najhitreje praktično uporabili pri svojem delu. Pozitivni učinki uporabe pri delu bi jih

vzpodbudili k nadaljnji uporabi in raziskovanje teh področij tudi v prihodnje, saj določen

del te skupine meni, da sta pri delu s podatki pomembni radovednost in strast.

137

»Podatkovni analitiki« imajo srednji nivo znanj iz področij baz podatkov ter poslovnih

znanj ter začetna znanja iz področja pogramiranja. Večini v tej skupini so prav tako

pomembna poslovna znanja, baze podatkov, management podatkov in vse sposobnosti,

razen podjetniških in kreativnih. Menijo, da imajo več znanj, kot pa so pomembna iz

področij: čelno programiranje, regresija, nadzorovano učenje, linearna algebra in

računstvo, odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik. Imajo

potencial, da postanejo »Podatkovni znanstveniki«, saj se jih že sedaj skoraj 40 % ukvarja

z vsemi dimenzijami raznolikosti podatkov, prav tako pa očitno delajo na področjih, kjer

so pomembna znanja programiranja (čelno) in strojnega učenja. Z vidika porazdelitve

samoocene znanj v tej skupini prevladujejo posamezniki (61 %), ki imajo »Normalno I-

obliko« porazdelitev znanj. To pomeni, da imajo določeno področje znanja visoko

ocenjeno, pri ostalih pa imajo zelo nizke samoocene znanja ali pa jih sploh ne poznajo.

Priporočila bi, da ta skupina v nadaljevanju razvija znanja iz področij znanosti/znanstvena

metoda, programiranja, statistike, strojnega učenja in domenskih znanj. Njihova prednost

leži v dobri osnovi na področju baz podatkov in poslovnih znanjih.

»Raziskovalci« zelo dobro kombinirajo znanja iz področja oblikovanja informacij,

poslovnih znanj, baz podatkov ter statistike. Predstavljajo zelo dober potencial, da

postanejo »Podatkovni znanstveniki«, saj so jim (25 %) pomembna vsa področja znanj in

sposobnosti. Dobro izhodišče je tudi, da iz te skupine prihaja najvišji % posameznikov, ki

je kot največjo obdelano količino podatkov izbralo PB (6 %). V tej skupini se jih največ

(33 %) ukvarja z vsemi dimenzijami raznolikosti podatkov. Z vidika porazdelitve

samoocene znanj v tej skupini prevladujejo posamezniki, ki imajo »Minus-obliko« (72,2

%) porazdelitve znanj. To pomeni, da imajo iz veliko področij znanj določeno stopnjo

znanja, nikjer pa ne izstopajo ali pa izstopajo na več področjih. Priporočila bi, da ta

skupina v nadaljevanju razvija znanja iz področja programiranja, strojnega učenja in

domenska znanja. Ker imajo dobra znanja iz področja vizualizacije, menim, da bi se jim

lahko približalo programske jezike in programiranje preko različnih načinov vizualizacij

podatkov s pomočjo programskih jezikov. Preko uporabe strojnega učenja pa bi lahko

izboljšali rezultate, kjer si želijo doseči boljše odločanje na podlagi dejstev. Ker se v

primerjavi z drugimi skupinami veliko udeležujejo masovnih odprtih spletnih tečajih, bi

priporočala, da pridobivajo omenjena znanja preko masovnih odprtih spletnih tečajev.

»Programerji« izstopajo z najvišjo povprečno samooceno znanj iz programiranja, baz

podatkov in domenskih znanj. So edina skupina, ki ima začetni nivo znanj na področju

NoSQL baz podatkov ter osnovni nivo znanj iz masovnih in distribuiranih podatkov. To

potrjuje tudi dejstvo, da se jih največ ukvarja s podatki v GB in TB. Ker menijo, da imajo

manj poslovnih znanj, kot pa so pomembna pri njihovem delu, bi priporočala, da znanja

razvijajo iz področja poslovnih ved. Da postanejo »Podatkovni znanstveniki« jim manjkajo

še znanja iz področja znanosti/znanstvene metode in statistike. Z vidika porazdelitve

samoocene znanj v tej skupini prevladujejo posamezniki, ki imajo »T-obliko« (53 %) in

»Minus-obliko« porazdelitve znanj. Priporočala bi, da ta skupina tesno sodeluje s skupino

138

»Podatkovnih znanstvenikov« pri različnih projektih. Na podlagi skupnega sodelovanja

bodo lahko »Programerji« pridobili vpogled v znanstveni pristop k podatkom. Hkrati pa bi

priporočala formalno izobrazbo ali vsaj udeležbo na masovnem odprtem spletnem tečaju iz

področja statistike, znanstvene metode in poslovnih znanj.

»Podatkovni znanstveniki« izstopajo predvsem po naprednem znanju programskih jezikov

in so edini od skupin, ki imajo največje število področij znanj ocenjeno s povprečno oceno

3 (začetnik) ali več. Večini so pri delu pomembna vsa področja znanj in sposobnosti.

Menijo, da imajo več znanj, kot pa so pomembna iz področij: opisna statistika in

verjetnostne porazdelitve ter redukcija dimenzij. Večina jih prihaja iz smeri računalništva.

Ukvarjajo se s podatki v GB in TB. Več kot polovica se je že srečala z vsemi dimenzijami

raznolikosti podatkov. Kakovost izdelkov in storitev jim je enako pomembna kot odločanje

na podlagi dejstev. Z vidika porazdelitve samoocene znanj v tej skupini prevladujejo

posamezniki, ki imajo »Unikatno obliko« (42 %) in »T-obliko« (42 %) porazdelitve znanj.

V primerjavi z drugimi skupinami so tudi edina skupina, ki sploh vsebuje »Unikatno

obliko« porazdelitve znanj. Menim, da je za to skupino predvsem pomembno to, da lahko

svoje bogato znanje uporabijo v praksi na zanimivih projektih, ki jim bodo predstavljali

izziv. Svoje znanje že sedaj izpopolnjujejo in ga bodo tudi v prihodnje, zato je pomembno,

da so obveščeni o aktualnih konferencah v Sloveniji in tujini ter aktualnih natečajih in

tekmovanjih. Ker so jim verjetno najbolj pomembne praktične izkušnje iz izvedenih

projektov, menim, da bi lahko znanje medsebojno delili preko srečanj v družabnih

skupinah.

Na podlagi identificiranih segmentov in njihovih značilnosti menim, da v Sloveniji

obstajajo posamezniki, ki bi jim lahko podelili naziv »podatkovni znanstveniki«, saj imajo

znanja in sposobnosti iz vseh identificiranih področij, s katerimi lahko pokrijejo celoten

proces izvajanja znanosti o podatkih. Glede na podatke o rastočem povpraševanju po

takšnih posameznikih v svetu bo v prihodnosti predvsem pomembno ustvariti okolje in

pogoje, da bodo takšni posamezniki našli ustrezne izzive za izpopolnitev svojega

potenciala v Sloveniji, hkrati pa razviti oziroma dopolniti potencial preostalih

posameznikov iz identificiranih skupin. Pri tem bo zelo pomembna podpora v sklopu

formalnega izobraževanja iz navedenih področij, stalno izpopolnjevanje, prenos znanja

med posamezniki in skupinami in pridobivanje izkušenj na praktičnih primerih. V ta

namen bi bilo potrebno še bolj vzpodbujati srečanja v družabnih skupinah, omogočiti delo

na »odprtih« podatkih ter ustrezna znanja za opravljanje takšne pozicije vključiti v del

redne formalne izobrazbe.

139

LITERATURA IN VIRI

1. Big data developers in Slovenia. Najdeno 21. novembra 2015 na spletnem naslovu

http://www.meetup.com/Big-Data-Developers-in-Slovenia/

2. Big Data Executive Survey (2012). Najdeno 10. januarja 2015 na spletnem naslovu

http://newvantage.com/wp-content/uploads/2012/12/NVP-Big-Data-Survey-Themes-

Trends.pdf

3. Big data management and Analytics. Najdeno 21. novembra 2015 na spletnem naslovu

http://www.gartner.com/technology/topics/big-data.jsp

4. Boyd, D. & Crawford, K. (2012). Critical questions for big data. Information,

Communication & Society, 15(5), 662–679.

5. Chordas, L. (2014). Data driven. Best’s Review, 115(1), 22–26.

6. Conway, D. (2015). The data science venn diagram. Drewconway. Najdeno 20. januara

2015 na spletnem naslovu http://drewconway.com/zia/2013/3/26/the-data-science-

venn-diagram

7. Coursera. Najdeno 15. januarja 2016 na spletnem naslovu

https://www.coursera.org/specializations/jhudatascience

8. Crnoja, D., Jastrić, A. (2013, 19. september). Big data i nove uloge u organizaciji.

ICTBusiness. Najdeno 5. novembra 2014 na spletnem naslovu

http://www.ictbusiness.info/poslovanje/big-data-i-nove-uloge-u-organizaciji

9. DAMA (2014, 6. marec). DAMA-DMBOK2 Framework Guide. Dama. Najdeno 21.

marca 2016 na spletnem naslovu

https://www.dama.org/sites/default/files/download/DAMA-DMBOK2-Framework-V2-

20140317-FINAL.pdf

10. Data science talks: predictive modeling using R. Najdeno 21. novembra 2015 na

spletnem naslovu http://eventful.com/ljubljana/events/data-science-talks-1-predictive-

modeling-using-r-/E0-001-084350665-8

11. Davenport, T. T., & Patil, D. J. (2012). Data scientists: the sexiest job of the 21st

century. Harvard Business Review, oktober 2012, 70–76.

12. Davenport, T. H., Barth, P., & Bean, R. (2012). How ‘Big Data’ is different. MIT Sloan

Management Review54(1). Najdeno 10. januarja 2015 na spletnem naslovu

http://www.hbs.edu/faculty/Publication%20Files/SMR-How-Big-Data-Is-

Different_782ad61f-8e5f-4b1e-b79f-83f33c903455.pdf

13. Declues, J. (2015). Four types of big data Analytics and examples of their use.

Ingramicroadvisor.Najdeno 21. novembra 2015 na spletnem naslovu

http://www.ingrammicroadvisor.com/data-center/four-types-of-big-data-analytics-and-

examples-of-their-use

14. Dhar, V. (2013). Data Science and Prediction. Communications of the ACM, 56(12),

64-73.

15. Discovery Science Bled (2014). Najdeno 21. novembra 2015 na spletnem naslovu

http://ds2014.ijs.si/

140

16. EDSA. Najdeno 21. novembra 2015 na spletnem naslovu http://edsa-

project.eu/overview/about-edsa/

17. The Emerging Big Returns on Big Data (2013). Najdeno 16. januarja 2015 na spletnem

naslovu http://www.tcs.com/SiteCollectionDocuments/Trends_Study/TCS-Big-Data-

Global-Trend-Study-2013.pdf

18. Evans, et al. (2015). IT’s Challenge: Bringing Structure to the Unstructured World of

Big Data. AT Kearney. Najdeno 15. decembra 2015 na spletnem naslovu

https://www.atkearney.com/paper/-

/asset_publisher/dVxv4Hz2h8bS/content/id/5152447

19. Ferle, M. (2013, 27. februar). Znanost podatkov. MonitorPRO. Najdeno 5. novembra

2014 na spletnem naslovu http://www.monitorpro.si/147145/praksa/znanost-podatkov/

20. The field guide to data science.Najdeno 10. januarja 2015 na spletnem naslovu

https://www.boozallen.com/content/dam/boozallen/documents/2015/12/2015-FIeld-

Guide-To-Data-Science.pdf

21. Gams, M. (2008). Inteligentni programski sistemi. Prosojnice predavanj pri predmetu

Inteligentni programski sistemi. Ljubljana: Ekonomska fakulteta.

22. Google Ngram viewer. Najdeno 23. junija 2016 na spletnem naslovu

https://books.google.com/ngrams/graph?content=big+data%2Cdata+science%2Cdata+

scientist&case_insensitive=on&year_start=1800&year_end=2008&corpus=15&smoot

hing=1&share=&direct_url=t4%3B%2Cbig%20data%3B%2Cc0%3B%2Cs0%3B%3B

big%20data%3B%2Cc0%3B%3BBig%20Data%3B%2Cc0%3B%3BBig%20data%3B

%2Cc0%3B.t4%3B%2Cdata%20science%3B%2Cc0%3B%2Cs0%3B%3BData%20Sc

ience%3B%2Cc0%3B%3Bdata%20science%3B%2Cc0%3B%3Bdata%20Science%3B

%2Cc0

23. Google trends.Najdeno 23. junija 2016 na spletnem naslovu

https://www.google.com/trends/explore#q=big%20data%2C%20data%20science%2C

%20data%20scientist&cmpt=q&tz=Etc%2FGMT-2

24. Granville, V. (2013). Job titles for data scientists. Datasciencecentral. Najdeno 5.

decembra 2015 na spletnem naslovu

http://www.datasciencecentral.com/profiles/blogs/job-titles-for-data-scientists

25. Granville, V. (2014). Developing analytic talent: becoming a data scientist. United

States: Wiley.

26. Gualtieri, M. (2012). The Pragmatic Definition of Big Data. Forrester. Najdeno 21.

novembra 2015 na spletnem naslovu http://blogs.forrester.com/mike_gualtieri/12-12-

05-the_pragmatic_definition_of_big_data

27. Harris, H., Murphy, S. & Vaisman, M. (2013). Analyzing the analyzers: an

introspective survey of data scientists and their work. United States: O’Reilly Media.

28. Hayes, B. E. (2014a). The One hidden skill you need to unlock the value of your data.

Businessoverbroadway. Najdeno 5. decembra 2015 na spletnem naslovu

http://businessoverbroadway.com/the-one-hidden-skill-you-need-to-unlock-the-value-

of-your-data

141

29. Hayes, B. E. (2014b). The what and where of big data: a data definition framework.

Customerthink. Najdeno 5. decembra 2015 na spletnem naslovu

http://customerthink.com/the-what-and-where-of-big-data-a-data-definition-

framework/

30. Hayes, B. E. (2015a). Optimizing your data science team, a survey of data

professionals. Analytics Week. Najdeno 5. decembra 2015 na spletnem naslovu

https://analyticsweek.com/docs/research/open/OptimizingYourDataScienceTeamsV2.0

.pdf

31. Hayes, B. E. (2015b). Investigating data scientists, their skills and team makeup.

Businessoverbroadway. Najdeno 5. decembra 2015 na spletnem naslovu

http://businessoverbroadway.com/investigating-data-scientists-their-skills-and-team-

makeup

32. Here’s why IBM's new computer chip matters. Najdeno 21. avgusta 2015 na spletnem

naslovu http://time.com/3950873/ibm-chip/

33. IBM what is big data?. Najdeno 21. novembra 2015 na spletnem naslovu http://www-

01.ibm.com/software/in/data/bigdata/

34. Information Systems Masters Degree. Najdeno 21. novembra 2015 na spletnem

naslovu http://www.uni.li/master-information-

systems?gclid=CICLn5b11sgCFYLnwgodef4IFg

35. INSINC (1997). Najdeno 5. decembra 2015 na spletnem naslovu http://www.local-

level.org.uk/uploads/8/2/1/0/8210988/netresult.pdf

36. Jaklič, J., Lukman, T., Popovič, A. (2010). Zrelost poslovne inteligence v slovenskih

organizacijah. Uporabna informatika, 18(1), 16-31.

37. Jin, Q., Li J., Zhang N., Cheng, J., Yu, C., Noguchi S. (2002). Enabling society with

information technology. Japan: Springer.

38. Ključ do rešitev Slovenija (2014). Najdeno 21. novembra 2015 na spletnem naslovu

http://www-01.ibm.com/software/si/businessconnect/index.html

39. Košmelj, B., & Rovan, J. (2007). Statistično sklepanje. Ljubljana: Ekonomska

fakulteta.

40. Kuhn, M. (2015). CRAN task view: Reproducible research. CRAN. Najdeno 5.

decembra 2015 na spletnem naslovu https://cran.r-

project.org/web/views/ReproducibleResearch.html

41. Leban, G. (2007). Vizualizacija podatkov s strojnim učenjem (doktorska dizertacija).

Ljubljana: Fakulteta za računalništvo in informatiko.

42. Leskovec, J., Rajaraman, A., & Ullman, J. D. (2014). Mining of massive datasets.

United Kingdom: Cambridge University Press.

43. Linguee.Najdeno 5. novembra 2014 na spletnem naslovu

http://sl.linguee.com/sloven%C5%A1%C4%8Dina-

angle%C5%A1%C4%8Dina/search?source=auto&query=data+science

44. Lipičnik B. (1998). Ravnanje z ljudmi pri delu. Ljubljana: Gospodarski vestnik.

142

45. Lorica, B., Howard, J., Dumbill, E. (2012, 11. januar). What is big data. O'Reilly.

Najdeno 21. novembra 2015 na spletnem naslovu https://beta.oreilly.com/ideas/what-

is-big-data

46. Lukman, T. (2009). Nivoji zrelosti poslovne inteligence v slovenskih organizacijah

(magistrsko delo). Ljubljana: Ekonomska fakulteta.

47. Malhotra, N. K. (2012). Basic marketing research: integration of social media (4th

ed.).

New Jersey: Prentice Hall.

48. Manyika, J., et al. (2011). Big data: The next frontier for innovation, competition, and

productivity. McKinsey Global Institute. Najdeno 5. decembra 2015 na spletnem

naslovu

http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_fo

r_innovation

49. Marr, B. (2015). Ten top languages for crunching big data. Datasciencecentral.

Najdeno 5. decembra 2015 na spletnem naslovu

http://www.datasciencecentral.com/profiles/blogs/ten-top-languages-for-crunching-big-

data

50. Mayo, M. (2016). 7 steps to understanding deep learning. Kdnuggets. Najdeno 5.

decembra 2015 na spletnem naslovu http://www.kdnuggets.com/2016/01/seven-steps-

deep-learning.html

51. McAfee, A. & Brynjolfsson, E. (2012). Big Data: the management revolution. Harvard

Business Review, oktober 2012, 59-68.

52. Metcalfe’s law. Najdeno 15. januarja 2015 na spletnem naslovu

http://www.christopherspenn.com/2010/12/metcalfes-law-and-social-media-size-does-

matter/

53. Mooi, E. & Sarstedt., M. (2011). A concise guide to market research. Berlin

Heildeberg: Springer - Verlag.

54. Moorov zakon. Najdeno 15. januarja 2015 na spletnem naslovu

http://www.mooreslaw.org/

55. Murthy, S. (2014). The 25 hottest skills that got people hired in 2014. LinkedIn.

Najdeno 21. novembra 2015 na spletnem naslovu

http://blog.linkedin.com/2014/12/17/the-25-hottest-skills-that-got-people-hired-in-

2014/

56. Nickyintheclouds. Najdeno 15. januarja 2015 na spletnem naslovu

http://nickyintheclouds.com/wp-content/uploads/2013/05/comparative-scale-of-

bytes.png

57. NIO. Najdeno 21.novembra 2015 na spletnem naslovu http://nio.gov.si/nio/data/

58. NoSQL. Najdeno 16. januarja 2016 na spletnem naslovu http://nosql-database.org/

59. Number of chief digital officers doubled in 2013 (2013). Najdeno 17. novembra 2014

na spletnem naslovu http://cdoclub.com/number-of-chief-digital-officers-doubled-in-

2013-seven-cdos-became-ceo-and-four-cdos-became-board-directors-according-to-the-

cdo-talent-map-2014-video/

60. O’Neill, C. & Schutt, R. (2013). Doing data science. United States: O’Reilly Media.

143

61. OECD (2015). Data driven innovation: Big Data for growth and well-being. Paris:

OECD Publishing.

62. Olofson, C. W. & Vesset, D. (2012). Big Data: Trends, Strategies, and SAP

Technology. SAP. Najdeno 16. januarja 2015 na spletnem naslovu

https://www.sap.com/bin/sapcom/en_ae/downloadasset.2012-09-sep-26-13.idc-report--

big-data-trends-strategies-and-sap-technology-pdf.html

63. Oracle. Najdeno 22. novembra 2015 na spletnem naslovu https://www.oracle.com/big-

data/index.html

64. Pavlovič, L. (2014, 16. oktober). Zoubin Ghahramani: Podatki so naravnost

eksplodirali. Delo. Najdeno 5. novembra 2014 na spletnem naslovu

http://www.delo.si/znanje/znanost/hiter-napredek-znanstvenih-spoznanj-z-novimi-

orodji.html

65. PcMag. Najdeno 21.januarja 2016 na spletnem naslovu

http://www.pcmag.com/encyclopedia/term/52162/structured-data

66. Piatetsky, G. (2014). Four main languages for Analytics, data mining, data science.

Kdnuggets. Najdeno 21.novembra 2015 na spletnem naslovu

http://www.kdnuggets.com/2014/08/four-main-languages-analytics-data-mining-data-

science.html

67. Piatetsky, G. (2015). Poll results: Where is big data?. Kdnuggets. Najdeno 15. avgusta

2015 na spletnem naslovu http://www.kdnuggets.com/2015/08/largest-dataset-

analyzed-more-gigabytes-petabytes.html

68. Politiki na lovu za podatkovnimi analitiki. (2013, 9. september). MonitorPRO. Najdeno

5. novembra 2014 na spletnem naslovu

http://www.monitorpro.si/148157/novice/politiki-na-lovu-za-podatkovnimi-analitiki/

69. Press, G., (2012, 26. april). A very short history of data science. What's the big data?.

Najdeno 21. novembra 2015 na spletnem naslovu

http://whatsthebigdata.com/2012/04/26/a-very-short-history-of-data-science/

70. Qmee. Najdeno 15. januarja 2015 na spletnem naslovu http://blog.qmee.com/qmee-

online-in-60-seconds/

71. Raywood, D. (2012). Big data analyst shortage is a challenge for the UK. Scmagazine.

Najdeno 21.novembra 2015 na spletnem naslovu http://www.scmagazineuk.com/big-

data-analyst-shortage-is-a-challenge-for-the-uk/article/270538/

72. Rivera, R. and Haverson, A. (2014). Data Scientist vs Data Analyst.

Captechconsulting. Najdeno 15. decembra 2015 na spletnem naslovu

https://www.captechconsulting.com/blogs/data-scientist-vs-data-analyst

73. Rovan J. (2013). Statistika 3. Prosojnice predavanj pri predmetu Statistika 3.

Ljubljana: Ekonomska fakulteta.

74. Russom, P. (2011). Big Data Analytics. Tableau. Najdeno 21.marca 2016 na spletnem

naslovu

http://www.tableau.com/sites/default/files/whitepapers/tdwi_bpreport_q411_big_data_

analytics_tableau.pdf

144

75. Siegler, M. (2010). Eric Schmidt: every 2 days we create as much information as we

did up to 2003. Techcrunch. Najdeno 15. januarja 2015 na spletnem naslovu

http://techcrunch.com/2010/08/04/schmidt-data/

76. Somohano, C. (2013). Big data & data science: what does a data scientist do?. Data

Science London. Najdeno 21. novembra 2015 na spletnem naslovu

https://www.slideshare.net/datasciencelondon/big-data-sorry-data-science-what-does-a-

data-scientist-do

77. Stanton, J. M. (2013). Introduction to data science. iTunes. Najdeno 21. januarja 2016

na spletnem naslovu https://itunes.apple.com/us/book/introduction-to-data-

science/id529088127?mt=11

78. Structured and unstructured data: What is it? (2013). Najdeno 21. novembra 2015 na

spletnem naslovu http://www.sherpasoftware.com/blog/structured-and-unstructured-

data-what-is-it/

79. Swan, A. (2008). The skills, role and career structure of data scientists and curators: an

assessment of current practice and future needs. Key Perspectives. Najdeno 17. januara

2015 na spletnem naslovu

http://beta.jisc.ac.uk/media/documents/programmes/digitalrepositories/data

80. Štebe, J. & Bezjak, S. (2012). Odprti podatki pot k bolj odprti znanosti. Sociološko

srečanje, Maribor 2012. Najdeno 5. novembra 2014 na spletnem naslovu

http://www.adp.fdv.uni-lj.si/media/publikacije/predavanja/2012/2012_ss_pred_stebe2

81. Toš, N. & Hafner-Fink, M. (1998). Metode družboslovnega raziskovanja. Ljubljana:

Fakulteta za družbene vede.

82. Tuitt, D. (2013). A history of big data. Hcltech. Najdeno 21.novembra 2015 na

spletnem naslovu http://www.hcltech.com/blogs/transformation-through-

technology/history-big-data

83. Ultimate skills checklist for your first data analyst job. Najdeno 21. novembra 2015 na

spletnem naslovu

http://static.cdn.responsys.net/i2/responsysimages/content/udacity/Ultimate%20Skills

%20Checklist%20For%20Your%20First%20Data%20Analyst%20Job.pdf

84. Uporabna statistika. Najdeno 21. januarja 2016 na spletnem naslovuhttp://stat.uni-

lj.si/?predmet=ProstorskaStatistika

85. Vale, S. (2013). Classification of types of big data. Unece. Najdeno 21.novembra 2015

na spletnem naslovu

http://www1.unece.org/stat/platform/display/bigdata/Classification+of+Types+of+Big

+Data

86. Vesset D., et al. (2012). Wordlwide big data technology and services 2012 - 2016

Forecast. IDC. Najdeno 21. novembra 2015 na spletnem naslovu

http://laser.inf.ethz.ch/2013/material/breitman/additional%20reading/Worldwide%20Bi

g%20Data%20Technology%20and%20Services%202012-2016%20Forecast.pdf

87. Voulgaris, Z. (2014). Data scientist: The definitive guide to becoming a data scientist.

United States: Technics Publications.

145

88. Wales, M. (2014). Front-end vs back-end vs full stack web developers. Udacity.

Najdeno 21. januarja 2016 na spletnem naslovu http://blog.udacity.com/2014/12/front-

end-vs-back-end-vs-full-stack-web-developers.html

89. What is big data? Najdeno 21. novembra 2015 na spletnem naslovu

http://www.gartner.com/it-glossary/big-data/

90. Žerdin, A. (2014, 20. september). Ne gre za to, da bi ti Pitija, ki si jo nakrmil z

množico številk, izpljunila sliko prihodnosti. Delo. Najdeno 5. novembra 2014 na

spletnem naslovu http://www.delo.si/sobotna/ne-gre-za-to-da-bi-ti-pitija-ki-si-jo-

nakrmil-z-mnozico-stevilk-izpljunila-sliko-prihodnosti.html

PRILOGE

i

KAZALO PRILOG

Priloga 1: Seznam nazivov delovnih mest povezanih z znanostjo o podatkih...................... 1

Priloga 2: Objavljena delovna mesta povezana z znanostjo o podatkih ................................ 3

Priloga 3: Vprašalnik ............................................................................................................. 5

Priloga 4: Spremenljivke in opisi spremenljivk .................................................................. 13

Priloga 5: Frekvenčne porazdelitve samoocene in pomembnosti znanj in sposobnosti ...... 20

Priloga 6: Dendogram – razvrščanje na podlagi samoocene znanj ..................................... 23

Priloga 7: Dendogram – razvrščanje na podlagi pomembnosti znanj in sposobnosti ......... 24

Priloga 8: Razvrščanje v skupine na podlagi samoocene znanj .......................................... 25

Priloga 9: Razvrščanje v skupine na podlagi pomembnosti znanj in sposobnosti .............. 29

Priloga 10: Pomembni statistični preizkusi ......................................................................... 34

1

Priloga 1: Seznam nazivov delovnih mest, povezanih z znanostjo o podatkih

Tabela 1: Seznam nazivov delovnih mest, povezanih z znanostjo o podatkih

Št. Naziv delovnega mesta

1 Data Scientist

2 Business Analyst

3 Analyst

4 Data Analyst

5 Statistician

6 Senior Analyst

7 Senior Data Scientist

8 Chief Scientist

9 Research Scientist

10 Analytics Manager

11 Business Intelligence Consultant

12 Senior Business Analyst

13 Analytics Consultant

14 Data Architect

15 Research Analyst

16 Scientist

17 Web Analyst

18 Chief Data Scientist

19 Director of Analytics

20 Director, Analytics

21 Lead Analyst

22 Principal Data Scientist

23 Quantitative Analyst

24 Principal Scientist

25 SAS Programmer

26 Senior Web Analyst

26 Database Administrator

27 Director of Research

28 Director, Web Analytics

29 Lead Data Scientist

30 Lead Scientist

31 Manager Analytics

32 Manager, Analytics

33 Market Research Analyst

34 Senior Credit Risk Analyst

35 Senior Manager, Business Analytics

36 Senior Marketing Analyst

37 Senior Research Scientist

38 Sr. Statistician

39 Statistical Consultant

40 Vice President - Analytics

41 Web Analytics Manager

42 Actuary

43 Advanced Analytics Consultant

44 Analytic Scientist

45 Analytics Scientist

46 Analytics Specialist

47 Associate Business Analyst

48 Biostatistician

49 Business Analysis Manager

50 Business Analytics Director

se nadaljuje

2

Tabela 1: Seznam nazivov delovnih mest, povezanih z znanostjo o podatkih (nad.)

Št. Naziv delovnega mesta

51 Business Intelligence Analyst

52 Business Intelligence Specialist

53 Chief Analytics Officer

54 Data Analytics Consultant

55 Data Anayltics Professional

56 Data Engineer

57 Data Manager

58 Data Miner

59 Director of Advanced Analytics

60 Director, Advanced Analytics

61 Director, Data Science

62 Enterprise Information Architect

63 IT Business Analyst

64 Information Management Specialist

65 Lead Statistician

66 Machine Learning Engineer

67 Manager analytics

68 Manager of Analytics

69 Manager, Business Analytics

70 Mathematician

71 Planning Analyst

72 Principal Research Scientist

73 Quant

74 R&D Director

75 Reporting Analyst

76 Research Director

77 Research Engineer

78 Research Manager

79 Research and Development Manager

80 Risk Analytics Manager

81 Risk Consultant

82 Risk Manager

83 Risk Officer

84 SAP Solution Architect

85 SAS Consultant

86 SAS Data Analyst

87 Senior Analytics Consultant

88 Senior Bioinformatics Scientist

89 Senior Business Intelligence Consultant

90 Senior Business Intelligence Developer

91 Senior Data Analyst

92 Senior Market Analyst

93 Senior Research Analyst

94 Senior Statistician

95 Sr Quantitative Analyst

96 Sr. Data Scientist

97 Sr. Risk Analyst

98 Statistical Programmer

99 Statistical Programmer (SAS)

100 System Analyst

101 Systems Analyst

102 Technical Business Analyst

103 VP of Analytics

104 Vice President, Analytics

3

Priloga 2: Objavljena delovna mesta, povezana z znanostjo o podatkih

Tabela 2: Objavljena delovna mesta povezana z znanostjo o podatkih

Organizacija Celtra

Vir LinkedIn

Datum 2. maj 2015

Delovno mesto Podatkovni znanstvenik (angl. Data Scientist)

Opis delovnega

mesta

Izvedba statističnih analiz in statistično modeliranje (nelinearno in multivariantni

pristop).Raziskovanje interakcij med metrikami povezanimi z oglaševanjem z

različnimi kontektsti z namenom identificiranja priložnosti za izboljšanje algoritmov.

Podpora odločanju inženirjem in produktni ekipi z pripravljanjem poročil, pripravo

poizvedb ter izgradnjo prediktivnih modelov.Izgradnja orodij/vizualizacij v pomoč

raziskovanju podatkovih interakcij.Zaznavanje problemov povezanih s kakovostjo

podatkov in odkrivanje ter odprava vzrokov za te probleme.

Formalna

izobrazba

Pričakujejo diplomo ali magisterij iz računalništva, statistike, matematike ali drugih

kvantitativnih področij ali relevantne delovne izkušnje (ali tečaji MOOC).

Znanja Statistično modeliranje, strojno učenje, napovedna analitika in /ali algoritmi

podatkovnega rudarjenja.Obvladovanje najmanj enega od statističnih orodij kot so R,

SAS, Weka, Python/Scipy.Znanje SQL za raziskovalno analizo.Tekoče znanje

(govorno in pisno) angleškega jezika

Sposobnosti Analitične sposobnosti in neodvisno raziskovanje.Sposobnost hitre izgranje prototipnih

idej.Strast do dela s podatki, natančnost, pozitiven odnos do analitičnih

izzivov.Odlične komunikacijske in medosebne sposobnosti vključujoč sposobnost

opisa/razlage logike in implikacij kompleksnega modela sodelavcem iz različnih

področij dela.Strast do učenja in iskanja novih metodologij.Sposobnost dela v

spreminjajočem se okolju, kjer zahteve niso (vedno) jasno definirane vnaprej.

Izkušnje ("nice-

to-have")

Relevantne izkušnje iz analize nabora podatkov, katerih količina presega zmožnost

shranjevanja podatkov.Dobre izkušnje iz področja Bayesove statistike in poglobljeno

razumevanje razlik med frekventnostjo in Bayesianizmom.Dobre izkušnje iz analize in

obdelave kompleksnega, visoko dimenzionalnega nabora podatkov z uporabo orodij

Spark, Pig, Hive (ali drugih Hadoop orodji).

Ponudba Konkurenčna osnovna plača, dodatki in kvartalni bonusi.Velikodušen budget za

konference, tečaje, literaturo ali študij.Izbor lastnega orodja.Delo v San Franciscu CA

ali v starem mestnem jedru Ljubljane.Hladilnik je vedno poln in pijejo najboljšo kavo.

Organizacija Zemanta

Vir Zemanta.jobscore.com Datum 2015 Delovno mesto Podatkovni znanstvenik (angl. Data Scientist) Opis delovnega

mesta Pedstavitev podatkov uporabnikom in pridobivanje znanja iz podatkov.Kandidat se bo

pridružil uveljavljeni podatkovni ekipi znotraj njihovega inženirskega oddelka.Delo

zajema delo na produkcijskih sistemih z visokim pretkom in volumnom podatkov. Formalna

izobrazba Ni omenjena.

Znanja Strojno učenje in podatkovno rudarjenje.Go-lang, Python, Django + Angular JS,

Linux. AWS storritve kot ponudnik infrastrukture: EC2, S3, RDS, SQS.Cassandra,

ElsticSearch, PostgresSQL podatkovne baze.Ansible in Docker za management z

infrastrukturo.SaaS za vzdrževanje storitev: github, liberato metrics, Circle CI, New

Relic, Pingdom. Sposobnosti Talent, volja do učenja in odločenost za uspeh.Inženirske sposobnosti. Izkušnje Izkušnje iz strojnega učenja in podatkovega rudarjenje.Izkušnje iz področja modernih

načinov procesiranja podatkov: MapReduce, Hadoop, Spark ali drugih Apache

projektov masovnih podatkov. Ponudba Zaposlitev za poln delovni čas.Konkurenčna plača.Priložnost za delo na zanimivem

globalnem projektu v ekipi bistrih posameznikov. se nadaljuje

4

Tabela 2: Objavljena delovna mesta povezana z znanostjo o podatkih (nad.)

Organizacija Outfit7

Vir Outfit7.com Datum 24. december 2015 Delovno mesto Zaledni podatkovni znanstvenik (angl. Backend Data Scientist) Opis delovnega

mesta Spodbujanje stalnega napredka v učinkovitosti sistemov preko izboljšav algoritmov.Na

podlagi zbranih podatkov identifikacija vzrocev in predlaganje idej za

izboljšave.Nadziranje, primerjanje in preverjanje delovanja sistema na podlagi

primerjave specifikacij in dejanskega delovanja, zbranega iz podatkov.Odgovornost

nad zbiranjem podatkov in vzpostavitev mehanizmi za procesiranje teh

podatkov.Vzpodbujanje izboljšav zbiranja podatkov, analitičnih procesov in

tehnologij.Učinkovito delo, kot član ekipe. Formalna

izobrazba Ni omenjena.

Znanja Podatkovno rudarjenje in strojno učenje.Statistične metode.Programiranje (Java).SQL Sposobnosti Izjemne sposobnosti reševanja problemov.Natančnost, pozornost nameniti

podrobnostim.Pozitivna naravnanost, proaktivnost.Veselje do dela v podjetniško

naravnanem okolju z kratkimi življenjskimi cikli in agresivnimi urniki. Izkušnje Vsaj 2 leti delovnih izkušenj na delovnem mestu povezanim s podatki.Močno tehnično

in analitično ozadje (optimizacije, podatkovno rudarjenje, strojno učenje,...).Izkušnje z

masovnimi podatki, podatkovno analitiko, statističnimi metodami.Izkušnje s splošnimi

podatkovnimi tehnologijami (SQL, BIgQuery, statistična orodja). Ponudba Zaposlitev za nedoločen čas s 6 mesečnim poskusnim obdobjem.Sproščeno in urejeno

mednarodno poslovno okolje v ekipi strokovnjakov.Profesionalni in osebni

razvoj.Privlačna plača in možnost odkupa delnic. Organizacija Singtel

Vir Therecruitmentjob.com Datum 28. september 2015 Delovno mesto Podatkovni znanstvenik (angl. Data Scientist) Opis delovnega

mesta Svetovalna vloga za poslovno stran.Uporaba poslovnih znanj za identifikacijo kupcev

in trženjskih izzivov, ki jih je mogoče rešiti z analitičnim

modeliranjem.Implementacija analitičnih procesov, doseganje operativne odličnosti,

uveljavljanja povratne zanke kakovosti in zajemanje rezultatov in dognanj. Formalna

izobrazba Pričakujejo minimalno magisterij iz kvantitativne/matematične discipline.

Znanja Matematični/statistični modeli, optimizacijske metode in statistično

modeliranje.Poslovna podlaga metodam znanosti o podatkih na poslovnih

problemih.Statistični programski jeziki/paketi kot so SAS, SAS Enterprise Miner, R in

SQL. Sposobnosti Odlične komunikacijske in predstavitvene sposobnosti.Logika in sistematičnost pri

delu.Timsko delo.Neodvisnost in sposobnost hitrega učenja. Izkušnje Izkušnje iz področja telekomunikacij so prednost.Vsaj 5 let delovnih izkušenj iz

razvoja kvantitativnih modelov in podatkovnih analiz na praktičnem področju

operativnih raziskav in področja uporabne statistike/matematike.Izkušnje iz uporabnih

matematičnih/statističnih algoritmov, metod optimizacije in statističnega

modeliranja.Dokazan uspeh pri sintezi podatkov z namenom doseganja poslovnih

uspehov. Ponudba Ni omenjeno.

5

Priloga 3: Vprašalnik

Spoštovani,

sem Mateja Grobelnik, študentka podiplomskega programa informacijsko-upravljalske

vede na Ekonomski fakulteti, Univerze v Ljubljani.

Pišem magistrsko delo, katerega namen je pridobiti vpogled v znanja in sposobnosti

posameznikov v Sloveniji, ki se večino svojega časa ukvarjajo s podatki (pridobivanje,

obdelava, analiza, odločanje) oziroma s katerimi od naslednjih

področij: analitika (angl. Analytics), znanost o podatkih (angl. Data Science), masovni

podatki (angl. Big Data), statistika (angl. Statistics), strojno učenje (angl. Machine

Learning), management podatkov (angl. Data Management)

ali programiranje (angl. Programming) ter ugotoviti, kako se znanja in sposobnosti

posameznikov razlikujejo.

V ta namen bi vas vljudno prosila za izpolnitev vprašalnika, kar vam bo vzelo približno 10

minut vašega časa.

Vprašalnik je popolnoma anonimen. Rezultati raziskave pa bodo uporabljeni izključno

za namen magistrskega dela.

Za sodelovanje se vam že vnaprej zahvaljujem.

Mateja Grobelnik

[email protected]

1. Prosim označite, kakšna je bila največja količina/volumen podatkov, s katero ste se

vi osebno do sedaj ukvarjali (pridobivanje, obdelava, analiza, odločanje):

do 1023 KB (kilobajti) ali manj

od 1 MB do 1023 MB (megabajti)

od 1 GB do 1023 GB (gigabajti)

od 1 TB do 1023 TB (terabajti)

od 1 PB (petabajti) ali več

Ne vem

2. Prosim označite, s katerimi različnimi tipi/viri podatkov ste se vi osebno že srečali

pri ukvarjanju s podatki (pridobivanje, obdelava, analiza, odločanje).

Če ste se srečali samo z enim od naštetih primerov znotraj posamezne možnosti ali

podobnim primerom, ki pa ni naveden, to možnost vseeno označite.

6

Podatki, generirani s strani naprav:

Možnih je več odgovorov

Poslovne transakcije (nakupi, zaloge, računi ipd.); spletne metrike iz spletnih

dnevnikov; metrike iz nadzora procesov, senzorjev ipd.

Datum in čas objave na Facebooku, Twitterju; GPS podatki o Tweetih/Facebook

objavah ipd.

Podatki, generirani s strani človeka:


Število všečkov na Facebooku; število retweetov; ocene na družbenih medijih; spletne

sledi (clicks) ipd.

Ocenjevalne lestvice v vprašalnikih (raziskave); ocenjevanje sposobnosti ipd.

Vsebina elektronske pošte; vsebina dokumentov znotraj organizacije; mnenja

zaposlenih; komentarji potrošnikov; zapisi opomb klicnega centra ipd.

Vsebina komentarjev na spletnih forumih; blogi, zapisi in komentarji iz družbenih

medijev; spletna iskanja; vsebina SMS sporočil ipd.

Glasovna pošta, korporativni video, slike, ilustracije, avdio prepisi - iz notranjih virov

organizacije ipd.

Slike na Instagramu; video posnetki na YouTube; avdio komentarji na spletnih mestih

ipd.

Nič od naštetega

3. Prosim označite, ali ste se vi osebno že kdaj ukvarjali s podatki v realnem času

(angl. real time, streaming data):

Da

Ne

Ne vem

4. Prosim označite katere otipljive koristi vi osebno menite, da dosegate preko dela s

podatki?


Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše razumevanje potrošnika.

Povečanje prodaje/prihodkov.

Boljša kakovost izdelkov ali storitev.

Bolj učinkovito izvajanje procesov, načina dela, operacij.

7

Inovacije na področju izdelkov in storitev.

Boljše odločanje na podlagi dejstev.

Zmanjšanje tveganja.

Drugo:

5. Prosim ocenite spodnja PODROČJA ZNANJ glede na:

a) VAŠ NIVO ZNANJA na lestvici od 1–5, pri čemer pomeni 1 – Ne poznam in 5 –

Napredni nivo

b) POMEMBNOST PRI VAŠEM DELU in vplivu na uspešnost vašega dela, pri

čemer pomeni 1 – Sploh ni pomembno in 5 – Zelo je pomembno.

Pri oceni vašega nivoja znanja podajte oceno od 1–5, ki pomeni:

1 – Ne poznam: ne uporabljam/ne ustreza mojemu področju dela.

2 – Osnovno poznavanje: osnovno znanje, fokus je na izobraževanju.

3 – Začetnik: znanje pripravnika, fokus je na pridobivanju izkušenj na praktičnih primerih.

4 – Srednji nivo: samostojna kompetentna uporaba, fokus je na izboljšanju znanja.

5 – Napredni nivo: poglobljena znanja in kompetence, fokus je na reševanju strokovnih

problemov.

Tudi, če ne poznate vseh znanj, omenjenih znotraj določenega področja znanj, ocenjujte

tistega znotraj področja, ki ga poznate ali uporabljate.

Za lažje razumevanje, kaj je mišljeno pod posameznim področjem znanj, je več informacij

in razlaga posameznega področja znanj na voljo ob prehodu miške čez posamezno

področje znanj.

I. del: PROGRAMIRANJE

a) Vaš nivo znanja: 1 – Ne

poznam / 2 – Osnove / 3 –

Začetnik / 4 – Srednji nivo / 5 –

Napredni nivo

b) Pomembnost pri delu: 1 –

Sploh ni pomembno / 5 – Zelo je

pomembno

1 2 3 4 5 1 2 3 4 5

Zaledno programiranje (Back End

Programming):

Java/Rails/.NET/PHP/Ruby/Go

lang,idr.

Čelno programiranje (Front End

Programming):

JavaScript/HTML/CSS/jQuery/AJAX,

idr.

Znanje programskih jezikov npr. R,

Python, SAS, Julia, Scala, Stata, idr.

8

II. del: MANAGEMENT PODATKOV IN BAZE PODATKOV

a) Vaš nivo znanja:1 – Ne poznam /

2 – Osnove / 3 – Začetnik /4 –

Srednji nivo / 5 – Napredni nivo


Sploh ni pomembno / 5 –

Zelo je pomembno

1 2 3 4 5 1 2 3 4 5

Management podatkov (Data

Management)

Oblikovanje informacij (vizualizacija)

Sistemi baz podatkov – relacijske baze

podatkov (RDBMS): DB2, mySQL,

SQL Server, PostgreSQL idr.

Delo z delno strukturiranimi podatki:

XML, .JSON

Sistemi baz podatkov – NoSQL baze

podatkov: Cassandra, Hbase,

CouchBase, MongoDB idr.

Poizvedbeni jezik SQL

Masovni in distribuirani podatki

(Hadoop, MapReduce, Hive QL)

Sistemska administracija (SSH, *nix,

računalništvo v oblaku)

III. del: STATISTIKA IN MATEMATIKA

a) Vaš nivo znanja:1 – Ne poznam / 2

– Osnove / 3 – Začetnik /4 – Srednji

nivo / 5 – Napredni nivo


Sploh ni pomembno / 5 – Zelo

je pomembno

1 2 3 4 5 1 2 3 4 5

Znanstvena metoda (Scientific method)

Opisna statistika in verjetnostne

porazdelitve (Descriptive Statistics and

Probability Distributions)

Statistično preizkušanje domnev

(Inferential Statistics)

Redukcija dimenzij (Dimension

Reduction): PCA, faktorska analiza

Regresijska analiza (Regression)

Statistika časovnih vrst (Temporal

Statistics)

Prostorska statistika (Spatial statistics)

Simulacije (Simulations), npr. Monte

Carlo

Linearna algebra in računstvo, odvodi

in integrali, funkcije in risanje

grafikonov, manipulacija matrik

Optimizacija (Optimization)

9

IV. del: STROJNO UČENJE

a) Vaš nivo znanja:1 – Ne poznam / 2 –

Osnove / 3 – Začetnik /4 – Srednji nivo / 5

– Napredni nivo

b) Pomembnost pri delu: 1 – Sploh

ni pomembno / 5 – Zelo je

pomembno

1 2 3 4 5 1 2 3 4 5

Nadzorovano učenje

(Supervised Learning)

Nenadzorovano učenje

(Unsupervised Learning)

Nagrajevalno učenje

(Reinforcement Learning)

Poglobljeno učenje (Deep

Learning)

Obdelava naravnega jezika

(NLP)

Analiza omrežji (Network

Analysis)

V. del: DOMENSKA ZNANJA

a) Vaš nivo znanja:1 – Ne poznam /

2 – Osnove / 3 – Začetnik /4 –

Srednji nivo / 5 – Napredni nivo


Sploh ni pomembno / 5 –

Zelo je pomembno

1 2 3 4 5 1 2 3 4 5

Metodologije npr. AGILE, LEAN,

WATERFALL

Metodologije npr. CRISP-DM,

SEMMA, DMAIC

Specifična znanja iz posameznega

področja, dejavnosti ali domene iz katere

izhaja problem, ki ga rešujem

Poslovna znanja (finance, trženje,

logistika, razvoj izdelka, poznavanje

organizacije, trženjsko raziskovanje)

6. Prosim, ocenite spodnje SPOSOBNOSTI glede na njihovo POMEMBNOST PRI

VAŠEM DELU in vplivu na uspešnost vašega dela, pri čemer pomeni 1 – Sploh ni

pomembno in 5 – Zelo je pomembno.

1 – Sploh ni

pomembno

2 3 4 5 – Zelo je

pomembno

Radovednost glede opazovanih stvari (vzorcev, odnosov,

razmerij).

Analitične sposobnosti.

Postavljati prava vprašanja, definirati problem.

Sposobnost reševanja problemov.

Imeti sposobnost kreativnega mišljenja (angl. thinking outside

10

1 – Sploh ni

pomembno

2 3 4 5 – Zelo je

pomembno

the box).

Biti potrpežljiv in vztrajen.

Podjetniška naravnanost, imeti poslovni čut.

Sposobnost sprejemanja odločitev.

Pogum in samozavest zagovarjati svoje ugotovitve, odločitve.

Strateško razmišljati in načrtovati.

Nameniti pozornost kakovosti.

Voditeljske sposobnosti – imeti sposobnost motiviranja in

navduševanja drugih.

Sposobnost vodenja projektov.

Imeti sposobnost timskega dela.

Imeti dobre komunikacijske sposobnosti.

Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl.

storytelling).

Občutek za umetnost in prakso vizualizacije.

Biti moralen in etičen.

Spoštovati zakone in predpise.

Strast do učenja novih stvari.

Strast do dela s podatki.

7. Prosim, označite vse od spodaj naštetih dejavnosti, s katerimi ste vi osebno že imeli

izkušnje.


Pri svojem delu sem že imel ali imam vodstveno pozicijo (vodja oddelka, ravnanje z

zaposlenimi ipd.)

Opravljal sem pogodbena in/ali svetovalna dela iz mojega področja znanj in

sposobnosti.

Imel sem predavanja na izobraževalni ustanovi in/ali sem svoje delo/znanje predstavil na

konferenci.

Odprl sem svoje podjetje ali sodeloval kot partner/sodelavec pri ustanovitvi podjetja.

Prostovoljno sem sodeloval/svetoval na različnih projektih.

Svoje delo sem objavil v zborniku/knjigi/časopisu ali drugi publikaciji.

Imam svojo spletno stran ali pišem blog.

8. Prosim, označite katerih načinov izobraževanja oziroma pridobivanja znanj in

sposobnosti, povezanih z vašim področjem dela, ste se v preteklosti že poslužili:


Formalna izobrazba – znanja in sposobnosti pridobljena tekom formalnega

izobraževanja.

11

Udeležba na delavnici ali tečaju – s pridobitvijo certifikata.

Udeležba na masovnem odprtem spletnem tečaju (npr. Coursera, Udemy ipd.).

Samostojno izobraževanje: knjige, članki, video vsebine, spletni portali ipd.

Praktično delo na "odprtih podatkih" (angl. open data).

Udeležba na natečaju/tekmovanju (npr. Kaggle.com).

Pripravništvo.

Mentorstvo.

Sodelovanje v družabnih skupinah in srečanjih (angl. community group & meetups –

npr. Big Data Developers Slovenia, Data Science Slovenia).

Udeležba na konferenci.

Drugo:

Nič od naštetega

9. Spol:

Moški

Ženski

10. V katero starostno skupino spadate?

Manj kot 18 let

18 - 25 let

26 - 35 let

36 - 45 let

46 - 55 let

56 let ali več

11. Kakšna je vaša dopolnjena formalna izobrazba?

Osnovna šola ali manj

Poklicna ali štiriletna srednja šola

Višja ali visoka šola

Univerzitetni študij

Magisterij, doktorat, specializacija

12. Kakšna je vaša smer izobrazbe? Prosim izberite prevladujočo smer:

Splošno družboslovje

Ekonomija in poslovne vede

Fizika

Računalništvo

Statistika

12

Matematika

Druge naravoslovne ali tehnične vede

Druge vede

13. V kolikor vas zanimajo rezultati ankete prosim vpišite vašo elektronsko pošto ali

pa mi pišite na [email protected]:

(npr. [email protected])

13

Priloga 4: Spremenljivke in opisi spremenljivk

Tabela 3: Spremenljivke in opisi spremenljivk

Koda Opis Vrednosti Man.

vr.

Merilna

lestvica

Q1

Prosim, označite kakšna je bila največja količina/volumen

podatkov, s katero ste se vi osebno do sedaj ukvarjali (pridobivanje, obdelava, analiza, odločanje):

1-do 1023 KB (kilobajti)

ali manj

2-od 1 MB do 1023 MB (megabajti)

3-od 1 GB do 1023 GB

(gigabajti) 4-od 1 TB do 1023 TB

(terabajti) 5-od 1 PB (petabajti) ali

več

6-ne vem

-99 - -1 Nominalna

Q3a Naprave: Poslovne transakcije (nakupi, zaloge, računi ipd.); spletne metrike iz spletnih dnevnikov; metrike iz nadzora

procesov, senzorjev ipd.

1-je izbral

0-ni izbral -99 - -1 Nominalna

Q3b Naprave: Datum in čas objave na Facebook-u, Twitterju; GPS

podatki o Tweetih/Facebook objavah ipd.

1-je izbral


Q4a Človek: Število všečkov na Facebook-u; število retweet-ov;

ocene na družbenih medijih; spletne sledi (clicks) ipd.

1-je izbral


Q4b Človek: Ocenjevalne lestvice v vprašalnikih (raziskave);

ocenjevanje sposobnosti ipd.

1-je izbral


Q4c

Človek: Vsebina elektronske pošte; vsebina dokumentov

znotraj organizacije; mnenja zaposlenih; komentarji

potrošnikov; zapisi opomb klicnega centra ipd.

1-je izbral 0-ni izbral

-99 - -1 Nominalna

Q4d

Človek: Vsebina komentarjev na spletnih forumih;

blogi, zapisi in komentarji iz družbenih medijev; spletna

iskanja; vsebina SMS sporočil ipd.


-99 - -1 Nominalna

Q4e Človek: Glasovna pošta, korporativni video, slike, ilustracije,

avdio prepisi - iz notranjih virov organizacije ipd.

1-je izbral


Q4f Človek: Slike na Instagramu; video posnetki na YouTube;

avdio komentarji na spletnih mestih ipd.

1-je izbral


Q5 Prosim označite ali ste se vi osebno že kdaj ukvarjali s podatki v realnem času (angl. real time, streaming data)

1-Da

2-Ne

3-Ne vem

-99 - -1 Nominalna

Q6a Koristi: Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše razumevanje potrošnika.


-99 - -1 Nominalna

Q6b Koristi: Povečanje prodaje/prihodkov. 1-je izbral


Q6c Koristi: Boljša kakovost izdelkov ali storitev. 1-je izbral


Q6d Koristi: Bolj učinkovito izvajanje procesov, načina dela,

operacij.

1-je izbral


Q6e Koristi: Inovacije na področju izdelkov in storitev. 1-je izbral


Q6f Koristi: Boljše odločanje na podlagi dejstev. 1-je izbral


Q6g Koristi: Zmanjšanje tveganja. 1-je izbral


Q6h Koristi: Drugo: 1-je izbral


Q6h_text Koristi: Drugo: (tekst)

Nominalna

Q8a_1

I.PROGRAMIRANJE_SAMOOCENA: Zaledno

programiranje (Back End Programming): Java/Rails/.NET/PHP/Ruby/Go lang,idr.

1 - Ne poznam

2 - Osnovno poznavanje

3 – Začetnik 4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

se nadaljuje

14

Tabela 3: Spremenljivke in opisi spremenljivk (nad.)


vr.

Merilna

lestvica

Q8b_1

I.PROGRAMIRANJE_SAMOOCENA: Čelno programiranje

(Front End Programming):

JavaScript/HTML/CSS/jQuery/AJAX, idr.

1 - Ne poznam 2 - Osnovno poznavanje

3 – Začetnik

4 – Srednji nivo 5 – Napredni nivo

-99 - -1 Intervalna

Q8c_1 I.PROGRAMIRANJE_SAMOOCENA: Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr.


3 – Začetnik


-99 - -1 Intervalna

Q8a_2

I.PROGRAMIRANJE_POMEMBNOST: Zaledno

programiranje (Back End Programming): Java/Rails/.NET/PHP/Ruby/Go lang,idr.

1-sploh ni pomembno

5- zelo je pomembno -99 - -1 Intervalna

Q8b_2

I.PROGRAMIRANJE_POMEMBNOST: Čelno

programiranje (Front End Programming):

JavaScript/HTML/CSS/jQuery/AJAX, idr.

1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q8c_2 I.PROGRAMIRANJE_POMEMBNOST: Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr.


-99 - -1 Intervalna

Q9a_1 II.MANAGEMENT_SAMOOCENA: Management podatkov (Data Management)


3 – Začetnik


-99 - -1 Intervalna

Q9b_1 II.MANAGEMENT_SAMOOCENA: Oblikovanje informacij

(vizualizacija)

1 - Ne poznam

2 - Osnovno poznavanje 3 – Začetnik

4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q9c_1

II.MANAGEMENT_SAMOOCENA: Sistemi baz podatkov -

relacijske baze podatkov (RDBMS): DB2, mySQL, SQL

Server, PostgreSQL, idr.


3 – Začetnik

4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q9d_1 II.MANAGEMENT_SAMOOCENA: Delo z delno

strukturiranimi podatki: XML, .JSON

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q9e_1

II.MANAGEMENT_SAMOOCENA: Sistemi baz podatkov -

NoSQL baze podatkov: Cassandra, Hbase, CouchBase, MongoDB, idr.

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q9f_1 II.MANAGEMENT_SAMOOCENA: Poizvedbeni jezik SQL

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q9g_1 II.MANAGEMENT_SAMOOCENA: Masovni in distribuirani

podatki (Hadoop, MapReduce, Hive QL)

1 - Ne poznam


3 – Začetnik

4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q9h_1 II.MANAGEMENT_SAMOOCENA: Sistemska administracija (SSH, *nix, računalništvo v oblaku)

1 - Ne poznam



-99 - -1 Intervalna

Q9a_2 II.MANAGEMENT_POMEMBNOST: Management podatkov (Data Management)


-99 - -1 Intervalna

Q9b_2 II.MANAGEMENT_POMEMBNOST: Oblikovanje informacij (vizualizacija)


-99 - -1 Intervalna

se nadaljuje

15



vr.

Merilna

lestvica

Q9c_2

II.MANAGEMENT_POMEMBNOST: Sistemi baz podatkov

- relacijske baze podatkov (RDBMS): DB2, mySQL, SQL

Server, PostgreSQL, idr.


-99 - -1 Intervalna

Q9d_2 II.MANAGEMENT_POMEMBNOST: Delo z delno strukturiranimi podatki: XML, .JSON


-99 - -1 Intervalna

Q9e_2 II.MANAGEMENT_POMEMBNOST: Sistemi baz podatkov - NoSQL baze podatkov: Cassandra, Hbase, CouchBase,

MongoDB, idr.

1-sploh ni pomembno


Q9f_2 II.MANAGEMENT_POMEMBNOST: Poizvedbeni jezik

SQL

1-sploh ni pomembno


Q9g_2 II.MANAGEMENT_POMEMBNOST: Masovni in

distribuirani podatki (Hadoop, MapReduce, Hive QL)

1-sploh ni pomembno


Q9h_2 II.MANAGEMENT_POMEMBNOST: Sistemska

administracija (SSH, *nix, računalništvo v oblaku)

1-sploh ni pomembno


Q10a_1 III.STATISTIKA_SAMOOCENA: Znanstvena metoda

(Scientific method)

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q10b_1

III.STATISTIKA_SAMOOCENA: Opisna statistika in

verjetnostne porazdelitve (Descriptive Statistics and



3 – Začetnik


-99 - -1 Intervalna

Q10c_1 III.STATISTIKA_SAMOOCENA: Statistično preizkušanje

domnev (Inferential Statistics)

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q10d_1 III.STATISTIKA_SAMOOCENA: Redukcija dimenzij

(Dimension Reduction): PCA, faktorska analiza


3 – Začetnik


-99 - -1 Intervalna

Q10e_1 III.STATISTIKA_SAMOOCENA: Regresijska analiza

(Regression)

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q10f_1 III.STATISTIKA_SAMOOCENA: Statistika časovnih vrst (Temporal Statistics)


3 – Začetnik


-99 - -1 Intervalna

Q10g_1 III.STATISTIKA_SAMOOCENA: Prostorska statistika

(Spatial statistics)

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q10h_1 III.STATISTIKA_SAMOOCENA: Simulacije (Simulations),

npr. Monte Carlo

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q10i_1 III.STATISTIKA_SAMOOCENA: Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,

manipulacija matrik

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q10j_1 III.STATISTIKA_SAMOOCENA: Optimizacija

(Optimization)

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

se nadaljuje

16



vr.

Merilna

lestvica

Q10a_2 III.STATISTIKA_POMEMBNOST: Znanstvena metoda (Scientific method)


-99 - -1 Intervalna

Q10b_2

III.STATISTIKA_POMEMBNOST: Opisna statistika in

verjetnostne porazdelitve (Descriptive Statistics and



-99 - -1 Intervalna

Q10c_2 III.STATISTIKA_POMEMBNOST: Statistično preizkušanje

domnev (Inferential Statistics)

1-sploh ni pomembno


Q10d_2 III.STATISTIKA_POMEMBNOST: Redukcija dimenzij

(Dimension Reduction): PCA, faktorska analiza

1-sploh ni pomembno


Q10e_2 III.STATISTIKA_POMEMBNOST: Regresijska analiza

(Regression)

1-sploh ni pomembno


Q10f_2 III.STATISTIKA_POMEMBNOST: Statistika časovnih vrst

(Temporal Statistics)

1-sploh ni pomembno


Q10g_2 III.STATISTIKA_POMEMBNOST: Prostorska statistika (Spatial statistics)


-99 - -1 Intervalna

Q10h_2 III.STATISTIKA_POMEMBNOST: Simulacije (Simulations), npr. Monte Carlo


-99 - -1 Intervalna

Q10i_2 III.STATISTIKA_POMEMBNOST: Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,

manipulacija matrik

1-sploh ni pomembno


Q10j_2 III.STATISTIKA_POMEMBNOST: Optimizacija

(Optimization)

1-sploh ni pomembno


Q11a_1 IV.STROJNO UČENJE_SAMOOCENA: Nadzorovano

učenje (Supervised Learning)

1 - Ne poznam



-99 - -1 Intervalna

Q11b_1 IV.STROJNO UČENJE_SAMOOCENA: Nenadzorovano

učenje (Unsupervised Learning)

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q11c_1 IV.STROJNO UČENJE_SAMOOCENA: Nagrajevalno učenje (Reinforcement Learning)


3 – Začetnik


-99 - -1 Intervalna

Q11d_1 IV.STROJNO UČENJE_SAMOOCENA: Poglobljeno učenje

(Deep Learning)

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q11e_1 IV.STROJNO UČENJE_SAMOOCENA: Obdelava naravnega jezika (NLP)


3 – Začetnik


-99 - -1 Intervalna

Q11f_1 IV.STROJNO UČENJE_SAMOOCENA: Analiza omrežji

(Network Analysis)

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q11a_2 IV.STROJNO UČENJE_POMEMBNOST: Nadzorovano

učenje (Supervised Learning)

1-sploh ni pomembno


Q11b_2 IV.STROJNO UČENJE_POMEMBNOST: Nenadzorovano

učenje (Unsupervised Learning)

1-sploh ni pomembno


Q11c_2 IV.STROJNO UČENJE_POMEMBNOST: Nagrajevalno

učenje (Reinforcement Learning)

1-sploh ni pomembno


se nadaljuje

17



vr.

Merilna

lestvica

Q11d_2 IV.STROJNO UČENJE_POMEMBNOST: Poglobljeno učenje (Deep Learning)


-99 - -1 Intervalna

Q11e_2 IV.STROJNO UČENJE_POMEMBNOST: Obdelava naravnega jezika (NLP)


-99 - -1 Intervalna

Q11f_2 IV.STROJNO UČENJE_POMEMBNOST: Analiza omrežji

(Network Analysis)

1-sploh ni pomembno


Q12a_1 V.DOMENSKA ZNANJA_SAMOOCENA: Metodologije npr. AGILE, LEAN, WATERFALL


3 – Začetnik


-99 - -1 Intervalna

Q12b_1 V.DOMENSKA ZNANJA_SAMOOCENA: Metodologije

npr. CRISP-DM, SEMMA, DMAIC

1 - Ne poznam



5 – Napredni nivo

-99 - -1 Intervalna

Q12c_1

V.DOMENSKA ZNANJA_SAMOOCENA: Specifična znanja

iz posameznega področja, dejavnosti ali domene iz katere

izhaja problem, ki ga rešujem


3 – Začetnik


-99 - -1 Intervalna

Q12d_1 V.DOMENSKA ZNANJA_SAMOOCENA: Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje

organizacije, trženjsko raziskovanje)

1 - Ne poznam


4 – Srednji nivo

5 – Napredni nivo

-99 - -1 Intervalna

Q12a_2 V.DOMENSKA ZNANJA_POMEMBNOST: Metodologije

npr. AGILE, LEAN, WATERFALL

1-sploh ni pomembno


Q12b_2 V.DOMENSKA ZNANJA_POMEMBNOST: Metodologije

npr. CRISP-DM, SEMMA, DMAIC

1-sploh ni pomembno


Q12c_2

V.DOMENSKA ZNANJA_POMEMBNOST: Specifična

znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem

1-sploh ni pomembno


Q12d_2

V.DOMENSKA ZNANJA_POMEMBNOST: Poslovna

znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje)

1-sploh ni pomembno


Q13a SPOSOBNOST: Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij).


-99 - -1 Intervalna

Q13b SPOSOBNOST: Analitične sposobnosti. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q13c SPOSOBNOST: Postavljati prava vprašanja, definirati

problem.

1-sploh ni pomembno


Q13d SPOSOBNOST: Sposobnost reševanja problemov. 1-sploh ni pomembno


Q13e SPOSOBNOST: Imeti sposobnost kreativnega mišljenja (angl.

thinking outside the box).

1-sploh ni pomembno


Q13f SPOSOBNOST: Biti potrpežljiv in vztrajen. 1-sploh ni pomembno


Q13g SPOSOBNOST: Podjetniška naravnanost, imeti poslovni čut. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q13h SPOSOBNOST: Sposobnost sprejemanja odločitev. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q13i SPOSOBNOST: Pogum in samozavest zagovarjati svoje

ugotovitve, odločitve.

1-sploh ni pomembno


Q13j SPOSOBNOST: Strateško razmišljati in načrtovati. 1-sploh ni pomembno


se nadaljuje

18



vr.

Merilna

lestvica

Q13k SPOSOBNOST: Nameniti pozornost kakovosti. 1-sploh ni pomembno


Q13l SPOSOBNOST: Voditeljske sposobnosti - imeti sposobnost

motiviranja in navduševanja drugih.

1-sploh ni pomembno


Q13m SPOSOBNOST: Sposobnost vodenja projektov. 1-sploh ni pomembno


Q13n SPOSOBNOST: Imeti sposobnost timskega dela. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q13o SPOSOBNOST: Imeti dobre komunikacijske sposobnosti. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q13p SPOSOBNOST: Sposobnost pripovedovanja zgodbe na

podlagi podatkov (angl. storytelling).

1-sploh ni pomembno


Q13q SPOSOBNOST: Občutek za umetnost in prakso vizualizacije. 1-sploh ni pomembno


Q13r SPOSOBNOST: Biti moralen in etičen. 1-sploh ni pomembno


Q13s SPOSOBNOST: Spoštovati zakone in predpise. 1-sploh ni pomembno


Q13t SPOSOBNOST: Strast do učenja novih stvari. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q13u SPOSOBNOST: Strast do dela s podatki. 1-sploh ni pomembno 5- zelo je pomembno

-99 - -1 Intervalna

Q14a IZKUŠNJE: Pri svojem delu sem že imel ali imam vodstveno

pozicijo (vodja oddelka, ravnanje z zaposlenimi ipd.)

1-je izbral


Q14b IZKUŠNJE: Opravljal sem pogodbena in/ali svetovalna dela iz

mojega področja znanj in sposobnosti.

1-je izbral


Q14c IZKUŠNJE: Imel sem predavanja na izobraževalni ustanovi

in/ali sem svoje delo/znanje predstavil na konferenci.

1-je izbral


Q14d IZKUŠNJE: Odprl sem svoje podjetje ali sodeloval kot

partner/sodelavec pri ustanovitvi podjetja.

1-je izbral


Q14e IZKUŠNJE: Prostovoljno sem sodeloval/svetoval na različnih projektih.


-99 - -1 Nominalna

Q14f IZKUŠNJE: Svoje delo sem objavil v zborniku/knjigi/časopisu ali drugi publikaciji.


-99 - -1 Nominalna

Q14g IZKUŠNJE: Imam svojo spletno stran ali pišem blog. 1-je izbral 0-ni izbral

-99 - -1 Nominalna

Q15a IZOBRAŽEVANJE: Formalna izobrazba - znanja in

sposobnosti pridobljena tekom formalnega izobraževanja.

1-je izbral


Q15b IZOBRAŽEVANJE: Udeležba na delavnici ali tečaju - s pridobitvijo certifikata.


-99 - -1 Nominalna

Q15c IZOBRAŽEVANJE: Udeležba na masovnem odprtem

spletnem tečaju (npr. Coursera, Udemy ipd.).

1-je izbral


Q15d IZOBRAŽEVANJE: Samostojno izobraževanje: knjige,

članki, video vsebine, spletni portali ipd.

1-je izbral


Q15e IZOBRAŽEVANJE: Praktično delo na "odprtih podatkih"

(angl. open data).

1-je izbral


Q15f IZOBRAŽEVANJE: Udeležba na natečaju/tekmovanju (npr.

Kaggle.com).

1-je izbral


Q15g IZOBRAŽEVANJE: Pripravništvo. 1-je izbral


Q15h IZOBRAŽEVANJE: Mentorstvo. 1-je izbral 0-ni izbral

-99 - -1 Nominalna

se nadaljuje

19



vr.

Merilna

lestvica

Q15i IZOBRAŽEVANJE: Sodelovanje v družabnih skupinah in srečanjih (angl. community group & meetups - npr. Big

Data Developers Slovenia, Data Science Slovenia).

1-je izbral


Q15j IZOBRAŽEVANJE: Udeležba na konferenci. 1-je izbral


Q15k IZOBRAŽEVANJE: Drugo: 1-je izbral


Q15k_text IZOBRAŽEVANJE: Drugo: (tekst)

Nominalna

XSPOL Spol: 1-Moški 2-Ženski

-99 - -1 Nominalna

Q16 V katero starostno skupino spadate?

1- Manj kot 18 let

2- 18-25 let

3- 26-35 let 4- 36-45 let

5- 46-55 let

6- 56 let ali več

-99 - -1 Ordinalna

Q17 Kakšna je vaša dopolnjena formalna izobrazba?

1- Osnovna šola ali manj

2- Poklicna ali štiriletna

srednja šola 3- Višja ali visoka šola

4- Univerzitetni študij

5- Magisterij, doktorat, specializacija

-99 - -1 Ordinalna

Q18 Kakšna je vaša smer izobrazbe? Prosim izberite prevladujočo

smer:

1- Splošno družboslovje

2- Ekonomija in poslovne vede

3- Fizika

4- Računalništvo 5- Statistika

6- Druge naravoslovne

ali tehnične vede 7- Druge vede

-99 - -1 Nominalna

20

Priloga 5: Frekvenčne porazdelitve samoocene in pomembnosti znanj in sposobnosti

Slika 1: Samoocena znanj (n = 87–91)

21

Slika 2: Pomembnost znanj (n = 84–91)

22

Slika 3: Pomembnost sposobnosti (n = 90–92)

23

Priloga 6: Dendogram – razvrščanje na podlagi samoocene znanj

Slika 4: Dendogram – razvrščanje na podlagi samoocene znanj

24

Priloga 7: Dendogram – razvrščanje na podlagi pomembnosti znanj in sposobnosti

Slika 5: Dendogram – razvrščanje na podlagi pomembnosti znanj in sposobnosti

25

Priloga 8: Razvrščanje v skupine na podlagi samoocene znanj

Na podlagi rezultatov hierahičnega razvrščanja so se za smiselne izkazale rešitve s 4, 5 ali

6 skupinami. Značilen prelom (»koleno«) se namreč pojavi pri teh treh skupinah, kar na

splošno označuje rešitev glede števila skupin, saj predstavlja točko, kjer se zgodi dodatna

kombinacija dveh enot ali skupin pri zelo povečani razdalji med skupinama.

Slika 6: Scree plot – Samoocena znanj (n = 83)

Pregled dendograma (Priloga 6) narekuje možne rešitve glede števila skupin v 3, 4, ali 5

skupin. Na podlagi izračuna VRC Calinski in Harabasz (Tabela 4) pa sta se kot ustrezni

rešitvi glede števila skupin izkazali razvrstitvi v 4 ali 5 skupin, saj imata najnižjo vrednost

ωk.

Tabela 4: Rezultati VRC Calinski in Harabasz za razvrščanje v 2 – 8 skupin – Samoocena

znanj

Število skupin VRC ωk

2 862,004

3 669,381 164,290

4 641,047 -50,095

5 562,620 2,036

6 486,228 35,870

7 445,708 18,303

8 423,490

Odločila sem se za nadaljevanje analize z razvrstitvijo v 4 ali 5 skupin.

26

Pri razvrstitvi v 4 skupine je bilo največ enot (31) razvrščenih v skupino poimenovano C1,

kar predstavlja 37 % vseh enot. Najmanj enot (12) pa je bilo razporejenih v skupino

poimenovano C2, kar predstavlja 15 % vseh enot. Skupini C4 in C5 vsebujeta enako

število enot (20). Pri razvrstitvi v 5 skupin je razporeditev enot v skupine bolj

enakovredna. Največ enot (19) je bilo razvrščenih v skupino poimenovano C5, kar

predstavlja 23 % vseh enot. Sledita skupini C2 in C4 z 18 enotami (22 %) ter skupina C1 z

16 enotami (19 %). Najmanj enot (12) je bilo razvrščenih v skupino C3, kar predstavlja 14

% vseh enot.

Slika 7: Število enot v posamezni skupini pri razvrstitvi v 4 in 5 skupin – Samoocena znanj

(n = 83)

Pri obeh razvrščanjih v skupine je preizkus o domnevi enakosti varianc (Priloga 10) med

identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi

samoocenami znanj med vsaj dvema skupinama, razen pri področju Poslovna znanja

(finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko

raziskovanje).

Slika 8: Centroidi skupin pri razvrstitvi v 4 skupine – Samoocena znanj (n = 83)

27

Slika 9: Centroidi skupin pri razvrstitvi v 5 skupin – Samoocena znanj (n = 83)

Z namenom izbora ustreznega števila skupin sem se odločila za kvalitativno primerjavo

obeh razvrstitev. Kvalitativna analiza je vključevala pregled nad razvrščanjem posameznih

enot v skupine ter vizualno primerjavo centroidov posameznih spremenljivk pri razvrstitvi

v 4 ali 5 skupin. Na podlagi pregleda razvrščenih enot v posamezne skupine in primerjave

centroidov spremenljivk sem ugotovila, da:

Sta si skupini C5 (razvrščanje v 5 skupin) in C4 (razvrščanje v 4 skupine) skoraj v

celoti enaki glede enot, ki so razvrščene v vsako skupino. 19 enot iz teh dveh skupin je

popolnoma enakih v obeh, 1 enota pa je bila v sklopu razvrščanja v 5 skupin razvrščena

v C2. Tudi iz primerjave centroidov je razvidno, da sta si C5 (razvrščanje v 5 skupin)

in C4 (razvrščanje v 4 skupine) skoraj popolnoma enaki glede značilnosti.

Sta si skupini skupini C4 (razvrščanje v 5 skupin) in C3 (razvrščanje v 4 skupine)

skoraj v celoti enaki glede enot, ki so razvrščene v vsako skupino. 18 enot iz teh dveh

skupin je popolnoma enakih v obeh, 2 enoti pa sta bili v sklopu razvrščanja v 5 skupin

razvrščeni v C1. Tudi iz primerjave centroidov je razvidno, da sta si C4 (razvrščanje v

5 skupin) in C3 (razvrščanje v 4 skupine) skoraj popolnoma enaki glede značilnosti.

Sta si skupini C3 (razvrščanje v 5 skupin) in C2 (razvrščanje v 4 skupine) v celoti enaki

glede enot, ki so razvrščene v vsako skupino. Torej vseh 12 enot je v obeh primerih

razvrščanja bilo razvrščenih v eno samo skupino. Tudi iz primerjave centroidov je

razvidno, da sta si C3 (razvrščanje v 5 skupin) in C2 (razvrščanje v 4 skupine)

popolnoma enaki glede značilnosti.

skupina C1 (razvrščanje v 4 skupine) skoraj v celoti vključuje vse enote iz skupin C1 in

C2 iz razvrščanja v 5 skupin. To pomeni, da je C1 (razvrščanje v 5 skupin) nova

skupina, ki je pri razvrščanju v 4 skupine ni bilo. Na podlagi primerjave centroidov je

razvidno, da C1 (razvrščanje v 5 skupin) vključuje enote z visoko povprečno oceno pri

28

Oblikovanju informacij (vizualizacija), Opisna statistika in verjetnostne porazdelitve

ter Poslovna znanja. Skupina C2 (razvrščanje v 5 skupin) pa vključuje enote z visoko

povprečno oceno pri Relacijske baze podatkov (RDBMS), Poizvedbenei jeziku SQL,

Specifičnia znanja iz posameznega področja ter Poslovna znanja.

Z vidika kvantitativne analize izbora primernega števila skupin za razvrstitev enot sem

primerjala tudi razdalje enot v vsaki skupini od centroida skupine za razvrstitev v 4 in 5

skupin.

Razvidno je, da je pri razvrstitvi v 4 skupine simetrična porazdelitev pri skupini C1, C3 in

C4. Pri skupini C2 pa je porazdelitev razdalj od centroidov asimetrična v desno, kar

pomeni, da je 25 % enot precej daleč od centroida skupine. Razvrstitev v 4 skupine

vključuje v vsaki skupini določeno mero variabilnosti, še najmanj variabilnosti je v skupini

4, kjer pa sta tudi dva osamelca. Osamelec se prav tako pojavi v skupini C1.

Pri razvrstitvi v 5 skupin pa je mogoče ugotoviti, da gre za simetrično porazdelitev pri

skupinah C1, C4 in C5. Porazdelitev pri skupini C2 je asimetrična v levo, pri skupini C3 pa

je asimetrična v desno. Skupina C2 ima sicer najmanjšo variabilnost, vendar je v njen

največ osamelcev skupaj z enim ekstremnim osamelcem. Osamelci se pojavijo tudi v

skupini C5, ki pa ima tudi manjšo variabilnost v primerjavi s skupinama C3 in C4. Na

splošno je razvrstitev v 5 skupin boljša, saj je variabilnost znotraj skupin manjša.

Slika 10: Prikaz razdalje enot od centroida skupine za razvrstitev v 4 in 5 skupin –

Samoocena znanj (n = 83)

29

Priloga 9: Razvrščanje v skupine na podlagi pomembnost znanj in sposobnosti

Na podlagi rezultatov hierahičnega razvrščanja so se za smiselne izkazale rešitve s 3, 4, 5

ali 6 skupinami. Značilen prelom (»koleno«) se namreč pojavi pri teh štirih skupinah, kar

na splošno označuje rešitev glede števila skupin, saj predstavlja točko, kjer se zgodi

dodatna kombinacija dveh enot ali skupin pri zelo povečani razdalji med skupinama.

Slika 11: Scree plot – Pomembnost znanj in sposobnosti (n = 68)

Pregled dendograma (Priloga 7) narekuje možne rešitve glede števila skupin v 2, 3, 4, ali 5

skupin. Na podlagi izračuna VRC Calinski in Harabasz (Tabela 5) pa so so kot ustrezne

rešitve glede števila skupin izkazale razvrstitve v 3, 4 ali 5 skupin, saj imajo najnižjo

vrednost ωk.

Tabela 5: Rezultati VRC Calinski in Harabasz za razvrščanje v 2 – 8 skupin – Pombemnost

znanj in sposobnosti (n = 68)

Število skupin VRC ωk

2 399,4

3 416,4 11,7

4 445,0 28,7

5 502,4 38,9

6 598,7 79,3

7 774,2 105,0

8 1054,7

Odločila sem se za nadaljevanje analize z razvrstitvijo v 3, 4 ali 5 skupin. Pri razvrstitvi v 3

skupine je bilo največ enot (27) razvrščenih v skupino, poimenovano C1, kar predstavlja

40 % vseh enot. V skupino C2 je bilo razvrščenih 23 enot, kar predstavlja 34 % vseh enot.

Najmanj enot (18) pa je bilo razporejenih v skupino, poimenovano C2, kar predstavlja 26

% vseh enot. Pri razvrstitvi v 4 skupine je bilo največ enot (29) razvrščenih v skupino,

poimenovano C1, kar predstavlja 43 % vseh enot. Najmanj enot (9) pa je bilo razporejenih

30

v skupino, poimenovano C4, kar predstavlja 13 % vseh enot. Skupini C2 in C3 vsebujeta

enako število enot (15). Pri razvrstitvi v 5 skupin je razporeditev enot v skupine bolj

enakovredna. Največ enot (17) je bilo razvrščenih v skupino, poimenovano C3, kar

predstavlja 25 % vseh enot. Sledita skupini C2 in C4 s 15 enotami (22 %) ter skupina C1 z

12 enotami (18 %). Najmanj enot (9) je bilo razvrščenih v skupino C5, kar predstavlja 13

% vseh enot.

Slika 12: Število enot v posamezni skupini pri razvrstitvi v 3, 4 in 5 skupin – Pomembnost

znanj in sposobnosti (n = 68)

Slika 13: Centroidi skupin pri razvrstitvi v 3 skupine – Pomembnost znanj in sposobnosti

(n = 68)

31

Slika 14: Centroidi skupin pri razvrstitvi v 4 skupine – Pomembnost znanj in sposobnosti

(n = 68)

Slika 15: Centroidi skupin pri razvrstitvi v 5 skupin – Pomembnost znanj in sposobnosti (n

= 68)

32

Pri razvrščanju v 5 skupin je preizkus o domnevi enakosti varianc (priloga 10) med

identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi ocenami

vseh pomembnosti znanj in sposobnosti med vsaj dvema skupinama (pri zanemarljivi

stopnji značilnosti), razen pri Čelno programiranje, Poslovna znanja ter sposobnostih »Biti

potrpežljiv in vztrajen«, »Podjetniška naravnanost, imeti poslovi čut«, »Pogum in

samozavest zagovarjati svoje ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti

sposobnost motiviranja in navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti

moralen in etičen.« in »Spoštovati zakone in predpise.«. Pri razvrščanju v 4 skupine je

preizkus o domnevi enakosti varianc (priloga 10) med identificiranimi skupinami pokazal

statistično značilne razlike med povprečnimi ocenami vseh pomembnosti znanj in

sposobnosti med vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti), razen pri

Zaledno programiranje, Čelno programiranje, Sistemska administracija, Poslovna znanja

ter sposobnostih »Biti potrpežljiv in vztrajen«, »Pogum in samozavest zagovarjati svoje

ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti sposobnost motiviranja in

navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti moralen in etičen.« in

»Spoštovati zakone in predpise« in »Nameniti pozornost kakovosti«. Pri razvrščanju v 3

skupine je preizkus o domnevi enakosti varianc (priloga 10) med identificiranimi

skupinami pokazal statistično značilne razlike med povprečnimi ocenami vseh

pomembnosti znanj in sposobnosti med vsaj dvema skupinama (pri zanemarljivi stopnji

značilnosti), razen pri Čelno programiranje, Sistemska administracija, Poslovna znanja ter

pri skoraj vseh sposobnostih (razen pri »Radovednost glede opazovanih stvari (vzorcev,

odnosov, razmerij)«, »Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl.

storytelling)« ter »Strast do dela s podatki«).

Z namenom izbora ustreznega števila skupin sem se odločila za kvalitativno primerjavo

vseh treh razvrstitev. Kvalitativna analiza je vključevala pregled nad razvrščanjem

posameznih enot v skupine ter vizualno primerjavo centroidov posameznih spremenljivk

pri razvrstitvi v 3, 4 ali 5 skupin. Na podlagi pregleda razvrščenih enot v posamezne

skupine in primerjave centroidov spremenljivk sem ugotovila, da:

Sta si razvrstitvi v 4 skupine ali 5 skupin glede tega, katere enote so bile razvrščene v

skupine, popolnoma enaki z izjemo, da je razvrstitev v 5 skupin skupino C1 iz

razvrstitve v 4 skupine, dodatno razdelila v 2 skupini (C1 in C3). Torej enaka situacija,

kot je bila identificirana že pri razvrščanju enot glede na samooceno znanj. Tudi iz

primerjave centroidov je razvidno, da so si skupine C2 (razvrščanje v 5 skupin) in C2

(razvrščanje v 4 skupine), C4 (razvrščanje v 5 skupin) in C3 (razvrščanje v 4 skupine)

ter C5 (razvrščanje v 5 skupin) in C4 (razvrščanje v 4 skupine) popolnoma enake glede

značilnosti.

Razvrstitev v 3 skupine vsebuje posamezne enote iz različnih skupin pri razvrščanju v

4 ali 5 skupin. To pomeni, da zaradi manjšega števila skupin določene enote niso

razporejene v drugo skupino, kot bi bile pri razvrščanju v 4 ali 5 skupin, kar zmanjša

možnost identifikacije ustreznih skupin ter omeji interpretacijo.

33

Z vidika kvantitativne analize izbora primernega števila skupin za razvrstitev enot sem

primerjala tudi razdalje enot v vsaki skupini od centroida skupine za razvrstitev v 3, 4 in 5

skupin. Razvidno je, da je pri razvrstitvi v 3 skupine simetrična porazdelitev pri skupinah

C1 in C2. Pri skupini C3 pa je porazdelitev razdalj od centroidov asimetrična v desno, kar

pomeni, da je 25 % enot malce dlje stran od centroida skupine, vendar še vedno v

smiselnem obsegu. Razvrstitev v 3 skupine vključuje v vsaki skupini določeno mero

variabilnosti, ki so si med seboj precej podobne. Osamelci se ne pojavijo. Razvidno je, da

je pri razvrstitvi v 4 skupine simetrična porazdelitev pri skupini C1, C3 in C4. Pri skupini

C2 pa je porazdelitev razdalj od centroidov rahlo asimetrična v levo, kar pomeni, da je 25

% enot precej blizu centroida skupine, preostalih 75 % pa dlje. Razvrstitev v 4 skupine

vključuje v vsaki skupini določeno mero variabilnosti, pri skupinah C3 in C4 se

variabilnost zmanjša v primerjavi z razvrstitvijo v 3 skupine. Osamelcev ni v nobeni od

skupin. Pri razvrstitvi v 5 skupin je razvidno, da obstaja simetrična porazdelitev pri

skupinah C2, C3, C4 in C5. Pri skupini C1 je porazdelitev razdalj od centroidov

asimetrična v desno, kar pomeni, da je 25 % enot precej daleč centroida skupine, preostalih

75 % pa blizu. Variabilnost je najmanjša v skupini C1, C4 in C5, največja pa v skupinah

C2 in C3. Osamelec je opaziti v skpini C1, vendar še vedno v razumnem obsegu od

centroida. Razvrstitev v 5 skupin pri nekaterih skupinah zmanjša variabilnost med

skupinami v primerjavi z razvrščanjem v 3 skupine.

Slika 16: Prikaz razdalje enot od centroida skupine za razvrstitev v 3, 4 in 5 skupin –

Pomembnost znanj in sposobnosti (n = 68)

34

Priloga 10: Pomembni statistični preizkusi

Volumen podatkov

Tabela 6: Volumen podatkov (n = 92)

Prosim, označite kakšna je bila največja količina/volumen podatkov, s katero ste se vi osebno do sedaj

ukvarjali (pridobivanje, obdelava, analiza, odločanje):

Volumen podatkov Frekvence % Veljaven % Kumulativen

%

do 1023 KB (kilobajti) ali manj 1 1,1 1,1 1,1

od 1 MB do 1023 MB (megabajti) 20 21,7 21,7 22,8

od 1 GB do 1023 GB (gigabajti) 41 44,6 44,6 67,4

od 1 TB do 1023 TB (terabajti) 22 23,9 23,9 91,3

od 1 PB (petabajti) ali več 1 1,1 1,1 92,4

Ne vem 7 7,6 7,6 100,0

Skupaj 92 100,0 100,0

Domneva: anketiranci so najbolj pogosto izbrali GB. S statističnim preizkusom hi-kvadrat

želim preveriti, ali obstaja razlika med dejanskimi in pričakovanimi (teoretičnimi)

frekvencami.

Preizkus: hi-kvadrat

H0: med dejanskimi in pričakovanimi frekvencami ni razlik

H1: med dejanskimi in pričakovanimi frekvencami so statistično značilne razlike

Sklep: na podlagi vzorčnih podatkov in hi-kvadrat preizkusa lahko zavrnem ničelno

domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da

obstajajo statistično značilne razlike med dejanskimi in pričakovanimi frekvencami. Trdim

lahko, da so anketiranci najpogosteje izbrali GB kot največji volumen podatkov, ki so ga

do sedaj obdelali.

Raznolikost podatkov

Domneva: anketiranci so najbolj pogosto izbrali poslovne transakcije. S statističnim

preizkusom Cochran Q želim preveriti, ali so anketiranci dejansko različno izbirali s

kakšnimi tipi/viri podatkov so se že ukvarjali.

Preizkus: Cochran Q

H0: frekvence izbranih tipov/virov podatkov so enake glede na izbrane tipe/vire podatkov.

H1: frekvence izbranih tipov/virov podatkov niso enake glede na izbrane tipe/vire

podatkov.

35

Tabela 7: Raznolikost podatkov (n = 92)

Raznolikost podatkov Vrednost

Ni izbral Je izbral

Naprave: Poslovne transakcije (nakupi, zaloge, računi ipd.); spletne metrike

iz spletnih dnevnikov; metrike iz nadzora procesov, senzorjev ipd. 9 83

Naprave: Datum in čas objave na Facebook-u, Twitterju; GPS podatki o

Tweetih/Facebook objavah ipd. 61 31

Človek: Število všečkov na Facebooku; število retweetov; ocene na

družbenih medijih; spletne sledi (clicks) ipd. 61 31

Človek: Ocenjevalne lestvice v vprašalnikih (raziskave); ocenjevanje

sposobnosti ipd. 33 59

Človek: Vsebina elektronske pošte; vsebina dokumentov znotraj organizacije;

mnenja zaposlenih; komentarji potrošnikov; zapisi opomb klicnega centra

ipd.

60 32

Človek: Vsebina komentarjev na spletnih forumih; blogi, zapisi in

komentarji iz družbenih medijev; spletna iskanja; vsebina SMS sporočil ipd. 67 25

Človek: Glasovna pošta, korporativni video, slike, ilustracije, avdio prepisi -

iz notranjih virov organizacije ipd. 84 8

Človek: Slike na Instagramu; video posnetki na YouTube; avdio komentarji

na spletnih mestih ipd. 85 7

Tabela 8: Rezultat preizkusa – Raznolikost podatkov (n = 92)

Testna statistika

N 92

Cochran's Q 227,005a

df 7

Stopnja značilnosti 0,000

Sklep: na podlagi vzorčnih podatkov in Cochran Q preizkusa lahko zavrnem ničelno


obstajajo razlike v frekvencah med tipi/viri podatkov, s katerimi so se anketiranci že

ukvarjali. Potrdim lahko, da so anketiranci najpogosteje izbrali poslovne transakcije kot

tip/vir podatkov, s katerim so se ukvarjali.

Raznolikost podatkov – agregirano

Domneva: anketiranci se bolj pogosto ukvarjajo s podatki, generiranimi s strani naprav kot

človeka. S statističnim preizkusom Cochran Q želim preveriti, ali so anketiranci dejansko

različno izbirali s kakšnimi tipi/viri podatkov so se že ukvarjali.

Preizkus: Cochran Q



podatkov.

36

Tabela 9: Raznolikost podatkov, agregirano glede na vir (naprava, človek) (n = 92)

Frekvence


Ni izbral Je izbral

Podatki generirani s strani naprav 3 89

Podatki generirani s strani človeka 19 73

Tabela 10: Rezultat preizkusa, agregirano glede na vir (naprava, človek) (n = 92)

Testna statistika

N 92

Cochran's Q 11,636

df 1





ukvarjali. Trdim lahko, da so se več ukvarjali s podatki, generiranimi s strani naprav kot

človeka.

Tabela 11: Raznolikost podatkov, agregirano glede na vir (notranji, zunanji) (n = 92)

Frekvence


Ni izbral Je izbral

Podatki iz notranjih virov 2 90

Podatki iz zunanjih virov 48 44

Domneva: anketiranci se bolj pogosto ukvarjajo s podatki iz notranjih virov kot zunanjih

virov. S statističnim preizkusom Cochran Q želim preveriti, ali so anketiranci dejansko

različno izbirali s kakšnimi tipi/viri podatkov so se že ukvarjali.

Tabela 12: Rezultat preizkusa, agregirano glede na vir (notranji, zunanji) (n = 92)

Testna statistika

N 92

Cochran's Q 42,320a

df 1


Preizkus: Cochran Q


37


podatkov.




ukvarjali. Trdim lahko, da so se več ukvarjali s podatki iz notranjih virov kot podatki iz

zunanjih virov.

Tabela 13: Raznolikost podatkov, agregirano glede na tip (strukturirani, nestrukturirani)

(n = 92)

Frekvence


Ni izbral Je izbral

Strukturirani podatki 0 92

Nestrukturirani podatki 46 46

Domneva: anketiranci se bolj pogosto ukvarjajo s strukturianimi podatki kot z

nestrukturiranimi podatki. S statističnim preizkusom Cochran Q želim preveriti, ali so

anketiranci dejansko različno izbirali s kakšnimi tipi/viri podatkov so se že ukvarjali.

Preizkus: Cochran Q



podatkov.

Tabela 14: Rezultat preizkusa, agregirano glede na tip (strukturirani, nestrukturirani) (n =

92)

Testna statistika

N 92

Cochran's Q 46,000a

df 1





ukvarjali. Trdim lahko, da so se več ukvarjali s strukturiranimi podatki kot

nestrukturiranimi podatki.

38

Hitrost podatkov

Tabela 15: Hitrost podatkov (n = 92)

Prosim označite, ali ste se vi osebno že kdaj ukvarjali s podatki v realnem času (angl. real time,

streaming data):

Odgovor Frekvence % Veljaven % Kumulativen %

Da 44 47,8 47,8 47,8

Ne 44 47,8 47,8 95,7

Ne vem 4 4,3 4,3 100,0

Skupaj 92 100,0 100,0

Na podlagi frekvenčnih porazdelitev ne morem trditi, da bi se manj anketirancev ukvarjalo

s podatki v realnem času, saj sta odstotka za odgovor »DA« in »NE« enaka.

Vrednost podatkov

Tabela 16: Vrednost podatkov (n = 92)

Frekvence

Vrednost podatkov Vrednosti

Ni izbral Je izbral

Izboljšanje izkušnje potrošnika/uporabnika oz. boljše razumevanje potrošnika. 25 67

Povečanje prodaje/prihodkov. 31 61

Boljša kakovost izdelkov ali storitev. 37 55

Bolj učinkovito izvajanje procesov, načina dela, operacij. 31 61

Inovacije na področju izdelkov in storitev. 56 36

Boljše odločanje na podlagi dejstev. 16 76

Zmanjšanje tveganja. 45 47

Drugo: 90 2

Domneva: anketiranci so največkrat izbrali »Boljše odločanje na podlagi dejstev« kot

najbolj otipljivo korist dela s podatki. S statističnim preizkusom Cochran Q želim preveriti,

ali so anketiranci dejansko različno izbirali otipljive koristi, povezane z delom s podatki.

Preizkus: Cochran Q

H0: frekvence izbranih koristi so enake glede na posamezne koristi.

H1: frekvence izbranih koristi niso enake glede na posamezne koristi.

Tabela 17: Rezultat preizkusa –Vrednost podatkov (n = 92)

Testna statistika

N 92

Cochran's Q 197,287a

df 7


39



obstajajo razlike v frekvencah med otipljivimi koristi preko dela s podatki. Trdim lahko, da

so anketiranci dejansko največkrat izbrali »Boljše odločanje na podlagi dejstev«.

Intervali zaupanja ter opisne statistike za samooceno znanj

Tabela 18: Intervali zaupanja ter opisne statistike za samooceno znanj

Področje znanj n Man.

vr.

Povpre

-čje

Med

-iana

Mod

-us

St.

Odklon

Sp. int.

zaupanja

Zg. int.

zaupanja

Poizvedbeni jezik SQL 91 1 3,70 4 5 1,441 3,40 4,00

Poslovna znanja (finance, trženje, logistika,

razvoj izdelka, poznavanje organizacije,

trženjsko raziskovanje)

90 2 3,66 4 4 1,210 3,40 3,91

Oblikovanje informacij (vizualizacija) 91 1 3,57 4 4 1,127 3,34 3,81

Specifična znanja iz posameznega področja,

dejavnosti ali domene iz katere izhaja problem,

ki ga rešujem

91 1 3,48 4 4 1,294 3,21 3,75

Sistemi baz podatkov – relacijske baze podatkov (RDBMS)

91 1 3,46 4 5 1,377 3,17 3,75

Opisna statistika in verjetnostne porazdelitve

(Descriptive Statistics and Probability Distributions)

89 3 3,46 4 5 1,332 3,18 3,74

Management podatkov (Data Management) 91 1 3,30 4 4 1,304 3,03 3,57

Regresijska analiza (Regression) 88 4 3,30 3 5 1,456 2,99 3,60

Znanstvena metoda (Scientific method) 89 3 3,13 3 3 1,367 2,85 3,42

Statistično preizkušanje domnev (Inferential

Statistics) 88 4 3,13 3 5 1,500 2,81 3,44

Linearna algebra in računstvo, odvodi in

integrali, funkcije in risanje grafikonov,

manipulacija matrik

89 3 3,12 3 4 1,338 2,84 3,41

Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza

88 4 2,91 3 1 1,580 2,57 3,24

Znanje programskih jezikov npr. R, Python,

SAS, Julia, Scala, Stata idr. 90 2 2,88 3 1a 1,413 2,58 3,17

Delo z delno strukturiranimi podatki: XML, .JSON

90 2 2,78 3 1a 1,356 2,49 3,06

Optimizacija (Optimization) 89 3 2,72 3 1 1,373 2,43 3,01

Metodologije npr. AGILE, LEAN, WATERFALL

91 1 2,64 3 1 1,588 2,31 2,97

Statistika časovnih vrst (Temporal Statistics) 89 3 2,60 3 1 1,320 2,32 2,87

Čelno programiranje (Front End Programming) 90 2 2,44 2 1 1,282 2,18 2,71

Simulacije (Simulations), npr. Monte Carlo 87 5 2,44 2 1 1,300 2,16 2,71

Nadzorovano učenje (Supervised Learning) 88 4 2,35 2 1 1,501 2,03 2,67

Zaledno programiranje (Back End Programming)

90 2 2,31 2 1 1,489 2,00 2,62

Nenadzorovano učenje (Unsupervised Learning) 88 4 2,23 1 1 1,491 1,91 2,54

Sistemska administracija (SSH, *nix, računalništvo v oblaku)

90 2 2,19 2 1 1,445 1,89 2,49

Analiza omrežji (Network Analysis) 88 4 2,05 2 1 1,249 1,78 2,31

Prostorska statistika (Spatial statistics) 88 4 1,98 1 1 1,213 1,72 2,23

Metodologije npr. CRISP-DM, SEMMA,

DMAIC 90 2 1,84 1 1 1,297 1,57 2,12

Obdelava naravnega jezika (NLP) 88 4 1,80 1 1 1,214 1,54 2,05

Masovni in distribuirani podatki (Hadoop,

MapReduce, Hive QL) 90 2 1,78 1 1 1,099 1,55 2,01

Sistemi baz podatkov - NoSQL baze podatkov 91 1 1,74 1 1 1,031 1,52 1,95

Poglobljeno učenje (Deep Learning) 88 4 1,73 1 1 1,025 1,51 1,94

Nagrajevalno učenje (Reinforcement Learning) 88 4 1,69 1 1 1,076 1,47 1,92

40

T-preizkus za preverjanje domneve o aritmetični sredini za samooceno znanj

Domneva: s statističnim preizkusom t-preizkus za preverjanje domneve o aritmetični

sredini želim preveriti, ali obstaja statistično značilna razlika za vsako posamezno področje

znanj glede povprečne ocene samoocene znanja glede na vrednost 3 – Začetnik.

Preizkus: t-preizkus

H0: μs = 3

H1: μs ≠ 3, kjer je s = samoocena znanja.

Tabela 19: Rezultati preizkusa o aritmetični sredini za samooceno znanj

Področje znanj n t df St. značilnosti

(dvostranska)

Poizvedbeni jezik SQL 91 4,7 90,0 0,00

Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje)

90 5,1 89,0 0,00

Oblikovanje informacij (vizualizacija) 91 4,8 90,0 0,00

Specifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem

91 3,6 90,0 0,00

Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 91 3,2 90,0 0,00

Opisna statistika in verjetnostne porazdelitve (Descriptive Statistics and Probability

Distributions) 89 3,3 88,0 0,00

Management podatkov (Data Management) 91 2,2 90,0 0,03

Regresijska analiza (Regression) 88 1,9 87,0 0,06

Znanstvena metoda (Scientific method) 89 0,9 88,0 0,35

Statistično preizkušanje domnev (Inferential Statistics) 88 0,8 87,0 0,44

Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje

grafikonov, manipulacija matrik 89 0,9 88,0 0,39

Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza 88 -0,5 87,0 0,59

Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata idr. 90 -0,8 89,0 0,41

Delo z delno strukturiranimi podatki: XML, .JSON 90 -1,6 89,0 0,12

Optimizacija (Optimization) 89 -1,9 88,0 0,06

Metodologije npr. AGILE, LEAN, WATERFALL 91 -2,2 90,0 0,03

Statistika časovnih vrst (Temporal Statistics) 89 -2,9 88,0 0,00

Čelno programiranje (Front End Programming): 90 -4,1 89,0 0,00

Simulacije (Simulations), npr. Monte Carlo 87 -4,0 86,0 0,00

Nadzorovano učenje (Supervised Learning) 88 -4,0 87,0 0,00

Zaledno programiranje (Back End Programming) 90 -4,4 89,0 0,00

Nenadzorovano učenje (Unsupervised Learning) 88 -4,9 87,0 0,00

Sistemska administracija (SSH, *nix, računalništvo v oblaku) 90 -5,3 89,0 0,00

Analiza omrežji (Network Analysis) 88 -7,2 87,0 0,00

Prostorska statistika (Spatial statistics) 88 -7,9 87,0 0,00

Metodologije npr. CRISP-DM, SEMMA, DMAIC 90 -8,4 89,0 0,00

Obdelava naravnega jezika (NLP) 88 -9,3 87,0 0,00

Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 90 -10,5 89,0 0,00

Sistemi baz podatkov - NoSQL baze podatkov 91 -11,7 90,0 0,00

Poglobljeno učenje (Deep Learning) 88 -11,6 87,0 0,00

Nagrajevalno učenje (Reinforcement Learning) 88 -11,4 87,0 0,00

Sklep: na podlagi vzorčnih podatkov in t-preizkusa lahko zavrnem ničelno domnevo pri

zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da obstajajo statistično

značilne razlike med povprečno samooceno posameznega področja znanj od vrednosti 3 –

41

Začetnik. Tega ne morem trditi pri področjih Regresijska analiza, Znanstvena metoda,

Statistično preverjanje domnev, Linearna algebra in računstvo, odvodi in integrali, funkcije

in risanje grafikonov, manipulacija matrik, Redukcija dimenzij, Znanje programskih

jezikov, Delno strukutrirani podatki, Optimizacija, kjer razlike niso bile statistično značilne

pri stopnji značilnosti α = 0,05.

Intervali zaupanja ter opisne statistike za pomembnost znanj in sposobnosti

Tabela 20: Intervali zaupanja ter opisne statistike za pomembnost znanj in sposobnosti

Področje znanj n Man

. vr.

Povpre

-čje

Med

-iana

Mod

-us

St.

Odklon

Sp. int.

zaupanja

Zg. int.

zaupanja

Poslovna znanja (finance, trženje, logistika,

razvoj izdelka, poznavanje organizacije, trženjsko

raziskovanje)

90 2 3,83 4,00 5 1,265 3,57 4,10

Oblikovanje informacij (vizualizacija) 89 3 3,72 4,00 4 1,270 3,45 3,99

Specifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki

ga rešujem

91 1 3,64 4,00 5 1,395 3,35 3,93

Poizvedbeni jezik SQL 90 2 3,59 4,00 5 1,550 3,26 3,91

Sistemi baz podatkov - relacijske baze podatkov

(RDBMS) 90 2 3,52 4,00 5 1,416 3,23 3,82

Management podatkov 90 2 3,47 4,00 4 1,326 3,19 3,74

Opisna statistika in verjetnostne porazdelitve

(Descriptive Statistics and Probability

Distributions)

89 3 3,31 3,00 5 1,458 3,01 3,62

Znanstvena metoda (Scientific method) 88 4 3,07 3,00 5 1,545 2,74 3,40

Statistično preizkušanje domnev (Inferential

Statistics) 88 4 2,97 3,00 1 1,481 2,65 3,28

Regresijska analiza (Regression) 87 5 2,97 3,00 1 1,544 2,64 3,29

Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr.

89 3 2,87 3,00 1 1,546 2,54 3,19

Redukcija dimenzij (Dimension Reduction):

PCA, faktorska analiza 86 6 2,83 3,00 1 1,543 2,49 3,16

Delo z delno strukturiranimi podatki: XML, .JSON

88 4 2,68 3,00 1 1,335 2,40 2,96

Statistika časovnih vrst (Temporal Statistics) 87 5 2,64 3,00 1 1,389 2,35 2,94

Optimizacija (Optimization) 89 3 2,64 2,00 1 1,456 2,33 2,95

Metodologije npr. AGILE, LEAN,

WATERFALL 86 6 2,63 3,00 1 1,527 2,30 2,96

Linearna algebra in računstvo, odvodi in integrali,

funkcije in risanje grafikonov, manipulacija matrik

89 3 2,53 2,00 1 1,358 2,24 2,81

Nadzorovano učenje (Supervised Learning) 85 7 2,31 2,00 1 1,535 1,97 2,64

Zaledno programiranje (Back End Programming) 88 4 2,28 2,00 1 1,508 1,96 2,60

Simulacije (Simulations), npr. Monte Carlo 86 6 2,28 2,00 1 1,334 1,99 2,57

Čelno programiranje (Front End Programming) 87 5 2,26 2,00 1 1,262 2,00 2,53

Sistemska administracija (SSH, *nix, računalništvo v oblaku)

89 3 2,18 2,00 1 1,378 1,89 2,47

Nenadzorovano učenje (Unsupervised Learning) 86 6 2,14 1,00 1 1,457 1,83 2,45

Prostorska statistika (Spatial statistics) 87 5 2,10 2,00 1 1,230 1,84 2,37

Analiza omrežji (Network Analysis) 85 7 2,09 2,00 1 1,201 1,83 2,35

Metodologije npr. CRISP-DM, SEMMA,

DMAIC 84 8 1,94 1,00 1 1,283 1,66 2,22

Obdelava naravnega jezika (NLP) 84 8 1,93 1,00 1 1,269 1,65 2,20

Masovni in distribuirani podatki (Hadoop,

MapReduce, Hive QL) 88 4 1,89 1,00 1 1,245 1,62 2,15

Sistemi baz podatkov - NoSQL baze podatkov 88 4 1,80 1,00 1 1,186 1,54 2,05

se nadaljuje

42

Tabela 20: Intervali zaupanja ter opisne statistike za pomembnost znanj in sposobnosti

(nad.)

Področje sposobnosti n Man

. vr.

Povpre

-čje

Med

-iana

Mod

-us

St.

Odklon

Sp. int.

zaupanja

Zg. int.

zaupanja

Poglobljeno učenje (Deep Learning) 86 6 1,74 1,00 1 1,129 1,50 1,99

Nagrajevalno učenje (Reinforcement Learning) 86 6 1,73 1,00 1 1,056 1,51 1,96

Postavljati prava vprašanja, definirati problem. 91 1 4,70 5,00 5 0,527 4,59 4,81

Sposobnost reševanja problemov. 91 1 4,66 5,00 5 0,499 4,56 4,76

Analitične sposobnosti. 91 1 4,60 5,00 5 0,630 4,47 4,74

Strast do učenja novih stvari. 91 1 4,36 5,00 5 0,837 4,19 4,54

Radovednost glede opazovanih stvari (vzorcev,

odnosov, razmerij). 92 0 4,28 4,50 5 0,856 4,11 4,46

Strast do dela s podatki. 91 1 4,26 5,00 5 0,917 4,07 4,45

Biti potrpežljiv in vztrajen. 91 1 4,24 4,00 5 0,861 4,06 4,42

Imeti sposobnost kreativnega mišljenja (angl.

thinking outside the box). 90 2 4,21 4,00 5 0,868 4,03 4,39

Pogum in samozavest zagovarjati svoje ugotovitve, odločitve.

91 1 4,18 4,00 4 0,769 4,02 4,34

Nameniti pozornost kakovosti. 91 1 4,13 4,00 5 0,933 3,94 4,33

Imeti sposobnost timskega dela. 91 1 4,13 4,00 5 0,897 3,95 4,32

Imeti dobre komunikacijske sposobnosti. 91 1 4,07 4,00 4 0,867 3,89 4,25

Strateško razmišljati in načrtovati. 91 1 4,00 4,00 5 0,978 3,80 4,20

Sposobnost sprejemanja odločitev. 91 1 3,91 4,00 4 0,939 3,72 4,11

Spoštovati zakone in predpise. 91 1 3,85 4,00 5 1,182 3,60 4,09

Biti moralen in etičen. 91 1 3,80 4,00 5 1,213 3,55 4,05

Sposobnost pripovedovanja zgodbe na podlagi

podatkov (angl. storytelling). 91 1 3,71 4,00 4 1,088 3,49 3,94

Sposobnost vodenja projektov. 91 1 3,65 4,00 4 1,058 3,43 3,87

Voditeljske sposobnosti - imeti sposobnost

motiviranja in navduševanja drugih. 91 1 3,34 3,00 4 1,098 3,11 3,57

Občutek za umetnost in prakso vizualizacije. 91 1 3,34 3,00 4 1,077 3,12 3,57

Podjetniška naravnanost, imeti poslovni čut. 91 1 3,16 3,00 3 1,108 2,93 3,40

T- preizkus za domnevo o aritmetični sredini za pomembnost znanj in sposobnosti.

Domneva: s statističnim preizkusom t-preizkus za preverjanje domneve o aritmetični

sredini želim preveriti, ali obstaja statistično značilna razlika za vsako posamezno področje

znanj in sposobnosti glede povprečne ocene pomembnosti znanj in sposobnosti glede na

vrednost 3 – Niti ni pomembno, niti nepomembno.

Preizkus: t-preizkus

H0: μp = 3

H1: μp ≠ 3, kjer je p = pomembnost znanja ali sposobnosti.

Sklep: na podlagi vzorčnih podatkov in t-preizkusa lahko zavrnem ničelno domnevo pri

zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da obstajajo statistično

značilne razlike med povprečno pomembnostjo posameznega področja znanj in

sposobnosti od vrednosti 3. Tega ne morem trditi pri področjih Znanstvena metoda,

Statistično preizkušanje domnev, Regresijska analiza, Znanje programskih jezikov,

43

Redukcija dimenzij ter sposobnosti »Podjetniška naravnanost, imeti poslovni čut«, kjer

razlike niso bile statistično značilne pri stopnji značilnosti α = 0,05.

Tabela 21: Rezultati preizkusa o aritmetični sredini za pomembnost znanj in sposobnosti

Področje znanj/sposobnosti n t df St. značilnosti

(dvostranska)

Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije,

trženjsko raziskovanje) 90 6,248 89 0,00

Oblikovanje informacij (vizualizacija) 89 5,341 88 0,00

Specifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem

91 4,360 90 0,00

Poizvedbeni jezik SQL 90 3,605 89 0,00

Sistemi baz podatkov - relacijske baze podatkov (RDBMS) 90 3,499 89 0,00

Management podatkov (Data Management) 90 3,340 89 0,00

Opisna statistika in verjetnostne porazdelitve 89 2,035 88 0,04

Znanstvena metoda (Scientific method) 88 0,414 87 0,68

Statistično preizkušanje domnev (Inferential Statistics) 88 -0,216 87 0,83

Regresijska analiza (Regression) 87 -0,208 86 0,84

Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr. 89 -0,823 88 0,41

Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza 86 -1,048 85 0,30

Delo z delno strukturiranimi podatki: XML, .JSON 88 -2,236 87 0,03

Statistika časovnih vrst (Temporal Statistics) 87 -2,393 86 0,02

Optimizacija (Optimization) 89 -2,330 88 0,02

Metodologije npr. AGILE, LEAN, WATERFALL 86 -2,260 85 0,03


manipulacija matrik 89 -3,279 88 0,00

Nadzorovano učenje (Supervised Learning) 85 -4,168 84 0,00

Zaledno programiranje (Back End Programming) 88 -4,453 87 0,00

Simulacije (Simulations), npr. Monte Carlo 86 -5,011 85 0,00

Čelno programiranje (Front End Programming) 87 -5,438 86 0,00

Sistemska administracija (SSH, *nix, računalništvo v oblaku) 89 -5,615 88 0,00

Nenadzorovano učenje (Unsupervised Learning) 86 -5,479 85 0,00

Prostorska statistika (Spatial statistics) 87 -6,800 86 0,00

Analiza omrežji (Network Analysis) 85 -6,952 84 0,00

Metodologije npr. CRISP-DM, SEMMA, DMAIC 84 -7,567 83 0,00

Obdelava naravnega jezika (NLP) 84 -7,741 83 0,00

Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 88 -8,391 87 0,00

Sistemi baz podatkov - NoSQL baze podatkov 88 -9,530 87 0,00

Poglobljeno učenje (Deep Learning) 86 -10,314 85 0,00

Nagrajevalno učenje (Reinforcement Learning) 86 -11,127 85 0,00

Postavljati prava vprašanja, definirati problem. 91 30,836 90 0,00

Sposobnost reševanja problemov. 91 31,701 90 0,00

Analitične sposobnosti. 91 24,281 90 0,00

Strast do učenja novih stvari. 91 15,532 90 0,00

Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij). 92 14,375 91 0,00

Strast do dela s podatki. 91 13,147 90 0,00

Biti potrpežljiv in vztrajen. 91 13,762 90 0,00

Imeti sposobnost kreativnega mišljenja (angl. thinking outside the box). 90 13,243 89 0,00

Pogum in samozavest zagovarjati svoje ugotovitve, odločitve. 91 14,591 90 0,00

Nameniti pozornost kakovosti. 91 11,567 90 0,00

Imeti sposobnost timskega dela. 91 12,037 90 0,00

Imeti dobre komunikacijske sposobnosti. 91 11,732 90 0,00

Strateško razmišljati in načrtovati. 91 9,759 90 0,00

Sposobnost sprejemanja odločitev. 91 9,269 90 0,00

Spoštovati zakone in predpise. 91 6,826 90 0,00

Biti moralen in etičen. 91 6,308 90 0,00

Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling). 91 6,262 90 0,00

Sposobnost vodenja projektov. 91 5,846 90 0,00

Voditeljske sposobnosti - imeti sposobnost motiviranja in navduševanja drugih. 91 2,961 90 0,00

Občutek za umetnost in prakso vizualizacije. 91 3,017 90 0,00

Podjetniška naravnanost, imeti poslovni čut. 91 1,419 90 0,16

44

T-preizkus o razliki med aritmetičnima sredinama za odvisna vzorca (preizkus

dvojic)

Domneva: s statističnim preizkusom t-preizkus za odvisna vzorca želim preveriti, ali

obstaja statistično značilna razlika med povprečno samooceno in povprečno oceno

pomembnosti za katero od področij znanj.

Preizkus: t-preizkus o razliki med aritmetičnima sredinama za odvisna vzorca (preizkus

dvojic)

H0:μs = μp

H1:μs ≠ μp, kjer je s = samoocena znanja in p = pomembnost znanja.

Tabela 22: Rezultati preizkusa med aritmetičnima sredinama za odvisna vzorca

Par Samoocena / Pomembnost n t df St. Znač.

(dvo str.)

Par 1 Zaledno programiranje 88 0,568 87 0,572

Par 2 Čelno programiranje 87 1,901 86 0,061

Par 3 Znanje programskih jezikov npr. R, Python 89 0,324 88 0,747

Par 4 Management podatkov 90 -1,555 89 0,124

Par 5 Oblikovanje informacij (vizualizacija) 89 -1,000 88 0,320

Par 6 Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 90 -0,382 89 0,703

Par 7 Delo z delno strukturiranimi podatki: XML, .JSON 88 1,255 87 0,213

Par 8 Sistemi baz podatkov – NoSQL baze podatkov 88 -0,451 87 0,653

Par 9 Poizvedbeni jezik SQL 90 1,578 89 0,118

Par 10 Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 88 -0,833 87 0,407

Par 11 Sistemska administracija (SSH, *nix, računalništvo v oblaku) 88 0,281 87 0,779

Par 12 Znanstvena metoda 87 0,505 86 0,615

Par 13 Opisna statistika in verjetnostne porazdelitve 89 1,472 88 0,145

Par 14 Statistično preizkušanje domnev 88 1,486 87 0,141

Par 15 Redukcija dimenzij: PCA, faktorska analiza 86 1,096 85 0,276

Par 16 Regresijska analiza 87 3,121 86 0,002

Par 17 Statistika časovnih vrst 87 -0,313 86 0,755

Par 18 Prostorska statistika 86 -0,980 85 0,330

Par 19 Simulacije npr. Monte Carlo 85 1,299 84 0,197

Par 20 Linearna algebra in računstvo, odvodi in integrali, funkcije in

risanje grafikonov, manipulacija matrik 89 4,400 88 0,000

Par 21 Optimizacija 89 0,609 88 0,544

Par 22 Nadzorovano učenje 85 0,956 84 0,342

Par 23 Nenadzorovano učenje 86 1,216 85 0,227

Par 24 Nagrajevalno učenje 86 -0,261 85 0,795

Par 25 Poglobljeno učenje 86 0,000 85 1,000

Par 26 Obdelava naravnega jezika (NLP) 84 -0,882 83 0,380

Par 27 Analiza omrežji 85 -0,120 84 0,905

Par 28 Metodologije npr. AGILE, LEAN, WATERFALL 86 0,701 85 0,485

Par 29 Metodologije npr. CRISP-DM, SEMMA, DMAIC 84 -0,316 83 0,753

Par 30 Specifična znanja iz posameznega področja 91 -1,863 90 0,066

Par 31 Poslovna znanja 90 -1,788 89 0,077

Sklep: na podlagi vzorčnih podatkov in t-preizkusa o razliki med aritmetičnima sredinama

za odvisna vzorca lahko zavrnem ničelno domnevo pri zanemarljivi stopnji značilnosti in

sprejmem alternativno domnevo, da obstajajo razlike med povprečno samooceno in

povprečno pomembnostjo posameznega področja znanj le pri »Regresijska analiza« in

»Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,

manipulacija matrik«. Pri ostalih področjih razlike niso bile statistično značilne pri stopnji

značilnosti α = 0,05.

45

Preizkušanje domneve o enakosti več aritmetičnih sredin za neodvisne vzorce –

analiza variance (One-way ANOVA) – Samoocena znanj

Domneva: s statističnim preizkusom One Way ANOVA za preverjanje domneve o

enakosti več aritmetičnih sredin za neodvisne vzorce želim preveriti, ali obstaja statistično

značilna razlika med identificiranimi skupinami posameznikov na podlagi samoocene

znanj.

Preizkus: One-way ANOVA

H0: μ1 = μ2 = μ3= μ4= μ5 oz. μ1 = μ2 = μ3= μ4

H1:vse μj niso enake, kjer je j = število skupin.

Sklep: pri obeh razvrščanjih v skupine je preizkus o domnevi enakosti varianc med

identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi

samoocenami znanj med vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti),

razen pri področju Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje

organizacije, trženjsko raziskovanje).

Tabela 23: Rezultati preizkusa za razvrstitev v 5 skupin

Skupina Napaka

F Stopnja

znač. Povprečje

kvadratov df

Povprečje

kvadratov df

Zaledno programiranje 28,320 4 0,943 78 30,019 0,000

Čelno programiranje 12,790 4 1,071 78 11,946 0,000

Znanje programskih jezikov npr. R, Python 14,996 4 1,175 78 12,762 0,000

Management podatkov 4,700 4 1,470 78 3,197 0,017

Oblikovanje informacij (vizualizacija) 5,025 4 1,108 78 4,536 0,002

Sistemi baz podatkov - relacijske baze podatkov (RDBMS) 18,628 4 0,974 78 19,120 0,000

Delo z delno strukturiranimi podatki: XML, .JSON 20,110 4 0,842 78 23,890 0,000

Sistemi baz podatkov - NoSQL baze podatkov 13,392 4 0,469 78 28,538 0,000

Poizvedbeni jezik SQL 16,265 4 1,267 78 12,841 0,000

Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 8,466 4 0,754 78 11,234 0,000

Sistemska administracija (SSH, *nix, računalništvo v oblaku) 24,907 4 0,957 78 26,021 0,000

Znanstvena metoda 21,721 4 0,864 78 25,144 0,000

Opisna statistika in verjetnostne porazdelitve 22,194 4 0,739 78 30,048 0,000

Statistično preizkušanje domnev 30,812 4 0,722 78 42,675 0,000

Redukcija dimenzij: PCA, faktorska analiza 35,537 4 0,771 78 46,110 0,000

Regresijska analiza 29,342 4 0,722 78 40,639 0,000

Statistika časovnih vrst 17,790 4 0,966 78 18,416 0,000

Prostorska statistika 13,659 4 0,746 78 18,319 0,000

Simulacije npr. Monte Carlo 16,892 4 0,786 78 21,494 0,000

Linearna algebra in računstvo, odvodi in integrali, funkcije in

risanje grafikonov, manipulacija matrik 15,946 4 1,111 78 14,358 0,000

Optimizacija 21,360 4 0,860 78 24,824 0,000

Nadzorovano učenje 22,873 4 1,077 78 21,245 0,000

Nagrajevalno učenje 12,805 4 0,608 78 21,067 0,000

Poglobljeno učenje 12,732 4 0,477 78 26,666 0,000

Obdelava naravnega jezika (NLP) 18,423 4 0,481 78 38,334 0,000

Analiza omrežji 18,428 4 0,593 78 31,083 0,000

Metodologije npr. AGILE, LEAN, WATERFALL 13,176 4 1,961 78 6,719 0,000

Metodologije npr. CRISP-DM, SEMMA, DMAIC 7,810 4 1,407 78 5,552 0,001

Specifična znanja iz posameznega področja 6,876 4 1,426 78 4,822 0,002

Poslovna znanja 2,104 4 1,362 78 1,545 0,197

46

Tabela 24: Rezultati preizkusa za razvrstitev v 4 skupine

Skupina Napaka F

Stopnja

znač. Povp. kv. df Povp. kv. df






Sistemi baz podatkov - relacijske baze podatkov (RDBMS) 18,732 3 1,194 79 15,691 0,000


Sistemi baz podatkov - NoSQL baze podatkov 17,916 3 0,461 79 38,861 0,000


Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 11,115 3 0,751 79 14,806 0,000

Sistemska administracija (SSH, *nix, računalništvo v oblaku) 36,495 3 0,820 79 44,490 0,000









Linearna algebra in računstvo, odvodi in integrali, funkcije risanje

grafikonov, manipulacija matrik 17,358 3 1,245 79 13,945 0,000

Optimizacija 25,442 3 0,965 79 26,368 0,000





Analiza omrežji 23,084 3 0,642 79 35,968 0,000




Poslovna znanja 1,823 3 1,382 79 1,319 0,274

Preizkušanje domneve o enakosti več aritmetičnih sredin za neodvisne vzorce -

analiza variance (One-way ANOVA) – Pomembnost znanj in sposobnosti

Domneva: s statističnim preizkusom One Way ANOVA za preverjanje domneve o

enakosti več aritmetičnih sredin za neodvisne vzorce želim preveriti, ali obstaja statistično

značilna razlika med identificiranimi skupinami posameznikov na podlagi pomembnosti

znanj in sposobnosti.

Preizkus: One-way ANOVA

H0: μ1 = μ2 = μ3= μ4= μ5 oz. μ1 = μ2 = μ3= μ4 oz. μ1 = μ2 = μ3

H1: vse μj niso enake, kjer je j = število skupin.

Sklep: pri razvrščanju v 5 skupin je preizkus o domnevi enakosti varianc med

identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi ocenami

vseh pomembnosti znanj in sposobnosti med vsaj dvema skupinama (pri zanemarljivi

stopnji značilnosti), razen pri Čelno programiranje, Poslovna znanja ter sposobnostih »Biti

potrpežljiv in vztrajen«, »Podjetniška naravnanost, imeti poslovi čut«, »Pogum in

samozavest zagovarjati svoje ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti

sposobnost motiviranja in navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti

moralen in etičen.« in »Spoštovati zakone in predpise.«. Pri razvrščanju v 4 skupine je

47

preizkus o domnevi enakosti varianc med identificiranimi skupinami pokazal statistično

značilne razlike med povprečnimi ocenami vseh pomembnosti znanj in sposobnosti med

vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti), razen pri Zaledno

programiranje,Čelno programiranje, Sistemska administracija, Poslovna znanja ter

sposobnostih »Biti potrpežljiv in vztrajen«, »Pogum in samozavest zagovarjati svoje

ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti sposobnost motiviranja in

navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti moralen in etičen.« in

»Spoštovati zakone in predpise« ter »Nameniti pozornost kakovosti«. Pri razvrščanju v 3

skupine je preizkus o domnevi enakosti varianc med identificiranimi skupinami pokazal

statistično značilne razlike med povprečnimi ocenami vseh pomembnosti znanj in

sposobnosti med vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti), razen pri

Čelno programiranje, Sistemska administracija, Poslovna znanja ter pri skoraj vseh

sposobnostih (razen pri »Radovednost glede opazovanih stvari (vzorcev, odnosov,

razmerij)«, »Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling)«

ter »Strast do dela s podatki«).

Tabela 25: Rezultati preizkusa za razvrstitev v 5 skupin

Skupina Napaka

F Stopnja

znač. Povprečje

kvadratov df

Povprečje

kvadratov df






Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 13,517 4 0,939 63 14,392 0,000


Sistemi baz podatkov – NoSQL baze podatkov 12,596 4 0,804 63 15,659 0,000


Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL)

12,283 4 0,887 63 13,855 0,000

Sistemska administracija (SSH, *nix, računalništvo v

oblaku) 7,929 4 1,638 63 4,842 0,002









Linearna algebra in računstvo, odvodi in integrali, funkcije

in risanje grafikonov, manipulacija matrik 6,837 4 1,483 63 4,611 0,002

Optimizacija 13,555 4 1,471 63 9,216 0,000





Analiza omrežji 15,887 4 0,565 63 28,138 0,000




Poslovna znanja 3,132 4 1,325 63 2,364 0,062

Radovednost glede opazovanih stvari (vzorcev, odnosov,

razmerij). 3,405 4 0,597 63 5,703 0,001

Analitične sposobnosti. 1,464 4 0,359 63 4,079 0,005

se nadaljuje

48

Tabela 25: Rezultati preizkusa za razvrstitev v 5 skupin (nad.)

Skupina Napaka

F Stopnja znač. Povprečje

kvadratov df

Povprečje

kvadratov df

Postavljati prava vprašanja, definirati problem. 1,014 4 0,216 63 4,685 0,002

Sposobnost reševanja problemov. 1,110 4 0,197 63 5,623 0,001

Imeti sposobnost kreativnega mišljenja (angl. thinking

outside the box). 1,798 4 0,713 63 2,522 0,050

Biti potrpežljiv in vztrajen. 1,405 4 0,772 63 1,821 0,136

Podjetniška naravnanost, imeti poslovni čut. 2,940 4 1,187 63 2,477 0,053

Sposobnost sprejemanja odločitev. 3,703 4 0,690 63 5,368 0,001

Pogum in samozavest zagovarjati svoje ugotovitve,

odločitve. 1,236 4 0,583 63 2,119 0,089

Strateško razmišljati in načrtovati. 3,163 4 0,767 63 4,123 0,005

Nameniti pozornost kakovosti. 3,505 4 0,822 63 4,263 0,004

Voditeljske sposobnosti – imeti sposobnost motiviranja

in navduševanja drugih. 2,299 4 1,134 63 2,027 0,101

Sposobnost vodenja projektov. 1,834 4 1,136 63 1,615 0,182

Imeti sposobnost timskega dela. 2,125 4 0,667 63 3,187 0,019

Imeti dobre komunikacijske sposobnosti. 2,849 4 0,449 63 6,342 0,000

Sposobnost pripovedovanja zgodbe na podlagi podatkov

(angl. storytelling). 5,122 4 0,876 63 5,846 0,000

Občutek za umetnost in prakso vizualizacije. 5,715 4 0,914 63 6,250 0,000

Biti moralen in etičen. 2,494 4 1,459 63 1,709 0,159

Spoštovati zakone in predpise. 1,612 4 1,271 63 1,268 0,292

Strast do učenja novih stvari. 1,940 4 0,617 63 3,144 0,020

Strast do dela s podatki. 3,867 4 0,765 63 5,052 0,001


Skupina Napaka

F Stopnja

znač. Povprečje

kvadratov df

Povprečje

kvadratov df










Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL)

16,268 3 0,878 64 18,532 0,000


oblaku) 4,020 3 1,919 64 2,095 0,110









Linearna algebra in računstvo, odvodi in integrali, funkcije

in risanje grafikonov, manipulacija matrik 8,483 3 1,489 64 5,696 0,002

Optimizacija 9,851 3 1,833 64 5,374 0,002





Analiza omrežji 21,180 3 0,556 64 38,099 0,000



se nadaljuje

49

Tabela 26: Rezultati preizkusa za razvrstitev v 4 skupine (nad.)

Skupina Napaka

F Stopnja

znač. Povprečje

kvadratov df

Povprečje

kvadratov df


Poslovna znanja 3,391 3 1,341 64 2,529 0,065

Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij).

4,161 3 0,605 64 6,873 0,000




Imeti sposobnost kreativnega mišljenja (angl. thinking outside the box).

2,396 3 0,702 64 3,413 0,023





odločitve. 1,118 3 0,599 64 1,866 0,144



Voditeljske sposobnosti - imeti sposobnost motiviranja

in navduševanja drugih. 2,834 3 1,127 64 2,515 0,066




Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling).

6,726 3 0,867 64 7,754 0,000







Skupina Napaka

F Stopnja znač. Povprečje

kvadratov df

Povprečje kvadratov

df










Masovni in distribuirani podatki (Hadoop, MapReduce, Hive

QL) 25,803 2 0,821 65 31,421 0,000


oblaku) 5,544 2 1,905 65 2,911 0,062









Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik

12,569 2 1,471 65 8,543 0,001

Optimizacija 14,433 2 1,816 65 7,949 0,001


se nadaljuje

50

Tabela 27: Rezultati preizkusa za razvrstitev v 3 skupine (nad.)

Skupina Napaka

F Stopnja

znač. Povprečje

kvadratov df

Povprečje

kvadratov df




Analiza omrežji 26,975 2 0,695 65 38,821 0,000




Poslovna znanja 4,093 2 1,351 65 3,030 0,055

Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij).

2,572 2 0,709 65 3,627 0,032




Imeti sposobnost kreativnega mišljenja (angl. thinking

outside the box). 2,033 2 0,739 65 2,750 0,071





odločitve. 0,844 2 0,615 65 1,371 0,261



Voditeljske sposobnosti - imeti sposobnost motiviranja in

navduševanja drugih. 0,994 2 1,210 65 0,821 0,444




Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling).

9,189 2 0,882 65 10,421 0,000