UNIVERZA V LJUBLJANI
EKONOMSKA FAKULTETA
MAGISTRSKO DELO
ANALIZA ZNANJ IN SPOSOBNOSTI PODATKOVNIH
ZNANSTVENIKOV V SLOVENIJI
Ljubljana, september 2016 MATEJA GROBELNIK
IZJAVA O AVTORSTVU
Podpisana Mateja Grobelnik, študentka Ekonomske fakultete Univerze v Ljubljani, avtorica predloženega
dela z naslovom Analiza znanj in sposobnosti podatkovnih znanstvenikov v Sloveniji, pripravljenega v
sodelovanju s svetovalcem red. prof. dr. Jurijem Jakličem.
IZJAVLJAM
1. da sem predloženo delo pripravila samostojno;
2. da je tiskana oblika predloženega dela istovetna njegovi elektronski obliki;
3. da je besedilo predloženega dela jezikovno korektno in tehnično pripravljeno v skladu z Navodili za
izdelavo zaključnih nalog Ekonomske fakultete Univerze v Ljubljani, kar pomeni, da sem poskrbela, da
so dela in mnenja drugih avtorjev oziroma avtoric, ki jih uporabljam oziroma navajam v besedilu,
citirana oziroma povzeta v skladu z Navodili za izdelavo zaključnih nalog Ekonomske fakultete
Univerze v Ljubljani;
4. da se zavedam, da je plagiatorstvo – predstavljanje tujih del (v pisni ali grafični obliki) kot mojih lastnih
– kaznivo po Kazenskem zakoniku Republike Slovenije;
5. da se zavedam posledic, ki bi jih na osnovi predloženega dela dokazano plagiatorstvo lahko predstavljalo
za moj status na Ekonomski fakulteti Univerze v Ljubljani v skladu z relevantnim pravilnikom;
6. da sem pridobila vsa potrebna dovoljenja za uporabo podatkov in avtorskih del v predloženem delu in jih
v njem jasno označila;
7. da sem pri pripravi predloženega dela ravnala v skladu z etičnimi načeli in, kjer je to potrebno, za
raziskavo pridobila soglasje etične komisije;
8. da soglašam, da se elektronska oblika predloženega dela uporabi za preverjanje podobnosti vsebine z
drugimi deli s programsko opremo za preverjanje podobnosti vsebine, ki je povezana s študijskim
informacijskim sistemom članice;
9. da na Univerzo v Ljubljani neodplačno, neizključno, prostorsko in časovno neomejeno prenašam pravico
shranitve predloženega dela v elektronski obliki, pravico reproduciranja ter pravico dajanja predloženega
dela na voljo javnosti na svetovnem spletu preko Repozitorija Univerze v Ljubljani;
10. da hkrati z objavo predloženega dela dovoljujem objavo svojih osebnih podatkov, ki so navedeni v njem
in v tej izjavi.
V Ljubljani, dne 12.9.2016 Podpis študentke:_________________
i
KAZALO
UVOD ................................................................................................................................... 1
1 MASOVNI PODATKI IN ZNANOST O PODATKIH.............................................. 3
1.1 Uvod v masovne podatke in znanost o podatkih ....................................................... 3
1.2 Opredelitve masovnih podatkov ................................................................................ 7
1.3 Dimenzije masovnih podatkov .................................................................................. 9
1.3.1 Volumen podatkov ............................................................................................. 9
1.3.2 Hitrost pridobivanja podatkov ......................................................................... 11
1.3.3 Raznolikost podatkov ....................................................................................... 12
1.3.4 Vrednost podatkov ........................................................................................... 16
1.3.5 Masovni podatki v ožjem in širšem smislu ...................................................... 16
1.4 Znanost o podatkih .................................................................................................. 18
1.4.1 Opredelitev znanosti o podatkih ...................................................................... 18
1.4.2 Opredelitev podatkovnih znanstvenikov .......................................................... 20
1.4.3 Proces izvajanja znanosti o podatkih ............................................................... 21
1.5 Uporaba masovnih podatkov in znanosti o podatkih............................................... 24
1.6 Vpliv masovnih podatkov in znanosti o podatkih na uspešnost organizacije ......... 26
1.7 Vloga in pomen podatkovnih znanstvenikov v organizacijah ................................. 30
1.8 Povpraševanje po podatkovnih znanstvenikih ......................................................... 33
2 ZNANJA IN SPOSOBNOSTI PODATKOVNIH ZNANSTVENIKOV ................ 36
2.1 Podatkovni znanstveniki .......................................................................................... 36
2.2 Opredelitev znanj in sposobnosti podatkovnih znanstvenikov................................ 42
2.3 Znanja in sposobnosti podatkovnih znanstvenikov ................................................. 48
2.3.1 Izhodišča za kategorizacijo znanj in sposobnosti podatkovnih znanstvenikov 48
2.3.2 Znanstvena metoda .......................................................................................... 49
2.3.3 Programiranje ................................................................................................... 50
2.3.4 Management podatkov ..................................................................................... 53
2.3.5 Baze podatkov .................................................................................................. 55
2.3.6 Statistika ........................................................................................................... 57
2.3.7 Matematika ....................................................................................................... 60
2.3.8 Strojno učenje .................................................................................................. 61
2.3.9 Domenska znanja ............................................................................................. 63
2.3.10 Sposobnosti podatkovnih znanstvenikov ......................................................... 64
2.4 Pridobivanje znanj in sposobnosti podatkovnih znanstvenikov .............................. 67
2.5 Znanja in sposobnosti podatkovnih znanstvenikov v tujini (druge raziskave) ........ 71
2.5.1 Raziskava Harrisa, Vaismana & Murphya o identifikaciji različnih vlog
podatkovnih znanstvenikov .............................................................................. 71
2.5.2 Raziskava Hayesa o znanjih in sposobnostih podatkovnih znanstvenikov ter
delovanju v timih ............................................................................................. 75
ii
2.5.3 Raziskava Swana o sposobnostih, vlogah in karierni strukturi podatkovnih
znanstvenikov .................................................................................................. 79
3 RAZISKAVA O ZNANJIH IN SPOSOBNOSTIH PODATKOVNIH
ZNANSTVENIKOV V SLOVENIJI ......................................................................... 81
3.1 Izhodišča in namen raziskave .................................................................................. 81
3.2 Raziskovalna vprašanja ........................................................................................... 81
3.3 Metodologija raziskave ........................................................................................... 84
3.3.1 Zbiranje podatkov ............................................................................................ 84
3.3.2 Metode obdelave podatkov .............................................................................. 86
4 REZULATI RAZISKAVE IN DISKUSIJA ............................................................. 91
4.1 Značilnosti vzorca ................................................................................................... 91
4.2 Rezultati raziskave po vprašanjih ............................................................................ 92
4.2.1 Masovni podatki .............................................................................................. 92
4.2.2 Samoocena znanj ............................................................................................. 98
4.2.3 Pomembnost znanj ......................................................................................... 100
4.2.4 Pomembnost sposobnosti ............................................................................... 101
4.2.5 Pretekle izkušnje in izobraževanje ................................................................. 103
4.3 Razvrščanje v skupine ........................................................................................... 105
4.3.1 Razvrščanje na podlagi samoocene znanj ...................................................... 105
4.3.2 Razvrščanje na podlagi pomembnosti znanj in sposobnosti .......................... 106
4.4 Diskusija ................................................................................................................ 107
4.5 Omejitve raziskave ................................................................................................ 131
SKLEP .............................................................................................................................. 132
LITERATURA IN VIRI ................................................................................................. 139
PRILOGE
KAZALO TABEL
Tabela 1: 25 zaželjenih znanj in sposobnosti iz leta 2014 (LinkedIn) ................................. 35
Tabela 2: Seznam znanj iz raziskave Harris-a, Murphy-a & Vaisman-a ............................. 45
Tabela 3: Klasifikacija odgovorov in dimenzije raznolikosti podatkov .............................. 94
Tabela 4: Raznolikost podatkov glede na dimenzijo (n = 92).............................................. 95
Tabela 5: Identifikacija porazdelitev oziroma vzorca znanj na podlagi koeficienta
asimetrije in koeficienta sploščenosti (n = 92) .................................................. 129
KAZALO SLIK
Slika 1: Pojavljanje ključnih besed »big data« in »data science« v Googlovi bazi
podatkov literature ................................................................................................... 6
iii
Slika 2: Spletno iskanje preko iskalnika Google ključnih besed »big data« in »data
science« in »data scientist« po letih ........................................................................ 7
Slika 3: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega
nabora podatkov (2013–2015)............................................................................... 10
Slika 4: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega
nabora podatkov po geografskih področjih (2015) ............................................... 11
Slika 5: Povprečno ocenjeni % podatkov glede na to ali so pridobljeni iz notranjih ali
zunanjih virov ........................................................................................................ 12
Slika 6: Strukturirani in nestrukturirani podatki .................................................................. 13
Slika 7: Povprečno ocenjeni % podatkov glede na njihovo strukturiranost ........................ 14
Slika 8: Ogrodje za opredelitev raznolikost podatkov ........................................................ 15
Slika 9: Kriteriji za opredelitev masovnih podatkov po IDC .............................................. 17
Slika 10: Proces izvajanja znanosti o podatkih ................................................................... 21
Slika 11: Ogrodje za management informacij ..................................................................... 30
Slika 12: Integracija masovnih podatkov v tradicionalno IT arhitekturo ............................ 32
Slika 13: Število delovnih mest iz področja znanosti o podatkih po Evropi ....................... 34
Slika 14: Faze v življenjskem ciklu vrednosti podatkov v povezavi s ključnimi tipi
podatkovnih znanstvenikov ................................................................................... 37
Slika 15:Znanja in sposobnosti glede na različne vloge za učinkovito sodelovanje med
oddelkom informatike in podatkovnimi znanstveniki ........................................... 40
Slika 16: Človeške zmožnosti v širšem smislu .................................................................... 42
Slika 17: Conway-ev Vennov diagram potrebnih znanj podatkovnih znanstvenikov......... 43
Slika 18: Znanja in sposobnosti podatkovnih znanstvenikov po OECD (2015) ................. 44
Slika 19: Kombinacija kategorij znanj in kategorij skupin za samoidentifikacijo .............. 74
Slika 20: Samoocena znanj in sposobnosti sodelujočih v raziskavi (n=490) ...................... 76
Slika 21: Samoocena svoje vloge v organizaciji (n=490) ................................................... 77
Slika 22: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji
(n=490) .................................................................................................................. 77
Slika 23: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji –
izbrali samo 1 vlogo (poslovni manager n = 65, razvijalec n = 47, kreativec n =
25, raziskovalec n = 101) ...................................................................................... 78
Slika 24: Postopek razvrščanja v skupine............................................................................ 89
Slika 25: Struktura vzorca po spolu, starosti, smeri in stopnji izobrazbe (n = 92) .............. 92
Slika 26: Največja obdelana količina/volumen podatkov (n = 92) ..................................... 93
Slika 27: Raznolikost podatkov (n = 92) ............................................................................. 94
Slika 28: Razvrščanje anketirancev glede na izbrano raznolikost podatkov (n = 92) ......... 96
Slika 29: Vrednost podatkov (n = 92) ................................................................................. 97
Slika 30: Povprečne ocene samoocene znanj (n = 87–91) .................................................. 99
Slika 31: Povprečne ocene pomembnosti znanj (n = 84–91) ............................................ 101
Slika 32: Povprečne ocene pomembnosti sposobnosti (n = 90–92) .................................. 102
Slika 33: Izkušnje (n = 89) ................................................................................................ 103
Slika 34: Izobraževanje (n = 92) ....................................................................................... 104
iv
Slika 35: Identificirane skupine samoocena znanj v primerjavi z identificiranimi
skupinami na podlagi pomembnosti znanj in sposobnosti (n = 65) ..................... 118
Slika 36: Identificirane skupine glede na stopnjo izobrazbe – Samoocena znanj (n = 83) 121
Slika 37: Identificirane skupine glede na smer izobrazbe – Samoocena znaj (n = 83) ..... 122
Slika 38: Identificirane skupine glede na spol – Samoocena znanj (n = 83) .................... 123
Slika 39: Identificirane skupine glede na izkušnje – Samoocena znanj (n = 83) ............... 124
Slika 40: Identificirane skupine glede na izobraževanje – Samoocena znanj (n = 83) ..... 125
Slika 41: Identificirane skupine glede na obdelane količine podatkov – Samoocena
znanj (n = 83) ....................................................................................................... 126
Slika 42: Identificirane skupine glede na raznolikost podatkov – Samoocena znanj
(n = 83) ................................................................................................................. 127
Slika 43: Identificirane skupine glede na koristi dela s podatki – Samoocena znanj
(n = 83) ................................................................................................................. 128
Slika 44: Porazdelitve znanj po izbranih anketirancih – Samoocena znanj ....................... 130
Slika 45: Identificirane skupine glede na porazdelitev znanj – Samoocena znanj
(n = 83) ................................................................................................................. 131
1
UVOD
Napredek na področju informacijske tehnologije in komunikacij je spremenil naš način
življenja, način kako delujemo in poslujemo, kako se izobražujemo, raziskujemo in kako
se zabavamo (Gams, 2008). Postali smo t. i. informacijska družba, v kateri je ustvarjanje,
distribucija in manipulacija informacij postala najbolj značilna ekonomska in kulturna
aktivnost (Gams, 2008). IBM (INSINC, 1997) definira informacijsko družbo kot družbo,
za katero je značilen visok nivo informacijske intenzitete v vsakodnevnem življenju
posameznikov, organizacij in delovnih mest s pomočjo uporabe tehnologij za široko
področje osebnih, družbenih, izobraževalnih in poslovnih aktivnosti ter s sposobnostjo
hitrega prenosa, zajema in izmenjave digitalnih podatkov med različnimi viri ne glede na
razdaljo. Da bi lahko vse zbrane podatke organizacije spremenile v konkurenčno prednost,
potrebujejo nove stile vodenja, novo kulturo sprejemanja odločitev ter nova znanja in
sposobnosti (McAfee & Brynjolfsson, 2012, str. 59). Podatkovna naravnanost organizacij
(angl. data-driven) sicer ni nov koncept, saj organizacije že od nekdaj uporabljajo merjenje
in podatke za izboljšanje poslovnih odločitev. Vendar pa tehnološke zmožnosti zbiranja in
obdelovanja ogromne količine strukturiranih in nestrukturiranih podatkov zahtevajo bolj
poglobljeno strategijo uvedbe masovnih podatkov (angl. big data) in znanosti o podatkih
(angl. data science) v organizacije. Revolucija masovnih podatkov in znanosti o podatkih
je veliko močnejša od analitike, ki se jo je uporabljalo v preteklosti. Sedaj lahko namreč
organizacije merijo bolj natančno kot kdaj koli prej. Lahko delajo boljše napovedi in
sprejemajo pametnejše odločitve. Lahko postavijo uspešnejše cilje na področjih, na katerih
so do sedaj prevladovale odločitve na podlagi občutka in intuicije, kot pa na podatkih
(McAfee & Brynjolfsson, 2012, str. 62).
Če so se na eni strani povečale možnosti zbiranja in shranjevanja podatkov, so se po drugi
strani razvile tudi nove tehnologije na področju strojne in programske opreme za analizo in
obdelavo večje količine podatkov. Skupaj z razvojem tega področja se je pojavila potreba
po specifičnih znanjih, s pomočjo katerih je mogoče iz velike količine različnih podatkov
pridobiti uporabne informacije za izboljšanje poslovnih odločitev. Splošna analitika in
koncept Druckerja in Deminga »Tistega kar ne meriš, ne moreš nadzirati« (McAfee &
Brynjolfsson, 2012, str. 62) se v organizacijah uporablja že dolgo, vendar pa je do sedaj
analitika bila omejena na obvladljive količine bolj ali manj strukturiranih podatkov s
pomočjo splošno sprejetih analitičnih orodij. Pri uvajanju strategije masovnih podatkov in
znanosti o podatkih je ključnega pomena učinkovit management sprememb (McAfee &
Brynjolfsson, 2012, str. 62). Kot enega glavnih izzivov pri uvajanju strategije masovnih
podatkov in znanosti o podatkih se izpostavlja pomanjkanje posameznikov s specifičnimi
znanji in sposobnostmi ustvarjanja dodane vrednosti s pomočjo manipulacije s podatki. Na
podlagi te potrebe po novih znanjih s področja analitike masovnih podatkov se povečuje
povpraševanje po podatkovnih znanstvenikih (angl. data scientists).
2
Namen magistrskega dela je na podlagi literature in že izvedenih raziskav na področju
masovnih podatkov in znanosti o podatkih boljše razumeti ter opredeliti znanja in
sposobnosti podatkovnih znanstvenikov, s pomočjo raziskave med podatkovnimi
znanstveniki v Sloveniji pa ugotoviti trenutna znanja in sposobnosti ter s pomočjo
primerjave podati smernice razvoja na tem področju v Sloveniji.
Identificirala sem tri področja, na katerih vidim prednosti izvedbe takšne raziskave v
Sloveniji. Z boljšim pregledom trenutnega stanja znanj, sposobnosti in identifikacijo
različnih segmentov podatkovnih znanstvenikov v Sloveniji bi, kot prvo, omogočili
identifikacijo ustrezne terminologije, povezane z različnimi potrebami/vlogami
podatkovnih znanstvenikov v organizacijah. Organizacijam bi tako omogočili, da ustrezno
identificirajo potrebe, znanja, sposobnosti in vloge podatkovnih znanstvenikov ter te
potrebe ustrezno komunicirajo navzven pri iskanju kadrov. S tem lahko zmanjšajo stroške
iskanja ustreznih kadrov. Pravilno definirane vloge pripomorejo tudi pri sistematizaciji
delovnih mest ter pri definiciji razvoja karierne poti zaposlenega podatkovnega
znanstvenika. Zadovoljstvo z delovnim mestom in razvojem karierne poti bo na ta način
motivator za dolgoročno razmerje med zaposlenim in organizacijo. Kot drugo, bodo lahko
posamezni podatkovni znanstveniki dobili vpogled v stanje svojih znanj in sposobnosti. S
tem bodo lahko identificirali svoje konkurenčne prednosti kot tudi izboljšali znanja in
sposobnosti na področjih, ki so mogoče slabše zastopana. V komunikaciji z organizacijami
bodo tudi lažje prepoznali primernost delovnega mesta in si prihranili čas in stroške pri
prijavi na delovna mesta, za katera mogoče ne ustrezajo. In nenazadnje bo raziskava
omogočala ponudnikom izobraževalnih storitev (fakultete, ustanove, organizacije), da
lahko ponudijo ustrezna znanja za zadovoljitev potreb posameznikov in organizacij po
izobraževanjih podatkovnih znanstvenikov.
Cilj magistrskega dela je s pomočjo raziskave med slovenskimi podatkovnimi znanstveniki
oziroma posamezniki, ki se ukvarjajo s podatki, identificirati trenutna znanja in
sposobnosti ter z uporabo metod multivariantne analize identificirati segmente
podatkovnih znanstvenikov v Sloveniji. Na podlagi rezultatov raziskave ter primerjave z
raziskavami, narejenimi v tujini, bom skušala ovrednotiti trenutna znanja in sposobnosti
podatkovnih znanstvenikov v Sloveniji ter na podlagi tega podala priporočila za razvoj
ustreznih sposobnosti in znanj podatkovnih znanstvenikov v prihodnosti.
Identificirala sem naslednja vprašanja, na katera želim v okviru magistrskega dela
odgovoriti:
Kdo so podatkovni znanstveniki in v čem se podatkovni znanstveniki razlikujejo od
podatkovnih analitikov (če se)?
Kakšni so trendi na področju masovnih podatkov in znanosti o podatkih ter kako
pripomorejo k uspešnosti organizacije?
Kakšna je vloga podatkovnih znanstvenikov v organizaciji?
3
Katera so potrebna znanja in sposobnosti podatkovnega znanstvenika in kako jih
pridobijo?
Kakšna so trenutna znanja in sposobnosti podatkovnih znanstvenikov v Sloveniji?
Na kakšen način posamezniki v Sloveniji trenutno pridobijo znanja, potrebna za delo
kot podatkovni znanstveniki?
Katere skupine podatkovnih znanstvenikov obstajajo v Sloveniji glede na njihova
znanja in sposobnosti ter kakšne so značilnosti ter razlike med njimi?
Ugotoviti v čem se identificirane skupine v Sloveniji razlikujejo v primerjavi s
skupinami, identificiranimi v tujih raziskavah?
Kakšna so priporočila ter ključne spremembe, potrebne za razvoj tega področja v
Sloveniji?
Magistrsko delo je sestavljeno iz štirih poglavij. V prvem poglavju je predstavljen koncept
masovnih podatkov in znanosti o podatkih. V sklopu razumevanja obeh konceptov sem
opredelila podatkovne znanstvenike in prikazala proces izvajanja znanosti o podatkih ter
različne primere uporabe. V prvem poglavju je prikazan tudi vpliv navedenih konceptov na
uspešnost organizacij ter izpostavljeni problemi pri vključevanju masovnih podatkov in
znanosti podatkov v strategijo organizacije, med katerimi je tudi pomanjkanje
posameznikov z ustreznimi znanji in sposobnostmi. Poglavje sem zaključila s prikazom
povpraševanja po podatkovnih znanstvenikih. V drugem poglavju sem opredelila znanja in
sposobnosti podatkovnih znanstvenikov. V uvodu poglavja sem najprej prikazala
kompleksnost vlog in posameznikov, ki se ukvarjajo z znanostjo o podatkih ter
problematiko razlikovanja med njimi. V nadaljevanju pa sem bolj konkretno opredelila
znanja in sposobnosti podatkovnih znanstvenikov, ki so bila uporabljena pri oblikovanju
vprašalnika. V drugem poglavju sem opredelila različne možnosti pridobivanja znanj in
sposobnosti ter predstavila rezultate drugih raziskav v povezavi z znanji in sposobnostmi
podatkovnih znanstvenikov. Tretje poglavje vključuje zasnovo, raziskovalna vprašanja,
metodologijo in izvedbo raziskave o znanjih in sposobnostih podatkovnih znanstvenikov v
Sloveniji. V četrtem poglavju so predstavljene značilnosti vzorca, rezultati raziskave po
raziskovalnih vprašanjih, potek razvrščanja v skupine ter diskusija.
1 MASOVNI PODATKI IN ZNANOST O PODATKIH
1.1 Uvod v masovne podatke in znanost o podatkih
Posamezniki in organizacije z vsakodnevnim delovanjem danes ustvarimo več podatkov
kot kadar koli do sedaj. Kot je rekel Eric Schmidt, izvršni direktor organizacije Google,
vsake dva dni ustvarimo toliko podatkov, kot smo jih v celotni zgodovini človeštva pa vse
do leta 2003 (Siegler, 2010). To naj bi znašalo kar 5 eksabajtov podatkov (Siegler, 2010).
Za merjenje velikosti baz podatkov tako že dolgo ni več dovolj samo uporaba gigabajtov (v
nadaljevanju GB), terabajtov (v nadaljevanju TB), temveč se velikosti podatkov merijo v
4
petabajtih (v nadaljevanu PB), eksabajtih (v nadaljevanju EB), zetabajtih (v nadaljevanju
ZB) ter jotabajtih (v nadaljevanju JB) (Nickyinthecoluds, 2015). McKinsey Global Institute
(Manyika et al., 2011, str. 5) ocenjuje, da so organizacije v letu 2010 globalno shranile več
kot 7 EB novih podatkov, medtem ko so uporabniki shranili več kot 6 EB podatkov. Prav
tako vsako minuto na portalu Google opravimo 2 milijona iskanj, na portal YouTube
naložimo za 72 ur videoposnetkov, pošljemo 204 milijonov elektronskih sporočil,
ustvarimo 1,8 milijona Facebook všečkov, pošljemo 278.000 tweetov in ustvarimo 571
novih spletnih strani (Qmee, 2015). Podatki nastajajo povsod: na družbenih medijih (angl.
social media) kot so Twitter, Facebook, LinkedIn, Instagram itd., spletnih straneh, ob
izvedbi nakupnih transakcij, ob aktivaciji GPS signalov mobilnih telefonov, z uporabo
RFID značk, na mobilnih aplikacijah in prav vse te podatke je mogoče shraniti v digitalni
obliki.
Podatki (angl. data) izvirajo iz latinske besede »datum«, ki pomeni »dana stvar« (angl. »a
thing given«) (Stanton, 2013, str. 8). Kljub temu, da se izraz »podatek« uporablja že od leta
1500 naprej, se je moderna uporaba začela šele v letih 1940 in 1950, ko so elektronski
računalniki začeli sprejemati in obdelovati podatke (Stanton, 2013, str. 8). Gonilna sila
napredka na področju zajema, shranjevanja in obdelave podatkov temelji na osnovnih
zakonih iz področja računalništva ter tehnološkega napredka informacijske družbe. V
nadaljevanju navajam nekaj najbolj relevantnih:
Moorov zakon, ki pravi, da se procesorska moč računalnikov podvoji na vsake dve leti
oziroma bolj podrobno, da se število tranzistorjev na centralno procesni enoti (CPE)
podvoji vsake dve leti. Z naraščanjem števila tranzistorjev na CPE to pomeni tudi večjo
učinkovitost in hitrost delovanja. Leta 2000 je na primer število tranzistorjev na CPE
znašalo 37,5 milijonov, leta 2009 pa že 904 milijonov (Moorov zakon, 2015). Danes
ponudniki centralno procesnih enot vgrajujejo tranzistorje v velikosti 14 nm. V avgustu
2015 pa je IBM razvil čip, kjer so tranzistorji postavljeni v velikosti 7 nm, kar naj bi
Moorov zakon ponovno vzpostavilo kot vzdržen (Here's why IBM's new computer chip
matters, 2015).
Metcalfov zakon, ki pravi, da je vrednost omrežja (W) proporcionalna s kvadratom
števila vozlišč/uporabnikov (n). Z naraščanjem velikosti omrežja njena vrednost raste
eksponentno (W = n2), dokler stroški omrežja ostajajo enaki ali pa se zmanjšujejo.
Zakon je sprva veljal za telekomunikacijska omrežja in naprave, danes pa se uporablja
tudi v družbenih medijih. Večje kot je število uporabnikov družbenega medija, večjo
vrednost ima družbeni medij za skupnost. (Metcalfe’s Law, 2015).
Sidgemorov zakon, ki definira rast omrežnega prometa. Zakon pravi, da se promet
preko omrežij podvoji vsake tri mesece: Promet (nov) = Promet (star) * 2 (Jin, Li,
Zhang, Cheng, Yu, Noguchi, 2002, str. 60).
Andreesenov zakon, ki pravi, da stroški pasovne širine oziroma prenosne
zmogljivosti omrežja padajo eksponentno in so obratno sorazmerni s Sidgemorovim
5
zakonom: Stroški (novi) = Stroški (stari) * ½ (Jin, Li, Zhang, Cheng, Yu, Noguchi,
2002, str. 60).
Lewis/Flemingov zakon, ki opisuje ekonomijo »brez trenj« v smislu, da eksponentna
rast spodbuja nove tržne ideje z večjimi dobički. Vendar je v sklopu hitre rasti potrebno
pričakovati tudi eksponentni padec, ko se na trgu pojavijo novi, bolj napredni sistemi.
Zakon opisuje enačba: Tržni Delež (čas) = 1/(1+ K * B * čas), kjer »K« predstavlja
konstanto, »B« pa parameter učenja (Jin, Li, Zhang, Cheng, Yu, Noguchi, 2002, str.
60).
Napredek v informacijski tehnologiji na področju zmožnosti zajemanja, shranjevanja in
obdelave vedno večje količine podatkov predstavlja pomembno prelomnico v razvoju nove
vrste konkurenčnih prednosti organizacij. Stroškovno učinkovito shranjevanje podatkov,
konvergenca pametnih naprav, družbenih omrežji, širokopasovnih komunikacij in analitike
so na novo definirali odnose med proizvajalci, distributerji in potrošniki izdelkov in
storitev, hkrati pa ustvarili nove izzive in priložnosti. Olofson & Vesset (2012) to
konvergenco imenujeta inteligentna ekonomija. Sama zmožnost shranjevanja in dostop do
podatkov namreč nista dovolj, šele ko imamo možnost podatke analizirati in na podlagi
rezultatov sprejemati boljše odločitve ustvarjamo konkurenčno prednost (Olofson &
Vesset, 2012). Z napredkom v tehnologiji smo si povečali možnosti zajema veliko večje
količine podatkov, različnih tipov podatkov, ki nastajajo z veliko hitrostjo. Ti podatki
prihajajo iz različnih (ne)zaupanja vrednih virov, ki lahko organizaciji prinesejo dodano
vrednost. Navedeni koncepti se povezujejo s pojmoma masovni podatki (angl. Big Data) in
znanostjo o podatkih (angl. Data Science).
Pojem masovni podatki ni popolnoma nov. Omenja se ga že v prvi polovici 19. stoletja, ko
je veliki količini podatkov prvo veljavo dal Fremont Rider, knjižničar na Univerzi
Wesleyan. Ocenil je, da se bo količina knjig na Ameriških univerzah povečala na več kot
200 milijonov do leta 2040 (Tuitt, 2013). Dandanes na primer le knjižnica Yale hrani
približno 12,5 milijonov knjig v kar 20 stavbah na področju Univerze (Tuitt, 2013).
Največji preboj se je verjetno zgodil leta 1996, ko je digitalno shranjevanje podatkov
postalo bolj stroškovno učinkovito kot shranjevanje papirja (Tuitt, 2013). Izraz »masovni
podatki« (angl. Big Data) se je prvič uporabil leta 1997, ko sta raziskovalca M. Cox in D.
Ellswot napisala članek, v katerem sta identificirala, da bo rast podatkov postala problem
za obstoječe računalniške sisteme (Tuitt, 2013). Leta 2000 je sledila študija Petra Lymana
in Hala R. Vairana, ki je prva kvantificirala kapaciteto shranjevanja računalniških sistemov
kot skupno vsoto novih in originalnih informacij, ki jih na leto ustvarimo na celem svetu
(leta 1999 naj bi na celem svetu proizvedli približno 1,5 EB unikatnih informacij) (Tuitt,
2013). Že leto kasneje po študiji Lymana in Variana je Doug Laney objavil raziskavo 3D
Data management: Controlling Data Volume, Velocity and Variety, ki so v obdobju
desetletja postale osnovne dimenzije masovnih podatkov, ki so bolj podrobno opisane v
nadaljevanju (Tuitt, 2013).
6
Slika 1, s pomočjo Google books Ngram Viewerja (Google Ngram Viewer, 2016),
prikazuje kolikokrat se določene besede ali besedne zveze pojavljajo v literaturi v
angleškem jeziku v obdobju od leta 1800 do leta 2008 (opomba: rezultati so tukaj omejeni
le na izraze v angleškem jeziku iz Googlove baze podatkov literature). Razvidno je, da se
je izraz masovni podatki pojavljal že v preteklosti, frekvenca pojavljanja pa se poveča od
leta 1980 naprej. V 80-ih letih prejšnjega stoletja se je namreč za zelo praktično izkazala
uporaba velikih količin podatkov kot osnova za sprejemanje odločitev (Dhar, 2013, str.
67). V 90-ih letih pa se je z zrelostjo relacijskih podatkovnih baz in avtomatizacijo
procesov razmahnila uporaba strojnega učenja (angl. machine learning) ter podatkovnega
rudarjenja (angl. data mining). Podatkovno rudarjenje je namreč učinkovito v zaznavanju
subtilnih struktur oziroma vzorcev v velikih količinah podatkov. Slaba stran teh metod je,
da poleg vzorcev v podatkih (signala) zaznajo tudi šume (Dhar, 2013, str. 67). V tem je
tudi razlog, da se skupaj z masovnimi podatki omenja tudi znanost o podatkih (angl. data
science), katere pojavljanje v literaturi precej dobro »sledi« trendu pojavljanja masovnih
podatkov.
Slika 1: Pojavljanje ključnih besed »big data« in »data science« v Googlovi bazi podatkov
literature
Vir: Google Ngram Viewer, 2016
S pomočjo orodja Google Trends (Google Trends, 2016) pa lahko spremljamo
priljubljenost ključnih besed glede na iskane izraze, ki jih vpišemo v Googlov spletni
brskalnik. Slika 2 prikazuje globalna spletna iskanja po ključnih besedah: »big data«,
»data science« in »data scientist« od leta 2005 do leta 2015 (opomba: za iskanje omejeno
le na Slovenijo ali za globalno iskanje slovenskih prevodov teh besed – masovni podatki,
znanost o podatkih, podatkovni znanstvenik – ni bilo rezultatov). Ugotovimo lahko, da se je
priljubljenost masovnih podatkov od leta 2012 zelo povečala, zanimanje za znanost o
podatkih v primerjavi z masovnimi podatki raste bolj počasi, a zmerno. Večje zanimanje se
7
kaže tudi za podatkovne znanstvenike (angl. data scientist), katerih vlogo in pomen bom
razložila v nadaljevanju.
Slika 2: Spletno iskanje preko iskalnika Google ključnih besed »big data« in »data
science« in »data scientist« po letih
Vir: Google Trends, 2016.
V nadaljevanju bom opredelila pojma masovni podatki in znanost o podatkih, predstavila
vlogo podatkovnih znanstvenikov v organizacijah in pojasnila kakšno vlogo imajo masovni
podatki, znanost o podatkih in podatkovni znanstveniki pri uspešnosti organizacije.
1.2 Opredelitve masovnih podatkov
Masovni podatki danes veljajo za popularen trend, ki se v osnovi nanaša predvsem na
problem volumna/hitrosti/raznolikosti podatkov (angl. Volume/Velocety/Variety problem).
Glavna prednost masovnih podatkov je, da lahko s pomočjo analize le-teh pridobimo
zanimive vzorce in informacije, ki so bili poprej skriti, saj jih zaradi velike količine dela in
časa ni bilo mogoče pridobiti. Sedaj pa jih lahko uporabimo za analizo, sprejemanje
odločitev ter razvoj novih produktov in storitev, kar predstavlja znatno konkurenčno
prednost. Organizacije, kot so Google, Facebook, Amazon, LinkedIn, WallMart so
nekatera izmed prvih, ki so začela uspešno izkoriščati prednosti, ki jih ponujajo masovni
podatki, v obliki personalizirane uporabniške izkušnje, razvojem novih izdelkov in storitev
na podlagi podatkov (angl. data product) ter uporabe novih poslovnih modelov (Lorica,
Howard & Dumbill, 2012).
8
Zaradi dejstva, da pojem masovni podatki in vse kar dojemamo pod strategijo vpeljave
masovnih podatkov vpliva in zajema širok spekter poslovnih procesov, tehnologij in
strokovnih znanj, prihaja pri razumevanju tega pojma do določenih nejasnosti. Z
namenom, da bi pridobila čim boljši pregled nad obsegom razumevanja tega področja sem
v nadaljevanju zbrala definicije pojma masovnih podatkov, objavljene s strani različnih
raziskovalnih ustanov (Gartner, Forrester, IDC, McKinsey, O’Reilly), raziskav in
organizacij, ki se ukvarjajo z masovnimi podatki in analitiko (Microsoft, Oracle, IBM).
Gartner opredeli masovne podatke kot informacijska sredstva velikega obsega, visokih
hitrosti in zelo različnega tipa, ki zahtevajo stroškovno učinkovite oblike obdelave
informacij za okrepljen vpogled v poslovanje in odločanje (What is big data, 2015).
Forrester definira masovne podatke kot mejo sposobnosti organizacije, da shranjuje,
obdeluje in dostopa (angl. SPAstore, process, access) do vseh podatkov, ki jih potrebuje za
delovanje, sprejemanje odločitev, zmanjšanje tveganja in zadovoljitev potreb svojih
potrošnikov (Gualtieri, 2012).
Po International Data Corporation (v nadaljevanju IDC) definiciji so masovni podatki
nova generacija tehnologij in arhitekturnih rešitev, katerih namen je pridobiti ekonomsko
vrednost iz velike količine različnih tipov podatkov s pomočjo visoko-intenzivnega
shranjevanja, raziskovanja in analize teh podatkov. Definicija vključuje strojno opremo,
programsko opremo in druge storitve, ki združujejo, organizirajo, ravnajo, analizirajo in
vizualizirajo podatke preko vseh značilnosti (Vesset et al., 2012, str. 1).
McKinsey Global Institute (Manyika et al., 2011, str. 1) opredeli masovne podatke kot
nabor podatkov, katerih obseg presega zmožnosti tipičnih programskih orodij baz
podatkov za zajem, shranjevanje, management in analizo. Opredelitev je z namenom
subjektivna in vključuje drsno definicijo, kakšen naj bi bil obseg nabora podatkov, da bi se
ga definiralo kot masovne. Definicijo naslanjajo na predpostavko, da bo z napredkom
tehnologije skozi čas rasel tudi obseg podatkov, ki bo kvantificiran kot masovni podatki.
Prav tako se lahko definicija razlikuje od sektorja do sektorja, glede na to kakšna
programska orodja so na voljo in kakšen obseg nabora podatkov je pogost v določeni
dejavnosti. Napovedujejo, da naj bi masovni podatki obsegali od nekaj par TB do več PB
(Manyika et al., 2011).
Po O’Reilly (Lorica, Howard & Dumbill, 2012) so masovni podatki podatki, ki prekašajo
procesne kapacitete tradicionalnih sistemov baz podatkov. Podatkov je preveč, se prehitro
»premikajo« ali ne ustrezajo arhitekturni strukturi baze podatkov. Da bi lahko pridobili
vrednost iz takšnih podatkov, je potrebno poiskati drugačne načine za njihovo obdelavo
(Lorica, Howard & Dumbill, 2012).
9
Oracle navaja, da je potrebno pri definiciji masovnih podatkov upoštevati vse štiri ključne
značilnosti: volumen, hitrost, raznolikost in vrednost (Oracle, 2015).
IBM ovrednoti masovne podatke kot podatke, ki jih definirajo trije atributi: volumen,
raznolikost in hitrost (IBM What is big data?, 2015).
V raziskavi Big data executive survey (2012, str. 4) so masovne podatke opredelili kot
termin, ki se ga uporablja za opis nabora podatkov, ki je tako velik, kompleksen in ki
zahteva zelo hitro procesiranje, da takšne podatke postane težko ali nemogoče obdelati z
uporabo standardnih orodij za analitiko in podatkovne baze. Obdelava takšnih podatkov
pogosto zahteva programsko opremo, ki se vzporedno izvaja na desetine, stotine ali celo
tisočine strežnikih. Rast masovnih podatkov vključuje razmah družbenih medijev, videov,
fotografij, nestrukturiranih besedil, poleg vseh ostalih podatkov, ki so zbrani preko
različnih naprav, vključujoč pametne telefone. Med marsikatere izzive masovnih podatkov
sodijo: zajem, shranjevanje, iskanje, deljenje, analiza in vizualizacija podatkov (Big data
executive survey, 2012, str. 4).
S pomočjo naštetih opredelitev menim, da na izraz masovni podatki lahko gledamo v
ožjem in širšem smislu. V kolikor na izraz gledamo v ožjem smislu, gre predvsem za
opredelitev tega, kakšne značilnosti morajo imeti podatki, da jih lahko opredelimo kot
»masovne«. Večina definicij »masovnosti« podatkov ne povezuje le s količino podatkov
(volumen), temveč so enako pomembne tudi ostale dimenzije podatkov: hitrost, s katero
podatki nastajajo, raznolikost virov/strukture podatkov, zaupanje v podatke ter vrednost
podatkov. V nadaljevanju sem zato vsebinsko opredelila štiri najbolj pogosto omenjene
dimenzije masovnih podatkov: volumen (angl. volume), raznolikost (angl. variety), hitrost
(angl. velocity) in vrednost (angl. value).
1.3 Dimenzije masovnih podatkov
1.3.1 Volumen podatkov
Poročilo raziskovalne agencije McKinsey iz leta 2011 je ocenilo, da količina podatkov na
svetu raste s približno 40 % stopnjo letno (Manyika et al., 2011, str. 16). Z napredkom
tehnologije na področju shranjevanja podatkov imajo organizacije danes možnost shraniti
ogromne količine podatkov. Velike količine podatkov se dejansko tudi shranijo, saj so se
stroški shranjevanja podatkov občutno pocenili (na primer: danes lahko shranimo celotno
svetovno zalogo glasbe na napravo v vrednosti 500 $) (Dhar, 2013, str. 67). Glavna
prednost, ki se jo pridobi s sposobnostjo obdelave velikega obsega nabora podatkov je, da
se lahko s pomočjo večjih vzorcev, ki so boljši približek populaciji, gradi bolj natančne
napovedne modele. Večanje nabora podatkov predstavlja izziv obstoječim tradicionalnim
strukturam informacijskih tehnologij, saj masovni podatki zahtevajo razširljivo
skladiščenje in porazdeljen pristop k poizvedovanju. Rešitve so na voljo v obliki
10
podatkovnih skladišč ali rešitev, ki izhajajo iz Apache Hadoop – Hadoop je platforma,
razvita s strani organizacije Yahoo, ki omogoča porazdelitev računalniških problemov
preko večjega števila strežnikov (Lorica, Howard & Dumbill, 2012). Na spletni skupnosti
KDnuggets (Piatetsky, 2015) so že četrto leto zapored izvedli kratko spletno raziskavo med
podatkovnimi znanstveniki in analitiki, v kateri so jih povprašali »Kako velik je bil
največji nabor podatkov, ki ste jih analizirali ali na njih uporabili metode podatkovnega
rudarjenja?« (Piatetsky, 2015). Rezultati iz leta 2015, na podlagi 459 odgovorov, kažejo na
podoben vzorec iz preteklih let, ki je ostal razmeroma stabilen od leta 2012, in sicer da
večina podatkovnih znanstvenikov in analitikov ne obdeluje zares velikih podatkov. Slika
3 prikazuje rezultate po letih. Večina odgovorov (52,8 % v letu 2013, 54,3 % v letu 2014
in 55,6 % v letu 2015) se giblje v obsegu GB. Mediana je bila med 11 GB in 100 GB za
vsako leto 2012–2015. Zmerno rast je bilo zaznati pri posameznikih, ki obdelujejo nabore
podatkov v velikosti PB (iz 2,5 % v letu 2013 se je povečalo na 4,6 % v letu 2015).
Majhen, a značilen, prepad pa je bilo zaznati v obsegu od 1–10 PB, ki ločuje analitike, ki
obdelujejo komercialna podatkovna skladišča v velikosti TB in tiste, ki obdelujejo podatke
v velikosti več PB.
Slika 3: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega nabora
podatkov (2013–2015)
Vir: G. Piatetsky, Poll results: Where is big data?, 2015.
Slika 4 prikazuje rezultate ankete po geografskih področjih, razdeljenih glede na velikost
obdelanih podatkov. Največji delež posameznikov, ki obdelujejo podatke v TB ali več,
prihaja iz Združenih držav Amerike in Kanade (25,6 %). Na drugem mestu sta Avstralija in
Nova Zelandija (22,2 %), sledijo pa Azija (21,7 %) in Evropa (20,7 %) (Piatetsky, 2015).
11
Slika 4: Rezultati spletne ankete na KDNuggets.com glede največjega obdelanega nabora
podatkov po geografskih področjih (2015)
Vir: G. Piatetsky, Poll results: Where is big data?, 2015.
1.3.2 Hitrost pridobivanja podatkov
Hitrost se nanaša na vedno večjo stopnjo hitrosti, s katero pridobivamo podatke. V
preteklosti so finančni sistemi za trgovanje že vzpostavili sisteme, ki se lahko spopadejo s
hitrostjo prejemanja podatkov in to spremenili v svojo prednost (Lorica, Howard &
Dumbill, 2012). Z razvojem interneta, pametnih mobilnih telefonov in večje
razpoložljivosti dostopa do svetovnega spleta posamezniki predstavljamo konstanten vir
geolokacijskih podatkov v obliki slik, videa, besedila ipd. Pred, med in po nakupu izdelka
ali storitve se generira tok podatkov nazaj do ponudnika (poleg končne prodaje se beležijo
tudi vse vmesne interakcije). Z izkoriščanjem teh informacij za izgradnjo sistemov za
priporočanje (angl. recommendation systems), da posameznik opravi dodatne nakupe,
organizacije pridobivajo vidno konkurenčno prednost (Lorica, Howard & Dumbill, 2012).
Pomembnost dimenzije hitrosti masovnih podatkov leži v hitrosti povratne zanke. To
pomeni, da je potrebno delovati in ukrepati na podlagi podatkov v realnem času. Bolj tesna
je zanka, večja je konkurenčna prednost (Lorica, Howard & Dumbill, 2012). Tehnologija
dimenzije hitrosti masovnih podatkov obsega od paketne obdelave (angl. batch processing)
ob določenih intervalih do konstantnega toka podatkov (angl. streaming data) v realnem
času. Paketna obdelava je značilna za tradicionalna podatkovna skladišča. Konstanten tok
podatkov pa predstavlja domeno različnih tehnologij: kompleksno procesiranje dogodkov
(angl. complex event processing, v nadaljevanju CEP), analiza besedil (angl. text
analytics), strojno učenje in dogodkovno naravnana arhitektura (angl. event-based
architectures) (Olofson & Vesset, 2012, str. 5). Ker je podatkov preveč, da bi jih shranili v
celoti, je smiselno shraniti podatke, kjer aplikacija zahteva takojšen odziv na vhodne
podatke – kot so na primer mobilne aplikacije za spletne igre in športne stave (Lorica,
Howard & Dumbill, 2012).
12
1.3.3 Raznolikost podatkov
1.3.3.1 Opredelitev raznolikosti podatkov
Raznolikost podatkov lahko opredelimo z vidika več različnih dimenzij. Podatki so lahko
opredeljeni z vidika podatkovnega tipa (strukturirani, delno strukturirani in nestrukturirani
ipd.), vira pridobitve (notranji, zunanji) ter izvora (generirani s strani naprav ali človeka)
(Hayes, 2014a). Bistvo tretje dimenzije masovnih podatkov tj. raznolikosti podatkov, je v
tem, da lahko kljub različnim virom podatkov, različnega izvora in nestrukturiranosti
podatkov iz njih izluščimo urejeno znanje, ki ga lahko uporabi človek ali pa se ga uporabi
kot vhodne podatke v aplikacijo (Lorica, Howard & Dumbill, 2012).
1.3.3.2 Zunanji in notranji podatki
V raziskavi The Emerging Returns on Big Data (2013, str. 18) so podatke, ki jih generira
organizacija ali pa so pod nadzorom organizacije (Hayes, 2014a), opredelili kot notranje
ter podatke, ki so generirani s strani virov izven organizacije, kot zunanje podatke. Med
notranje podatke sodijo podatki, ki izhajajo iz različnih poslovnih dogodkov: registracija
potrošnika, izdelava izdelka, sprejem naročila, prodaje, proizvodnje, podpore potrošnikom,
kadrovske službe itd. (The Emerging Returns on Big Data, 2013, str. 18). Zunanji podatki
pa izvirajo iz drugih ponudnikov podatkov (npr. telekomunikacijske organizacije, ki
hranijo podatke o lokaciji in gibanju potrošnikov; angl. third-party data providers), spletne
skupnosti, viri odprtih podatkov (angl. open data sources) in družbenih medijev, kot so
Facebook, Twitter, Google+ itd. (The Emerging Returns on Big Data, 2013, str. 18). Slika
5 prikazuje, da povprečno ocenjen % notranjih in zunanjih podatkov v organizaciji znaša
60–70 % notranjih podatkov ter 29–38 % zunanjih podatkov. Višji % zunanjih podatkov pa
je zaznati v azijsko-pacifiški regiji.
Slika 5: Povprečno ocenjeni % podatkov, glede na to, ali so pridobljeni iz notranjih ali
zunanjih virov
Vir: The Emerging Big Returns on Big Data, 2015, str. 20, Slika II-8.
13
1.3.3.3 Strukturirani in nestrukturirani podatki
Viri, od koder se pridobiva podatke, se med seboj razlikujejo. To pomeni, da ne ustrezajo
vedno urejeni strukturi vrstic in stolpcev v relacijskih bazah podatkov. Nestrukturirani
podatki so podatki, ki nimajo strukture, definirane s strani sheme ali programske kode
(Olofson & Vesset, 2012, str. 7) oziroma nimajo vnaprej opredeljenega podatkovnega
modela in/ali niso organizirani po vnaprej določenih pravilih (Hayes, 2014a). To pomeni,
da jih ni enostavno analizirati kot lahko analiziramo strukturirane podatke. Slika 6
prikazuje razliko med strukturiranimi in nestrukturiranimi podatki po Olofson & Vesset
(2012, str. 8).
Slika 6: Strukturirani in nestrukturirani podatki
Vir: C.W. Olofson &D. Vesset, Big Data: Trends, Strategies, and SAP Technology, 2012, str. 8.
Po principu masovnih podatkov naj, v kolikor je mogoče, shranjujemo vse podatke, ki so
na voljo. Ni pa nujno, da so vsi shranjeni v relacijskih bazah podatkov, katerih omejitev je
statična narava shem (Lorica, Howard & Dumbill, 2012). Kot je prikazano, imajo še vedno
pomembno vlogo baze podatkov, kjer se za poizvedovanje uporablja poizvedbeni jezik
SQL (angl. Structured Query Language). SQL baze še vedno dobro obvladujejo velike
količine strukturiranih podatkov, ki imajo konsistentno, poznano strukturo in omogočajo
redno poročanje, rudarjenje in ponavljajoče se analize na takšnih podatkih. Po drugi strani
pa nestrukturirani podatki nimajo identificirane interne strukture (Lorica, Howard &
Dumbill, 2012). Gre za masiven neorganiziran konglomerat različnih objektov, ki nimajo
prepoznane vrednosti dokler niso identificirani in shranjeni v organizirani obliki. Po
obdelavi, s pomočjo specializiranih programskih orodij, je mogoče po takšnih podatkih
iskati in jih kategorizirati z namenom pridobivanja vpogleda v podatke (Structured and
unstructured data: What is it?, 2013). Zato pomembnejšo vlogo pridobivajo baze podatkov,
ki ne slonijo na relacijski naravi shem, temveč na stolpičnih bazah podatkov, optimiziranih
14
za pridobivanje vnaprej preračunanih informacij, poznane kot NoSQL (angl. Not-only
SQL). NoSQL baze podpirajo predvsem dimenzijo raznolikosti masovnih podatkov.
Sprejemajo namreč podatke iz različnih virov, v različnih podatkovnih tipih in različnega
izvora, na katerih je potem mogoče s programsko kodo pregledati, filtrirati in organizirati
podatke (predvsem v Hadoop aplikacijah) (Olofson & Vesset, 2012, str. 8). Slika 7
prikazuje, da naj bi po raziskavi The Emerging Big Returns on Big data (2015, str. 19) 50
% podatkov v evropskih organizacijah bilo strukturiranih, 25 % nestrukturiranih ter 25 %
delno strukturiranih (npr. XML, HTML označena besedila).
Slika 7: Povprečno ocenjeni % podatkov glede na njihovo strukturiranost
Vir: The Emerging Big Returns on Big Data, 2015, str. 19, Slika II-7.
1.3.3.4 Podatki, generirani s strani naprav ali človeka
Podatki, generirani s strani naprav (angl. machine-generated data), so podatki, ki so
izračunani oziroma zbrani avtomatsko in brez človeškega posredovanja (npr. meta podatki)
(Hayes, 2014a). Izhajajo iz rasti števila senzorjev in naprav, ki merijo in zapisujejo
dogodke in situacije v fizičnem svetu. Rezultat predstavljajo strukturirani podatki v
razponu od enostavnih senzoričnih zapisov do kompleksnih računalniških dnevniških
zapisov. Njihova dobro strukturirana narava je primerna za računalniško obdelavo, njihova
velikost in hitrost pa presega okvire tradicionalnih pristopov (Vale, 2013). Primeri takšnih
podatkov so (Vale, 2013):
podatki iz senzorjev:
fiksni senzorji: domače naprave, vremenski senzorji, prometni senzorji, znanstveni
senzorji, varnostne slike in posnetki (video),
mobilni senzorji: lokacija mobilnega telefona, avtomobili, satelitski posnetki;
podatki iz računalniški sistemov (podatki o uporabniku, podatki o dogodkih,
formatirani zgodovinski podatki):
dnevniški zapisi (angl. logs),
spletni dnevniki (angl. web logs).
15
Podatki, generirani s strani potrošnikov (angl. human-sourced information), so podatki, ki
so jih ustvarili oziroma vnesli ljudje (potrošniki, uporabniki). So skoraj v celoti
digitalizirani in shranjeni vsepovsod, od osebnih računalnikov, mobilnih telefonov do
družbenih medijev. Podatki so delno strukturirani ali nestrukturirani. Mednje spadajo
naslednji podatki (Vale, 2013):
družbeni mediji: Facebook, Twitter, Tumblr ipd.,
blogi in komentarji,
osebni dokumenti,
slike: Instagram, Flickr, Picasa ipd.,
posnetki: YouTube ipd.,
spletna iskanja,
vsebina mobilnih podatkov: besedilna sporočila,
zemljevidi, ustvarjeni s strani potrošnikov,
elektronska pošta.
Slika 8: Ogrodje za opredelitev raznolikost podatkov
Vir: B. E. Hayes, The what and where of big data: A data definition framework, 2014a.
Slika 8 prikazuje ogrodje za opredelitev raznolikosti podatkov po Hayes (2014a). Model
razločuje tip podatkov od vira pridobitve podatkov. Stolpca predstavljata tip podatkov
(strukturirani ali nestrukturirani), vrstice pa vir pridobitve podatkov (zunanji ali notranji).
Podatki so tako lahko razporejeni v enega od štirih kvadrantov, kjer je nadaljnja razdelitev
narejena še na nivoju izvora podatkov (generirani s strani naprav ali človeka). S pomočjo
ogrodja vidimo, da lahko nestrukturirane podatke organizacija pridobi tako iz notranjih
16
virov (npr. odprta vprašanja v raziskavi, vpisi opomb iz klicnega centra) kot tudi iz
zunanjih virov (npr. komentarji na Twitterju, slike na Pinterestu). Nestrukturirani podatki
so primarno generirani s strani človeka. Tudi strukturirane podatke organizacija pridobi iz
notranjih (npr. ocenjevalne lestvice v raziskavah, spletni dnevniki) in zunanjih virov (npr.
GPS podatki o tweetih, ocene na družbenih omrežjih npr. Yelp). Strukturirani podatki
vključujejo podatke, generirane s strani človeka in naprav (Hayes, 2014a).
1.3.4 Vrednost podatkov
V kontekstu masovnih podatkov se vrednost nanaša na stroške tehnologije in na vrednost,
ki se jo lahko pridobi iz masovnih podatkov. Stroški so pomembni predvsem iz vidika tega,
ker predstavljajo ključni faktor novosti v masovnih podatkih. Podatkovna skladišča,
management podatkov v realnem času na področju trgovanja, napovedovanje vremena,
zaznavanje goljufij, nestrukturirane vsebine, analiza besedil (angl. text analytics) in visoko
učinkoviti sistemi za znanstveno raziskovanje obstajajo že leta. Kar je sedaj drugače, so
sistemi, ki so bili prej na voljo le vladnim agencijam ali le majhnemu naboru velikih
organizacij v določenih dejavnostih, sedaj pa so na voljo širšemu trgu. Kombinacija
razpoložljive programske opreme in nižanje cen strojne opreme je povzročila, da so
tehnologije lažje dostopne. Vrednost masovnih podatkov se lahko opredeli z nižjimi
stroški kapitala (programske, strojne opreme in infrastrukture), operativno
učinkovitostjo (nižji stroški dela zaradi uporabe bolj učinkovitih metod za integracijo,
management, analizo in dostavo podatkov) in izboljšanem poslovnih procesov (povečanje
prihodkov ali dobička na račun novih ali boljših načinov poslovanja, vključujoč izboljšave
v komercialnih transakcijah, trajnem managementu skupnosti in primerni distribuciji
socialnih, zdravstvenih in izobraževalnih storitev) (Olofson & Vesset, 2012, str. 6).
1.3.5 Masovni podatki v ožjem in širšem smislu
Na podlagi opisanih dimenzij sklepam, da lahko podatke opredelimo kot masovne v ožjem
smislu takrat, ko ustrezajo vsaj dvema od treh dimenzij masovnih podatkov (volumen,
hitrost, raznolikost), vendar vedno z namenom prinašanja vrednosti (četrta dimenzija)
organizaciji v obliki nižjih stroškov, večji učinkovitosti ali izboljšanju poslovnih procesov.
Kako kvantificirano opredeliti volumen, hitrost in raznolikost, povzema klasifikacija po
IDC (Vesset et al., 2012, str. 2), prikazana v Sliki 9 . V sklop trga masovnih podatkov se
vključuje podatkovne baze (ne glede na to, ali gre za relacijske ali ne), ki presegajo 100
TB, ki so implementirane na razširljivi arhitekturi in ki vsebujejo podatke iz dveh ali več
virov/podatkovnih tipov ali ko je stopnja hitrosti zbiranja podatkov zelo visoka. Podobno
se lahko za masovne opredelil podatkovne baze, katerih količina je sicer manjša kot 100
TB, vendar je letna stopnja rasti generiranih podatkov 60 % ali več, poleg tega so
implementirane na razširljivi infrastrukturi in vključujejo podatke dveh ali več tipov/virov
ali ko je stopnja hitrosti zbiranja podatkov zelo visoka (Vesset et al., 2012, str. 2).
17
Slika 9: Kriteriji za opredelitev masovnih podatkov po IDC
Vir: D. Vesset et al., Wordlwide Big Data Technology and Services 2012–2016 Forecast., 2012, str. 2, Slika
1.
Iz opisanih značilnosti masovnih podatkov lahko ugotovimo tudi, da ni dovolj le-te tako
opredeliti. Potrebno jih je shraniti, imeti možnost dostopa do njih ter znanja, sposobnosti in
orodja, da jih lahko ustrezno obdelamo in rezultate obdelav uporabimo za sprejemanje
boljših odločitev. Zaradi omenjene večdimenzionalnosti podatkov in novega pristopa k
obdelavi je očitno, da masovni podatki potrebujejo nov pristop, novo strojno in
programsko opremo ter druge spremembe, povezane z organizacijo, kulturo in
sprejemanjem odločitev. Menim, da masovni podatki tako v širšem smislu po IDC (Vesset
et al., 2012, str. 1) »predstavljajo novo generacijo tehnologij in arhitekturnih rešitev,
katerih namen je pridobiti ekonomsko vrednost iz velike količine različnih tipov podatkov
s pomočjo visoko intenzivnega shranjevanja, raziskovanja in analize teh podatkov«. Tudi
Boyd & Crawford (2012) v članku Critical questions for Big Data, objavljenem v
Information, Communications and Society Journal, definirata masovne podatke kot
kulturni, tehnološki in znanstveni fenomen, ki temelji na prepletanju tehnologije
(maksimiziranje računalniške moči in natančnosti algoritmov za zbiranje, povezovanje in
primerjavo velikega nabora podatkov), analize (zmožnost iz velikega nabora podatkov
identificirati vzorce z namenom, da pridobimo ekonomsko, tehnično, družbeno ali pravno
prednost/odločitev) in mitologije (splošno razširjenega spoznanja, da veliki nabori
podatkov nudijo višjo stopnjo inteligence in znanja, ki lahko ustvarijo vpoglede, ki so bili
prej nemogoči, v duhu resnice, natančnosti in objektivnosti).
18
1.4 Znanost o podatkih
1.4.1 Opredelitev znanosti o podatkih
Ravno v širšem smislu razumevanja masovnih podatkov so le-ti tesno povezani s
področjem znanosti o podatkih. Področje znanosti o podatkih predstavlja rešitev, kako
odkriti potencialne vpoglede, ki se skrivajo v masovnih podatkih in kako premostiti izziv
volumna/hitrosti/raznolikosti/vrednosti masovnih podatkov, ki so bili predstavljeni v
prejšnjem poglavju (Voulgaris, 2014, str. 15). Masovni podatki predstavljajo gonilo
sprememb na področju zbiranja, shranjevanja, managementa, analiziranja in vizualizacije
podatkov. Vendar pa masovni podatki potrebujejo znanost o podatkih z namenom, da
(Somohano, 2013):
na podlagi podatkov odkrijemo, česar ne vemo,
pridobimo napovedni vpogled v podatke, na podlagi katerega lahko sprejemamo boljše
odločitve,
ustvarimo nove izdelke in storitve na podlagi podatkov (angl. data products), ki imajo
takojšen vpliv na poslovanje,
komuniciramo uspešne poslovne zgodbe na podlagi podatkov,
gradimo zaupanje v sprejemanje odločitev, ki prinašajo poslovno vrednost.
Termin znanost o podatkih sej je pojavil še pred pojavom masovnih podatkov. Že leta 1962
je John W. Turkey v knjigi The Future of Data Analysis napovedal vzpon novega tipa
analize podatkov, ki bo predstavljal bolj znanost (angl. science) kot metodologijo. Prvi je
izraz znanost o podatkih uporabil Peter Naur leta 1974 v knjigi Concise Survey of
Computer methods (Press, 2012). Znanost o podatkih je definiral kot znanost ukvarjanja s
podatki, ko so le-ti enkrat bili pridobljeni, odnos podatkov do tega, kar predstavljajo, pa je
delegiran na druga področja in znanosti (Press, 2012). To pomeni, da je takrat za
podatkovnega znanstvenika veljal vsak, ki je imel znanja in sposobnosti za delo z
računalnikom in ki je poleg tega razumel semantiko podatkov. Znanost o podatkih je večjo
prepoznavnost pridobila v 80-ih letih prejšnjega stoletja preko ene svojih najbolj
prepoznavnih metod: podatkovnega rudarjenja. Konferenca Data Science, Classification,
and Related Methods iz leta 1996 je pripomogla k prepoznavnosti znanosti o podatkih med
raziskovalci ter k ločevanju od drugih izrazov v sklopu analize podatkov (klasifikacija, na
primer, ni tako širok pojem kot znanost o podatkih). To je pomagalo pri postopni umestitvi
znanosti o podatkih kot neodvisnega področja (Press, 2012). Leta 1997 je bil ustanovljen
dnevnik Knowledge Discovery and Data Mining, ki je definiral podatkovno rudarjenje kot
pridobivanje informacij iz velikih baz podatkov. Podatkovno rudarjenje je s tem, kot ena
izmed prvih metod znanosti o podatkih, pridobilo na popularnosti in spoštovanju
znanstvene skupnosti (Press, 2012). V 90-ih letih so potrebe po tem področju postale bolj
očitne, ko je velikost baz podatkov začela naraščati. Leta 2002 je izšel Data Science
Journal, ki se ukvarja z vsem, kar je povezano s podatki: zbiranje, analiziranje,
19
modeliranje ter vsemi možnimi aplikacijami pridobljenega znanja iz podatkov (Press,
2012). Leta 2009 sta raziskovalca Yangyong Zhu in Yun Xiong v svoji publikaciji
Introduction to Dataology and Data Science zapisala, da je znanost o podatkih nova veja
znanosti, izrazito različna od naravne znanosti in družbene znanosti. Razmah znanosti o
podatkih je omogočil razvoj vzporednega računanja (izvrševanje računalniških procesov
sočasno na več procesorjih), naprednega procesa analize podatkov (strojnega učenja) in
povečanje računske moči z znižanjem cen (Voulgaris, 2014, str. 15–19).
Definicije znanosti o podatkih danes večinoma govorijo o interdisciplinarnem področju –
kombinaciji znanj in sposobnosti iz različnih področij za obdelavo (masovnih) podatkov.
Stanton (2013, str. ii) opredeli znanost o podatkih kot nastajajoče področje delovanja, ki se
ukvarja z zbiranjem, pripravo, analizo, vizualizacijo, managementom in ohranitvijo
velikega nabora informacij. Čeprav znanost o podatkih najbolj tesno povezujemo s
področjem baz podatkov in informatiko, je potrebnih še veliko drugih znanj in sposobnosti.
O’Reilly (Lorica, Howard & Dumbill, 2012) definira znanost o podatkih kot disciplino, ki
kombinira znanja iz matematike, programiranja in znanosti. Raziskava Big data executive
survey (2012, str. 8) pa je znanost o podatkih opredelila kot disciplino, ki združuje uporabo
različnih stopenj statistike, podatkovne vizualizacije, računalniškega programiranja,
podatkovnega rudarjenja, strojnega učenja in arhitekture podatkovnih baz, z namenom
reševanja kompleksnih podatkovnih problemov.
Gre za določena področja, ki se s podatki in njihovo analizo ukvarjajo že veliko prej od
pojava masovnih podatkov. Pri tem se postavlja vprašanje, zakaj bi potrebovali nov izraz
za področje, za katerega že od nekdaj uporabljamo uveljavljena znanja iz statistike in
matematike. Dhar (2013) argumentira, da se znanost o podatkih od statistike in drugih
znanstvenih področjih razlikuje v več pogledih. Pri tem se naslanja predvsem na to, da
znanost o podatkih za osnovo jemlje masovne podatke – zelo heterogene in nestrukturirane
podatke, ki izhajajo iz med seboj kompleksno povezanih omrežji. Tradicionalne statistične
metode delujejo dobro na manjšem naboru podatkov. Baze podatkov pa lahko dandanes
zavzemajo več milijonov vrstic in stolpcev. Tehnični izziv predstavlja tudi razvoj modelov,
ki se bodo boljše izkazali pri analizi tako velike količine podatkov ter zaznali nelinearne
odnose in interakcije med elementi. Tradicionalni podatkovni modeli tako niso več
primerni za pridobivanje znanja, saj so v svoji osnovi optimizirani za hiter dostop in
agregacijo podatkov z namenom odgovoriti na vprašanje »Kateri podatki ustrezajo temu
vzorcu?«, ne pa tudi za iskanje vzorcev v masovnih podatkih, kjer je osnovno vprašanje
»Kateri vzorci ustrezajo tem podatkom?«. Analiza takšnih podatkov zahteva integracijo in
interpretacijo z namenom izluščiti znanje s pomočjo orodij iz področja računalništva,
ekonometrije, lingvistike, sociologije in drugih disciplin (Dhar, 2013). Podobno
ugotavljajo pri The field guide to data science (2015), da znanost o podatkih podpira in
vzpodbuja preklop med deduktivnim razmišljanjem (vezanim na domneve) in induktivnim
razmišljanjem (vezanim na vzorce). To predstavlja korenito spremembo od tradicionalnih
analitičnih pristopov. Induktivno razmišljanje in raziskovalna analiza podatkov
20
predstavljajo namreč osnovo za izboljšanje domnev in odkritje novih analitičnih prijemov.
Z aktivnim kombiniranjem sposobnosti za deduktivno in induktivno razmišljanje znanost o
podatkih ustvarja okolje, kjer modeli realnosti niso več statistični, temveč se jih neprestano
preverja, osvežuje in izboljšuje dokler ni najden boljši model (The field guide to data
science, 2015, str. 22).
1.4.2 Opredelitev podatkovnih znanstvenikov
Z rastjo organizacij, popularnostjo masovnih podatkov in znanosti o podatkih se je pojavila
tudi potreba po tem, da se posameznike, ki se ukvarjajo z znanostjo o podatkih, ustrezno
opredeli. Termina »poslovni analitik« ali »podatkovni analitik« (ali drugi – Hal Varian iz
Googla je uporabil tudi izraz »statistik« (Voulgaris, 2014, str.22)) naj ne bi v celoti zajela
osredotočenosti na uporabo podatkov z neposrednim in značilnim vplivom na poslovanje
organizacij. Septembra 2005 je bil v vladnem poročilu prvič, čeprav precej generično,
definiran izraz »data scientist« oz. podatkovni znanstvenik. V poročilu so podatkovne
znanstvenike opredelili kot informacijske in računalniške znanstvenike, inženirje
podatkovnih baz in inženirje programske opreme, programerje, področne strokovnjake,
knjižničarje, arhivarje in druge, ki so ključni za uspešen management digitalne zbirke
podatkov (Voulgaris, 2014, str. 17–19). Večjo prepoznavnost pa je izraz pridobil šele nekaj
let kasneje, ko sta D. J. Patil in Jeff Hammerbacher v članku Harvard Business Review:
Data Scientist: The Sexiest Job of the 21st Century bolj podrobno definirala podatkovne
znanstvenike kot posameznike, ki uporabljajo tako podatke kot znanost, da ustvarijo nekaj
novega (Davenport & Patil, 2012). Podobno definicijo je podal Voulgaris (2014, str. 18):
podatkovni znanstveniki so posamezniki, ki poiščejo smisel v masovnih podatkih. S
pomočjo uporabe visoko naprednih tehnologij, znanj in sposobnosti izpeljejo uporabne
informacije iz masovnih podatkov, po navadi v obliki novega izdelka ali storitve na
podlagi podatkov (angl. data product).
Pri pregledu literature sem zasledila, da trenutno še ni enotnega prevoda in definicije
pojmov, ki so v angleščini že precej uveljavljeni: data scientist, data science ipd. V
terminološkem slovarju informatike (islovar.org) prevoda teh pojmov žal še ni. Pri
pregledu drugih virov ter slovarjev sem zasledila, da se je za prevod pojma big data
science že uporabljalo znanost masovnih podatkov (Linguee, 2015). Data scientist pa je že
bil omenjen v člankih časopisa Delo (Pavlovič, 2014), Sobotna priloga (Žerdin, 2014),
ADP FDV (Štebe & Bezjak, 2012) in člankih revije MonitorPro (Ferle, 2013), in sicer kot:
podatkovni znanstvenik, redkeje tudi kot podatkovni analitik (Politiki na lovu za
podatkovnimi analitiki, 2013). Tudi drugi viri navajajo naziv podatkovni znanstvenik
(Crnoja & Jastrić, 2013). V osnovi oba izraza podatkovni znanstvenik in podatkovni
analitik sicer ustrezno zajameta pomen vloge takšnega posameznika v organizaciji –
pridobivanje, odkrivanje in uporaba znanja iz podatkov za izboljšanje odločitev. Vendar
menim, da je izraz podatkovni znanstvenik bolj ustrezen, saj zajame širše področje
strokovnih znanj in sposobnosti, ki naj bi jih podatkovni znanstvenik imel in so opisana v
21
drugem sklopu magistrskega dela. Menim, da je z izrazom podatkovni znanstvenik bolj
poudarjen ravno vidik znanosti, znanstvene metode pri delu podatkovnega znanstvenika ter
nova znanja in sposobnosti, potrebna za delo z vsemi dimenzijami masovnih podatkov
(volumen, raznolikost, hitrost in vrednost) in izvajanje procesa znanosti o podatkih. Pri
znanosti gre za odkrivanje in razvoj znanja, kar pa zahteva ustrezna vprašanja glede sveta
in domneve, ki jih je mogoče preveriti na podatkih s statističnimi metodami. Kot bo v
nadaljevanju predstavljeno v Conway Vennovem diagramu (Conway, 2015) je znanost o
podatkih, s čimer se ukvarja podatkovni znanstvenik, »dosežena« pri prekrivanju vseh
področij (matematike in statistike, programiranja ter strokovnega domenskega znanja).
Menim, da je prav tako besedna zveza podatkovni znanstvenik bližje angleškemu prevodu
data scientist (vezano predvsem na angl. science, znanost). Zaradi vsega navedenega bom
v magistrskem delu uporabljala naziv podatkovni znanstvenik.
1.4.3 Proces izvajanja znanosti o podatkih
Znanost o podatkih je umetnost spreminjanja podatkov v akcije (The field guide to data
science, 2015, str. 21). Za bolj podroben pregled in razumevanje področja dela, ki ga
opravlja podatkovni znanstvenik, v nadaljevanju predstavljam osnovni okvir za proces
izvajanja znanosti o podatkih (prirejeno po O’Neill & Schutt, 2013, str. 36–41; Voulgaris,
2014, str. 133–149; Somohano, 2013; The field guide to data science, 2015, str. 29–33), ki
je prikazan na Slika 10.
Slika 10: Proces izvajanja znanosti o podatkih
Vir: C. O’Neill & R. Schutt, Doing Data Science, 2013, str. 41, Slika 2–2.
22
Proces znanosti o podatkih zajema naslednje faze:
1. faza: zbiranje podatkov (angl. Data Acquisition), priprava podatkov (angl. Data
Preparation), čiščenje podatkov (angl. Data Cleaning),
2. faza: raziskovanje podatkov (angl. Data Exploration), prikaz podatkov (angl. Data
Representation), odkrivanje podatkov (angl. Data Discovery),
3. faza: učenje iz podatkov (angl. Learning from data),
4. faza: kreiranje novega izdelka ali storitve na podlagi podatkov (angl. Creating a data
product),
5. faza: vizualizacija podatkov (angl. Data Visualization).
Kot je razvidno iz zgornjega prikaza (Slika 10) so faze med seboj ciklično prepletene. To
pomeni, da si osnovne faze sicer sosledno sledijo, hkrati pa nekatere predstavljajo tudi
korak, kjer podatkovni znanstvenik sprejme odločitev, ali potrebuje ponoviti kakšno
prejšnjo fazo ali pa nadaljevati z naslednjo. Posamezne faze procesa znanosti podatkov so
bolj podrobno predstavljene v nadaljevanju (prirejeno po O’Neill, Schutt, 2013, str. 36–41;
Voulgaris, 2014, str. 133–149; Somohano, 2013; The field guide to data science, 2015, str.
29–33).
Faza priprave podatkov je verjetno najbolj časovno zahtevna in najmanj zanimiva faza v
procesu znanosti o podatkih. Vendar pa gre za zelo pomemben korak, saj ta faza
predstavlja osnovo za vse nadaljnje korake v procesu. Napake, ki se naredijo v fazi
priprave podatkov, bodo podatkovnega znanstvenika namreč spremljale čez celoten proces.
Faza priprave podatkov vključuje zbiranje, procesiranje in čiščenje podatkov. Podatki v
osnovi izhajajo iz realnega sveta, v katerem posamezniki in organizacije izvajamo svoje
aktivnosti (uporabljamo Facebook, Twitter, opravljamo spletne nakupe, pošiljamo
elektronsko pošto, pregledujemo spletne strani, opravljamo telefonske pogovore ipd.). S
pomočjo shranjevanja teh aktivnosti v obliki podatkov podatkovni znanstvenik pridobi
določen nabor surovih podatkov (transakcije, kliki na spletne povezave in dnevniške
datoteke, podatki iz senzorjev, mobilnih telefonov, dokumenti, elektronska pošta, zapisi na
družbenih medijih). Te podatke je potrebno najprej pregledati in prečistiti z namenom, da
bodo primerni za analizo. To je prvi korak pri oblikovanju razpoložljivih podatkov v nabor
podatkov (angl. data set), torej skupino podatkovnih točk, običajno normaliziranih, ki se
jih lahko uporabi pri izgradnji analitičnega podatkovnega modela ali v sistemu strojnega
učenja. Podatkovni znanstvenik lahko pri pripravi podatkov uporabi različne načine
procesiranja podatkov: Hadoop Definition File System (v nadaljevanju HDFS) za
shranjevanje podatkov za nadaljnje analize, Extract Transform Load (v nadaljevanju ETL)
in MapReduce za branje podatkov (opomba: bolj podrobno bosta predstavljena v
nadaljevanju), redukcijo dimenzij, vzorčenje, združevanje (angl. joining), strganje (angl.
scraping) ali mešetarjenje (angl. wrangling). Za procesiranje podatkov že obstajajo
različna programska orodja, kljub temu pa mora podatkovni znanstvenik podatke pripraviti
v .JSON ali v katerem drugem podobnem tipu podatkov. V kolikor so podatki v
23
popolnoma unikatnem tipu mora podatkovni znanstvenik napisati lasten program za dostop
in prestrukturiranje podatkov v obliko, ki bo razumljiva sistemom za branje podatkov. Pri
branju velike količine podatkov je priporočljivo, da se najprej pripravi poskusno branje na
relativno majhnem naboru podatkov. Na ta način podatkovni znanstvenik zagotovi, da bo
končni nabor podatkov lahko uporaben za načrtovane analize. V sklopu priprave podatkov
podatkovni znanstvenik izvede tudi čiščenje podatkov, ki zahteva določen nivo
razumevanja podatkov. Pri čiščenju podatkov zapolni manjkajoče vrednosti, preveri
relevantnost podatkov in izloči podatke, ki vključujejo napačne ali problematične podatke,
izvede normalizacijo podatkov ter preveri neodvisnost podatkov. Čiščenje podatkov
vključuje tudi obdelavo osamelcev (angl. outliers). Osamelce se lahko iz nabora podatkov
odstrani ali pa se prilagodi model, da ustreza obstoju osamelcev. Odločitev temelji na
podlagi različnih faktorjev, kot so: število osamelcev, podatkovni tip podatkov in
občutljivost modela na njihov obstoj. Za čiščenje in transformacijo podatkov podatkovni
znanstvenik uporablja različna orodja ali programske jezike, kot so Python, R skripte,
poizvedbeni jezik SQL ali vse naštete. Priporočljivo je, da si podatkovni znanstvenik
posamezne korake te faze shrani, v primeru, da jih bo potrebno ponoviti ali jih opisati v
poročilu. Rezultat faze priprave podatkov je strukturirana oblika podatkov, pripravljena za
nadaljnje analize.
Preden pa se podatkovni znanstvenik loti modeliranja je potrebna najprej izvedba t. i.
raziskovalne analize podatkov (angl. Exploratory Data Analysis – v nadaljevanju EDA).
Raziskovalna analiza podatkov predstavlja ključen del procesa izvajanja znanosti o
podatkih in je primarno namenjena predvsem samemu podatkovnemu znanstveniku.
»Raziskovanje« v tem kontekstu pomeni, da se lahko razumevanje problema, ki ga
podatkovni znanstvenik rešuje oziroma želi rešiti, spreminja v procesu analize. Osnovno
orodje raziskovalne analize podatkov so grafikoni in osnovna opisna statistika. Gre za
sistematičen pregled podatkov s prikazom distribucij spremenljivk, transformacijo
podatkov, iskanjem potencialnih povezav med spremenljivkami z uporabo razsevnih
grafikonov in z generiranjem opisnih statistik za te spremenljivke (srednje vrednosti, mere
razpršenosti, identifikacija osamelcev). Pri raziskovalni analizi ne gre le za uporabo orodij,
temveč tudi za razumevanje odnosa podatkovnega znanstvenika do podatkov, ki jih
analizira. V kolikor želi podatke razumeti, mora pridobiti intuicijo, razumeti oblike in
povezati razumevanje procesa, kako so bili podatki pridobljeni, s samimi podatki. Kljub
temu, da je v sklopu raziskovalne analize podatkov vključene veliko vizualizacije, je
potrebno razlikovati le-to od končne vizualizacije podatkov, ki je namenjena komunikaciji
končnih rezultatov in ugotovitev. Na podlagi rezultatov raziskovalne analize podatkov
lahko podatkovni znanstvenik ugotovi, da podatki dejansko niso ustrezni zaradi
podvojenih, manjkajočih, neustreznih vrednosti ali pa podatki sploh niso bili zajeti, ali pa
so bili zajeti napačno. V tem primeru se mora podatkovni znanstvenik ponovno vrniti k
viru podatkov in zbrati večjo količino podatkov ali več časa nameniti čiščenju podatkov.
To je lahko iterativen proces, dokler podatki niso ustrezni in primerni za modeliranje.
24
V fazi učenja iz podatkov podatkovni znanstvenik pripravi model, ki predstavlja poskus
razumevanja in predstavitve narave realnosti z določenega (matematičnega) vidika. Gre za
umetno ustvarjen konstrukt, kjer so vse odvečne podrobnosti odstranjene. Podatkovni
znanstvenik oblikuje model z uporabo različnih orodij iz področja statistike in strojnega
učenja: opisne statistike in statističnega sklepanja, klasifikacije in segmentacije, regresijske
analize in napovedovanja. Izbira modela je odvisna od vsebine problema, ki ga podatkovni
znanstvenik obravnava. Lahko gre za klasifikacijski problem, napovedni problem ali
osnovni opisni problem.
Podatkovni znanstvenik v zadnji fazi ugotovitve interpretira, pripravi vizualizacije in
poročila ter rezultate na ustrezen način predstavi nadrejenim, sodelavcem ali pa jih objavi
v publikaciji. Namen znanosti o podatkih je namreč določiti in razumeti, kaj vse se skriva
pod površjem in kakšno uporabno vrednost lahko prinese do končnih uporabnikov. Proces
znanosti o podatkih je ponavljajoč se razvojni proces, ki vključuje odkrivanje in učenje na
podlagi podatkov. Vizualizacija vključuje grafično predstavo pomena analiziranih
podatkov na intuitiven, zanimiv in relevanten način do končnega uporabnika, ki je lahko
tudi interaktiven. S pomočjo vizualizacije lahko podatkovni znanstvenik pridobi boljšo
predstavo česa še ne ve in lahko na ta način boljše razume omejitve modelov, vrednost
podatkov in boljše obvladuje negotovost v podatkih.
Cilj analize je alternativno lahko tudi izgradnja prototipa na podlagi analiziranih
podatkov (angl. data product). Nov izdelek ali storitev, ki temelji na kombinaciji
podatkov in algoritmov, predstavlja dodatno vrednost organizaciji. Na podlagi podatkov
uporabi inteligentno metodo procesiranja podatkov, ki predstavlja uporabno vrednost za
organizacijo in njene potrošnike. Primeri takšnih izdelkov ali storitev na podlagi podatkov
so: klasifikator nezaželene elektronske pošte, algoritem za rangiranje spletnih strani v
spletnih iskalnikih z relevantnimi rezultati na podlagi spletnega iskanja, sistem za
priporočanje (angl. recommendation system), mrežna statistika in grafikoni, ki jih LinkedIn
prikazuje svojim potrošnikom ali geografski informacijski sistem, kot je MapQuest, ki
potrošnikom nudi uporabne geografske informacije o določeni lokaciji. Tisto, kar razlikuje
znanost o podatkih od statistike, je, da se takšen »podatkovni produkt« vgradi nazaj v
realni svet, kjer potrošniki interaktivno uporabljajo produkt, kar posledično generira več
podatkov, ki podatkovnemu znanstveniku omogočajo izboljšave tega produkta.
1.5 Uporaba masovnih podatkov in znanosti o podatkih
Uporaba znanosti o podatkih ne temelji zgolj na analizi podatkov. IDC (Olofson & Vesset,
2012, str. 11–12) definira uporabo znanosti o podatkih na podlagi treh dimenzij aktivnosti,
dejavnosti in poslovnih procesov:
Dimenzija aktivnosti se nanaša na uporabo znanosti o podatkih za vzpostavitev
spletnih strani za družbene medije ali igralne aplikacije, ali pa za posredovanje dostopa
25
do informacij. Aktivnost vključuje: analitiko (podatkovno rudarjenje,
večdimenzionalne analize, vizualizacijo podatkov), operacije (urejanje spletne strani,
procesiranje spletnih naročil) in dostop do informacij (dostop do informacij na podlagi
iskanja in dostop do vsebin iz različnih podatkovnih virov).
Tehnologije znanosti o podatkih se vzpostavljajo kot podpora procesom komercialnim,
neprofitnim ali vladnim organizacijam. Kot bo predstavljeno v nadaljevanju se izzivi
organizacij povezujejo s poslovnimi in organizacijskimi spremembami, povezanimi z
uporabo znanosti o podatkih. Uporaba znanosti o podatkih z vidika dimenzije
poslovnih procesov sega preko različnih poslovnih področij: management odnosov s
strankami (angl. Customer Relationship Management, v nadaljevanju CRM),
management oskrbovalne verige (angl. Supply Chain Managemnt, v nadaljevanju
SCM), administracije (s poudarkom na financah, računovodstvu, management
človeških virov, pravu, itd.), raziskav in razvoja, management z informacijskimi
tehnologijami, management tveganji, itd.
Poleg področij, ki segajo preko različnih dejavnosti, kot so finance, trženje,
informatika, obstaja še veliko možnih načinov uporabe masovnih podatkov in znanosti
o podatkih, ki so povezane s specifično dejavnostjo. V ta sklop spada: optimizacija
logistike in transportne dejavnosti, optimizacija cen v maloprodaji, ravnanje z
intelektualno lastnino v medijih in zabavni dejavnosti, izkoriščanje naravnih virov na
področju nafte in plina, ravnanje z garancijami v predelovalni dejavnosti,
preprečevanje kriminalnih dejanj, napovedovanje ocene škode na področju
zavarovalništva, odkrivanje prevar na področju bančništva, zdravljenje bolnika in
odkrivanje prevar v zdravstvu, športna statistika in športne stave, turizem.
Z razvojem masovnih podatkov in znanosti o podatkih so na popularnosti pridobila
določena orodja in tehnologije. Vsa temeljijo na paradigmi, da skupina računalnikov, ki
tvorijo segment, delujejo občutno bolj učinkovito, kot pa posamezni (super)računalnik –
pod predpostavko, da je v segmentu dovolj veliko število računalnikov. Inovacija v osnovi
izhaja iz inteligentnega in prilagojenega pristopa k načrtovanju ključnih nalog, da so le-te
učinkovito prerazporejene na segmente računalnikov (Voulgaris, 2014, str. 27). Če
omenim nekatere (Voulgaris, 2014, str. 24–27):
MapReduce – vzporedni, distribucijski algoritem, ki razdeli kompleksno nalogo na
serijo manjših, bolj enostavnih nalog in jih reši na zelo učinkovit način s povečanjem
hitrosti izvedbe celotne kompleksne naloge ter znižanjem stroškov računskih virov.
Hadoop distribuirani datotečni sistem (HDFS) – odprto-kodna platforma, ki
omogoča uporabo tehnologije vzporednega računalništva. V osnovi omogoča delo z
masovnimi podatki, ki je obvladljivo tako, da jih razdeli na manjše dele, ki so
prerazporejeni preko mreže računalnikov. V osrčju Hadoop sistema je MapReduce.
Napredna analiza besedil (angl. Advanced Text Analytics) – pogostokrat se omenja
tudi kot obdelava naravnega jezika (angl. Natural Language Processing – v
nadaljevanju NLP). Gre za področje analize podatkov, ki vključuje tehnike za
26
procesiranje nestrukturiranih besedilnih podatkov z namenom pridobiti uporabne
informacije in poslovno analitiko. Napredna analiza besedil lahko tudi prepozna
sentiment v objavah na družbenih medijih. To pomeni, da lahko prepozna, ali so
komentarji določenega posameznika sarkastični ali literarni. Napredek na tem področju
gre pripisati uporabi algoritmov umetne inteligence v Hadoop okolju.
Programski jeziki za obdelavo podatkov masovnih podatkov (npr. Pig, R itd.) –
programski jeziki, ki jih je mogoče učinkovito uporabiti na velikem obsegu podatkov
oziroma masovnih podatkih. Ti programski jeziki so bili razviti z namenom
obvladovanja masovnih podatkov in integracije z Hadoop okoljem (programski jezik
Pig je dejansko del Hadoop ekosistema). Programski jezik R, statistični jezik, ki je bil
razvit še pred razmahom masovnih podatkov, je bil sedaj nadgrajen, kar omogoča
integracijo z Hadoop in obdelavo datotek v HDFS.
Alternativne strukture baz podatkov (npr. HBase, Cassandra, MongoDB itd.) –
baze podatkov za arhiviranje, poizvedbe in urejanje masovnih podatkov z uporabo
vzporednih računalniških tehnologij. V nasprotju s tradicionalnimi bazami podatkov so
ti tipi shem oblikovani za masovne podatke. To pomeni, da so zelo fleksibilni v načinu,
kako berejo oziroma zapisujejo podatke v bazo. Vsaka od teh shem ima svoje prednosti
in slabosti, vendar so vse primerljivo boljše, ko število zapisov ali število polj naraste
preko določene meje.
Znanost o podatkih lahko organizaciji zagotovi pomembno strateško prednost. Gre za
področje, ki se bo v prihodnosti še razvijalo in pridobilo na popularnosti v smislu poslovne
vrednosti, tehnologije in znanja. Sprejetje tega področja na akademski in ravni dejavnosti
se kaže v vedno večjem številu konferenc, znanstvenih člankov, knjig, nastajanju spletnih
skupnosti, spletnih vsebin, masovnih odprtih spletnih tečajev (angl. Massive Open Online
Course – v nadaljevanju MOOC) in razvoju diplomskih in podiplomskih programov (o
katerih bo več govora v nadaljevanju) (Voulgaris, 2014, str. 18). Kljub napredku na
področju tehnologij, skalabilnosti, analitičnih metod pa znanost o podatkih ni le nabor
uporabnih orodij, metodologij in znanj. Gre tudi za popolnoma nov način razmišljanja o
podatkih. Ta premik v razumevanju seveda zahteva tudi določene spremembe na nivoju
organizacije in posameznika (Voulgaris, 2014, str. 27).
1.6 Vpliv masovnih podatkov in znanosti o podatkih na uspešnost
organizacije
»Boljše informacije in dostop do informacij sami po sebi ne vplivajo bistveno na
učinkovitost in uspešnost organizacije, ključno vprašanje je, kaj organizacije naredijo s
temi informacijami. Poslovna inteligenca prinaša poslovno vrednost le, če informacije v
organizaciji uporabimo na pravilen način« (Lukman, 2009, str. 22). Management
informacij v organizaciji je proces, pri katerem informacije smatramo kot strateški vir za
izboljšanje učinkovitosti in uspešnosti organizacije (Lukman, 2009, str. 23).
27
Pri tem se postavlja vprašanje, ali uvedba strategije masovnih podatkov in inteligentna
uporaba podatkov s pomočjo znanosti o podatkih dejansko vpliva na uspešnost
organizacije. The field guide to data science (2015, str. 24) omenjajo, da znanost o
podatkih predstavlja konkurenčno prednost, ki izhaja predvsem iz izboljšanja odločitev.
Način odločanja v organizacijah se razvija že več kot pol stoletja. Pred pojavom poslovne
inteligence so se odločitve sprejemale na podlagi instinkta, večinskega glasu ali najboljših
argumentov. Hitra razširitev razpoložljivih podatkov in orodij za dostop in uporabo
podatkov omogoča temeljne spremembe v načinu odločanja v organizacijah. Znanost o
podatkih je potrebna, da se ohrani konkurenčnost v naraščajočem, s podatki bogatem,
okolju (The field guide to data science, 2015, str. 24). V nadaljevanju omenjam štiri
raziskave, izvedene v tujini, ki so predstavile pozitivne učinke podatkovne naravnanosti,
uporabe masovnih podatkov in znanosti o podatkih na uspešnost organizacije.
MGI in McKinsey Business Technology Office so v raziskavi iz leta 2011 (Manyika et al.,
2011) proučevali vpliv masovnih podatkov na petih različnih področjih: zdravstvo v ZDA,
javni sektor v Evropi, maloprodaja v ZDA ter globalno proizvodne in osebne lokacijske
podatke. Ugotovili so, da so masovni podatki generirali vrednost na prav vsakem od teh
področij. Ocenjujejo, da lahko na primer trgovec z uporabo masovnih podatkov
potencialno poveča svojo operativno maržo za 60 % ali več. Če bi v zdravstvu v ZDA
kreativno in učinkovito uporabljali masovne podatke s ciljem povečati učinkovitost in
kakovost storitev, bi sektor lahko ustvaril več kot 300 milijard $ vrednosti vsako leto. Dve
tretjini tega zneska bi bili na račun znižanja stroškov za približno 8 %. V razvitih
gospodarstvih Evrope bi vladna administracija lahko prihranila več kot 100 milijard € na
račun izboljšanja operativne učinkovitosti. Še več prihrankov bi generirala uporaba
masovnih podatkov za zmanjšanje napak, prevar ter povečanje zbiranja davčnih prihodkov.
Uporabniki storitev, ki jih omogočajo osebni lokacijski podatki, bi lahko dodatno
generirali 600 milijard $ potrošniškega presežka. V raziskavi so o stanju masovnih
podatkov podali naslednje ugotovitve (Manyika et al., 2011):
1. Podatki so prisotni v vsaki dejavnosti in poslovni funkciji in so postali pomemben
faktor produktivnosti, dela in kapitala.
2. Obstaja pet načinov, kako masovni podatki ustvarjajo vrednost:
a) masovni podatki pripomorejo k transparentnosti informacij in povečajo frekvenco
njihove uporabe,
b) organizacije sedaj ustvarijo in shranijo veliko več transakcijskih podatkov v
digitalni obliki, kar lahko izkoristijo za zbiranje bolj natančnih in podrobnih
informacij o učinkovitosti vseh poslovnih procesov,
c) masovni podatki omogočajo bolj podrobno segmentacijo potrošnikov, katerim
lahko nato bolj natančno prilagodimo izdelke in storitve,
d) napredna analitika lahko bistveno izboljša poslovne odločitve,
e) masovne podatke lahko uporabimo za izboljšanje obstoječih in za razvoj naslednje
generacije izdelkov in storitev.
28
3. Masovni podatki bodo postali osnova za konkurenčno prednost in rast posameznih
organizacij.
4. Masovni podatki bodo podprli nove načine za rast produktivnosti in porabe
potrošnikov.
5. Masovne podatke bodo uporabljali na različnih področjih, vendar bodo nekatera
področja masovne podatke boljše izkoristila. V raziskavi so primerjali pretekle podatke
o produktivnosti v različnih sektorjih v ZDA s potencialom, ki ga lahko pridobijo z
uporabo masovnih podatkov (uporabili so indeks, ki združuje različne kvantitativne
metrike). Ugotovili so, da se priložnosti in izzivi razlikujejo med sektorji. Računalniški
in informacijski sektor kot tudi finance, zavarovalništvo in vladne službe imajo boljša
izhodišča za razvoj potenciala s pomočjo masovnih podatkov.
6. Prišlo bo do pomanjkanja nujno potrebnega znanja, da bodo organizacije lahko v celoti
izkoristile prednosti masovnih podatkov. Do leta 2018 bo v ZDA primanjkovalo od
140.000 do 190.000 posameznikov s poglobljenimi analitičnimi sposobnostmi, kot tudi
1,5 milijona managerjev in analitikov z znanjem, kako na podlagi analize masovnih
podatkov sprejemati učinkovite odločitve.
7. Da bi lahko zajeli celoten potencial masovnih podatkov, se bo potrebno soočiti z
marsikaterimi izzivi iz področja zasebnosti, varnosti, intelektualne lastnine ter
odgovornosti.
V MIT Centru za digitalno poslovanje (angl. MIT Center for Digital Business) v
sodelovanju z McKinsey Business Technology Office so prav tako preverjali domnevo, ali
so podatkovno naravnane organizacije res bolj uspešne (McAfee & Brynjolfsson, 2012 str.
63). Na podlagi strukturiranih intervjujev o organizacijskih in tehnoloških praksah s
predstavniki 330 severno-ameriških organizacij ter podatki iz njihovih letnih poročil so
ugotovili, da bolj ko so se organizacije opisale kot podatkovno naravnane, boljše so imele
rezultate na podlagi objektivnih mer finančnih in operativnih rezultatov. Organizacije v
zgornji tretjini znotraj njihove dejavnosti po uporabi podatkovno naravnanega odločanja,
pa so bile v povprečju 5 % bolj produktivne in 6 % bolj profitabline kot njihovi konkurenti.
Razlika je ostala statistično značilna tudi z vključitvijo prispevka dela, kapitala, nakupa
storitev in tradicionalnih investicij v informacijsko tehnologijo. Razlika se je zrcalila tudi v
merljivi rasti delniških vrednotenj (McAfee & Brynjolfsson, 2012, str. 64).
New Vantage Partners so poleti leta 2012 izvedli raziskavo (Big Data Executive Survey,
2012) med vodstvenimi kadri organizacij Fortune 500. Z uporabo poglobljenega
vprašalnika s 65 vprašanji so želeli, med drugim, ugotoviti, zakaj masovni podatki
predstavljajo tako pomembno področje za organizacije in v kateri fazi razvoja se
organizacije nahajajo. Rezultati raziskave so pokazali, da 85 % vprašanih načrtuje uporabo
masovnih podatkov ali pa jih že uporablja. Kot primarni razlog, da organizacije investirajo
v masovne podatke so vprašani navedli izboljšanje analitičnih sposobnosti ter zmožnost
sprejemanja boljših poslovnih odločitev. Iniciative za uporabo masovnih podatkov izhajajo
iz 17. različnih poslovnih področij, vendar več kot 50 % vprašanih kot največjo priložnost
29
uporabe masovnih podatkov navaja izboljšanje uporabniške izkušnje in boljši vpogled v
potrošnika (angl. customer insight). Kot najpomembnejši cilj in potencialno nagrado
uporabe masovnih podatkov so navedli sposobnost analiziranja podatkov različnih
podatkovnih tipov iz različnih virov in ne toliko management z velikim naborom podatkov
(40 % vprašanih je pri komentarju na definicijo masovnih podatkov v vprašalniku omenilo
raznolikost, kompleksnost in kakovost podatkov, samo 10 % vprašanih je omenilo količino
podatkov). Vprašani so kot osnovo za uspeh masovnih podatkov navedli, da je ključno
sodelovanje med več različnimi oddelki, predvsem med oddelkom za informatiko in
drugimi poslovnimi oddelki. Največjo oviro oziroma izziv pri implementaciji pa ne vidijo
toliko v tehnologiji, temveč v ljudeh. Prav tako vsi pričakujejo, da bodo vzpodbude na tem
področju imele velik vpliv na poslovanje njihove organizacije.
V Sloveniji je mogoče približno oceno stanja pridobiti na podlagi stopnje zrelosti poslovne
inteligence v slovenskih organizacijah, ob predpostavki, da lahko poslovno vrednost, ki si
jo obetamo od poslovne inteligence dosežemo s spremembami procesa poslovnega
odločanja, in sicer v taki smeri, da bo odločanje uresničevalo kulturo odločanja na podlagi
dejstev (angl. fact-based decision making), namesto kulture odločanja na podlagi intuicije
(angl. gut-based decison making) (Jaklič, Lukman& Popovič, 2010, str. 23). V sklopu
raziskave, ki je bila izvedena med 141 predstavniki slovenskih organizacij, je bila
ugotovljena splošna zrelost poslovne inteligence z vidika treh komponent poslovne
inteligence: tehnologije poslovne inteligence, kakovosti informacij in uporabo informacij v
poslovanju. Na podlagi rezultatov vprašalnika, ki je vključeval vse tri komponente, so bile
identificirane štiri skupine zrelosti poslovne inteligence: nezrele organizacije, tehnološko
napredne organizacije, organizacije z naprednim managementom informacij in zrele
organizacije. V Sloveniji naj bi zastopanost skupin bila približno enakomerna,
prevladovala pa naj bi skupina tehnološko naprednih organizacij. V sklopu vprašalnika je
bil tudi sklop vprašanj, vezan na uporabo analitičnih orodij oziroma uporabe načinov
dostopa do podatkov v organizaciji. Vprašanci so med drugim ocenjevali prisotnost
podatkovnega rudarjenja na lestvici od 1 – ni prisotno do 7 – zelo prisotno. Na celotnem
vzorcu (n = 141) je bila povprečna vrednost 2,8. Po identificiranih skupinah organizacij
glede na zrelost poslovne inteligence pa so najvišjo povprečno vrednost dosegle zrele
organizacije (4,839) ter tehnološko napredne organizacije (3,078), sledijo nezrele
organizacije (1,741) in organizacije z naprednim managementom informacij (1,514)
(Lukman, 2009, str. 70). Glede na to, da je bila raziskava izvedena spomladi leta 2008 in
glede na porast popularnosti področij od takrat, lahko pričakujemo, da se je prisotnost
orodij podatkovnega rudarjenja samo še povečala.
Drugih raziskav, specifično vezanih na temo uporabe masovnih podatkov ali znanosti o
podatkih, v slovenskih organizacijah oziroma v Sloveniji nisem zasledila.
30
1.7 Vloga in pomen podatkovnih znanstvenikov v organizacijah
Učinek masovnih podatkov in znanosti o podatkih danes predstavlja pomemben premik v
oddelkih informatike v organizacijah. Preko potrebe po izgradnji nove infrastrukture, do
zaposlovanja posameznikov z novimi in drugačnimi znanji in sposobnostmi, bodo masovni
podatki in znanost o podatkih na dolgi rok spremenili tudi funkcijo oddelka informatike
(Evans et al., 2015, str. 4). Podatki se pretakajo v, iz in preko organizacije tako hitro, da
tradicionalne tehnike managementa podatkov niso več ustrezne. To pomeni, da je na
podatke potrebno gledati bolj celovito s pomočjo ogrodja za management informacij (angl.
information management framework) (Evans et al., 2015, str. 4). Senzorji, ki generirajo
milijone TB podatkov na dan spreminjajo obstoječe sisteme za management podatkov in za
management podatkovnih skladišč. Javni zunanji nestrukturirani viri podatkov, kot so
podatki iz družbenih medijev, silijo skupine informacijskih tehnologij (angl. Information
Technology, v nadaljevanju IT), da večkrat delujejo izven požarnega zidu (Evans et al.,
2015, str. 4). Da bi lahko IT organizacije uspešno vključevale nove konkurenčne prioritete,
potrebujejo nove tehnologije, znanja in procese. Potrebno je, da začnejo zasnovati in
izvajati celotno storitveno platformo na podlagi analitike masovnih podatkov.
Slika 11: Ogrodje za management informacij
Vir: Evans et al., IT’s Challenge: Bringing Structure to the Unstructured World of Big Data, 2015, str. 4,
Slika 2.
31
Slika 11 prikazuje ogrodje za management informacij (Evans et al., 2015, str. 4). Preko
življenjskega cikla informacij (pridobiti, shraniti, procesirati in uporabiti) so prikazane štiri
ključne komponente managementa informacij:
informacijska arhitektura, ki vključuje vizijo, principe in standarde ter informacijske
domene in razmerja;
management informacij, ki vključuje politike, organizacijsko strukturo, informacijsko
skrbništvo in performančne metrike;
management podatkov, ki vključuje podatkovni model, management matičnih
podatkov (ang. master data management), management kakovosti podatkov in
podatkovna varnost;
v sklopu četrte komponente orodja in tehnologije, pa so vse komponente povezane
preko aplikacijske arhitekture.
Ključne komponente managementa informacij prinašajo strateške in operativne poslovne
prednosti. Na strateškem nivoju predstavljajo poglobljeno poznavanje potreb potrošnikov
preko zajemanja informacij in analize 360 stopinjskega pogleda na potrošnika ter boljše
segmentacije potrošnikov in izboljšanega ujemanja izdelkov in storitev s specifičnimi
potrebami potrošnikov. Na operativnem nivoju pa predstavljajo boljše razumevanje
stroškov ter razpoložljivost podatkov preko prodajnih kanalov in učinkovitosti kampanj –
kar prinaša prihranke v času in izvedbi novih kampanj (Evans et al., 2015, str. 4).
Da bodo lahko organizacije in IT oddelki znotraj organizacij lahko obvladovali navedene
prioritete, potrebujejo nove tehnologije, znanja, sposobnosti in procese. Začeti morajo tudi
z zasnovo in uporabo platform, ki bodo pokrile vse storitve, ki temeljijo na masovnih
podatkih in znanosti o podatkih. Polno integrirana platforma, ki bi jo organizacije lahko
kupile in začele takoj uporabljati še ne obstaja, obstajajo pa različne možnosti za vsako od
komponent managementa informacij (Evans et al., 2015, str. 5).
Slika 12 prikazuje integracijo masovnih podatkov s tradicionalno IT arhitekturo. Podatki
različnih tipov (strukturirani, nestrukturirani) in iz različnih virov (CRM, ERP, drugi
notranji in zunanji viri) se tradicionalno preko ETL procesa shranjujejo v podatkovno
skladišče. Tam se pripravlja OLAP kocke, poročila, področna podatkovna skladišča. Preko
ELT procesa se podatki iz virov ter podatki iz tradicionalnih podatkovnih skladišč
prenašajo tudi v kataloge masovnih podatkov, kjer se jih obdeluje s strani ekipe
podatkovnih znanstvenikov. Rezultati iz obeh virov se uporabijo za vizualizacijo in
organizacijsko poročanje v obliki nadzornih plošč, poročil, analiz v realnem času ipd., ki
jih uporabljajo različni deležniki (vodstvo, poslovni analitiki, skrbniki baz podatkov idr.)
(Evans et al., 2015, str. 5).
32
Slika 12: Integracija masovnih podatkov v tradicionalno IT arhitekturo
Opomba: CRM pomeni management odnosov s potrošniki (angl. Customer Relationship Management); ERP
pomeni orodja za načrtovanje virov organizacij (angl. Enteprise Resource Planning); ETL pomeni
ekstrakcija, transformacija in nalaganje podatkov (angl. Extract, Transform, Load); ELT pomeni ekstrakcija,
nalaganje, transformacija podatkov (angl. Extract, Load, Transform).
Vir: Evans et al., IT’s Challenge: Bringing Structure to the Unstructured World of Big Data, 2015, str. 5,
Slika 3.
Pri pregledu literature sem zasledila, da različni viri izpostavljajo različna področja in
izzive, s katerimi se srečuje management. Po Gartnerju bodo morale organizacije zaradi
uporabe masovnih podatkov poiskati nove načine, da bodo informacijski viri lahko
predstavljali vzvode za rast organizacije, več spoznanj pridobiti iz analize masovnih
podatkov, napovedovati prihodnja obnašanja, trende in rezultate ter uvesti sistemski
management informacij, da bodo lahko obvladala rastoče potrebe po informacijah in
usmerjala inovacije (Big data management and analytics, 2015). O’Reilly (Lorica, Howard
& Dumbill, 2012) napoveduje, da se bodo morale organizacije naučiti komunicirati in
interpretirati rezultate analiz. Za poslovne probleme pa bodo morale postaviti konkretne
poslovne cilje. McAfee & Brynjolfsson (2012, str. 66) izpostavljata pomen ustreznega
vodenja z jasnim postavljanjem ciljev, uvajanje ustreznih orodij in tehnologij, sprememba
procesa odločanja in načina sprejemanja odločitev, spremembo kulture v organizaciji ter
iskanje in management talentov. Davenport, Barth & Bean (2012) poudarjajo, da bodo
podatkovno naravnane organizacije morale svojo pozornost nameniti hitrosti pridobivanja
33
podatkov in ne zgolj zalogi podatkov (angl. streaming analytics omogoča procesiranje
podatkov v realnem času, ko se dogodek izvaja, z namenom izboljšanja izida). Davenport,
Barth & Bean (2012) tudi organizacijsko umeščajo analitiko izven IT funkcije, v samo
jedro poslovanja organizacije – v operativne in proizvodne funkcije. Prav tako pa
izpostavljajo, da se bodo organizacije morale bolj zanašati na podatkovne znanstvenike in
na izdelčne in procesne razvijalce kot pa na podatkovne analitike. Tudi v sklopu raziskave
Big Data Executive Survey (2012, str. 8) so ugotovili, da ima kar 70 % vprašanih
odločevalcev v organizacijah na področju masovnih podatkov namen zaposliti podatkovne
znanstvenike, vendar jim to že sedaj predstavlja velik izziv.
1.8 Povpraševanje po podatkovnih znanstvenikih
Z namenom poudariti vlogo in pomen podatkovnih znanstvenikov v organizacijah sem v
nadaljevanju zbrala ugotovitve raziskav, povezanih z ovrednotenjem povpraševanja po
podatkovnih znanstvenikih.
Raziskava MGI in McKinsey’s Business Technology Office (Manyika et al., 2011)
napoveduje, da bo do leta 2018 samo v ZDA nastala od 50 do 60 % vrzel med ponudbo in
povpraševanjem po poglobljenem analitičnem znanju. Torej, pomanjkanje od 140.000 do
190.000 posameznikov z naprednimi znanji na področju statistike ali strojnega učenja in
1,5 milijona managerjev in analitikov s sposobnostmi uporabe analitike masovnih
podatkov za sprejemanje učinkovitih odločitev. Čeprav so analizo opravili v ZDA, menijo,
da bo pomanjkanje poglobljenega analitičnega talenta svetovni trend. Države z višjim
številom posameznikov s poglobljenim analitičnim znanjem na prebivalca bodo v
prihodnosti predstavljale privlačen vir teh sposobnosti za druga geografska področja preko
migracije ali preko zaposlitev v organizacijah. Po Gartnerju so napovedali, da bo do leta
2015 4,4 milijone delovnih mest na področju informatike po svetu namenjenih podpori
delu z masovnimi podatki (Chordas, 2014, str. 23). Povpraševanja zajema vse od
inženirjev masovnih podatkov (angl. big data engineer), podatkovnih analitikov (angl.
data analyst) do poslovnih analitikov (angl. business analyst). Največji izziv pa naj bi bilo
najti podatkovne znanstvenike, saj gre za posameznike, ki imajo ključno vlogo pri uporabi
masovnih podatkov: podatke priskrbijo in jih uporabijo za poslovne odločitve (Chordas,
2014, str. 23).
Tudi glede na raziskavo Talent Map 2014 (Number of chief digital officers doubled in
2013, 2013) se je število Chief Digital Officers oz. CDO v letu 2013 podvojilo.
Eksponentna rast naj bi se nadaljevala tudi v prihodnjih letih, tako v nove sektorje kot tudi
v druge države. Glede na raziskavo naj bi CDO bili moški, v starosti od 30 do 49 let z
letno plačo od 250.000 $ do 750.000 $. CDO prevladujejo v oglaševanju, medijih,
založništvu, neprofitnih organizacijah ter v finančnem sektorju. Rastoči sektorji
vključujejo trgovinsko dejavnost, kozmetiko, modo ter področje hrane in pijače. Sephora,
L’Oreal, Benetton in McDonalds so v letu 2013 vsi zaposlili Chief Digital Officers. CDO v
34
Evropi predstavljajo 23 % vseh CDO. V raziskavi so prvič sledili rastočemu digitalnemu
nazivu – Chief Data Officer. Predstavlja pozicijo osebe, ki upravlja s podatkovnimi
sredstvi organizacije, v preteklosti pa so to vlogo bolj opisovali nazivi chief analytics
officer, chief data scientist in podobni. Raziskava je identificirala 197 oseb, ki imajo takšen
naziv. Napovedujejo, da naj bi se to število do konca leta 2013 povišalo na 250 oseb. V
sklopu že omenjene raziskave New Vantage Partners Big Data Executive Survey (2012,
str. 8) so ugotovili, da ima kar 70 % vprašanih odločevalcev v organizacijah na področju
masovnih podatkov namen zaposliti podatkovne znanstvenike, vendar jih 80 % meni, da
jim to predstavlja velik izziv. Kot primarno metodo za zapolnitev te funkcije se
organizacije odločajo za nove zaposlitve. Tudi organizacije, ki so izredno analitično
orientirane (imajo 500 ali več analitikov), verjamejo, da se znanj in sposobnosti za delo z
masovnimi podatki ne more pridobiti s pomočjo dodatnih izobraževanj. Organizacije se
tako ozirajo tudi zunaj njihove panoge, da poiščejo strokovnjake iz akademskega okolja ali
drugih poslovnih področij z ustreznimi znanji in sposobnostmi.
Po podatkih Evropske Akademije za znanost o podatkih (v nadaljevanju EDSA) (EDSA,
2015) naj bi v Evropi v obdobju od 13. julija 2015 do 10. novembra 2015 bilo na voljo več
kot 12.500 delovnih mest iz področja masovnih podatkov in znanosti o podatkih. Podatki o
delovnih mestih so pridobljeni s pomočjo podatkovnega rudarjenja iz spletnih portalov kot
so LinkedIn, Monster, Indeed in Stack Overflow. Kot filter pri iskanju so upoštevane
izpeljanke izraza »data science«. Kot je razvidno (Slika 13), je največ delovnih mest na
voljo v Veliki Britaniji, Nemčiji, Nizozemski, Irski, Franciji, Španiji in Italiji.
Slika 13: Število delovnih mest iz področja znanosti o podatkih po Evropi
Legenda: število delovnih mest
Vir: EDSA, 2015.
35
Nekatere raziskave so podale tudi zanimive ugotovitve, da analitična znanja in sposobnosti
niso dovolj le na operativnem nivoju, temveč bi osnove morali poznati tudi vodje,
managerji, direktorji informatike (v nadaljevanju CIO) in drugi, ki sprejemajo odločitve.
Pri The Big Data London Group (Raywood, 2012) so na primer ugotovili, da 78 %
vprašanih meni, da obstaja pomanjkanje znanj in sposobnosti iz področja masovnih
podatkov, a tudi, da jih 70 % meni, da obstaja prepad v znanju med posamezniki, ki se
operativno ukvarjajo z masovnimi podatki in njihovimi naročniki projektov (managerji,
direktorji informatike). Tudi v raziskavi New Vantage Partners (Big Data Executive
Survey, 2012, str. 4) 43 % vprašanih meni, da je sposobnost nadrejenih in poslovnih vodij
uporabe podatkov in analitike za transformacijo poslovanja manj kot zadovoljiva. Trende
glede povpraševanja po delovnih mestih, povezanih z analitiko in masovnimi podatki, je
zaslediti tudi pri spletnih mestih, namenjenih iskalcem in ponudnikom zaposlitev. Podatki
iz analize znanj, sposobnosti in izkušenj preko 330 milijonov uporabnikov omrežja
LinkedIn v letu 2014 so razkrili 25 najbolj zaželjenih znanj in sposobnosti (angl. skills)
(Tabela 1), ki so pripomogli k novi zaposlitvi ali pa so pritegnili zanimanje delodajalcev
(Murthy, 2014).
Tabela 1: 25 zaželjenih znanj in sposobnosti iz leta 2014 (LinkedIn)
Mesto Naziv (angl.) Naziv
1 Statistical Analysis and Data Mining Statistična analiza in podatkovno rudarjenje
2 Middleware and Integration Software Vmesno programje in programska oprema za
integracijo
3 Storage Systems and Management Pomnilniški sistemi in management pomnilniških
sistemov
4 Network and Information Security Omrežja in informacijska varnost
5 SEO/SEM Marketing Optimizacija spletnih strani (SEO) in iskalno trženje
(SEM)
6 Business Intelligence Poslovno obveščanje
7 Mobile Development Razvoj mobilnih aplikacij
8 Web Architecture and Development
Framework Spletna arhitektura in razvoj programskih ogrodij
9 Algorithm Design Zasnova algoritmov
10 Perl/Python/Ruby Programski jeziki Perl/Python/Ruby
11 Data Engineering and Data Warehousing Podatkovni inženiring in podatkovna skladišča
12 Marketing Campaign Management Management trenjskih kampanj
13 Mac, Linux and Unix Systems Mac, Linux in Unix sistemi
14 User Interface Design Zasnova uporabniških vmesnikov
15 Recruiting Zaposlovanje
16 Digital and Online Marketing Digitalno in spletno trženje
17 Computer Graphics and Animation Računalniška grafika in animacija
18 Economics Ekonomija
19 Java Development Razvoj z Java programskim jezikom
20 Channel Marketing Trženje prodajnih kanalov
21 SAP ERP Systems SAP sistemi za celovite programske rešitve (ERP)
22 Integrated Circuit (IC) Design Zasnova integriranih vezij (IC)
23 Shell Scripting Languages Skriptni jezik Shell
24 Game Development Razvoj računalniških iger
25 Virtualization Virtualizacija
Vir: S. Murthy, The 25 hottest skills that got people hired in 2014, 2014.
36
Organizacije trenutno pomanjkanje posameznikov z opisanimi znanji in sposobnostmi
lahko rešujejo na različne načine. Kandidate lahko poiščejo in pridobijo iz akademskih
okolij ali iz drugih sektorjev izven svoje dejavnosti. Nekateri investirajo v izobraževanje
obstoječih potencialnih zaposlenih ali pa razpišejo delovna mesta in kandidata izberejo na
podlagi intervjujev. Odvisno od delovnega mesta in potreb lahko namesto ene same osebe
zaposlijo in sestavijo tim strokovnjakov iz področja znanosti o podatkih. Nekatere
organizacije pa se poslužujejo storitev svetovanja in na projektih, povezanih z masovnimi
podatki in znanostjo o podatkih, sodelujejo s specializiranimi organizacijami (v Sloveniji
npr. Insight, d.o.o, Ektimo, d.o.o., Revelo, d.o.o.). Ne glede na način, kako se organizacija
loti iskanja podatkovnega znanstvenika ali drugih delovnih mest, povezanih z znanostjo o
podatkih, je ključno, da pred tem definira, kaj za organizacijo pomeni biti podatkovno
naravnan (Chordas, 2014, str. 26). V osnovi to pomeni tesnejše sodelovanje med poslovno
stranjo in IT oddelkom, večjo pozornost je potrebno nameniti managementu informacij in
podatkov z namenom, da boljše spoznajo, kakšne podatke imajo, kako jih interpretirajo,
kdo jih uporablja, kako ti uporabniki med seboj sodelujejo ter kdo nosi lastništvo in
odgovornost (Chordas, 2014, str. 26).
2 ZNANJA IN SPOSOBNOSTI PODATKOVNIH ZNANSTVENIKOV
2.1 Podatkovni znanstveniki
Vedno večja vloga informacijsko komunikacijskih tehnologij in konvergenca različnih
znanstvenih disciplin, kot so matematika in statistika ter tudi naravoslovne in družbene
vede z informatiko, predstavljata po Organizaciji za ekonomsko sodelovanje in razvoj (v
nadaljevanju OECD) (2015, str. 261) pomemben trend v poklicih, povezanih s podatki. Ta
konvergenca je omogočila tudi pojav novega razreda podatkovnega strokovnjaka –
podatkovnega znanstvenika – katerega naziv še ni v celoti sprejet, vendar je s strani
različnih avtorjev uporabljen za opis »nove« discipline, kategorije dela oziroma karierne
poti, katere pomembnost raste skupaj z masovnimi podatki (OECD, 2015, str. 261). OECD
(2015, str. 254) hkrati opozarja, da trenutno tudi še ne obstaja splošno sprejeta definicija
znanj in sposobnosti podatkovnih znanstvenikov. Rivera & Haverson (2014) prav tako
omenjata, da trenutno še ni standarda glede uporabe nazivov podatkovni znanstvenik in
ostalih nazivov, povezanih s podatki (podatkovni analitik, podatkovni rudar, podatkovni
inženir, statistik, analitik ipd.), ki bi jasno razločeval med različnimi vlogami. Rivera &
Haverson (2014) ugotavljata, da gre za vloge, ki so med seboj komplementarne in obsegajo
široko paleto različnih znanj in sposobnosti. Vzroki za slabo definicijo tega področja so
povezani s tem, da gre za relativno nova področja, ki v literaturi niso še dobila dovolj
pozornosti v primerjavi z drugimi informacijsko komunikacijskimi znanji in sposobnostmi
ter s tem, da se področje še vedno neprestano razvija (OECD, 2015, str. 254).
Znanja in sposobnosti podatkovnih znanstvenikov, med drugim, izhajajo iz osnovne smeri
izobrazbe, delovnih nalog, značilnosti in odgovornosti delovnega mesta, ki ga posameznik
37
opravlja ter drugih dejavnikov. Potrebno se je zavedati, da posamezniki, ki se v večji meri
ukvarjajo z znanostjo o podatkih lahko opravljajo delo analitika, programerja, vodje,
managerja, profesorja, svetovalca, podjetnika itd. Za ilustracijo obsežnosti področja je v
Prilogi 1 predstavljeno 115 različnih nazivov delovnih mest, neposredno povezanih z
masovnimi podatki ali znanostjo o podatkih na podlagi 7500 LinkedIn kontaktov
(Granville, 2013). Posamezniki z omenjenimi nazivi se lahko v različni meri ukvarjajo z
znanostjo o podatkih: od popolnoma operativnih nalog v procesu znanosti o podatkih do
vodstvenih položajev, ki zahtevajo dodatna znanja in sposobnosti. Kar je skupno vsem
navedenim nazivom strokovnjakov na področju podatkov je to, da delo s podatki zavzema
večinski delež njihovega dela (OECD, 2015, str. 255). Slika 14 prikazuje kako lahko naziv
podatkovni znanstvenik zajema širok spekter nazivov in vlog v procesu znanosti o
podatkih preko življenjskega cikla vrednosti podatkov (angl. data value cycle) (OECD,
2015, str. 255). Nazivi vključujejo vloge, ki zbirajo podatke (skrbniki baz podatkov,
skrbniki podatkov, vnosni referenti ali načrtovalci baz podatkov), analizirajo podatke s
pomočjo analitike (statistiki, aktuarji, znanstveniki, analitiki) ter do določene mere takšni,
ki sprejemajo odločitve na podlagi podatkov (managerji, inženirji) (OECD, 2015, str. 254).
Pri opredelitvi znanj in sposobnosti podatkovnega znanstvenika sem zato upoštevala, da
podatkovni znanstvenik lahko vodi ekipo drugih podatkovnih znanstvenikov ali
strokovnjakov, opravlja vodilno organizacijsko funkcijo, povezano s podatkovno
naravnanostjo ali vodi lastno organizacijo, delo s podatki pa zavzema večino njegovega
časa.
Slika 14: Faze v življenjskem ciklu vrednosti podatkov v povezavi s ključnimi tipi
podatkovnih znanstvenikov
Vir: OECD, Data-driven innovation: Big Data for Growth and Well-Being, 2015, str. 255, Slika 6.5.
38
Podatkovni znanstvenik preko podatkovno naravnanega pristopa ter z uporabo svojih znanj
in sposobnosti oblikuje domneve, odkriva zanimive informacije iz podatkov, pridobiva
napovedni vpogled v podatke, ki služi za izboljšanje prihodnjih odločitev, ustvarja t. i. nov
izdelek ali storitev na podlagi podatkov (angl. data product), zagotavlja vpogled v svoja
dognanja ter ustrezno komunicira uspešne zgodbe na podlagi podatkov drugim deležnikom
(Somohano, 2013; Voulgaris, 2014, str. 133).
Podatkovni znanstvenik pri svojem delu potrebuje in uporablja znanja iz različnih
znanstvenih področij: matematike, statistike, računalništva/programiranja, strojnega učenja
in domenska znanja določenega področja, na katerem deluje posameznik ali organizacija.
Kljub temu da podatkovni znanstveniki uporabljajo znanja iz navedenih področij,
Granville (2014, str. 73), na primer, podatkovnih znanstvenikov ne enači s statistiki,
podatkovnimi analitiki, programskimi inženirji ali poslovnimi analitiki. Podatkovni
znanstveniki imajo namreč znanja iz vsakega od teh področij, vendar pa imajo znanja tudi
izven le-teh področij (Granville, 2014, str. 73). Poleg analize podatkov podatkovni
znanstveniki namreč razvijajo algoritme, ki avtomatsko procesirajo podatke, na podlagi
katerih je mogoče pridobiti avtomatizirane napovedi in akcije. Primeri takšnih rešitev so:
avtomatski sistemi za izvajanje ponudb, ocenjevanje (v realnem času) vrednosti
nepremičnin v ZDA (npr. Zillow.com), visoko frekventno trgovanje, ujemanje Google
oglasnega sporočila s potrošnikom, ki je obiskal spletno stran s ciljem maksimiziranja
konverzije, vračanje relevantnih rezultatov iskanj na spletnem brskalniku Google, sistemi
za priporočanje (na primer priporočila potrošniku izdelkov in knjig na Amazon.com,
prijateljev na Facbook.com ali filmov na Netflix), odkrivanje goljufij in terorizma,
simulacija novih molekul za zdravljenje rakavih obolenj, zgodnje odkrivanje epidemij,
analiza Nasinih posnetkov z namenom odkrivanja novih planetov in asteroidov,
napovedovanje vremena, zdravstvene diagnoze, napovedovanje trenda sezonske gripe,
samo vozeča se vozila, prilagojen način oblikovanja cen v realnem času za hotelske
storitve itd. Pri vseh teh primerih so potrebna znanja iz statistike, matematike,
računalništva, domenskega znanja, strojnega učenja in TB podatkov (Granville, 2014, str.
12).
Zaradi prekrivanja področij dela ter znanj in sposobnosti med podatkovnimi znanstveniki
in ostalimi vlogami oziroma delovnimi mesti v nadaljevanju najprej navajam podobnosti in
razlikovanja med njimi, kot sta jih opredelila Granville (2014) in Evans et al. (2015).
Granville (2014, str. 74) pravi, da je razlika med podatkovnimi znanstveniki in statistiki
v tem, da imajo statistiki veliko več znanja iz področja statistike in matematike, kot je
potrebno za delo podatkovnega znanstvenika. Slednji do takšnega nivoja znanja dostopajo
s pomočjo visokonivojskih orodij (programov), kjer se naprednejši izračuni izvedejo v
obliki »črnih škatel« (angl. black box). Po drugi strani pa podatkovni znanstveniki
potrebujejo novejša statistična znanja, ki izhajajo iz podatkovno naravnanih robustnih
tehnologij, ki se jih lahko uporabi na novejših, obsežnih, hitro rastočih in včasih
39
nestrukturiranih podatkih. To vključuje tudi strukturiranje nestrukturiranih podatkov,
znanja iz področja taksonomij, procesiranje naravnega jezika ali podatkovno rudarjenje
besedil (angl. text mining) in poznavanje sistemov za management oznak (angl. tag
managemenet systems) (Granville, 2014, str. 74). Granville posameznike, ki se ukvarjajo s
projekti, naštetimi v uvodu tega poglavja, ne smatra kot statistike, temveč kot podatkovne
znanstvenike. Granville omenja tudi, da se bo čez čas prepad med statistiko in znanostjo o
podatkih skrčil (Granville, 2014, str. 12).
Po Granvillu se podatkovni znanstveniki razlikujejo tudi od računalniških inženirjev
(Granville, 2014, str. 9). Glavna razlika med podatkovnim znanstvenikom in računalniškim
inženirjem naj bi bila v načinu pristopa do podatkov. Računalniški inženir, podatkovni
arhitekt ali skrbnik baz podatkov uporablja ETL pristop (angl. ETL –
Extract/Transform/Load), podatkovni znanstvenik pa DAD pristop (angl. DAD –
Discover/Access/Distill). DAD pristop vključuje: odkritje – identifikacija dobrih
podatkovnih virov in metrik; dostopnost – dostop do podatkov preko programskega
vmesnika (angl. Application Program Interface, v nadaljevanju API), spletnega pajka
(angl. web crawler), prenosa podatkov ali preko dostopa do baze podatkov; izluščenje – iz
podatkov izlušči informacije, ki vodijo do boljših odločitev, večje donosnosti naložb in
akcij preko procesa znanosti o podatkih (Granville, 2014, str. 9). Računalniški inženir se
osredotoča na programsko opremo, načrtovanje baz podatkov, uporabo programske kode v
produkciji in zagotavlja neprekinjenost toka podatkov od vira, kjer so podatki zbrani, do
cilja, kjer so podatki procesirani s statističnimi metodami, algoritmi znanosti o podatkih ter
nato pripeljani nazaj na vir ali drugam (Granville, 2014, str. 9). Podatkovni znanstveniki
sicer ne optimizirajo toka podatkov, čeprav ga morajo razumeti, temveč optimizirajo korak
procesiranja podatkov: izluščijo vrednosti iz podatkov. Podatkovni znanstveniki tesno
sodelujejo z inženirji in poslovnimi uporabniki, da definirajo metrike, načrtujejo sheme za
zbiranje podatkov in zagotovijo, da je proces znanosti o podatkih polno in učinkovito
integriran v podatkovni sistem organizacije (Granville, 2014, str. 9–10).
Granville omenja tudi, da se podatkovni znanstveniki prav tako razlikujejo od
poslovnih analitikov. Granville (2014, str. 75) vlogo analitika opisuje kot posameznike, ki
sicer analizirajo podatke, vendar ne ustvarjajo sistemov ali arhitekturnih rešitev, ki
avtomatsko analizirajo, procesirajo podatke in izvajajo avtomatiziranje akcije na podlagi
avtomatsko zaznanih vzorcev in dognanj. Poslovni analitik je osredotočen na načrtovanje
baz podatkov (na najvišjem nivoju), ki zajema definiranje metrik, oblikovanje preglednih
plošč (angl. dashboard), pridobivanje in izvedbo poročil in oblikovanje sistemov za
obveščanje (Granville, 2014, str. 12). Poleg načrtovanja baz podatkov se ukvarja tudi z
ocenjevanjem donosnosti investicij na različnih poslovnih projektih. Nekateri poslovni
analitiki delajo v trženju, financah ali v oddelkih za oceno tveganj. Marsikatere od teh
nalog opravljajo tudi podatkovni znanstveniki, predvsem v manjših organizacijah. Poslovni
analitik in podatkovni znanstvenik med seboj sodelujeta. Na primer pri avtomatizaciji
poročil, optimizaciji pridobivanja podatkov in avtomatizaciji nalog podatkovnega analitika.
40
Po navadi organizacije najprej zaposlijo poslovnega analitika. Ko podatki in algoritmi
postanejo preveč kompleksni, se pridruži tudi podatkovnih znanstvenik (Granville, 2014,
str. 12–13).
Podobno razlikovanje med podatkovnimi znanstveniki in drugimi vlogami – analitiki,
raziskovalci, sistemskimi skrbniki, razvojnimi inženirji, poslovnimi uporabniki,
oblikovalci informacij in skrbniki baz podatkov – ugotavljajo tudi pri ATKearney (Evans
et al., 2015, str. 9). Izvajanje naprednih analiz v sklopu znanosti o podatkih zahteva delo z
velikimi količinami podatkov, pridobljenimi iz različnih virov, ki so pogosto delno ali v
celoti nestrukturirani. Podatkovni znanstveniki pri delu uporabljajo kombinacijo
programiranja, znanosti odločanja, poslovnega znanja, analitičnih tehnik in kreativnosti
(Evans et al., 2015, str. 9). Pogosto je vloga podatkovnega znanstvenika postavljena izven
oddelka za informatiko v poslovno enoto. Vzpon podatkovnih znanstvenikov naj bi tudi
razširil tradicionalne IT vloge in sposobnosti skrbnikov podatkovnih baz, razvijalcev in
sistemskih skrbnikov, da bodo bližje in bolj povezani s poslovno stranjo (Evans et al.,
2015, str. 9). Slika 15 prikazuje znanja in sposobnosti po različnih vlogah za učinkovito
sodelovanje med oddelkom informatike in podatkovnimi znanstveniki (Evans et al., 2015,
str. 9).
Slika 15:Znanja in sposobnosti glede na različne vloge za učinkovito sodelovanje med
oddelkom informatike in podatkovnimi znanstveniki
Vir: Evans et al., IT’s Challenge: Bringing Structure to the Unstructured World of Big Data, 2015, str. 9,
Slika 7.
Razvidno je, da ima podatkovni znanstvenik od vseh navedenih vlog, poleg inženirja
programske opreme, edini znanja in sposobnosti iz vseh navedenih področij. Največ znanj
41
in sposobnosti naj bi podatkovni znanstvenik imel iz napredne analitike, vizualizacije,
kreativnosti, analize podatkov in managementa baz podatkov. Sledijo znanja in
sposobnosti iz programiranja, domenska znanja in sposobnost sodelovanja ter znanja iz
integracije sistemov in razvoja aplikacij.
Pri razumevanju razlikovanja med posameznimi vlogami je potrebno pojasniti različne tipe
analitike, ki se omenjajo v sklopu ukvarjanja z masovnimi podatki in znanostjo o podatkih:
opisna (angl. descriptive), diagnostična (angl. diagnostic), napovedna (angl. predictive) in
predpisovalna (angl. prescriptive) analitika (Declues, 2015; Granville, 2014, str. 77).
Opisna analitika obravnava dogodke, ki so se zgodili sedaj, na podlagi toka podatkov. Po
navadi zajema pregledne plošče s podatki v realnem času ter poročila (Declues, 2015).
Diagnostična analitika se uporablja za raziskovanje vzrokov, zakaj se je nekaj zgodilo. Pri
trženjskih kampanjah, izvedenih na družbenih medijih, lahko uporabimo opisno statistiko,
da pridobimo podatek o številu objav, sledilcev, ogledov strani ipd. Z diagnostično
analitiko pa lahko pretekle trende združimo v enoten pogled z namenom ugotoviti, kaj je v
preteklosti delovalo in kaj ne (Declues, 2015). Napovedna analitika uporablja masovne
podatke za identifikacijo preteklih vzorcev z namenom napovedati prihodnje dogodke.
Nekatere organizacije uporabljajo napovedno analitiko za celoten prodajni proces, analizo
virov, število komunikacij, tipe komunikacij, družbene medije, dokumente, podatke iz
sistemov CRM, itd. (Declues, 2015). Predpisovalna analitika je zelo uporabna, vendar
njena uporaba še ni razširjena. Po podatkih Gartnerja naj bi 13 % organizacij uporabljalo
napovedno analitiko in le 3 % predpisovalno analitiko (Declues, 2015). Predpisovalna
analitika pa ponudi konkretne odgovore na specifična vprašanja (Declues, 2015).
Iz navedenih primerjav lahko zaključim, da lahko podatkovnega znanstvenika opredelim
kot strokovnjaka, ki se večino svojega časa ukvarja s podatki, pri čemer uporablja
raznolika znanja in sposobnosti iz več različnih znanstvenih področij z namenom, da iz
surovih (masovnih) podatkov preko znanosti o podatkih pridobi dodano vrednost. Menim,
da je na podlagi napisanega in vloge podatkovnega znanstvenika v organizaciji osnovni
cilj, da ima podatkovni znanstvenik ustrezna znanja in sposobnosti, da lahko izpelje vse
faze procesa znanosti o podatkih: od pridobivanja podatkov do končne vizualizacije ali
novega izdelka/storitve na podlagi podatkov.
V nadaljevanju sem najprej opredelila koncept znanj in sposobnosti človeka na splošno. Na
podlagi literature, strokovnih člankov in raziskav sem opredelila znanja in sposobnosti, ki
naj bi jih podatkovni znanstvenik imel v skladu z zgoraj definiranim ciljem in kako jih
lahko pridobi. V zadnjem delu tega poglavja pa sem predstavila ugotovitve raziskav iz
tujine glede identifikacije različnih segmentov podatkovnih znanstvenikov na podlagi
njihovih znanj in sposobnosti.
42
2.2 Opredelitev znanj in sposobnosti podatkovnih znanstvenikov
Za ustrezno opredelitev znanj in sposobnosti podatkovnih znanstvenikov je potrebno
najprej ustrezno opredeliti koncept znanj in sposobnosti v sklopu človeških zmožnosti.
Lipičnik (1998, str. 26) definira človeške zmožnosti v ožjem in širšem smislu (Slika 16).
Človeške zmožnosti v širšem smislu so zelo raznovrstne in se nanašajo na različna
področja človekovega življenja: psihične zmožnosti, fiziološke zmožnosti in fizične
zmožnosti. Glede na pridobivanje teh zmožnosti ločimo zmožnosti, ki jih je človek razvil
večinoma v povezavi z dednostnimi dispozicijami (mednje sodijo vse vrste sposobnosti)
ter zmožnosti, ki si jih je pridobil v času svojega življenja (mednje spada znanje vseh vrst).
Pod človeškimi zmožnostmi v ožjem smislu pa večinoma spadajo sposobnosti, znanje in
motivacija (Lipičnik, 1998, str. 26–27).
Slika 16: Človeške zmožnosti v širšem smislu
Vir: B. Lipičnik, Ravnanje z ljudmi pri delu, 1998, str. 27.
Lipičnik (1998) definira sposobnosti kot človekov potencial za razvoj določenih
zmožnosti. Sposobnosti se delijo na štiri skupine: intelektualne (inteligentnost in specifične
sposobnosti), motorične, senzorične in mehanske. Do izraza pridejo šele v kombinaciji z
znanjem, saj odločilno vplivajo na reševanje problemov s povsem neznanimi rešitvami.
Znanje po drugi strani omogoča reševanje znanih problemov. Takšnih, ki smo jih že videli
in rešili. Iz sposobnosti, ki jih ima vsak posameznik, lahko sklepamo na njegov prihodnji
uspeh, vendar je napoved veliko natančnejša, če znamo odgovoriti tudi na vprašanje, kaj
hoče. Tako so sposobnosti, znanje in motivacija osrednje zmožnosti in poglavitna
43
človekova mobilizacijska sila, ki nam daje možnosti za doseganje uspeha. Iz tega razloga
si te zmožnosti prizadevamo spoznati in nanje vplivati (Lipičnik, 1998, str. 28). V
magistrskem delu sem se odločila za obravnavo znanj in sposobnosti podatkovnih
znanstvenikov, torej obravnavo človekovih zmožnosti v ožjem smislu (brez motivacije).
Kljub temu vlogo in vpliva motivacije ne gre zanemariti. V okviru sposobnosti pa sem se
osredotočila predvsem na specifične intelektualne sposobnosti.
V nadaljevanju predstavljam opredelitev znanj in sposobnosti podatkovnih znanstvenikov,
kot so opredeljene v Conway Vennovem diagramu, raziskavi Analyzing the Analyzers
(Harris, Murphy& Vaisman, 2013), OECD (2015), The field guide to data science (2015)
in masovnega odprtega spletnega tečaja na Courseri.
Conway (2015) Vennov diagram potrebna znanja podatkovnih znanstvenikov (Slika 17)
prikazuje na način, da posameznik potrebuje znanja iz različnih področij, da postane
podatkovni znanstvenik. Podatkovni znanstvenik naj bi imel znanja iz področij
programiranja, matematike in statistike ter strokovna znanja iz področja delovanja
organizacije, imenovana tudi poslovna domenska znanja (Conway, 2015).
Slika 17: Conway Vennov diagram potrebnih znanj podatkovnih znanstvenikov
Vir: D. Conway, The Data Science Venn Diagram, 2015.
Conway (2015) pravi, da so bila ta področja izbrana, ker nobeno od področij ni specifično
ter ker je vsako zase pomembno. Vendar kombinacija znanj enega področja samo z enim
od drugih navedenih področij še ne pomeni, da gre za znanost o podatkih. Znanje
programiranja je za znanost o podatkih nujno, saj so podatki »dobrina, s katero se trguje
elektronsko« (Conway, 2105). Programiranje ne vsebuje nujno ozadja iz računalništva.
Pomembno je, da je posameznik lahko sposoben manipulirati tekstovne datoteke na nivoju
ukazne vrstice, razume vektorske operacije ter razmišlja algoritemsko. Ko enkrat
podatkovni znanstvenik pridobi in očisti podatke, je iz njih potrebno pridobiti informacije,
44
ki bodo omogočale boljše odločitve. To je mogoče z ustreznimi matematičnimi in
statističnimi metodami, ki zahtevajo vsaj osnovno poznavanje teh orodij. Kombinacija
uporabe znanj iz področja programiranja ter matematike in statistike Conway (2015)
smatra »le« kot strojno učenje, kar pa ni dovolj za izvajanje znanosti o podatkih. Pri
znanosti gre za odkrivanje in razvoj znanja, kar pa zahteva ustrezna vprašanja glede sveta
in domneve, ki jih je mogoče preveriti na podatkih s statističnimi metodami (Conway,
2105). Na drugi strani poslovna domenska znanja oziroma strokovna znanja iz delovanja
organizacije ter matematična in statistična znanja definirajo tradicionalnega raziskovalca.
Kombinacija znanj programiranja in strokovnih znanj iz delovanja organizacije
predstavljajo posameznike, ki so sposobni pridobiti in strukturirati podatke o področju
delovanja organizacije. Na teh podatkih so ti posamezniki sposobni uporabiti linearno
regresijo in pridobiti koeficiente, žal pa jim manjka razumevanja, kaj ti koeficienti
pomenijo. Posamezniki iz kombinacije teh dveh področij so najbolj »nevarni«, saj znajo
pripraviti veljavno analizo, toda brez razumevanja ozadja rezultatov (Conway, 2015).
Podobno kot Conway (2015) tudi OECD (2015, str. 270) opaža, da bodo podatkovni
znanstveniki oziroma vsi, ki se ukvarjajo s podatki, morali vedno bolj kombinirati znanja
in sposobnosti z namenom zbiranja, analize in uporabe podatkov preko vrednostnega cikla
podatkov na način, ki jasno ustvarja dodano vrednost za organizacijo. Slika 18 prikazuje,
kako naj bi znanja kombinirali iz področja informatike (razvoj programske opreme,
management baz podatkov, strojno učenje) kot tudi iz področja statistike ter domensko
specifična znanja in sposobnosti iz poslovnih ved, trženja, financ in zdravstva (OECD,
2015, str. 269). Dodatno so v diagramu, napram Conwayu, dodali še »mehke sposobnosti«,
ki so vedno bolj zaželene, kot so komunikacija, kreativno mišljenje ter sposobnost
reševanja problemov (OECD, 2015, str. 269).
Slika 18: Znanja in sposobnosti podatkovnih znanstvenikov po OECD (2015)
Vir: OECD, Data-driven innovation: Big Data for Growth and Well-Being, 2015, str. 270, Tabela 6.16.
45
Podobno strukturo znanj podatkovnih znanstvenikov so povzeli tudi pri The field guide to
data science (2015, str. 39). Podatkovni znanstvenik naj bi imel znanja iz področja
informatike (potrebno za manipulacijo in obdelavo podatkov), matematike (nudi
teoretično strukturo, v kateri se obdeluje probleme iz znanosti podatkov, saj so za
razumevanje osnov velike večine algoritmov potrebna znanja iz statistike, geometrije,
linearne algebre itd.) in domenskega znanja (razumevanje, katere probleme je dejansko
potrebno rešiti) (The field guide to data science, 2015, str. 39). Poudarili pa so, da je
verjetno največji problem najti takšne posameznike, ki bodo imeli znanja iz vseh treh
področij. Zato omenjajo, da je kritična komponenta znanosti o podatkih predvsem dober
tim, ki bo pokril vsa tri področja znanj (The field guide to data science, 2015, str. 39).
V sklopu raziskave Analyzing the analyzers (Harris, Murphy & Vaisman, 2013) so v
vprašalniku opredelili znanja, ki so jih vprašanci razvrstili glede na to, katera področja
znanj najbolj obvladajo pri svojem delu. Z vprašanji so želeli razumeti in opredeliti
podskupine na podlagi tega, kakšno mnenje imajo vprašanci o sebi in svojem delu.
Pripravili so seznam 22 generičnih znanj (Tabela 2), ki naj bi pokrila širok razpon
uporabnih znanj, ki jih podatkovni znanstvenik uporablja pri svojem delu. Zraven vsakega
področja znanj so bili navedeni konkretni primeri kot pomoč pri razumevanju in
razvrščanju (Harris, Murphy & Vaisman, 2013).
Tabela 2: Seznam znanj iz raziskave Harrisa, Murphya & Vaismana
Skupina znanj Znanja (slo.) Znanja (angl.)
Matematika /
operacijsko raziskovanje
Algoritmi (npr.: računska zahtevnost,
teorija iz področja računalništva)
Algorithms (ex: computational
complexity, CS theory)
Matematika /
operacijsko raziskovanje
Bayesova/Monte Carlo statistika (npr.:
MCMC – Markov Chain Monte Carlo,
BUGS – Bayesian inference Using
Gibbs Sampling)
Bayesian/Monte-Carlo Statistics
(ex: MCMC, BUGS)
Matematika /
operacijsko raziskovanje
Grafični modeli (npr.: družbena omrežja,
Bayesove mreže)
Graphical Models (ex: social
networks, Bayes networks)
Matematika /
operacijsko raziskovanje
Matematika (npr.: linearna algebra,
analiza realnih števil, računanje)
Math (ex: linear algebra, real
analysis, calculus)
Matematika /
operacijsko raziskovanje
Optimizacija (npr.: linearno, integralno,
konveksno, globalno programiranje)
Optimization (ex: linear, integer,
convex, global)
Matematika /
operacijsko raziskovanje
Simulacije (npr.: diskretne, zvezne,
simulacije na podlagi agentov)
Simulation (ex: discrete, agent-
based, continuous)
Poslovne vede Poslovna znanja (npr.: management,
razvoj poslovanja, vodenje proračuna)
Business (ex: management,
business development, budgeting)
Poslovne vede Razvoj izdelkov (npr.: zasnova,
management projektov)
Product Development (ex: design,
project management)
Programiranje Zaledno programiranje (npr.:
Java/Rails/Objective C)
Back-End Programming (ex:
JAVA/Rails/Objective C)
Programiranje Čelno programiranje (npr.: JavaScript,
HTML, CSS)
Front-End Programming (ex:
JavaScript, HTML, CSS)
Programiranje
Sistemska administracija (npr.: *nix
operacijski sistemi, administracija baz
podatkov – DBA, oblačne tehnologije)
Systems Administration (ex: *nix,
DBA, cloud tech.)
se nadaljuje
46
Tabela 3: Seznam znanj iz raziskave Harrisa, Murphya & Vaismana (nad.)
Skupina znanj Znanja (slo.) Znanja (angl.)
Statistika Klasična statistika (npr.: splošni linearni
modeli, ANOVA)
Classical Statistics (ex: general
linear model, ANOVA)
Statistika
Manipulacija podatkov (npr.: regularni
izrazi, R, SAS, spletno »strganje«
podatkov)
Data Manipulation (ex: regexes, R,
SAS, web scraping)
Statistika Znanost (npr.: zasnova eksperimentov,
tehnično pisanje/objavljanje)
Science (ex: experimental design,
technical writing/publishing)
Statistika
Prostorska statistika (npr.: geografske
spremenljivke, geografski informacijski
sistemi – GIS)
Spatial Statistics (ex: geographic
covariates, GIS)
Statistika Raziskave in trženje (npr.: multinomska
porazdelitev)
Surveys and Marketing (ex:
multinomial modeling)
Statistika Časovna statistika (npr.: napovedovanje,
analiza časovnih vrst)
Temporal Statistics (ex:
forecasting, time-series analysis)
Statistika
Vizualizacija (npr.: statistične grafike,
mapiranje, spletne vizualizacije
podatkov)
Visualization (ex: statistical
graphics, mapping, web-based
dataviz)
Strojno učenje / masovni
podatki
Masovni in porazdeljeni podatki (npr.:
Hadoop, Map/Reduce)
Big and Distributed Data (ex:
Hadoop, Map/Reduce)
Strojno učenje / masovni
podatki
Strojno učenje (npr.: drevesa odločanja,
nevronske mreže, metoda podpornih
vektorjev – SVM, razvrščanje v skupine)
Machine Learning (ex: decision
trees, neural nets, SVM, clustering)
Strojno učenje / masovni
podatki
Strukturirani podatki (npr.: SQL, JSON,
XML)
Structured Data (ex: SQL, JSON,
XML)
Strojno učenje / masovni
podatki
Nestrukturirani podatki (npr.: noSQL,
podatkovno rudarjenje besedil)
Unstructured Data (ex: noSQL, text
mining)
Vir: H. Harris, S. Murphy &M. Vaisman, Analyzing the Analyzers: An Introspective Survey of Data Scientists
and Their Work, 2013, str. 30.
Harris, Murphy & Vaisman (2013) so na podlagi zbranih podatkov znanja razvrstili v
skupine in vsako skupino znanj primerno poimenovali. Tako so prišli do naslednjih skupin
znanj: matematika/operacijsko raziskovanje, statistika, programiranje, poslovne vede
in strojno učenje/masovni podatki. Ugotovili so, da so vprašanci podobno rangirali
prostorsko statistiko in raziskave in trženje – ali so jih rangirali relativno visoko ali
relativno nizko. Analiza je pokazala, da je vsako od 22 generičnih znanj bilo zelo močno
povezano z eno samo identificirano skupino znanj z izjemo strukturiranih podatkov in
strojnega učenja. Strukturirani podatki, ki so bili uvrščeni v skupino strojno
učenje/masovni podatki, so bili močno povezani tudi s skupino programiranje. Strojno
učenje, ki pa je bilo uvrščeno v strojno učenje/masovni podatki, pa je bilo močno povezano
s skupinama matematika/operacijsko raziskovanje in statistika (Harris, Murphy &
Vaisman, 2013).
Na masovnem odprtem spletnem tečaju Data Science Specialization ponudnika
Coursera.org so znanja in sposobnosti podatkovnih znanstvenikov opredelili z vidika
izvajanja procesa znanosti o podatkih. Specializacija je podprta s strani Univerze John
Hopkins in jo izvajajo uveljavljeni predavatelji omenjene univerze. Tečaj pokriva, poleg
47
konceptov znanosti o podatkih tudi vsa orodja (nadzor različic, markdown, git, GithHub,
R, RStudio), ki jih bo posameznik potreboval za izvajanje celotnega procesa znanosti o
podatkih, od postavljanja pravih vprašanj do oblikovanja domnev in objavljanja rezultatov.
Podatkovni znanstvenik naj bi tako imel znanja, da pridobi (preko spleta, preko API-jev,
iz baz podatkov ali drugih virov) in prečisti podatke. Pri tem potrebuje ustrezna znanja iz
področja računalništva, baz podatkov in znanje programskih jezikov (opomba: na
Coursera.org so se osredotočili na programski jezik R – branje podatkov v R, dostop do R
paketov, pisanje R funkcij, razhroščevanje ter profiliranje, organiziranje in komentiranje R
kode – lahko pa se uporabi tudi Python ali kateri drugi: Julia, Scala). Pri izvajanju
raziskovalne analize podatkov mora poznati ustrezne raziskovalne tehnike za
združevanje podatkov iz področja statistike (multivariantna analiza, statistično
modeliranje) ter sposobnosti vizualizacije. Kot pomembno področje znanj in sposobnosti
omenjajo zagotavljanje ponovljivosti raziskav (angl. reproducible research). V sklopu
sodobne analize podatkov ponovljivost raziskav predstavlja koncepte in orodja v ozadju
ideje, da so znanstveni zaključki objavljeni skupaj s podatki in programsko kodo, da lahko
drugi preverijo zaključke analize podatkov ali pa jih nadgradijo. Pomembnost tega
področja se veča z naraščajočo kompleksnostjo analiz podatkov, večanjem obsega
podatkov in zahtevnosti izračunov. Podatkovni znanstvenik naj bi imel ustrezna znanja iz
področja programiranja, statističnih metod in orodij, ki omogočajo objavo analize
podatkov v enotnem dokumentu (npr. Jupyter.org). Iz področja statistike je predvsem
pomembno področje znanj iz statističnega sklepanja (angl. statistical inference). Gre za
proces pridobivanja zaključkov glede populacije ali znanstvenih resnic iz podatkov. Pri
statističnem sklepanju se uporablja znanja iz področij statističnega modeliranja,
podatkovno usmerjenih strategij, preverjanja domnev, vzorčenja itd. Podatkovni
znanstvenik naj bi imel tudi znanja iz področja regresije. Ključno področje znanj pa je
napovedovanje in strojno učenje. V sklopu tega naj bi podatkovni znanstvenik poznal
osnovne koncepte, kot so: nabor podatkov za učenje in testiranje, prekomerno prileganje
(angl. overfitting), stopnje napak, različne napovedne modele (regresija, klasifikacija,
naivni Bayes, naključni gozd (angl. random forest)) ter osnovni proces strojnega učenja od
zbiranja podatkov, kreiranja značilnosti, algoritme ter načine za ovrednotenje napovednega
modela. Rezultat procesa znanosti o podatkih je izdelek ali storitev, narejena na podlagi
analize podatkov. V sklopu takšnega »izdelka« so avtomatizirane kompleksne analitične
naloge ali pa gre za uporabno tehnologijo, ki izkoristi napovedne modele, algoritme ali
inference z namenom, da se rezultate predstavi širšemu občinstvu (Coursera, 2016).
Na podlagi pregleda različnih znanj in sposobnosti podatkovnega znanstvenika iz tega
poglavja sem v nadaljevanju opredelila konkretna znanja in sposobnosti, ki bodo služila
kot podlaga za vprašalnik za raziskavo znanj in sposobnosti podatkovnih znanstvenikov v
Sloveniji.
48
2.3 Znanja in sposobnosti podatkovnih znanstvenikov
2.3.1 Izhodišča za kategorizacijo znanj in sposobnosti podatkovnih znanstvenikov
Pri opredelitvi konkretnih znanj in sposobnosti podatkovnih znanstvenikov sem v osnovi
izhajala iz procesa znanosti o podatkih, predstavljenem v prvem poglavju ter
interdisciplinarnosti področja dela podatkovnih znanstvenikov iz prejšnjega poglavja. To
pomeni, da sem vključila širok nabor znanj iz različnih znanstvenih področij (statistike,
informatike, programiranja, matematike in ekonomije), ki se lahko uporabljajo za
reševanje problemov organizacij iz različnih dejavnosti, z namenom zajema vseh različnih
profilov posameznikov, ki se ukvarjajo z znanostjo o podatkih. Veliko različnih tehnologij
in tehnik je bilo razvitih in prilagojenih z namenom združevanja, manipuliranja,
analiziranja in vizualizacije masovnih podatkov (Manyika et al., 2011, str. 27). Seznam
znanj trenutno ne predstavlja celostnega pogleda na znanja podatkovnih znanstvenikov, saj
se metode in orodja neprestano razvijajo z namenom reševanja vedno novih problemov
(Manyika et al., 2011, str. 27). Prav tako različni problemi zahtevajo uporabo različnih
tehnik in tehnologij iz različnih področij glede na naravo problema in cilje projekta
znanosti o podatkih.
Pri kategorizaciji znanj podatkovnega znanstvenika sem upoštevala določene
predpostavke. Pri pregledu znanj, ki jih omenja literatura, sem ugotovila, da bo težavno
postaviti ustrezno ločnico med posameznimi področji znanosti, saj se tehnike med seboj
prekrivajo in povezujejo. Kot je bilo prikazano v prejšnjem poglavju, je struktura znanj
podatkovnega znanstvenika zelo obširna in kompleksna. Če bi pogledali hierarhično, npr. v
Conwayevem diagramu, se znanja podatkovnih znanstvenikov na najvišjem nivoju
nanašajo na znanstvena področja (matematika, statistika, informatika, strojno učenje,
poslovna domenska znanja itd.), na nivoju nižje pa sledijo specifična znanja (optimizacija,
multivariantna analiza, zaledno programiranje, regresija, simulacije itd.). Nekatera
specifična znanja lahko razvrstimo tudi znotraj enega ali več znanstvenih področij – na
primer simulacija zahteva znanja tako iz statistike kot matematike ter programiranja za
samo izvedbo simulacij. Podoben primer je vizualizacija, ki se lahko nanaša na več
specifičnih področij, odvisno od namena in načina uporabe: vizualizacija podatkov opisne
statistike ali rezultatov strojnega učenja v Microsoft Excelu, SPSS Modelerju, MatLabu ali
Tableauju, vizualizacija podatkov v programskem jeziku R ali pa interaktivna spletna
vizualizacija s pomočjo JavaScripta. Pri »vsaki« vizualizaciji so potrebna podrobna znanja
programskega orodja, programiranja, statistike, strojnega učenja, osnov in pravil
vizualizacije itd. Pri opredelitvi znanj podatkovnih znanstvenikov sem le-ta, zaradi lažjega
pregleda in na podlagi različnih virov ter lastnih izkušenj, razporedila v skupine po
naslednjih področjih: znanstvena metoda, programiranje, management podatkov, baze
podatkov, statistika, matematika, strojno učenje ter domenska znanja s pripadajočimi
tehnikami. Problem nastane tudi pri kategorizaciji znanj programskih rešitev (SPSS, SAS,
Orange, RapidMiner, Weka, Tableau, Excel itd.), ki lahko pokrivajo več specifičnih
49
področij in tehnik oziroma je z njimi mogoče reševati različne probleme organizacije. Iz
nabora znanj sem zato izključila opredelitev znanj, vezane na specifične programske
rešitve, saj predstavljajo bolj tehnološko orodje, s katerim podatkovni znanstvenik izvede
določeno fazo v znanosti o podatkih. Poleg tega bi to lahko pristransko vplivalo na
rezultate, saj bi bili le-ti vezani na popularnost in dostopnost posameznega orodja. Pri
opredelitvi znanj podatkovnega znanstvenika sem tudi izključila poimenovanja
določenega sklopa znanj, na primer: analitika, spletna analitika, poslovna analitika,
podatkovna analitika, saj ti izrazi združujejo različne tehnike oziroma aktivnosti iz
različnih področij in bi bilo težko postaviti ustrezne ločnice.
2.3.2 Znanstvena metoda
Znanstvena metoda v najširšem smislu vključuje vse postopke in tehnike za objektivno
raziskovanje pojavov (Toš & Hafner-Fink, 1998). Znanstvena metoda vključuje zbiranje
empiričnih in merljivih dokazov, podvrženih določenim principom razmišljanja
(Hayes, 2014b). Znanstvena metoda vključuje naslednje splošne korake: 1) oblikovanje
raziskovalnega vprašanja; 2) oblikovanje hipoteze; 3) preverjanje domneve s pomočjo
poskusa/eksperimenta (v kolikor ni mogoče izvesti pravega eksperimenta, se podatke
pridobi preko opazovanja in merjenja); 4) analiza podatkov, na podlagi katerih se izpelje
zaključke (Hayes, 2014b). Hayes (2014b) verjame, da znanstvena metoda predstavlja
ključno vlogo v razumevanju katerih koli podatkov, ne glede na njihovo velikost, hitrost ali
raznolikost. Podatki namreč ne »govorijo« sami zase, temveč jim pomen dajo ljudje preko
ustvarjanja, zbiranja in interpretacije podatkov. Ljudje pa na žalost predstavljajo tudi vir
(namerne ali nenamerne) pristranskosti, ki lahko poslabša kakovost podatkov (Hayes,
2014b).
Načrtovanje poskusov/eksperimentov (angl. experimental design) – načrtovanje
poskusov je raziskovalna tehnika, ki se uporablja v vzročnem raziskovanju (angl. causal
research). Gre za primarno znanstveno metodo za vzpostavljanje vzročno-posledičnega
odnosa med spremenljivkami (Malhotra, 2012, str. 221). Podatkovni znanstvenik naj bi v
sklopu načrtovanja poskusov poznal koncepte neodvisnih, odvisnih in zunanjih
spremenljivk, testnih enot in naključne razdelitve na poskusno in kontrolno skupino. Pri
izvedbi poskusa podatkovni znanstvenik namreč določi testne enote in način, kako so te
enote razdeljene na homogene podskupine, določi katere neodvisne spremenljivke bo
spreminjal, manipulira eno ali več neodvisnih spremenljivk in nato opazuje in meri učinke
teh sprememb na odvisne spremenljivke, ob tem pa preverja vpliv zunanjih ali tujih
spremenljivk (Malhotra, 2012, str. 222–223). Podatkovni znanstvenik mora pri načrtovanju
poskusov upoštevati tudi notranjo (angl. internal validity) in zunanjo veljavnost. (angl.
external validity). Notranja veljavnost predstavlja veljavne sklepe glede učinka neodvisnih
spremenljivk na odvisne spremenljivke. Zunanja veljavnost pa predstavlja veljavne
posplošitve določenega poskusnega okolja na večjo populacijo. Cilj poskusov je doseči
zunanjo veljavnost (Malhotra, 2012, str. 224).
50
Zagotavljanje ponovljivosti raziskav (angl. reproducible resarch) – ponovljivost
raziskave predstavlja ključen koncept znanstvene metode. Vključuje koncepte in orodja, ki
jih podatkovni znanstvenik uporablja, da lahko znanstvene zaključke objavi skupaj s
podatki in programsko kodo in da lahko drugi preverijo zaključke analize podatkov ali pa
jih nadgradijo (Coursera, 2016). Podatkovni znanstvenik v raziskavo vključi podrobna
navodila za izvedbo analize podatkov, definira vire podatkov oziroma priloži podatke z
namenom, da je raziskavo mogoče ponoviti, bolje razumeti ali preveriti veljavnost (Kuhn,
2015). Zagotavljanje ponovljivosti raziskave ima še dodatne prednosti. Kot prvo omogoča
ponovljivost katerega koli dela procesa izvajanja znanosti o podatkih. Podatkovnemu
znanstveniku omogoča tudi, da ob ugotovljeni napaki ponovi določene dele procesa
znanosti o podatkih brez potrebe, da bi moral začeti od začetka. Prednost je nenazadnje
tudi v tem, da lahko podatkovni znanstvenik, ko pridobi nove vire podatkov, le-te
enostavno in smiselno integrira v proces znanosti o podatkih (O’Neill & Schutt 2013, str.
332).
2.3.3 Programiranje
Znanje programiranja je ključno področje, ki loči podatkovnega znanstvenika od
tradicionalnega poslovnega analitika ali statistika. Z znanjem programiranja lahko
podatkovni znanstvenik pokrije celoten proces izvajanja znanosti o podatkih – kadar koli
lahko napiše program, ki pridobi podatke iz baze podatkov, zažene algoritme strojnega
učenja na naboru podatkov (Ultimate skills checklist for your first data analyst job, 2015,
str. 5), razvije produkt/storitev na podlagi podatkov ali pripravi vizualizacijo podatkov.
Priporočljivo je znanje vsaj enega ali več programskih jezikov, ki so robustni, popularni in
razširljivi – sploh pri velikem naboru podatkov (Voulgaris, 2014, str. 53). Priporočljivo je
tudi, da ima podatkovni znanstvenik dober pregled nad področjem knjižnic in paketov,
povezanih s programskimi jeziki, ki se najpogosteje uporabljajo za izvajanje znanosti o
podatkih (Ultimate skills checklist for your first data analyst job, 2015, str. 5).
Med programske jezike, ki jih najbolj pogosto uporablja več kot 90 % podatkovnih
znanstvenikov, uvrščamo R, SAS in Python (Piatetsky, 2014). Voulgaris (2014, str. 54)
omenja tudi Java, C+, C# in Perl, ki so objektno orientirani jeziki (angl. object-oriented
languages), katerih prednost leži v tem, da omogočajo enostavno ustvarjanje kompleksne
programske kode. Proces znanosti o podatkih je mogoče izvajati tudi v drugih programskih
jezikih: Julia, Scala, Stata, Hadoop programski jeziki (Pig Latin, HiveQL, drugi),
Java, Unix shell/awk/sed, MATLAB, C/C++, Perl, Octave, Ruby, Lisp/Clojure, F# itd.
(Piatetsky, 2014). Od vseh naštetih bolj podrobno predstavljam R, Python, Julia, SAS,
Scala, MATLAB, Pig Latin ter zaledno (angl. back-end) in čelno (angl. front-end)
programiranje.
R je brezplačen odprtokodni programski jezik in programsko okolje za statistične izračune
in grafike. R ima sicer vse značilnosti objektno orientiranega programskega jezika (vse
51
podatkovne strukture se smatrajo kot objekti), vendar ga večina še vedno obravnava kot
statistično orodje (Voulgaris, 2014, str. 57–58). Programski jezik R je postal »de facto«
standard med statistiki za razvoj statistične programske opreme in se zelo široko uporablja
za razvoj statističnih programskih orodij in analizo podatkov. R je del GNU Projekta,
kolaboracije, ki podpira odprtokodne projekte (Manyika et al., 2011, str. 33). R podpira
aktivna in široka skupnost uporabnikov. Prednost R je predvsem v njegovi surovi moči
hitrih izračunov, zaradi česar so ga za razvoj svojih algoritmov uporabili Google,
Facebook, Twitter in drugi (Marr, 2015). R vključuje tudi široko paleto knjižnic (znanih
tudi kot paketov), ki omogočajo uporabniku, da opravi zahtevne naloge brez veliko
programiranja (Voulgaris, 2014, str. 57). V sklopu znanja R programskega jezika je
priporočljivo poznati naslednje R pakete: ggpolot2 (sistem za risanje grafikonov), dplyr
(nabor orodij za učinkovito manipulacijo nabora podatkov v R), ggally (dodatek k ggplot2,
za matrike in omrežja), ggpairs (dodatek k ggplot2), reshape2 (omogoča fleksibilno
preoblikovanje podatkov) (Ultimate skills checklist for your first data analyst job, 2015,
str. 5).
Python je visokonivojski programski jezik, ki je hkrati tudi najbolj popularen odprtokoden
programski jezik za delo z velikimi in kompleksnimi nabori masovnih podatkov. Prednosti
Pythona sta, da je zelo fleksibilen in da se ga je relativno enostavno naučiti. Kot R ima tudi
Python aktivno skupnost uporabnikov, predano izboljšanju jezika in pridobivanju novih
uporabnikov (Marr, 2015). V sklopu znanja Python programskega jezika je priporočljivo
poznati naslednje Python pakete: numpy (optimizirana Python knjižnica za izvedbo
numeričnih analiz, velikih večdimenzionalnih obsegov in matrik), pandas (optimizirana
Python knjižnica za izvedbo analize podatkov), matplotlib (Python knjižnica za 2D plot, ki
vključuje tudi MATLAB vmesnik), scipy (knjižnica za znanstvene in tehnične izračune),
scikit-learn (knjižnica za strojno učenje, narejena na podlagi NumPy, SciPy in matplotlib)
(Ultimate skills checklist for your first data analyst job, 2015, str. 5).
SAS je programski jezik, ki se ga uporablja v ozadju analitične platforme Statistical
Analysis Sistem (v nadaljevanju SAS). Platformo SAS se uporablja za statistično
modeliranje že od leta 1960, preko posodobitev in izboljšav pa ostaja popularna tudi danes.
Za razliko od ostalih programskih jezikov SAS ni brezplačen odportokoden programski
jezik (Marr, 2015).
Julia je razmeroma nov programski jezik, ki obstaja šele nekaj let, kljub temu pa je
popularen med podatkovnimi znanstveniki zaradi fleksibilnosti in enostavnosti uporabe.
Programski jezik je sicer mogoče uporabiti na širokemu spektru različnih problemov,
najbolj učinkovit pa se izkaže pri izkoriščanju moči porazdeljenih sistemov (angl.
distributed systems), kot je Hadoop (Marr, 2015).
Programski jezik Scala temelji na Javi in njegova prevedena (angl. compile) različica kode
se izvaja na Java Virtual Machine platformi, kar pomeni, da ga je mogoče zagnati na
52
skoraj kateri koli platformi. Tako kot Java je Scala postal popularen med podatkovnimi
znanstveniki in statistiki zaradi surove računske moči in razširljivosti (Marr, 2015).
MATLAB je programski jezik, namenjen delu z matrikami pri statističnem modeliranju in
razvoju algoritmov. MATLAB sicer ni odprtokoden programski jezik, se ga pa uporablja
na akademskem področju (Marr, 2015).
Pig Latin je Hadoop orientiran odprtokoden programski jezik. Gre za jezikovni nivo
Apache Pig platforme, ki se uporablja za Hadoop MapReduce naloge, ki razvrščajo
ogromne, porazdeljene nabore podatkov in na njih izvajajo matematične funkcije. Pig
Latin je možno kombinirati z drugimi jeziki: uporabniki lahko ustvarijo funkcije, ki v Pig
Latin niso privzeto podprte, na primer v Pythonu (Marr, 2015).
Znanja iz zalednega in čelnega programiranja (predstavljena v nadaljevanju) se izkažejo za
koristna predvsem pri implementaciji produkta/storitve na podlagi podatkov v
produkcijsko okolje – uporabniško aplikacijo. Podatkovni znanstvenik naj bi predvsem
imel osnovna znanja kot podlago za komunikacijo in usklajevanje analitične rešitve z
zalednim in čelnim razvijalcem. Zaledno programiranje (angl. Back End
Programming): Java/Rails./.NET/PHP/Ruby/Go lang – zaledno programiranje se nanaša
na strežnik, aplikacijo in bazo podatkov. Zaledni razvijalec razvija in vzdržuje tehnologijo,
ki poganja navedene komponente, s katerimi omogoča obstoj uporabniških aplikacij. Z
namenom komunikacije med strežnikom, aplikacijo in bazo podatkov se na strežniški
strani uporabljajo programski jeziki PHP, Ruby, Python, Go lang in .NET za razvoj
aplikacije. S strani baze podatkov pa se uporabljajo z namenom shranjevanja, iskanja ali
spremembe podatkov, ki so nato na voljo uporabniku preko čelne programske kode. V
sklopu znanj je priporočljivo tudi poznavanje in izkušnje s programskimi ogrodji (npr.
PHP ogrodja: Zend, Symfony in Laravel), izkušnje s programskimi orodji za nadzor
različic (angl. version control) in izkušnje z Linux razvojnim okoljem (Wales, 2014).
Čelno programiranje (angl. Front End Programming): JavaScript, HTML, CSS,
jQuery, AJAX – čelno programiranje je odgovorno za izgled uporabniškega vmesnika in
arhitekture uporabniške izkušnje. Z namenom doseganja teh ciljev je potrebno poglobljeno
znanje programskih jezikov HTML, CSS in JavaScript. Priporočeno je poznavanje ogrodij,
kot so Bootstrap, Foundation, Backbone, AngularJS in EmberJS, ki zagotavljajo dober
izgled vsebine ne glede na napravo, na kateri si uporabnik ogleduje vsebino. Pomembno je
tudi poznavanje knjižnic, kot sta jQuery in LESS, ki poenostavita delo s programsko kodo.
Pri čelnem programiranju se pogosto uporablja tudi AJAX – široko sprejeta tehnika za
uporabo JavaScripta, ki omogoča dinamično nalaganje z nalaganjem podatkov iz strežnika
v ozadju (Wales, 2014).
53
2.3.4 Management podatkov
Podatkovni znanstvenik se večino svojega časa ukvarja s podatki. S svojim delovanjem in
izvajanjem procesa znanosti o podatkih ima pregled, možnost in vpliv na obvladovanje
podatkov, arhitekturo, varnost, povezovanje, shranjevanje in kakovost podatkov ter druge
vidike t. i. managementa podatkov. Z ustreznimi znanji iz področja managementa podatkov
lahko podatkovni znanstvenik poveča učinkovitost in uspešnost izvajanja procesa znanosti
o podatkih. Management podatkov (angl. data management) vključuje in opisuje procese
za načrtovanje, definiranje, kreiranje, pridobivanje, vzdrževanje, uporabo, arhiviranje,
nadzor in integracijo podatkov (DAMA, 2014, str. 5). Po definiciji DAMA (2014, str. 10)
se management podatkov deli na več področij:
obvladovanje podatkov (angl. data governance) – načrtovanje, pregled in nadzor nad
managementom podatkov ter uporaba podatkov in podatkovnih virov z namenom
uresničevanja enotne strategije managementa podatkov,
management podatkovne arhitekture (angl. data arhitecture management) –
celostna struktura podatkov in podatkovnih virov, ki predstavljajo pomemben del
celotne arhitekture organizacije,
razvoj in oblikovanje podatkov (angl. data modeling and design) – analiza,
oblikovanje, izgradnja, testiranje in vzdrževanje podatkovnih virov skozi celoten
življenjski cikel podatkov,
shranjevanje podatkov (angl. data storage and operations) – strukturirana fizična
razporeditev podatkovnih sredstev za shranjevanje in management,
management varnosti podatkov (angl. data security management) – zagotavljanje
varnosti, zaupnosti in primernosti dostopa do podatkov,
integracija in interoperabilnost podatkov (angl. data integration and
interoperability) – pridobivanje, izločevanje, preoblikovanje, premikanje, dostava,
replikacija, povezava, virtualizacija in operativna podpora,
management dokumentov in vsebine (angl. document and content management) –
shranjevanje, zaščita, indeksiranje in omogočanje dostopa do podatkov, najdenih v
nestrukturiranih virih (digitalni in fizični zapisi) in omogočanje, da so ti podatki na
voljo za integracijo in interoperabilnost s strukturirano bazo podatkov,
management matičnih in referenčnih podatkov (angl. reference and master data
managmenet) – management deljenih podatkov z namenom zmanjšanja redundance in
zagotavljanja boljše kakovosti podatkov s pomočjo standardiziranih definicij in
uporabe vrednosti podatkov,
management podatkovnih skladišč in poslovne inteligence (angl. data warehousing
and business intelligence management) – management analitičnih procesov obdelave
podatkov in omogočanje dostopa za podporo odločanju ter poročila in analize,
management meta-podatkov (angl. metadata management) – zbiranje,
kategoriziranje, vzdrževanje, integracija, nadzorovanje in dostava meta-podatkov,
54
management kakovosti podatkov (angl. data quality management) – opredelitev,
nadzorovanje, vzdrževanje integritete podatkov in izboljšanje kakovosti podatkov.
Znanja podatkovnih znanstvenikov se nanašajo na vsa področja managementa podatkov.
Podatkovni znanstvenik uporablja podatke iz različnih virov za izvajanje znanosti o
podatkih, zato je bistvenega pomena, da pozna in razume, iz katerih podatkovnih virov so
podatki pridobljeni ter na kakšen način so bili izločeni, preoblikovani, poenoteni ter
povezani z drugimi podatki iz drugih podatkovnih virov. Razumevanje področij
managementa podatkov je pomembno tudi z vidika razumevanja vsebine in zakonitosti
podatkov ter predstavlja priložnost za generiranje idej glede morebitnih izpeljanih
spremenljivk ali drugačnega načina uporabe podatkov v sklopu izvajanja znanosti o
podatkih. S pomočjo znanj iz področja managementa podatkov podatkovni znanstvenik
lahko izvaja napredno načrtovanje uporabe prave kombinacije podatkovnih virov. Na ta
način lahko zelo hitro preoblikuje podatke iz podatkovnih virov, ki so že na voljo, z
namenom, da pridobi ustrezne vpoglede v potrošnike, poslovne procese in izdelke.
Podatkovni znanstvenik potrebuje tudi ustrezna znanja glede ocenjevanja kakovosti
podatkov (Eckerson) in kakovosti informacij (Epplerjev okvir). Kakovost podatkov je
pomembna z vidika vhoda v poslovno-inteligenčni sistem ter posredno pri izhodih iz
poslovno-inteligenčnega sistema, saj lahko kakovost podatkov vpliva na kakovost
informacij (Lukman, 2009, str. 20). S pomočjo razumevanja kakovosti podatkov in
kakovosti informacij podatkovni znanstvenik razume vsebino podatkov in lažje presoja,
katere podatke iz katerih podatkovni virov bo vključil v analizo, katere bo potrebno še
preoblikovati ali pa za katere bo potrebno ustrezno prilagoditi vrsto analize. Znanja iz tega
področja lahko skrajšajo čas izvajanja analiz, spodbudijo dodatne kontrole pri vnosu
podatkov v sistem ter izboljšajo kakovost analiz.
Oblikovanje informacij (vizualizacija) – področju, ki se ukvarja z načini za predstavitev
podatkov, pravimo vizualizacija podatkov in je opredeljeno kot »uporaba računalniško-
podprte, interaktivne, grafične reprezentacije podatkov za izboljšanje kognicije« (Leban,
2007, str.7). »Glavni namen vizualizacije je uspešno izkoristiti človeške sposobnosti
percepcije in prikazati podatke na tak način, da bodo postali pomembni vzorci v podatkih
nemudoma vidni« (Leban, 2007, str. 7). V sklopu znanj podatkovnega znanstvenika
govorimo o podpodročju vizualizacije podatkov, in sicer o področju
vizualizacije/oblikovanja informacij (angl. information vizualization/design). Znanja iz
oblikovanja informacij lahko podatkovni znanstvenik uporablja v več različnih fazah
izvajanja procesa znanosti o podatkih. V sklopu raziskovalne analize podatkov uporablja
različne vizualizacijske tehnike z namenom razumevanja podatkov in njihovih zakonitosti
ter identifikacije negotovosti v podatkih (na primer gruče primerov, osamelce, trende ter
relacije med spremenljivkami) (Leban, 2007, str. 2). Informacije oblikuje tudi z namenom
razumevanja rešitev analize, domnev in algoritmov podatkovnega rudarjenja (kjer je to
mogoče) ter za predstavitev rezultatov procesa znanosti o podatkih ali za kreiranje
izdelka/storitve, ki temelji na podatkih. »Glavna prednost uporabe vizualizacije je njena
55
interpretabilnost – odkrite zakonitosti lahko dejansko vidimo, zaradi česar je njihovo
razumevanje neprimerno boljše« (Leban, 2007, str. 2). Podatkovni znanstvenik naj bi zato
imel znanja iz celostnega pristopa k oblikovanju informacij, poznavanja posameznih
vizualizacijskih metod in njihovih zakonitosti, izbire ustrezne vizualizacijske metode in
znanja iz oblikovanja interaktivnosti (razvoj interaktivnih rešitev, produktov in
vmesnikov).
2.3.5 Baze podatkov
Prva faza v procesu znanosti o podatkih je ročno pridobivanje, shranjevanje in čiščenje
podatkov v obliko, ki bo primerna za izvoz ali nadaljnje analize (Ultimate skills checklist
for your first data analyst job, 2015, str. 12). Ta proces je v sklopu znanosti o podatkih
znan kot mešetarjenje podatkov (angl. data wrangling, data munging, data scraping)
(Ultimate skills checklist for your first data analyst job, 2015, str. 12). Gre za nalogo, ki
podatkovnemu znanstveniku lahko zavzame od 50 % do 80 % njegovega časa (Ultimate
skills checklist for your first data analyst job, 2015, str. 12). Zaradi različnih dimenzij
masovnih podatkov (volumen, hitrost, raznolikost) so podatki lahko strukturirani ali
nestrukturirani ali pa jih je težko obdelati. Zaradi tega je pomembno, da ima podatkovni
znanstvenik znanja, kako do podatkov dostopati, jih pridobiti, shraniti ter odpraviti
nepopolnosti v podatkih, za kar potrebuje znanja iz področja baz podatkov. Med znanja iz
področja baz podatkov sodijo poznavanje sistemov baz podatkov, ki temeljijo na
strukturiranih ali delno strukturiranih podatkih (centralni repozitorij za shranjevanje
podatkov katerih osnova je SQL), nestrukturiranih podatkih (baze podatkov, katerih
osnova je NoSQL), masovne in distribuirane podatke (Hadoop, MapReduce),
poizvedbene programske jezike SQL, HiveQL ter osnovna znanja iz sistemske
administracije.
Strukturirani podatki so podatki, ki jih je mogoče nemudoma identificirati znotraj
elektronske strukture, kot so relacijske baze podatkov (Oracle, DB2, SQL Server,
MySQL, PostgreSQL idr.). Kot delno strukturirane podatke po navadi razumemo XML
ali .JSON datoteke, ki vključujejo tekoče besedilo z določenimi podatkovnimi elementi, ki
jih je mogoče identificirati s pomočjo začetnih in končnih označb (angl. tags) (PcMag,
2016).
Nestrukturirani podatki so shranjeni v drugačnih bazah podatkov, znanih pod imenom
NoSQL. NoSQL pomeni »ne samo SQL« oziroma v angl. Not Only SQL. Uporablja se za
opis baz podatkov ali sistemov za management podatkov, ki podpirajo nove, bolj
učinkovite načine, kako dostopati do podatkov (npr. MapReduce), včasih tudi kot skriti
nivo pod standardnim jezikom za poizvedbe SQL (Granville, 2014, str. 3). Gre za novo
generacijo baz podatkov, ki so: nerelacijske, distribuirane, odprtokodne in vodoravno
razširljive (angl. horizontal scalable) (NoSQL, 2016). Vključujejo več različnih
značilnosti: nimajo sheme, imajo enostavno podporo za replikacijo, enostaven API, so
56
konsistentne in lahko obvladujejo ogromno količino podatkov itd. (NoSQL, 2016). Podatki
niso shranjeni v obliki tabel kot pri relacijskih bazah podatkov in ne temeljijo na
matematičnih razmerjih med tabelami. NoSQL baze podatkov se uporabljajo za
shranjevanje in hitro pridobivanje nestrukturiranih podatkov (Granville, 2014, str. 294).
Primeri takšnih baz podatkov so (NoSQL, 2016):
stolpične (angl. wide column store): Cassandra, HBase, IBM Informix idr.,
dokumentne (angl. document store): Apache CouchDB, CouchBase, MongoDB idr.,
ključ-vrednost (angl. key-value/tuple store): Azure Table Storage, Dynamo, Riak,
Aerospike idr.,
grafične (angl. graph): Allegro, InfiniteGraph, Neo4J, MarkLogic idr.,
multimodelne (angl. multimodel): ArangoDB, Datomic, OrientDB idr.,
objektne (angl. object): Versant, db4o, Objectivitiy idr.,
mrežne in oblačne (angl. grid & cloud): Oracle Coherence, GemFire, Infinispan idr.,
XML: eXist, Sedna, BaseX idr.,
večdimenzionalne (angl. multidimensional): Globals, GT.M, rasdaman idr.,
baze z več vrednostmi (angl. multivalue): U2, OpenInsight, Reality idr.,
dogodkovne (angl. event sourcing): EventStore,
baze za časovne vrste (angl. time series/streaming): Axibase,
druge: IBM Lotus/Domino, eXtremeDB idr.
Hadoop je napisan v Java programskemu jeziku in sestoji iz dveh ključnih komponent:
odprtokodne verzije Googlovega Global File System (v nadaljevanju GFS) in MapReduce.
Ključna ideja v ozadju GFS je kopiranje podatkov na več različnih strežnikov. Google je
na začetku to počel fizično, nato pa je ta postopek avtomatiziral. Formalna avtomatizacija
tega procesa predstavlja zasnovo GFS. Na Googlovem datotečnem sistemu temelji Hadoop
distribuiran datotečni sistem (HDFS). Podatki se shranjujejo v velike datoteke, z velikostjo
blokov od 64 MB do 256 MB. Ti bloki so replicirani na veliko število vozlišč (angl. nodes)
v skupini. Vodilno vozlišče (angl. master node) pa je obveščeno, če določeno vozlišče
»umre« (O’Neill & Schutt, 2013, str. 334).
MapReduce je algoritem in ogrodje, ki omogoča obdelavo masovnih podatkov. Razvit je
bil s strani Googla (O’Neill & Schutt, 2013, str. 321). MapReduce je tehnika, ki razdeli
nabore masovnih podatkov na manjše nabore, jih ločeno (a vzporedno) obdela na različnih
strežnikih ali računalnikih ter nato združi in agregira rezultate vseh podprocesov, da poda
končni odgovor (Granville, 2014, str. 60). Za izvedbo MapReduce je potrebno napisati dve
funkciji: mapper funkcijo in reducer funkcijo. Obe funkciji se izvedeta na velikem številu
računalnikov, ki predstavljajo lokalno okolje glede na shranjene podatke. Mapper vsako
podatkovno točko pretvori v urejen par v obliki (ključ, vrednost) (angl. key, value).
MapReduce ogrodje nato razvrsti rezultate in podrobno poišče vse ključe, ki se ujemajo in
jih razvrsti skupaj v eno skupino. Te skupine nato posreduje računalnikom, ki jih
57
procesirajo s pomočjo reducer funkcije. Rezultat reducer funkcije so v obliki (ključ, nova
vrednost), kjer nova vrednost predstavlja agregirano vrednost starih vrednosti. En reducer
skrbi za vse vrednosti za določen ključ (O’Neill & Schutt, 2013, str. 328). Takšna
distribuirana arhitektura omogoča obdelavo masovnih podatkov 1000-krat hitreje kot
tradicionalni (nedistribuirani) sistemi, v kolikor uporabimo 1000 strežnikov in razdelimo
glavni proces na 1000 podprocesov (Granville, 2014, str. 60).
Podatkovni znanstvenik mora zelo dobro poznati poizvedbeni jezik SQL (angl. structured
query language, SQL), ki je računalniški jezik, namenjen managementu podatkov v
relacijskih bazah podatkov. SQL je specializiran programski jezik, ki predstavlja osnovo za
vse ostale jezike, povezane z bazami podatkov: HiveQL (omenjen v nadaljevanju),
NoSQL, AQL, BigSQL ipd. (Voulgaris, 2014, str. 54). Tehnike SQL jezika vključujejo
sposobnosti dodajanja (angl. insert), poizvedovanja (angl. query), posodabljanja (angl.
update) in brisanja (angl. delete) podatkov. Z jezikom SQL lahko tudi nadzorujemo shemo
(strukturo) baze podatkov in dostop do podatkov (Manyika et al., 2011, str. 33).
HiveQL temelji na poizvedbenem jeziku in omogoča pisanje navodil v obliki programske
kode za Apache Hive, ki deluje v sklopu Apache Hadoop ali katerega drugega
porazdeljenega sistema platform (kot je na primer Amazon S3 datotečni sistem). HiveQL
temelji na poizvedbenem jeziku SQL in ima status odprtokodnega jezika (Marr, 2015).
Sistemska administracija (npr.: *nix, računalništvo v oblaku) – iz tehničnega vidika
pomembna znanja podatkovnega znanstvenika vključujejo poznavanje SSH protokola,
osnovnih LINUX in UNIX ukazov (sort, grep, head, tail, pipe operators, redirect
operators, cat, cron jobs itd.) ter računalništva v oblaku (angl. cloud computing).
2.3.6 Statistika
Podatkovni znanstvenik naj bi imel osnovno znanje iz statistike ter poznavanje določenih
konceptov in terminologije, ki jo uporabljajo statistiki (Granville, 2014, str. 4). Na primer
za izvedbo A/B preizkusa je potrebno razumevanje statistike za potrebe interpretacije
zbranih podatkov. Podatkovni znanstvenik naj bi imel znanja iz področja metod
vzorčenja, opisne statistike, verjetnostnih porazdelitev, statističnega preizkušanja
domnev, redukcije dimenzij, analize časovnih vrst, prostorske statistike ipd. Pri tem je
predvsem pomemben vidik znanja in razumevanja, kdaj določena tehnika predstavlja
primeren ali neprimeren pristop k problemu (Ultimate skills checklist for your first data
analyst job, 2015, str.7).
Vzorčenje (angl. sampling) – eden najpomembnejših konceptov v statistiki je vzorčenje.
Ko podatkovni znanstvenik zbira podatke, je to po navadi le omejen nabor vseh možnih
podatkov, ki bi jih bilo mogoče izbrati. Zbrani podatki tako predstavljajo vzorec, ki je
pridobljen iz večjega nabora podatkov, populacije (Ultimate skills checklist for your first
data analyst job, 2015, str. 7). Vzorčenje predstavlja postopke, s »katerimi izbiramo enote
58
populacije slučajno v vzorec in na njegovi osnovi ocenjujemo vrednosti parametrov ter
sklepamo o lastnostih populacije« (Košmelj & Rovan, 2007, str. 90). Enote, ki jih
izberemo v vzorec, so lahko »posamezne enote populacije ali skupine enot ali kako
drugače opredeljene enote (npr. geografska območja)« (Košmelj & Rovan, 2007, str. 90).
Razlikujemo med enostavnim slučajnim vzorčenjem ter vzorčenjem z omejitvami
(stratificirano vzorčenje, vzorčenja v skupinicah, vzorčenje v več stopnjah, sistematično
vzorčenje) glede na to, na kakšen slučajen način izberemo enote v vzorec (Košmelj &
Rovan, 2007, str. 90). Le na podlagi slučajnih vzorcev lahko sklepamo o lastnostih
populacije – govorimo o statističnem sklepanju, ki ga lahko izpeljemo z ocenjevanjem
parametrov z mejami zaupanja ali s statističnim preizkušanjem domnev (Košmelj &
Rovan, 2007, str. 89). Od načina vzorčenja je odvisna predvsem natančnost napovednega
modela. Pogosto se podatkovni znanstvenik pri delu s podatki sreča z manjkajočimi ali
nepopolnimi informacijami. Manjkajoče vrednosti je mogoče izbrisati/izključiti ali
nadomestiti. Pri izključitvi manjkajočih vrednosti iz analize se zmanjša tudi velikost
vzorca, kar poveča potencialno pristranskost rezultatov. Nadomeščanje manjkajočih ali
napačnih vrednosti pa vključuje različne tehnike kot je naključno vzorčenje ali
nadomeščanje z uporabo aritmetične sredine, statističnih distribucij ali modelov (The field
guide to data science, 2015 str. 95).
Opisna statistika (angl. descriptive statistics) – kvantitativne mere, s katerimi opišemo
značilnosti vzorca, so poznane kot opisne statistike – opišejo izbrane podatke v kompaktni
in uporabni obliki. Med opisne statistike sodijo srednje vrednosti: aritmetična sredina,
mediana, modus, geometrijska sredina ter mere variabilnosti: varianca, standardni odklon
in variacijski razmik (Ultimate skills checklist for your first data analyst job, 2015, str.7).
Verjetnostne porazdelitve (angl. probability distributions) – podatkovni znanstveniki ob
proučevanju podatkov, predvsem ob relativno velikih količinah podatkov, za predstavitev
le-teh uporabljajo porazdelitve (angl. distributions). Najbolj pogosto uporabljena
porazdelitev je normalna/Gaussova porazdelitev (N). Pogosto se uporabljajo še uniformna
porazdelitev (U), T-porazdelitev, eskponentna/Poissonova, binomična (B) porazdelitev, hi-
kvadrat, F porazdelitev in druge (Voulgaris, 2014, str. 135). Ni nujno, da skupina
podatkovnih točk sledi kateri od navedenih distribucij, vendar pa podatkovni znanstveniki
pogosto uporabijo katero od distribucij kot predlogo z namenom, da lahko uporabijo
različna statistična orodja, primerna za določeno distribucijo (Voulgaris, 2014, str. 135).
Normalizacija podatkov (na numeričnih spremenljivkah) omogoča podatkovnim
znanstvenikom, da preverijo, kako dobro se podatki prilegajo znanim distribucijam ter s
tem lahko identificirajo, ali obstajajo osamelci ali ne (Voulgaris, 2014, str.135).
Redukcija dimenzij (PCA analiza, faktorska analiza) – na veliko virov podatkov lahko
gledamo kot na ogromne matrike. Svetovni splet je lahko predstavljen kot tranzicijska
matrika. Kot matrike so pogosto predstavljeni tudi podatki iz družbenih medijev. Pri veliki
večini uporabe matrik se lahko ogromne matrike povzame z iskanjem »ožjih« matrik, ki so
59
v določenem smislu zelo blizu originalni matriki. Prednost »ožjih« matrik je, da imajo
majhno število vrstic ali stolpcev, ki jih lahko veliko bolj učinkovito uporabimo. Proces
iskanja takšnih »ožjih« matrik se imenuje redukcija dimenzij (Leskovec, Rajaraman, &
Ullman, 2014, str. 405). Visoko-dimenzionalne podatke je mogoče zamenjati z njihovo
projekcijo na najbolj pomembne osi. Osi ustrezajo največjemu eigenvektorju. Na ta način
pridobimo približke originalnih podatkov iz podatkov, ki imajo manj dimenzij in dobro
povzamejo originalne podatke (Leskovec, Rajaraman, & Ullman, 2014, str. 413).
Statistično preizkušanje domnev (angl. inferential statistics) – preizkušanje domnev
predstavlja statistično preizkušanje predpostavk glede srednjih vrednosti ali mer
variabilnosti. »Statistična domneva je trditev, ki se nanaša na parameter ali obliko
verjetnostne proazdelitve za spremenljivko v populaciji ali več populacijah. Ta trditev je
lahko pravilna ali nepravilna.« (Košmelj & Rovan, 2007, str. 196) Statistično preizkušanje
domnev je postopek, s katerim na podlagi vzorčnih podatkov ugotavljamo, ali je trditev, ki
jo izražamo v obliki domneve, verjetno pravilna ali verjetno nepravilna (Košmelj & Rovan,
2007, str. 196). S statističnimi tehnikami presojamo razmerja med spremenljivkami, ali so
se zgodila po naključju (»ničelna domneva«) ali pa so razmerja rezultat vzročnega
razmerja, ki je statistično značilno. Te tehnike se uporabljajo tudi pri zmanjšanju
verjetnosti za napako I. vrste (»napačno pozitivni«) in napako II. vrste (»napačno
negativni«). Primer statističnega preizkušanja domnev je A/B testiranje, kjer določimo,
kateri tip trženjskega materiala bo najbolj povečal prihodek (Manyika et al., 2011, str. 30).
Regresijska analiza (angl. regression analysis) – regresijska analiza je postopek,
namenjen analizi razmerij med odvisno spremenljivko in eno ali več neodvisnih
spremenljivk (Malhotra, 2012. str. 519). Gre za statistično tehniko, ki določa, kako se
vrednosti odvisne spremenljivke spreminjajo, s spremembami ene ali več neodvisnih
spremenljivk. Uporablja se pri podatkovnem rudarjenju ter pri napovedovanju, npr.
prodaje, na glede na različne trge in ekonomske spremenljivke, ki določajo, kateri
izmerljivi proizvodni parametri najbolj vplivajo na zadovoljstvo potrošnikov (Manyika et
al. 2011, str. 30). Pomemben koncept razumevanja podatkovnih znanstvenikov v sklopu
regresijske analize je, da kljub temu da lahko neodvisne spremenljivke razložijo varibilnost
v odvisni spremenljivki, to še ne pomeni nujno, da obstaja med spremenljivkami vzročna
povezava.
Statistika časovnih vrst (angl. temporal statistics) – statistika časovnih vrst je zbirka
metod za analizo podatkov iz časovnih vrst z namenom, da pridobimo smiselne statistike in
druge značilnosti podatkov. Statistika časovnih vrst vključuje analizo časovnih vrst (angl.
time series analysis). Gre za tehnike iz statistike in obdelave signalov za analizo
podatkovnih točk, ki predstavljajo vrednosti ob določenem času z namenom pridobiti
smiselne zaključke iz podatkov. Primeri analize časovnih vrst vključujejo urne vrednosti
indeksov delnic ali število bolnikov z določeno diagnozo na določen dan. V sklopu
statistike časovnih vrst se uporablja tudi napovedovanje (angl. time series forecasting). Na
60
podlagi preteklih vrednosti določene časovne vrste lahko uporabimo model z namenom
napovedovanja prihodnjih vrednosti v isti ali drugi časovni vrsti. Primeri vključujejo
napovedovanje prodaje ali napovedovanje števila ljudi, ki bodo prejeli določeno diagnozo
(Manyika et al., 2011, str. 31).
Prostorska statistika (angl. spatial statistics) – prostorska statistika ali prostorska analiza
vključuje tehnike, ki proučujejo nabor enot z uporabo njihovih topoloških, geometričnih ali
geografskih značilnosti. Podatki za prostorsko analizo so ponavadi pridobljeni iz
geografskih informacijskih sistemov (angl. geographic information systems – v
nadaljevanju GIS), ki zajamejo podatke skupaj z informacijo o njihovi lokaciji (npr. naslov
ali njihove geografske koordinate). Primera uporabe prostorske statistike sta kombinacija
podatkov o lokaciji s prostorsko regresijo (npr. kako pripravljenost potrošnika za nakup
izdelka korelira z njegovo lokacijo?) ali simulacije (kako bi veriga proizvodnje delovala s
proizvodnjo na različnih lokacijah?) (Manyika et al., 2011, str. 30). Statistično modeliranje
procesov v prostoru uporablja statistično linearno in nelinearno modeliranje (tudi s
programskim jezikom R) in se uporablja na različnih področjih: ekologiji, hidrologiji,
meteorologiji, epidemiologiji, biologiji in drugje (Uporabna statistika, 2016).
Simulacije (angl. simulations) – simulacije omogočajo modeliranje obnašanja
kompleksnih sistemov, ki se uporabljajo pri napovedovanju in načrtovanju. Za izvajanje
simulacij se uporabljajo različni algoritmi, med katerimi je najbolj znana Monte Carlo
simulacija. Temelji na ponavljajočem se naključnem vzorčenju – zaganjanje tisoče
simulacij, kjer vsaka temelji na različnih predpostavkah. Rezultat predstavlja histogram, ki
ponudi verjetnostno porazdelitev izidov. Primer uporabe vključuje ocenjevanje verjetnosti
doseganja finančnih ciljev glede na verjetnost uspeha različnih iniciativ (Manyika et al.,
2011, str. 31).
2.3.7 Matematika
Podatkovni znanstvenik naj bi bil sposoben prevesti besedne probleme v matematične
izraze, reševati enačbe, manipulirati algebrične izraze in imel osnovno znanje iz
teorije matrik (Ultimate skills checklist for your first data analyst job, 2015, str. 9;
Granville 2014, str.4). Prav tako naj bi imel znanja, kako narisati grafikone za različne
tipe funkcij (logaritemska, eksponenta in potenčna funkcija) z razumevanjem odnosa med
grafično funkcijo in njeno enačbo. Priporočljiva so tudi znanja odvodov in integralov,
optimizacije in linearne algebre. Ta področja matematike predstavljajo osnovo za
razumevanje strojnega učenja in efektivnega manipuliranja podatkov v podatkovnih
modelih (Ultimate skills checklist for your first data analyst job, 2015, str. 9).
Optimizacija (angl. optimization) – vključuje nabor različnih numeričnih tehnik, ki se
uporabljajo za prenove kompleksnih sistemov in procesov z namenom izboljšanja njihove
učinkovitosti glede na eno ali več objektivnih meril (npr. stroški, čas, zanesljivost). Primeri
61
optimizacije vključujejo izboljšanje operativnih procesov, kot so razporeditev časa, poti in
postavitev. Uporablja pa se tudi pri sprejemanju strateških odločitev: startegija določanja
obsega izdelkov, analiza povezanih investicij in strategija obsega raziskav in razvoja.
Primer optimizacijske tehnike so genski algoritmi (angl. genetic algorithms) (Maynika et
al., 2013, str. 29).
2.3.8 Strojno učenje
Algoritem je zaporedje pravil, operacij, ukazov, ki zagotavljajo rešitev problema v
končnem številu korakov. Nekatere osnovne naloge algoritmov lahko zajemajo
razvrščanje, iskanje ali reševanje računskih problemov (O’Neill & Schutt, 2013, str. 51).
Gre za osnovni koncept v računalništvu in osnovo za razvoj učinkovite programske kode,
priprave in obdelave podatkov in razvoja programske opreme (O’Neill &Schutt, 2013, str.
51). Za rešitev določenega problema se lahko uporabi različne algoritme, izbor ustreznega
pa je odvisen od njegove učinkovitosti in časa izvajanja, kar je ključnega pomena pri
obdelavi masovnih podatkov ali razvoju izdelka/storitve na podlagi podatkov (O’Neill&
Schutt, 2013, str. 51). Algoritmi za strojno učenje (angl. machine learning algorithms)
predstavljajo eno vrsto algoritmov, ki se uporablja v znanosti podatkov (drugi so še
optimizacijski algoritmi ter algoritmi za pridobivanje in obdelavo podatkov – npr.
MapReduce ali Pregel) (O’Neill & Schutt, 2013, str. 52).
Strojno učenje je poddomena računalništva (področja umetne inteligence), ki se ukvarja z
zasnovo in razvojem algoritmov, ki omogočajo računalnikom razvoj akcij na podlagi
empiričnih podatkov (Manyika et al., 2011, str. 29). Poudarek strojnega učenja je na
avtomatiziranem učenju in prepoznavi kompleksnih vzorcev z namenom sprejemanja
inteligentnih odločitev na podlagi podatkov (Manyika et al., 2011, str. 29). Algoritmi za
strojno učenje v osnovi sicer izhajajo iz računalniške znanosti, vendar se določene metode
in tehnike uporabljajo tudi iz statistike oziroma statističnega modeliranja (O’Neill &
Schutt, 2013, str. 52). Strojno učenje je popularna računalniška znanstvena disciplina, ki
predstavlja del izvajanja znanosti o podatkih in je tesno povezana s podatkovnim
rudarjenjem (Leskovec, Rajaraman, & Ullman, 2014, str. 1). Najbolj pogosto sprejeta
definicija podatkovnega rudarjenja je, da gre za odkrivanje »modelov« za podatke.
Statistiki gledajo na podatkovno rudarjenje kot na izgradnjo statističnega modela, ki
predstavlja podlago za distribucijo, iz katere so podatki pridobljeni (Leskovec, Rajaraman,
& Ullman, 2014, str. 1). Nekateri obravnavajo podatkovno rudarjenje in strojno učenje kot
sinonima. Podatkovno rudarjenje namreč ustrezno uporablja algoritme iz strojnega učenja.
Uporabniki strojnega učenja uporabijo podatke kot nabor podatkov za treniranje algoritma,
kot so Bayesove mreže, metoda podpornih vekotrjev (angl. support vector machines, v
nadaljevanju SVM), drevesa odločanja, skriti modeli Markova in mnogi drugi (Leskovec,
Rajaraman, & Ullman, 2014, str. 2). Strojno učenje je torej podatkovno-intenzivni
razvoj algoritmov (kot podatkovno rudarjenje), s poudarkom na prototipiranju
algoritmov za produkcijsko okolje, za obdelavo velikih količin podatkov, na podlagi
62
katerih je mogoče narediti napovedi (angl. predict), klasifikacijo (angl. classify),
segmentacijo (angl. cluster) in/ali izračunati predloge za ukrepanje na podlagi obdelanih
podatkov (Ultimate skills checklist for your first data analyst job, 2015, str. 10; O’Neill&
Schutt, 2013, str. 52). Strojno učenje se ukvarja tudi z razvojem avtomatiziranih sistemov
(prepoznavanje slik, govora, algoritmi za generiranje ponudb, angl. bidding algorithms,
algoritmi za targetirano oglaševanje, angl. ad targeting algorithms), ki se sami avtomatsko
osvežijo, neprestano preizkušajo, ponovno učijo in osvežujejo nabore podatkov za učenje,
preverjajo veljavnost in izboljšujejo ali odkrivajo nova pravila. Poddomena strojnega
učenja, zelo blizu umetni inteligenci (angl. artificial intelligence, v nadeljavnju AI), je
poglobljeno učenje (angl. deep learning) (Granville, 2014).
Za podatkovnega znanstvenika ni nujno, da ustvarja popolnoma nove algoritme za strojno
učenje, vendar pa je potrebno, da pozna najbolj pogoste algoritme in tehnike za strojno
učenje, od zmanjšanja dimenzij (metoda glavnih komponent) do nadzorovanega
(klasifikacija) in nenadzorovanega učenja (razvrščanje v skupine). Ni v celoti potrebno
poznavanje teorije in podrobnosti implementacij v ozadju teh algoritmov. Je pa potrebno
poznavanje prednosti in slabosti teh algoritmov, kot tudi kdaj jih je smiselno uporabiti
glede na kontekst problema ter kdaj ne (O’Neill &Schutt, 2013, str. 54; Ultimate skills
checklist for your first data analyst job, 2015, str. 10).V nadajevanju na kratko omenjam
osnovne algoritme in kocepte strojnega učenja, ki se jih uporablja v znanosti o podatkih.
Nadzorovano učenje (angl. supervised learning) – nadzorovano učenje je uporabno v
primerih, kjer je za določen nabor podatkov (nabor za trening, angl. training set) na voljo
določen razred (labela, značilnost), ki pa za ostale podatke (testni nabor, angl. test sest)
manjka in ga je potrebno napovedati, klasificirati (angl. classification). V sklop
nadzorovanega učenja spadajo: drevesa odločanja, naivni Bayesov klasifikator, navadna
regresija najmanjših kvadratov (angl. ordinary least squares regression), logistična
regresija, nevronske mreže, SVM in druge (Ultimate skills checklist for your first data
analyst job, 2015, str. 10). Med metode nadzorovanega učenja spadajo tudi metode za
združevanje (angl ensemble methods), kjer podatkovni znanstvenik uporabi več različnih
napovednih modelov z namenom, da pridobi boljše napovedne rezultate s pomočjo
kombiniranja modelov (Manyika et al., 2011, str. 29). Nenadzorovano učenje (angl.
unsupervised learning) – včasih cilj analize ni napovedovanje vrednosti določene
spremenljivke. Izziv včasih predstavlja odkritje implicitnih razmerij v določenem naboru
podatkov. Gre za nabor tehnik strojnega učenja, ki poišče skrite strukture v neoznačenih
podatkih (Manyika et al., 2011, str. 31). Najbolj pogost primer nenadzorovanega učenja je
razvrščanje enot v skupine (angl. clustering) na podlagi njihovih podobnosti in razlik. Ker
skupine niso vnaprej znane, se tak način učenja imenuje nenadzorovano učenje (Ultimate
skills checklist for your first data analyst job, 2015, str. 11). Med metode nenadzorovanega
učenja sodijo algoritmi za razvrščanje v skupine, metoda glavnih komponent (angl.
principal component analysis, v nadaljevanju PCA) in druge.
63
Nagrajevalno učenje (angl. Reinforcement learning) – določene situacije ne moremo
obravnavati le kot nadzorovano ali nenadzorovano učenje, temveč sodijo nekam vmes.
Obstaja namreč določena oblika povratnih informacij za vsak napovedni korak ali akcijo,
vendar pa ne obstaja točen razred (labela) ali mera za napake. Klasična oblika te kategorije
učenja vključuje neko obliko nagrade (angl. reinforcement) za vsako pravilno izvedbo,
akcijo. Agent za nagrajevalno učenje tako lahko izvaja akcije dokler se uči in s tem
neprekinjeno izboljšuje svoj notranji model za izvedbo boljših odločitev. Med metode
nagrajevalnega učenja sodijo: Q učenje (angl. Q-Learning), TD-učenje (angl. TD-learning)
in genski algoritmi (angl. genetic algorithms) (Ultimate skills checklist for your first data
analyst job, 2015, str.11).
Poglobljeno učenje (angl. Deep learning) – poznano tudi kot strukturirano učenje ali
hierarhično učenje je veja strojnega učenja, ki uporablja veliko število podobnih, a vseeno
različnih, poglobljenih arhitektur nevronskih mrež z namenom reševanja različnih
problemov (npr. procesiranje naravnega jezika) na različnih področjih (npr.
bioinformatika) (Mayo, 2016).
Procesiranje naravnega jezika – nabor tehnik iz domene računalništva (iz področja
umetne inteligence) in lingvistike, ki uporablja računalniške algoritme z namenom analize
človeškega (naravnega) jezika. Veliko tehnik NLP spada med tehnike strojnega učenja.
Procesiranje naravnega jezika se uporablja pri analizi sentimenta (angl. sentiment
analysis). Gre za uporabo NLP in drugih analitičnih tehnik z namenom identifikacije iz
ekstrakcije subjektivnih informacij iz besedil. Analiza sentimenta vključuje identifikacijo
značilnosti, vidika ali izdelka glede katerih se izraža sentiment z določanjem polarnosti
(npr. pozitivna, negativna ali nevtralna) in stopnjo moči sentimenta. Analiza sentimenta se
uporablja pri analizi družbenih medijev z namenom določanja, kako se različni potrošniški
segmenti in deležniki odzovejo na izdelke/storitve organizacije ali trženjske kampanje in
promocije (Manyika et al., 2011, str. 29–30).
Analiza omrežij (angl. network analysis) – nabor tehnik, ki se uporabljajo pri opredelitvi
razmerij med vozlišči v grafikonu ali omrežju. Pri analizi družbenih medijev se analizirajo
povezave med posamezniki in skupnostjo ali organizacijo: kako potujejo informacije, kdo
ima večji vpliv in nad kom ipd. Skozi ta proces je mogoče identificirati mnenjske voditelje
(angl. opinion leaders), ki se jih lahko nato targetirano nagovori, in identificirati ozka grla
v pretoku informacij v organizaciji (Manyika et al., 2011, str. 29).
2.3.9 Domenska znanja
Znanja poslovnega področja, dejavnosti ali domene, iz katere izhaja problem, so izjemne
vrednosti in zelo nenadomestljiva (The field guide to data science, 2015, str. 96). Poslovna
oziroma domenska znanja vklujčujejo poznavanje metod agilnega pristopa ali pristopa
»Waterfall«, razvoja izdelkov/storitev, razumevanje delovanja organizacije,
64
poznavanje dejavnosti, poznavanje dobrih praks metodologij podatkovnega
rudarjenja (CRISP-DM, SEMMA, DMAIC) ter vsa druga poslovna znanja (finance,
trženje, trženjsko raziskovanje, logistika, razvoj izdelka itd.), ki so relevantna za
organizacijo ali dejavnost (Voulgaris, 2014, str. 150). Omogočajo poglobljeno
razumevanje podatkov in faktorjev, ki vplivajo na analitični cilj, velikokrat pa
predstavljajo ključni diferenciator uspeha celotne ekipe, ki se ukvarja z znanostjo o
podatkih (The field guide to data science, 2015, str. 96). Domenska znanja vplivajo na to,
kako podatkovni znanstvenik izbira lastnosti, pripisuje podatke, izbira algoritme in
posredno vplivajo tudi na uspešnost projektov. Podatkovni znanstvenik mora pri izbiri
ustreznih tehnik poznati in upoštevati tudi omejitve glede implementacije rešitve procesa
znanosti o podatkih. Omejitve se nanašajo na sklop petih dimenzij: analitična
kompleksnost (odločitev glede uporabe različno kompleksnih algoritmov), hitrost (hitrost s
katero mora biti izvedena analitična rešitev oziroma čas, ki je potreben za razvoj in
implementacijo analitične rešitve), natančnost (sposobnost izvesti točne ali vsaj približne
rešitve oziroma podati mero zaupanja), velikost nabora podatkov (število vrstic) in
kompleksnost podatkov (podatkovni tip, kompleksnost podatkov, število
dimenzij/stolpcev, povezav med nabori podatkov) (The field guide to data science, 2015,
str. 69). Posameznik žal ne more biti domenski strokovnjak na vsakem področju. Zato se
podatkovni znanstveniki pogosto obračajo na druge analitike, domenske strokovnjake ter
druge sekundarne vire z namenom izgradnje razumevanja domenskega področja problema
(The field guide to data science, 2015, str. 96).
2.3.10 Sposobnosti podatkovnih znanstvenikov
Znanja iz različnih področij, omenjenih v prejšnjem poglavju, so pomembna, vendar niso
dovolj. Znanost o podatkih zahteva bolj sistematično razmišljanje ter kombiniranje
kreativnega pristopa k definiranju in reševanju problemov skupaj z obvladovanjem časa.
Podatkovni znanstvenik je posameznik, ki ga označuje nabor specifičnih značilnosti,
sposobnosti in načina razmišljanja, ne samo nabor znanj (Voulgaris, 2014, str. 37).
Od mehkejših sposobnosti podatkovnega znanstvenika se omenja več sposobnosti, ki so
značilna tako za podatkovne znanstvenike, kot za druga področja dela in vloge
posameznikov, ki se ukvarjajo z masovnimi podatki in znanostjo o podatkih. V
nadaljevanju sem na podlagi pregledane literature in razpisov za delovna mesta naredila
nabor sposobnosti, ki naj bi jih imel podatkovni znanstvenik. Glede na to, da lahko
podatkovni znanstvenik nastopa v zelo operativni vlogi izvajalca storitve ali pa tudi v vlogi
vodje ekipe, oddelka ali organizacije, naj opozorim, da se sposobnosti lahko nanašajo na
širše področje delovanja podatkovnega znanstvenika ter tudi na vse ostale vloge in
položaje, ki so povezani z znanostjo o podatkih. Pričakujem, da bodo pri nekaterih
posameznikih zaradi njihovih izkušenj ali položaja oziroma vloge v organizaciji določene
sposobnosti bolj izpostavljene, pri drugih pa druge.
65
Podatkovni zanstvenik naj bi v prvi vrsti bil predvsem radoveden glede stvari, ki jih
opazuje, kot so vzorci in odnosi ter razmerja med različnimi značilnostmi (Voulgaris,
2014, str. 38). Radovednost je ključna, da lahko podatkovni znanstvenik razstavi problem
in razišče odnose med podatki, ki na prvi pogled delujejo nepovezani (The field guide to
data science, 2015, str. 42). Radovednost dopolnjujejo disciplina, analitične sposobnosti
in sposobnosti reševanja problemov. To vključuje vse, od želje po raziskovanju in
razčlenitvi problema, do zelo jasno definiranega nabora domnev, ki jih je mogoče preveriti
(Lorica, Howard& Dumbill, 2012). Podatkovni znanstveniki rešujejo probleme
uporabnikov podatkov. Vendar preden lahko problem rešijo, ga je potrebno ustrezno
identificirati, kar pa ni vedno najlažje (Stanton, 2013, str. 14). Pomembno je, da zna
podatkovni znanstvenih pravilno definirati problem na takšen način, da lahko pridobi
učinkovite rešitve (Dhar, 2013, str. 70). Imeti mora širši pregled na dogajanjem, kar
vključuje razumevanje problema, pristop k problemu, definiranje ciljev in učinkov ter
razumevanje ozadja problema (zakaj). Za pristop k problemu in reševanju problemov sta
ključni tudi eksperimentiranje in kreativnost – sposobnost pogleda na problem na
različne, kreativne načine, ki v preteklosti niso še bili uporabljeni v takšnem kontekstu
(angl. thinking outside the box) (Chordas, 2014, str. 24; Lorica, Howard & Dumbill, 2012;
The field guide to data science, 2015, str. 42). Podatkovni znanstvenik mora imeti pogum
in domišljijo za preizkušanje novih stvari, razvoj in uresničenje novih idej, načrtovanje
eksperimentov in preverjanje veljavnosti poskusov (Chordas, 2014, str. 23–24; Dhar, 2013,
str. 69–70; Lorica, Howard & Dumbill, 2012;Voulgaris, 2014, str. 38–39).
Zelo pomembna sposobnost je tudi fleksibilnost in osredotočenost na cilj, ko je
podatkovni znanstvenik sposoben premagati napake, opustiti idejo, ki ne deluje, se iz tega
nekaj naučiti in poskusiti z novim pristopom. Znanost o podatkih je namreč serija »slepih
ulic« dokler prava pot ni identificirana. To zahteva unikaten set osebnostnih lastnosti –
potrpežljivost in vztrajnost (The field guide to data science, 2015, str. 42).
Da podatkovni znanstvenik razume svojo vlogo in pomen, so pomembne tudi sposobnosti,
povezane z njegovo podjetno naravnanostjo, ki vključujejo poslovni čut, prebrisanost
(angl. cleverness) in vztrajnost (Granville, 2014, str. 3; Chordas, 2014, str. 23; Lorica,
Howard & Dumbill, 2012). Ključna sta tudi sposobnost sprejemanja odločitev in pogum
– sposobnost podatkovnega znanstvenika, da izrazi svoje mnenje, poišče rešitev ter
prepriča in motivira management v smeri prave rešitve, včasih tudi v nasprotju z njihovo
voljo, v dobro organizacije, uporabnikov ali deležnikov (Granville, 2014, str. 4). Granville
(2014, str. 4) omenja, da bi podatkovni znanstvenik moral biti tudi strateg, tako v
poslovnem smislu, kot v tem, da je sposoben razviti strategijo zbiranja podatkov z
namenom pridobiti podlago za odločitve, ki omogočajo poslovni učinek. V sklopu pogleda
na podatkovnega znanstvenika kot stratega Stanton (2013, str. 6) omenja tudi sposobnost
posameznika, da lahko vidi celostno sliko določenega kompleksnega sistema. Seveda je
prvi korak najprej spoznavanje domenskega znanja in učenje, kako so podatki uporabljeni
v določenem kontekstu ali kako se povezujejo s trendi v dejavnostih (Chordas, 2014, str.
66
24). Ko podatkovni znanstvenik razvije razumevanje domenskega znanja, mora imeti
sposobnost predstave, kako se podatki prenašajo preko različnih sistemov in uporabnikov.
Pri tem, opozarja Stanton (2013, str. 6), je potrebno, da podatkovni znanstvenik dovolj
pozornosti nameni kakovosti. Ne glede na nabor podatkov, ki jih imamo, le-ti ne bodo
nikoli popolni. Podatkovni znanstveniki morajo poznati omejitve podatkov, s katerimi
delajo, znati morajo kvantificirati njihovo natančnost in na podlagi analize podati predloge
za izboljšanje kakovosti podatkov v prihodnje (Stanton, 2013, str. 6). Zato tudi sposobnost
načrtovanja predstavlja ključni vidik znanosti o podatkih, saj obstajajo različni načini,
kako se lotiti iste naloge, ki pa lahko imajo občutno drugačno porabo virov (Voulgaris,
2014, str.27).
V literaturi nisem zasledila, da bi bile omenjene sposobnosti podatkovnega znanstvenika v
povezavi s področjem vodenja projektov in vodenja na splošno. Menim pa, da so to
sposobnosti, ki bi jih posameznik moral imeti zaradi narave dela (predlaganje izboljšav,
razvijanje strategij, komuniciranje z naročniki, vodenje projektov ipd.) in dejstva, da
podatkovni znanstvenik ni le operativni izvajalec, temveč se pojavlja tudi na različnih
vodstvenih položajih ali pa kot vodja oddelka, tima (OECD, 2015, str. 255). Podatkovni
znanstvenik ponavadi deluje v sklopu raznolike ekipe strokovnjakov iz različnih področij
(odvisno od dejavnosti). Zelo redko podatkovni znanstvenik dela popolnoma ločeno in
samostojno v daljšem časovnem obdobju, saj se za reševanje problema poveže s
strokovnjaki, ki so iz področja, od koder izhaja problem, bolj izkušeni oziroma imajo več
znanja iz le-tega. Zato je pomembno, da ima podatkovni znanstvenik sposobnost dela v
timu. Podatkovni znanstvenik mora biti fleksibilen in imeti sposobnost hitrega prilagajanja
novemu poslovnemu področju, novim članov ekipe ali novim programskim orodjem
(Voulgaris, 2014, str. 27).
Ker imajo podatkovni znanstveniki ponavadi poglobljena znanja iz vsaj enega
znanstvenega področja (Lorica, Howard & Dumbill, 2012), kritično sposobnost
podatkovnega znanstvenika predstavlja prevajanje med tehničnimi izrazi računalništva in
statistike in slovarjem domenskega znanja managementa. Podatkovni znanstvenik mora
zato imeti dobre komunikacijske sposobnosti. Zaradi drugačnega področja znanj in
sposobnosti je pomembno, da ima podatkovni znanstvenik sposobnosti, da rešitve,
rezultate in ugotovitve učinkovito razloži, pojasni oziroma predstavi managementu. Tukaj
pride do izraza predvsem sposobnost pripovedovanja zgodb (angl. storytelling), tj.
sposobnost z uporabo podatkov predstaviti zgodbo in jo učinkovito prenesti različnim
deležnikom (Lorica, Howard & Dumbill, 2012; Stanton, 2013, str. 5). Pomembno je, da je
predstavitev prilagojena znanju in izkušnjam občinstva. Vključuje tudi vedenje o tem, na
kakšen način naj bodo podatki predstavljeni. Za učinkovito predstavitev podatkov pa
podatkovni znanstvenik potrebuje jasno razumevanje, kako so podatki shranjeni in med
seboj povezani ter razumevanje metapodatkov (opomba: podatki, ki opisujejo druge
podatke) (Granville, 2014, str. 4; Stanton, 2013, str. 6). Prednost za podatkovnega
znanstvenika je, če ima, poleg odličnih komunikacijskih sposobnosti, tudi občutek za
67
umetnost in prakso vizualizacije, kar pomeni, da je sposoben premostiti prepad med
človekom in računalnikom s posredovanjem analitičnih dognanj na smiseln način (Lorica,
Howard & Dumbill, 2012; Stanton, 2013, str. 6). Vizualizacija je tehnika, ki se uporablja
pri ustvarjanju slik, diagramov ali animacij z namenom komuniciranja, razumevanja in
izboljšanja rezultatov analize znanosti o podatkih (Manyika et al., 2011, str. 31). Prikaz
podatkov z vizualnimi metodami (grafikon, slika, video, avdio ipd.) je namreč bolj
učinkovit pri komunikaciji rezultatov vodstvu ali uporabnikom.
Stanton (2013, str. 6) kot pomembno sposobnost podatkovnega znanstvenika omenja tudi
sposobnost biti etičen oziroma razmišljati etično. Če so podatki dovolj pomembni, da se
jih odločimo zbirati, so ponavadi dovolj pomembni, da lahko vplivajo na človeška
življenja. Podatkovni znanstveniki morajo razumeti etično odgovornost, povezano z
zasebnostjo in morajo biti sposobni ustrezno predstaviti omejitve z namenom preprečiti
zlorabo podatkov ali rezultatov analiz. Tudi v Sloveniji varovanje osebnih podatkov,
informacij, dokumentov in znanja ureja zakonodaja v treh zakonih, ki posnemajo prakso in
informacijske zakone iz Evropske Unije: Zakon o varstvu osebnih podatkov (v
nadaljevanju ZVOP-1), Zakon o varstvu dokumentarnega in arhivskega gradiva ter arhivih
(v nadaljevanju ZVDAGA) in Zakon o avtorskih in sorodnih pravicah (v nadaljevanju
ZASP). Podatkovni znanstvenik mora biti, zaradi narave svojega dela, seznanjen z vsebino
teh zakonov in jih spoštovati.
Za podatkovnega znanstvenika je nenazadnje pomembno tudi, da goji strast učenja novih
stvari in do dela, s katerim se ukvarja ter da ima sposobnost »zaznavanja« podatkov
(Granville, 2014, str. 4). Zaradi hitrega napredka tehnologij na področju masovnih
podatkov in znanosti o podatkih mora biti podatkovni znanstvenik sposoben hitrega učenja
ter hitrega sprejetja novih metod in orodij (Voulgaris, 2014, str. 27). Radovednost, želja po
raziskovanju, učenju, strast in vztrajnost se zrcalijo na vseh vidikih življenja
podatkovnega znanstvenika (Granville, 2014, str. 4; Lorica, Howard & Dumbill., 2012).
2.4 Pridobivanje znanj in sposobnosti podatkovnih znanstvenikov
Ustrezno izobraževanje in pridobivanje izkušenj ter s tem sposobnosti je ključno, da
posameznik postane zanesljiv podatkovni znanstvenik. Posameznik, ki bi si želel danes
pridobiti ustrezna znanja in sposobnosti za delo na področju znanosti o podatkih ima na
voljo več možnosti. Na podlagi razpoložljivih podatkov iz literature, svetovnega spleta in
lastnih izkušenj v nadaljevanju navajam različne možnosti, ki jih imajo obstoječi in bodoči
podatkovni znanstveniki za izobraževanje na področju masovnih podatkov in znanosti o
podatkih.
Posameznik lahko znanja iz različnih področij pridobi v okviru formalne izobrazbe, ki je
tudi uradno potrjena z ustrezno stopnjo izobrazbe, certifikatom. Nekatere univerze in
fakultete, predvsem v tujini, so že prepoznale potencial rastočega trga po specifičnih
68
znanjih, saj ponujajo diplomske programe, delavnice in certifikate iz področij znanosti o
podatkih (Chordas, 2014). Mednje spadajo naslednje univerze iz Združenih Držav
Amerike: Univerza v Washingtonu (Seattle, WA), Univerza Northwestern (Evanston, IL),
UC Berkeley (Berkeley, CA), CUNY (New York, NY), Columbia University (New York,
NY) in Stanford University (Palo Alto, CA), če naštejemo le nekatere. Tudi v Evropi imajo
nekatere univerze že programe iz področja znanosti o podatkih, kot na primer Univerza v
Liechtensteinu (Information systems masters degree, 2015). V Evropi se je v okviru Odprte
Univerze (angl. The Open University) razvil inovativen projekt za ustanovitev EDSA
(EDSA, 2015). Gre za spletno platformo, katere namen bo izobraževanje podatkovnih
znanstvenikov v Evropi. Akademija bo analizirala znanja in sposobnosti preko glavnih
evropskih sektorjev, razvijala modularen in prilagojen program za zadovoljevanje
povpraševanja po podatkovnih znanstvenikih s temi znanji ter omogočila podprto
večjezično izobraževanje na različnih platformah. Med pobudniki za ustanovitev Evropske
Akademije za znanost o podatkih je poleg Univerz iz Švedske, Velike Britanije,
Nizozemske tudi Institut Jozef Stefan. Prvi tečaji so že na voljo od konca leta 2015
(EDSA, 2015). Univerze v Sloveniji imajo znotraj obstoječih programov posamezna
področja, povezana z različnimi znanji: matematika, statistika, poslovna informatika,
strojno učenje, podatkovno rudarjenje itd. Nisem pa zasledila programa, v celoti
namenjenega znanosti o podatkih, na način, kot so zastavljeni v tujini.
Druge organizacije (zasebne, kot strokovne organizacije) ponujajo certifikate in
delavnice: SAS, Teradata, INFORMS, TDWI, American Statistical Association, Data
Science Central, Statistics.com. V Sloveniji delavnice iz področja znanosti o podatkih že
ponujajo nekatere organizacije (Insight, d.o.o.).
Pri zaposlitvi podatkovnega znanstvenika se pojavlja vprašanje, ali je mogoče, da
pomanjkanje izkušenj nadoknadi s formalno akademsko izobrazbo. Veliko organizacij, ki
zaposluje podatkovne znanstvenike, meni, da so za takšno delovno mesto bolj pomembne
izkušnje (Voulgaris, 2014, str. 63). Obstajajo sicer delovna mesta, kjer napreden nivo
akademske izobrazbe lahko nadomesti delovne izkušnje, vendar je na področju znanosti o
podatkih več povpraševanja po delovnih izkušnjah. V osnovi, če ima podatkovni
znanstvenik formalno akademsko izobrazbo iz ustreznih področij (npr. informatika,
matematika, statistika itd.), potem ima dobro izhodišče za opravljanje nalog iz področja
znanosti o podatkih. Izkušnje pa posamezniku omogočajo, da lahko stvari naredi boljše in
najbolje izkoristi znanja, pridobljena iz formalne izobrazbe (Voulgaris, 2014, str. 63).
V letu 2015 sem zasledila štiri razpise za delovno mesto podatkovnega znanstvenika v
Sloveniji, in sicer s strani naslednjih organizacij: Celtra, Zemanta, Outfit7 in Singtel.
Delovna mesta so predstavljena v Prilogi 2. Vse naštete organizacije delujejo na
mednarodnih trgih na področju naprednih tehnologij in masovnih podatkov. Vsi oglasi so
bili objavljeni v angleškem jeziku, in sicer na spletnih straneh organizacije (Zemanta,
Outfit7, Singtel) ali preko portala LinkedIn (Celtra). Podrobnosti vsakega od štirih
69
razpisov so predstavljena Prilogi 2. Pri pregledu razpisov ugotavljam, da so izkušnje
osnovni pogoj za takšno delovno mesto, medtem ko je formalna izobrazba bila zahtevana
le pri dveh od štirih organizacij. Pri ostalih dveh, kjer formalna izobrazba ni bila omenjena,
gre za start-up organizaciji (Zemanta, Outfit7). Ustrezna formalna izobrazba pa je bila
zahtevana pri organizacijah Celtra in Singtel. V Celtri pričakujejo diplomsko ali
magistrsko izobrazbo iz enega od naslednjih področij: računalništva, matematike ali
statistike, v Singtelu pa magisterij iz področja matematike.
V sklopu samostojnega izobraževanja imajo posameniki za nabiranje znanj iz statistike,
matematike, strojnega učenja, podatkovnega rudarjenja, Hadoop tehnologij itd. veliko
različnih možnosti, saj je razpoložljivih virov veliko. Znanja si lahko pridobijo z branjem
knjig, strokovnih člankov, žurnalov, preko ogledov video posnetkov na spletu, udeležbo na
delavnicah oziroma tečajih za uporabo različnih analitičnih orodij, udeležbo na domačih in
mednarodnih konferencah, praktičnem delu na projektih (v službi, na fakulteti tekom
študija ali preko zanimivih lastnih projektov) ter udeležbo na t. i. masovnih odprtih
spletnih tečajih (MOOC). Nenazadnje bo organizacije zanimalo, kakšno dodano vrednost
lahko podatkovni znanstvenik prinese v organizacijo, tudi na podlagi preteklih izkušenj in
projektov. Ker imajo izkušnje pri delu podatkovnega znanstvenika pomembno vlogo pri
uspešni zaposlitvi in nadaljnjem delu, bom v nadaljevanju predstavila načine, kako lahko
podatkovni znanstvenik v Sloveniji pridobi izkušnje iz področja znanosti o podatkih.
Voulgaris (2014, str. 64–65) za nabiranje izkušenj iz področja znanosti o podatkih
priporoča, da si posameznik najprej izbere dejavnost oziroma področje, ki ga zanima in s
katerim se bi želel bolj poglobljeno ukvarjati. Organizacije namreč vidijo veliko prednost v
kolikor ima kandidat izkušnje iz dejavnosti, v kateri deluje organizacija. V nadaljevanju je
potrebno poiskati relevantne podatke, ki so odprto dostopni in na katerih lahko v praksi
preizkusimo pridobljeno znanje in uporabo orodij. V Sloveniji poteka tudi mednarodni
projekt OpenData.si, ki predstavlja izvedbo ideje, da smo za določen sklop podatkov
lastniki vsi prebivalci Slovenije in so posledično podatki brez licence. Nekaj projektov, ki
izhajajo iz javno odprtih podatkov, se nahaja na njihovi spletni strani OpenData.si:
napoved prihodov LPP avtobusov, ponudniki študentske prehrane na zemljevidu,
geolokacijsko podprti JSON API za vremenske podatke, prebrane s strani Agencije
Republike Slovenije za okolje – ARSO. Do nekaterih podatkov pa lahko dostopamo tudi
preko repozitorijev portala Nacionalnega interoperabilnostnega okvirja (NIO, 2015), ki
vsebujejo informacije o zbirkah in strukturi podatkov, njihovi uporabi ipd. Na portalu je
mogoče pridobiti podatke iz področja javne uprave, prometa, statistike in financ.
Pridobljene izkušnje lahko nato nadgradimo z udeležbo na natečaju ali tekmovanju iz
znanosti o podatkih. Zelo znana je platforma Kaggle.com, ki organizira spletna
tekmovanja iz izgradnje statističnih modelov in uporabo metod podatkovnega rudarjenja.
Udeležba na takšnem tekmovanju prinese pomembne izkušnje, dobra uvrstitev pa dodatno
potrditev o kakovosti dela za bodočega delodajalca. Posameznik lahko izkušnje pridobi
tudi preko pripravništva (plačanega ali ne) na relevantni poziciji v organizaciji, ki
70
omogoča vpogled v delo in razumevanje poslovnega okolja, delovne etike in seznanitev s
podatkovnimi procesi. V kolikor se pokaže priložnost, lahko v sklopu pripravništva
opravljamo delo za že zaposlenega podatkovnega znanstvenika, katerega izkušnje in
mentorstvo so neprecenljive. Prav tako pa lahko za organizacijo pripravimo študijo
primera ali zaključno delo na temo določenega problema analize podatkov, s katerim se
srečuje organizacija. Pri tem je seveda potreben dogovor glede vključitve občutljivih
podatkov v končno poročilo (Voulgaris, 2014, str. 65).
Mogoče ne toliko lastnih praktičnih izkušenj, pa vendar veliko izmenjavo izkušenj in
znanja drugih lahko pridobimo z udeležbo na različnih delavnicah (angl. workshops),
konferencah, družabnih skupinah (angl. community groups) ali skupnih druženjih
(angl. meetups). V tujini so že uveljavljene strokovne konference iz znanosti o podatkih,
kot so: Data Analytics Europe, Predictive Analytics World, GoPivotal Data Science,
Association for Computing Machinery (ACM), Institute of Electrical and Electronics
Engineers analytics/Big data/data science, Text Analytics News itd. (Granville, 2014, str.
87). V Sloveniji je bila v sodelovanju z Institutom Jožef Stefan na Bledu oktobra 2014
organizirana 17. konferenca o raziskovanju v znanosti (Discovery Science Bled, 2014).
Konferenca obsega razvoj in analizo metod za odkrivanje znanstvenih spoznanj iz področij
strojnega učenja, podatkovnega rudarjenja, inteligentne podatkovne analize kot tudi
njihovih aplikacij na različnih znanstvenih področjih. IBM Slovenija, d.o.o., organizira
letno konferenco Ključ do rešitev, kjer se predstavijo podjetja s konkretnimi primeri rešitev
analitičnih problemov (Ključ do rešitev Slovenija, 2014). V sklopu družabnih skupin v
Sloveniji deluje skupina Big Data Developers Slovenia (BigData Developers in Slovenia,
2015), ki je sponzorirana s strani IBM Slovenija, d.o.o., in šteje 227 članov. Organizirajo
brezplačna skupna druženja iz različnih področjih tehnologij masovnih podatkov (Hadoop,
R na Hadoop, SQL na Hadoop, analitika v realnem času, analiza besedil, vizualizacija,
NoSQL itd.). Skupina je bila ustanovljena v novembru 2014, do sedaj pa so organizirali pet
skupnih druženj. V letu 2015 je bila organizirana tudi delavnica Data Science Talks na
temo prediktivnega modeliranja v programskem jeziku R v sodelovanju z organizacijo
Ektimo, d.o.o., in Hekovnik start-up šolo (Data science talks: Predictive modeling using R,
2015). Z udeležbo na takšnih dogodkih, srečanjih dobimo priložnost za nova spoznanstva
in pridobimo realne organizacijske izkušnje, sploh če sodelujemo pri pripravi ali izvedbi
takšnih dogodkov.
Velik razmah pa so v zadnjem času doživeli tudi masovni odprti spletni tečaji – MOOC.
Izmed bolj poznanih so Coursera.org, Claudera.com in Udemy.com. Coursera in Udemy
ponujata veliko povezanih tečajev iz celotnega področja znanosti o podatkih, ki ga
organizirajo znane univerze (Univerza v Stanfordu, Univerza Johns Hopkins, Univerza v
Princetonu itd.). Gre za brezplačno spletno delavnico, kjer so predavatelji uveljavljeni
univerzitetni profesorji. Prednost masovnih odprtih spletnih tečajev je v tem, da etično
zavezujejo k lastnemu delu in da je pridobljen certifikat do neke mere enakovreden
formalni izobrazbi. Kot je bilo razvidno iz enega od razpisov za prosto delovno mesto
71
(Priloga 2), organizacije navajajo tudi opravljen certifikat MOOC kot del formalne
izobrazbe.
Pomemben vir znanj in opisov praktičnih izkušenj ponujajo tudi različni spletni portali
oziroma nišne spletne strani, povezane z znanostjo o podatkih. Njihova prednost leži
predvsem v tem, da so neprestano na voljo, ko posameznik potrebuje dodatne informacije,
ter da so brezplačni. Portal DataScienceCentral.com ponuja praktične projekte, primere
izvorne kode, navodila, tečaje in primere nabora podatkov. Ostali zanimivi portali so še:
Analyticsbridge.com, BigDataNews.com, Quora.com ipd.
Vsi posamezniki, ki delajo na področju znanosti o podatkih, se soočajo s pomembnim,
neprestanim izzivom, kako ohranjati ustrezna znanja in sposobnosti. Tehnologija,
povezana s podatki, napreduje zelo hitro in podatkovni znanstveniki morajo ostati v stiku s
splošnim razvojem, kot tudi z razvojem na specifičnem področju svojega delovanja.
Podatkovni znanstveniki pozdravljajo idejo kontinuiranega strokovnega razvoja v obliki
rednih kratkih tečajev o specifičnih temah, ki so v tistem trenutku aktualne in upajo, da bo
takšen sistem postal sprejet kot del njihovih vlog (Swan, 2008, st. 2).
Masovni podatki in znanost o podatkih zajemata zelo širok nabor področij, kar pomeni še
večji nabor različnih problemov, s katerimi se pri delu srečujejo organizacije in posledično
podatkovni znanstveniki. Prav zaradi širokega obsega in raznolikosti področij ter znanj,
sposobnosti in izkušenj posameznikov, je med podatkovnimi znanstveniki do neke mere
povzročilo naravno diferenciacijo specifičnih vlog, ki jih lahko podatkovni znanstvenik
opravlja. K temu je delno pripomogla tudi nestandardiziranost samega področja dela
podatkovnih znanstvenikov (OECD, 2015, Voulgaris, 2014, str. 31). V nadaljevanju
predstavljam tri raziskave, povezane s segmentacijo podatkovnih znanstvenikov.
2.5 Znanja in sposobnosti podatkovnih znanstvenikov v tujini (druge
raziskave)
2.5.1 Raziskava Harrisa, Vaismana & Murphya o identifikaciji različnih vlog
podatkovnih znanstvenikov
S ciljem boljšega razumevanja področja sposobnosti in znanj podatkovnih znanstvenikov
ter vzpostavitvijo ustreznejše terminologije za identifikacijo različnih vlog podatkovnih
znanstvenikov so v sklopu skupnosti DC2 Harlan Harris, Marck Vaisman in Sean Murphy
izvedli raziskavo med 250 profesionalnimi podatkovnimi znanstveniki. V sredini leta 2012
so posameznikom iz skupnosti dali v izpolnitev 10-minutni spletni vprašalnik, v katerem
so odgovarjali na vprašanja, povezana s svojimi znanji, sposobnostmi, izkušnjami, spletno
prisotnostjo (profili na spletnih omrežjih: LinkedIn, MeetUp, GitHub), izobrazbo ter
samostojnim izobraževanjem.
72
V raziskavi so spraševali po znanjih iz petih glavnih področij: poslovnega področja (razvoj
izdelkov, poslovanje), področja masovnih podatkov/podatkovnega rudarjenja
(nestrukturirani podatki, strukturirani podatki, strojno učenje, masovni in distribuirani
podatki), matematike/OR (optimizacija, matematika, grafični modeli, Bayesova/Monte
Carlo statistika, algoritmi, simulacije), programiranja (sistemska administracija, zaledno
programiranje, čelno programiranje) in statistike (vizualizacija, časovna statistika,
raziskave in trženje, prostorska statistika, znanost, manipulacija podatkov in klasična
statistika).
Segmente so oblikovali na podlagi dveh segmentacijskih spremenljivk: samoidentifikacije
(4 kategorije) ter znanj posameznika (5 kategorij). Na podlagi odgovorov so z metodo
razvrščanja v skupine identificirali 4 segmente podatkovnih znanstvenikov. Čeprav obstaja
med njimi določena mera prekrivanja (npr. vsi imajo znanja iz metodologije analize
podatkov, tehnologij masovnih podatkov ter procesa izvajanja znanosti o podatkih), pa
med segmenti obstajajo značilne razlike:
Podatkovni znanstveniki – poslovni vodje (angl. Data Businesspeople) so
posamezniki, ki so izrazito usmerjeni na povečanje dobička ter potrebujejo široko sliko
delovanja organizacije. Gre za vodje, managerje in podjetnike, vendar s tehničnimi
vrlinami. Ponavadi postanejo izkušeni (angl. senior) podatkovni znanstveniki, ki so
vodje ekipe, ki se ukvarja z znanostjo o podatkih. Pomembno vlogo predstavljajo tudi
kot vodje projektov iz področja znanosti podatkov. Pogosta smer izobrazbe takšnih
posameznikov je diploma tehnične smeri skupaj z izobrazbo MBA. Podatkovne
znanstvenike – poslovne vodje najpogosteje najdemo v večjih organizacijah ali pa kot
lastnike lastnih zagonskih organizacij (angl. start-up).
Podatkovni znanstveniki – kreativci (angl. Data Creatives) imajo znatna akademska
znanja in izjemne izkušnje iz področja tehnologij masovnih podatkov (npr. programska
orodja, namenjena analizi in managementu masovnih podatkov), strojnega učenja in
programiranja. Gre za posamenike, ki imajo sposobnosti delati na različnih področjih
in z različnimi orodij. Sami sebe dojemajo kot umetnike ali kot hekerje, ki so odlični v
vizualizaciji in odprtokodnih tehnologijah. To omogoča podatkovnim znanstvenikom –
kreativcem, da z malo napora menjajo vloge glede na potrebe. Najmanj izkušeni so iz
področja poslovnih ved, zato potrebujejo pomoč pri komuniciranju dodane vrednosti
njihovega dela. Podatkovni znanstveniki – kreativci so najbolj primerni za manjše
organizacije, kjer je fleksibilnost osnovna prednost vsakega zaposlenega. Kljub temu
lahko brez težav delajo tudi v večji organizaciji, kjer se ponavadi pridružijo ekipi bolj
poslovno usmerjenih strokovnjakov. Manjkajoča zananja in sposobnosti lahko
nadoknadijo preko delovnih izkušenj.
Podatkovni znanstveniki – razvojniki (angl. Data Developers) so usmerjeni na
tehnični vidik managementa podatkov, analize podatkov in razvoja programske opreme
73
z namenom opravljanja analitičnih, statističnih nalog ali nalog, povezanih s strojnim
učenjem. Njihovo področje dela zajema zajem podatkov preko različnih virov,
organizacija teh podatkov v bazah podatkov, opravljanje poizvedb ter analiza
rezultatov pozvedb s ciljem pridobiti čim bolj uporabne informacije. Podatkovni
znanstveniki – razvojniki so v osnovi programerji z dobrim znanjem kodiranja in
strojnega učenja. Poslovna in statistična znanja so relativno osnovna, odvisno od
posameznikove izobrazbe ter preteklih delovnih izkušenj. Rezultat dela podatkovnih
znanstvenikov – razvojnikov mogoče ne bo najbolj robustna analiza, zato se ponavadi
priključijo timu drugih podatkovnih strokovnjakov. Podatkovne znanstvenike –
razvojnike lahko najdemo v različnih dejavnostih. Pogosto jih zaposlujejo manjše
organizacije ali pa predstavljajo del tima, ki se ukvarja z znanostjo o podatkih v večjih
organizacijah. Posamezniki s preteklim znanjem iz področja informacijske tehnologije
oziroma diplomo iz področja računalništva se naravno najpogosteje razvijejo v
podatkovnega znanstvenika – razvojnika. Manjkajoča znanja in sposobnosti iz področij
statistike in poslovanja lahko razvijejo in izboljšajo preko delavnic in tečajev,
vzporedno pa pridobijo tudi izkušnje iz specifične dejavnosti. Podatkovni znanstvenik
– razvojnik ponavadi zavzema vlogo manj izkušenega (angl. junior) podatkovnega
znanstvenika, čeprav lahko napreduje tudi do vodstvenih pozicij z razvojem svojih
znanj in sposobnosti.
Podatkovni znanstveniki – raziskovalci (angl. Data Researchers) izhajajo ponavadi
iz akademskega sveta, z znanjem in izkušnjami iz statistike ali katerih koli drugih
znanosti, ki uporabljajo statistiko (npr. družbene vede). Napram drugim segmentom
podatkovnih znanstvenikov ima precej višji % podatkovnih znanstvenikov –
raziskovalcev visoko stopnjo izobrazbe (doktorat). Poslovna znanja so sicer slabše
zastopana, so pa odlični analitiki in pri pridobivanju zanimivih dognanj iz podatkov
uporabljajo matematična orodja. Njihova vloga pride najbolj do izraza pri
organizacijah, ki se še nikoli poprej niso srečevala z znanostjo o podatkih in nimajo
jasne usmeritve glede uporabe zbranih podatkov. Podatkovni znanstveniki –
raziskovalci so ponavadi del tima, ki se ukvarja z znanostjo o podatkih v večjih
organizacijah, poleg drugih podatkovnih znanstvenikov, ki dopolnijo znanja
raziskovalca z znanji iz področja programiranja in poslovnih ved, kar je osnovni pogoj
za razvoj novih uporabnih izdelkov in storitev na podlagi podatkov (angl. data
product). Posamezniki iz tega segmenta podatkovnih znanstvenikov se hitro učijo
novih stvari in lahko na ta način hitro pridobijo dodatna znanja, razvijejo svoje
sposobnosti ter postanejo zelo fleksibilni strokovnjaki, če je to potrebno.
Slika 19 prikazuje kombinacijo kategorij znanj in kategorij skupin za samoidentifikacijo.
Opazimo lahko značilno korelacijo: podatkovni znanstveniki – vodje projektov imajo
močna znanja iz področja poslovanja, medem ko so raziskovalci slabši na področju
programiranja, kreativci pa dobri v vseh kategorijah znanj.
74
Slika 19: Kombinacija kategorij znanj in kategorij skupin za samoidentifikacijo
Vir: H. Harris, S. Murphy &M. Vaisman, Analyzing the Analyzers: An Introspective Survey of Data Scientists
and Their Work, 2013, str. 13, Slika 3–3.
Kot peti segment podatkovnih znanstvenikov Voulgaris (2014, str. 31) omenja mešano
oziroma generično skupino podatkovnih znanstvenikov, ki naj bi veljala za najbolj
izkušenega strokovnjaka. Generični podatkovni znanstvenik je precej podoben
podatkovnemu znanstveniku – poslovnemu vodji, vendar brez širine izkušenj ali
intenzivnega poslovnega fokusa. Njihovo področje znanj vključuje programiranje,
statistiko in poslovne vede. So zelo fleksibilni tako kot podatkovni znanstveniki –
kreativci, vendar z razumevanjem poslovnega sveta. Večina novih podatkovnih
znanstvenikov, ki študira iz področja znanosti podatkov v mladih letih, postane ta segment
podatkovnih znanstvenikov. Generični podatkovni znanstveniki ustrezajo za delo v
različnih organizacijah, lahko delujejo neodvisno ali pa kot del tima. So zelo osebno
navdušeni nad področjem svojega dela – zaradi česar so si prvotno nabrali tako široko
področje znanj in sposobnosti. Glede na rast ponudbe delavnic in tečajev iz področja
znanosti o podatkih je pričakovano, da bodo v prihodnosti podatkovni znanstveniki
predvsem iz tega segmenta (Voulgaris, 2014, str. 34).
75
2.5.2 Raziskava Hayesa o znanjih in sposobnostih podatkovnih znanstvenikov ter
delovanju v timih
Raziskava neodvisne organizacije za tehnološke in tržne raziskave AnalyticsWeek, v
sodelovanju z Business over Broadway, je zajela 490 podatkovnih strokovnjakov (angl.
data professionals) iz malih in srednjih organizacij. Namen raziskave je bil boljše pojasniti
in razumeti vlogo znanosti o podatkih v poslovnem svetu. S pomočjo raziskave so razvili
sistem za ocenjevanje znanj in sposobnosti (angl. Data Skills Scoring System) z namenom
zajema pomembnih informacij glede podatkovnih strokovnjakov in njihovega delovnega
okolja (Hayes, 2015a, str. 2–4).
K sodelovanju so povabili posameznike, ki se ukvarjajo s podatki, preko različnih virov:
člane skupnosti AnalyticsWeek (več kot 20.000 strokovnjakov iz področja znanosti o
podatkih iz 12 držav) ter z vabili, poslanimi preko družbenih medijev Twitter in LinkedIn.
Prosili so jih za izpolnitev kratke ankete, v kateri so jih spraševali po njihovih znanjih in
sposobnostih v povezavi s podatki, izobrazbi, vlogi v organizaciji, članih tima,
zadovoljstvu z rezultati njihovega dela ipd. (Hayes, 2015a, str. 2).
Večina sodelujočih je bila iz Severne Amerike (68 %), zaposlenih v B2B organizacijah (79
%) z manj kot 1000 zaposlenimi (53 %) ter iz naslednjih dejavnosti: informacijska
tehnologija, finančne storitve, znanost/izobraževanje, svetovanje in zdravje/medicina (68
%). 75 % sodelujočih je bilo moških. 30 % sodelujočih je imelo diplomo, 49 % magisterij
ter 18 % doktorat (Hayes, 2015a, str. 2).
Znanost o podatkih so definirali kot področje, pod katerim so združena različna znanja in
sposobnosti. Identificirali so 25 znanj in sposobnosti, ki so jih razvrstili v pet kategorij: 1)
poslovne vede (B), 2) tehnologija (T), 3) programiranje (P), 4) matematika in modeliranje
(M), 5) statistika (S). Sodelujoče so prosili, da samoocenijo nivo svojega znanja oziroma
sposobnosti za vsako od 25. znanj in sposobnosti na lestvici od 0 (»Brez«) do 100
(»Strokovnjak«).
Slika 20 prikazuje samooceno znanj in sposobnosti 490 sodelujočih v raziskavi. Razvidno
je, da je nivo znanja različen glede na določeno znanje oziroma sposobnost. Sodelujoči so
izrazili višjo stopnjo samoocene na naslednjih področjih: komunikacija, strukturirani
podatki, podatkovno rudarjenje, znanost/znanstvena metoda in matematika. Nižjo stopnjo
samoocene pa so dodelili področjem: sistemska administracija, čelno in zaledno
programiranje, procesiranje naravnega jezika (NLP), masovni in distribuirani podatki ter
management podatkov v oblaku (Hayes, 2015a, str. 2).
76
Slika 20: Samoocena znanj in sposobnosti sodelujočih v raziskavi (n = 490)
Vir: B. E. Hayes, Optimizing your data science team, 2015a, str. 2, Slika 1.
Sodelujoči so v nadaljevanju ocenili, kateri od štirih opisov najbolje opiše njih same in
delo, ki ga opravljajo (vloga v organizaciji).
Slika 21 prikazuje rezultate odgovorov na vprašanje: »Kako bi najbolje opisali sebe in
delo, ki ga opravljate?« (možnih je bilo več odgovorov). Več kot polovica vprašanih je
odgovorila, da je njihova primarna vloga raziskovalec (angl. researcher), sledi poslovni
management (angl. business management), kreativec (angl. creative) ter razvijalec (angl.
developer) (Hayes, 2015a, str. 2).
77
Slika 21: Samoocena svoje vloge v organizaciji (n = 490)
Vir: B.E. Hayes, Optimizing your data science team, 2015a, str. 2, Slika 2.
Pri primerjavi samoocene znanj in sposobnosti glede na samooceno vloge v organizaciji so
ugotovili, da je vloga v organizaciji logično povezana s samooceno različnih znanj in
sposobnosti. Posamezniki z vlogo poslovnega managementa so, izmed vseh sodelujočih,
imeli najvišjo samooceno znanj in sposobnosti iz področja poslovnih ved. Razvijalci so
imeli najvišjo samooceno znanj in sposobnosti iz področja tehnologije in programiranja,
statistike in matematike ter modeliranja. Pri kreativcih pa nobeno posamezno znanje ali
sposobnost ni izstopalo, temveč so imeli zadovoljiv nivo znanj vseh področij (Hayes,
2015a, str. 3).
Slika 22: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji (n=
490)
Vir: B. E. Hayes, Optimizing your data science team, 2015a, str. 3, Slika 3
78
Pri pregledu samoocene znanj in sposobnosti glede na samooceno vloge v organizaciji je le
pri tistih, ki so izbrali samo eno vlogo v organizaciji (Slika 23), razvidno, katera specifična
znanja in sposobnosti izstopajo pri posamezni vlogi (Hayes, 2015b).
Slika 23: Samoocena znanj in sposobnosti glede na samooceno vloge v organizaciji –
izbrali samo 1 vlogo (poslovni manager n = 65, razvijalec n = 47, kreativec n = 25,
raziskovalec n = 101)
Vir: B.E. Hayes, Investigating Data Scientists, their Skills and Team Makeup, 2015b.
77 % vprašanih je odgovorilo, da pri delu sodelujejo z drugimi podatkovnimi strokovnjaki
(enem ali več) na projektih, ki vključujejo analizo. V sklopu raziskave jih je zanimalo, ali
struktura tima vpliva na rezultate dela. Tiste, ki so odgovorili, da sodelujejo z drugimi
podatkovnimi strokovnjaki, so prosili za oceno članov tima, ali menijo, da so strokovnjaki
na katerem koli od petih področij znanj in sposobnosti. Rezultati so pokazali, da so bili
poslovni managerji bolj zadovoljni z rezultati dela, ko so imeli strokovnjake z znanji iz
področja matematike in modeliranja ter statistike v njihovem timu, kot pa, če jih niso imeli.
Prav tako so bili raziskovalci bolj zadovoljni z rezultati dela, če so delovali v timu s
strokovnjaki iz področja poslovnih ved in matematike ter modeliranja. Razvijalci pa so bili
bolj zadovoljni v kolikor so delovali v timu s strokovnjakom iz področja poslovnih ved. Le
pri kreativcih na zadovoljstvo z delom ni vplivala prisotnost strokovnjakov iz drugih
področij (Hayes, 2015a, str. 3).
79
V raziskavi zaključujejo, da so pri reševanju problemov, povezanih s podatki, potrebna
znanja in sposobnosti iz različnih področij: 1) poslovnih ved, 2) tehnologije, 3)
programiranja, 4) matematike in modeliranja ter 5) statistike. Nivo znanja iz vsakega
področja je povezan z vlogo v organizaciji. Podatkovni strokovnjaki, ki se opišejo kot
»poslovni managerji« imajo največ znanj iz poslovnih ved. Raziskovalci imajo največji
nivo znanj iz področja matematike in modeliranja ter statistike. Programerji iz tehnologije
in programiranja. Kreativci pa imajo določen nivo znanj iz vseh področij. Za učinkovito
izrabo podatkov organizacije potrebujejo time podatkovnih strokovnjakov s
komplementarnimi znanji in sposobnostmi. Različni podatkovni strokovnjaki v tim
doprinesejo svoja unikatna znanja in sposobnosti, ki jih lahko uporabijo v vseh treh fazah
podatkovno intenzivnih projektov: 1) postavljanje pravih vprašanj (poslovanje), 2)
pridobivanje pravih podatkov (tehnologija in programiranje) ter 3) analiza teh podatkov
(matematika in statistika) (Hayes, 2015a, str. 3–4).
2.5.3 Raziskava Swana o sposobnostih, vlogah in karierni strukturi podatkovnih
znanstvenikov
V raziskavi The skills, role and career structure of data scientists and curators: an
assesment of current practice and future needs (Swan, 2008), naročeni s strani JISC (Joint
Information Systems Committee), so proučevali vloge podatkovnih znanstvenikov v Veliki
Britaniji. Namen projekta je bil na podlagi raziskave pripraviti priporočila glede vlog in
kariernega razvoja podatkovnih znanstvenikov ter priporočila glede ponudbe
specializiranih sposobnosti raziskovalni skupnosti v Veliki Britaniji (Swan, 2008, str.1).
Raziskava je bila osredotočena na kvalitativne raziskovalne metode. V primarnem delu
raziskave so izvedli 57 delno strukturiranih poglobljenih intervjujev ter 4 skupinske
pogovore s podatkovnimi znanstveniki, knjižničarji in učitelji iz različnih področij
(biologije, astronomije, kemije, arheologije, geologije, ekologije, ekonomije in drugih
družbenih znanosti). Intervjuji in fokusne skupine so bile izvedene v Angliji, Severni Irski
in na Škotskem. Sledil je spletni vprašalnik (Swan, 2008, str. 6).
Že v zgodnji fazi zasnove raziskave so ugotovili, da obstaja problem uporabe ustrezne
terminologije, kako koga poimenovati in kako definirati, kdo se s čim ukvarja. Sponzor
projekta je uporabljal izraz »podatkovni znanstvenik« za opis proučevane vloge, kateri je
pripisal naloge obdelave, ohranjevanja in arhiviranja podatkov. V sklopu raziskave pa so
ugotovili, da posamezniki, ki sami sebe dojemajo kot podatkovne znanstvenike in ki sicer
opravljajo vse navedene naloge, največjo vlogo pripisujejo obdelavi podatkov. V veliki
večini primerov gre za diskretne vloge, ki jih opravljajo osebe z visoko stopnjo
specializacije (Swan, 2008, str. 7).
Na podlagi zbranih podatkov so identificirali 4 različne vloge podatkovnih znanstvenikov:
ustvarjalec podatkov (angl. Data Creator), podatkovni znanstvenik (angl. Data Scientist),
podatkovni vodja (angl. Data Manager) ter podatkovni knjižničar (angl. Data Librerian)
80
(Swan, 2008, str. 1). V praksi navedena terminologija v skupnosti analitikov še ni
uveljavljena. Prav tako so meje med posameznimi vlogami zabrisane (Swan, 2008, str. 1).
Ustvarjalec podatkov (angl. Data Creator) je raziskovalec z domenskim znanjem, ki
pridobiva podatke. Posamezniki iz tega segmenta imajo visok nivo znanj in izkušenj iz
obdelave, manipulacije in uporabe podatkov, ki so ga pridobili na podlagi izkušenj kot
rezultat potreb ali osebnih interesov (Swan, 2008, str. 8).
Podatkovni znanstvenik (angl. Data Scientist) je posameznik, ki deluje na področju
raziskovanja podatkov in ki opravlja različne funkcije. Tesno sodeluje z ustvarjalci
podatkov ali pa celo sam postane ustvarjalec podatkov. V osnovi so podatkovni
znanstveniki lahko domenski strokovnjaki, računalniški inženirji ali tehnologi informatike,
katerih karierni razvoj je od njih zahteval pridobitev znanj in sposobnosti iz discipline, iz
katere v osnovi niso izhajali (Swan, 2008, str. 8). Podatkovni znanstvenik skrbi za
kreativno pridobivanje in analizo podatkov, ki drugim omogoča delo z digitalnimi podatki
in razvoj tehnologij baz podatkov (Swan, 2008, str. 1). Nekateri podatkovni znanstveniki
so poudarili, da pomemben del njihovega dela predstavlja vloga »prevajalca«, ki ima
sposobnosti ustrezno komunicirati potrebe ustvarjalcev podatkov do managerjev podatkov,
s katerimi sodelujejo tudi pri tem, da so podatki shranjeni in dostopni na uporaben način
(Swan, 2008, str. 8).
Manager podatkov (angl. Data Manager) je računalniški inženir ali tehnolog
informatike, ki sprejema odgovornost za računalniške objekte, skladiščenje, neprekinjen
dostop in ohranjanje podatkov. Manager podatkov zelo tesno sodeluje s podatkovnim
znanstvenikom in zagotavlja, da so prave tehnološke možnosti na voljo celotni raziskovalni
ekipi. Nekateri managerji podatkov so svojo vlogo opisali kot podatkovne
»vodoinštalaterje«, saj pripeljejo »tok« podatkov iz enega mesta na drugo, pri katerem
zagotavljajo, da ta tok deluje pravilno in da se pomembni podatki ne izgubijo (Swan, 2008,
str. 8).
Podatkovni knjižničar (angl. Data Librarian) je oseba, ki je specializirana za
kuratorstvo, ohranjanje in arhiviranje podatkov. Originalno je naziv podatkovni knjižničar
bil rezerviran za knjižničarje, ki se ukvarjajo s podatki iz družbenih znanosti. Sedaj pa ta
naziv velja za osebe z znanji in sposobnostmi obdelave, urejanja in shranjevanja podatkov
v vseh disciplinah. To predstavlja pomembno področje, saj organizacije začenjajo
vzpostavljati digitalna skladišča za zbiranje in ohranitev raziskovalnih rezultatov. Nabori
podatkov predstavljajo del teh raziskovalnih rezultatov, ki so shranjeni v organizacijska
skladišča, za katera skrbi podatkovni knjižničar (Swan, 2008, str. 8).
V raziskavi poudarjajo, da so se do sedaj podatkovni znanstveniki »znašli« v svoji vlogi
bolj po spletu okoliščin kot načrtovano. Za vlogo podatkovnega znanstvenika so se
kvalificirali ali kot domenski strokovnjaki na določenem področju, ki so dodatna znanja in
81
sposobnosti za delo s podatki pridobili tekom dela, ali pa kot računalniški strokovnjaki, ki
so čez čas pridobili domenska znanja (Swan, 2008, str. 2). Večina podatkovnih
znanstvenikov v raziskavi je omenilo, da so znanja in sposobnosti pridobili ob delu zaradi
pomanjkanja pravih izobraževalnih priložnosti in stroškov (v času in denarju), povezanih z
udeležbo na primernih dogodkih (Swan, 2008, str. 2).
3 RAZISKAVA O ZNANJIH IN SPOSOBNOSTIH PODATKOVNIH
ZNANSTVENIKOV V SLOVENIJI
3.1 Izhodišča in namen raziskave
Pri načrtovanju empiričnega dela magistrskega dela sem sledila standardnim korakom
trženjskega raziskovanja (Malhotra, 2012). V nadaljevanju sem opredelila raziskovalni
problem ter na podlagi tega raziskovalna vprašanja in metodologijo raziskave.
Raziskava temelji na teoretičnih izhodiščih magistrskega dela, predstavljenih v prejšnjih
poglavjih. Raziskovalni problem je ugotoviti, kakšna so trenutna znanja in sposobnosti
podatkovnih znanstvenikov v Sloveniji ter kakšna je podobnost oziroma različnost z znanji
in sposobnostmi podatkovnih znanstvenikov v tujini. Namen raziskave je identificirati,
katere skupine podatkovnih znanstvenikov obstajajo v Sloveniji glede na njihova znanja in
sposobnosti ter kakšne so značilnosti ter razlike med njimi. Na podlagi razpoložljivih
podatkov menim, da ta raziskovalni problem v Sloveniji še ni bil raziskan.
Cilj je bil pridobiti vsaj 80 enot v vzorec iz naslova podatkovnih znanstvenikov oziroma
posameznikov, ki se poklicno ukvarjajo s katerim od naslednjih področij: znanstvenim
raziskovanjem, programiranjem, managementom podatkov, bazami podatkov, statistiko,
matematiko, strojnim učenjem ali poslovnimi vedami.
3.2 Raziskovalna vprašanja
Na podlagi raziskovalnega problema ter namena raziskave, z upoštevanjem teoretičnih
izhodišč, predstavljenih v prvem in drugem poglavju, sem oblikovala devet raziskovalnih
vprašanj, na katera želim odgovoriti v sklopu raziskave.
1. Ali se podatkovni znanstveniki v Sloveniji ukvarjajo z masovnimi podatki in kako
se to zrcali skozi različne dimenzije masovnih podatkov?
Kot predstavljeno v prvem poglavju se, v sklopu napredka v tehnologiji glede zmožnosti
shranjevanja vedno večje količine podatkov ter z razvojem boljših in hitrejših orodij za
analizo podatkov, znanost o podatkih tesno povezuje s pojmom masovnih podatkov. Kljub
temu, da je glavni cilj raziskave analiza znanj in sposobnosti podatkovnih znanstvenikov,
82
masovni podatki predstavljajo pomembno področje delovanja podatkovnih znanstvenikov.
Zato je eno od raziskovalnih vprašanj ugotoviti v kolikšni meri, če sploh, se v Sloveniji
posamezniki ukvarjajo z masovnimi podatki glede na različne dimenzije masovnih
podatkov: volumen, hitrost, raznolikost in vrednost. Rezultati, pridobljeni na podlagi
raziskave, bodo omogočali primerjavo s podatki iz raziskav, povezanih s posameznimi
dimenzijami masovnih podatkov, omenjenimi v prvem poglavju.
2. Katera znanja in sposobnosti so pomembna pri delu podatkovnega znanstvenika v
Sloveniji?
V sklopu raziskave želim ugotoviti, katera znanja in sposobnosti, predstavljena v poglavju
2.2, so trenutno pomembna pri delu podatkovnih znanstvenikov v Sloveniji oziroma
pomembno vplivajo na njihovo delo. Na podlagi rezultatov bo mogoče pridobiti vpogled v
stanje v Sloveniji glede pomembnosti posameznih znanj in sposobnosti.
3. Kakšna so dejanska znanja podatkovnih znanstvenikov v Sloveniji in ali obstaja
kakšna vrzel med znanji, ki jih imajo (na podlagi samoocene) in tistimi, ki so
dejansko pomembna pri njihovem delu oziroma vplivajo na uspešnost njihovega
dela?
Poleg pomembnosti znanj želim v sklopu raziskave ugotoviti, kakšna so dejanska znanja
podatkovnih znanstvenikov v Sloveniji. Na podlagi primerjave samoocene in pomembnosti
posameznega področja znanj želim ugotoviti, ali obstajajo značilne razlike med
pomembnostjo znanj in dejanskimi znanji, ki jih imajo. Rezultati, pridobljeni na podlagi
raziskave glede samoocene različnih področji znanj, bodo omogočali primerjavo s podatki
iz raziskav o znanjih podatkovnih znanstvenikov, predstavljenimi v poglavju 2.5.
4. Katere skupine podatkovnih znanstvenikov v Sloveniji lahko identificiramo na
podlagi samoocene znanj?
Na podlagi podatkov, pridobljenih v raziskavi, želim ugotoviti, katere skupine podatkovnih
znanstvenikov lahko identificiramo na podlagi samoocene znanj. V sklopu tega bo mogoče
primerjati značilnosti skupin podatkovnih znanstvenikov, identificiranih v raziskavah,
predstavljenih v poglavju 2.5.
5. Katere skupine podatkovnih znanstvenikov v Sloveniji lahko identificiramo na
podlagi pomembnosti znanj in sposobnosti pri delu?
Na podlagi podatkov, pridobljenih v raziskavi, želim ugotoviti, katere skupine podatkovnih
znanstvenikov lahko identificiramo na podlagi pomembnosti znanj in sposobnosti pri delu
podatkovnih znanstvenikov. V sklopu tega bo mogoče primerjati značilnosti skupin
podatkovnih znanstvenikov, identificiranih na podlagi samoocene znanj.
83
6. Ali obstaja kakšna vrzel pri identificiranih skupinah podatkovnih znanstvenikov
(na podlagi samoocene znanj) med znanji, ki jih imajo (na podlagi samoocene) in
tistimi, ki so dejansko pomembna pri njihovem delu oziroma vplivajo na
uspešnost njihovega dela?
Na podlagi primerjave samoocene in pomembnosti posameznega področja znanj, po
identificiranih skupinah na podlagi samoocene znanj, želim ugotoviti, ali obstajajo značilne
razlike med pomembnostjo znanj in dejanskimi znanji, ki jih imajo. Rezultati, pridobljeni
na podlagi raziskave, bodo omogočali vpogled, katera področja so bolj pomembna in bi jih
posamezniki znotraj skupine morali razvijati v prihodnosti.
7. Ali obstajajo kakšne razlike med identificiranimi skupinami podatkovnih
znanstvenikov na podlagi samoocene znanj glede na izobrazbo, smer izobrazbe,
spol, izkušnje in način izobraževanja?
Na podlagi identificiranih skupin podatkovnih znanstvenikov želim ugotoviti, ali obstajajo
razlike v značilnostih teh skupin glede na spol, izkušnje, način izobraževanja ter glede na
stopnjo izobrazbe ter smer izobrazbe. Na podlagi analize podatkov želim ugotoviti, ali je
za določeno skupino podatkovnih znanstvenikov določena izobrazba bolj primerna kot za
drugo skupino podatkovnih znanstvenikov.
8. Ali obstajajo kakšne razlike med identificiranimi skupinami podatkovnih
znanstvenikov na podlagi samoocene znanj glede obdelane količine, raznolikosti
podatkov in koristi, ki jih dosegajo preko dela s podatki?
Na podlagi identificiranih skupin podatkovnih znanstvenikov želim ugotoviti, ali obstajajo
razlike v značilnostih teh skupin glede na količino in raznolikost podatkov, s katerimi so se
že srečali pri svojem delu. Na podlagi analize podatkov želim ugotoviti, ali določene
skupine podatkovnih znanstvenikov izstopajo pri posamezni dimenziji masovnih podatkov
v primerjavi z drugimi.
9. Ali je mogoče identificirati porazdelitve oziroma vzorce znanj po posameznih
področjih med identificiranimi skupinami podatkovnih znanstvenikov na podlagi
samoocene znanj?
Zaradi širokega področja znanj in sposobnosti, ki naj bi jih posameznik za delo
podatkovnega znanstvenika imel, se v literaturi (Granville, 2014, str. 75) in v raziskavah
(Harris, Murphy & Vaisman, 2013) omenja, da naj bi posameznik imel zelo poglobljena
znanja iz vsaj enega področja (statistike, matematike, programiranja, baz podatkov,
strojnega učenja) ter vsaj osnovna znanja iz drugih področij. Granville (2014) govori o t. i.
vertikalnih podatkovnih znanstvenikih, v raziskavi Analyzing the analyzers (Harris,
Murphy & Vaisman, 2013) pa so identificirali t. i. »T-obliko« znanj podatkovnih
84
znanstvenikov. V sklopu raziskave želim ugotoviti, ali je mogoče identificirati porazdelitve
oziroma vzorce znanj po posameznih področjih znanj med skupinami podatkovnih
znanstvenikov. Na podlagi tega želim ugotoviti, ali obstajajo podatkovni znanstveniki s t. i.
»T-obliko« znanj oz. če obstajajo posamezniki, ki imajo visoko stopnjo znanj na vseh
področjih.
3.3 Metodologija raziskave
3.3.1 Zbiranje podatkov
Vprašalnik, uporabljen v raziskavi, vključuje tri skupine vprašanj, katerim na koncu sledijo
demografska vprašanja. Vprašanja se nanašajo na postavljena raziskovalna vprašanja iz
prejšnjega poglavja. Prva skupina vprašanj se nanaša na posamezne dimenzije masovnih
podatkov: volumen, raznolikost, hitrost in vrednost. Druga skupina vprašanj se nanaša na
samooceno znanj ter oceno pomembnosti znanj in sposobnosti podatkovnih znanstvenikov.
Tretja skupina vprašanj se nanaša na pretekle izkušnje in pridobivanje znanj in sposobnosti
preko različnih načinov izobraževanja. Zadnji sklop vprašanj vključuje demografska
vprašanja glede spola, starosti, stopnje in smeri izobrazbe. Vprašanja so bila oblikovana na
podlagi teoretičnih izhodišč, predstavljenih v prvem in drugem poglavju.
Testiranje vprašalnika je potekalo v obdobju od 1. aprila 2016 do 23. aprila 2016.
Vprašalnik je bil testiran na devetih osebah iz različnih področij ukvarjanja s podatki:
programerji, statistiki/trženjski raziskovalci, poslovni analitiki in IT-analitiki. Največ
komentarjev v sklopu testiranja se je nanašalo na dolžino vprašalnika, saj je prvotna verzija
vprašalnika imela precej daljša navodila, bolj obsežne opise področij znanj ter ločeni
vprašanji za samooceno znanj in pomembnost znanj. V končni verziji vprašalnika sem
opise znanj in navodila skrajšala, kolikor je bilo mogoče, da sem ohranila pomembne
informacije in razumevanje področja. Vprašanji glede samoocene znanj in pomembnosti
znanj pa sem združila v dvojno tabelo tako, da je lahko udeleženec hkrati izpolnil
samooceno in pomembnost določenega področja znanj. Oba ukrepa sta bistveno skrajšala
čas izpolnjevanja vprašalnika. Sprva sem vsa vprašanja označila kot obvezna in dodala
opcijo »ne vem«. Tekom testiranja pa sem dobila povratno informacijo, da naj bi se pri
ocenjevanju znanj in sposobnosti vsak znal opredeliti in da odgovor »ne vem« ni potreben.
Tudi preglednost stopenj pomembnosti je bila z opcijo »ne vem«, z vidika udeleženca,
slabša. Končni vprašalnik je imel za vsa vprašanja nastavitev, da udeleženec dobi
opozorilo, v kolikor na vprašanje ne odgovori, vendar še vedno lahko nadaljuje brez
odgovora. Možnost »ne vem« sem pustila samo pri vprašanjih, kjer se je izkazalo, da
nekateri res niso znali odgovoriti in mi je bilo pomembno, da se tako opredelijo. Tekom
testiranja sem dobila tudi komentar, zakaj v vprašalnik ni vključeno vprašanje, na kateri
funkciji v organizaciji je posameznik zaposlen in iz katere dejavnosti izhaja organizacija, v
kateri delo opravlja. Teh spremenljivk nisem vključila v vprašalnik, saj so mi bolj
pomembna znanja in sposobnosti posameznika na splošno, ne glede na to, ali jih opravlja
85
za več različnih organizacij ali pa zase osebno. Ciljna skupina so namreč posamezniki in
ne organizacije, ki odgovarjajo zase osebno. Zanima me namreč, kaj posameznik počne
neodvisno od tega, ali dela za lastne potrebe ali za stranko. Torej, vsepovsod, kjer
uporablja svoja znanja in sposobnosti za delo s podatki. Zato sem v uvodnem nagovoru v
vprašalniku še bolj podrobno izpostavila ciljno skupino. Testiranje je izpostavilo tudi
vprašanje, zakaj bi udeleženec ocenjeval pomembnost določenega področja znanj, če pa
znanja ne uporablja, ne pozna oziroma ne ustreza njegovemu področju dela. Odločila sem
se, da ne bom omejevala odgovorov na pomembnost določenega področja znanja le na
tiste, ki ga poznajo ali uporabljajo. Menim, da tudi če udeleženec določenega znanja ne
uporablja ali pozna, še vedno lahko pomeni, da pa je pri njegovem delu pomembno, vendar
se ga mora še priučiti. Zato vprašanja nisem oblikovala tako, da bi ocenili pomembnost
samo pri področjih znanj, kjer so se udeleženci ocenili kot začetniki ali več.
Za zbiranje podatkov sem uporabila metodo spletnega anketiranja s pomočjo
strukturiranega vprašalnika, pripravljenega na podlagi pregleda teoretičnih izhodišč ter že
izvedenih raziskav. V vprašalniku sem uporabila različne merske lestvice: nominalno,
ordinalno in intervalno. Pri vprašanjih v drugem sklopu sem uporabila petstopenjsko
Likertovo lestvico. Pri določenih vprašanjih sem dodatno omogočila možnost »ne vem«.
Spremenljivke, njihovi opisi, vrednosti in merske lestvice so predstavljeni v Prilogi 3.
Osnovo za dodaten opis profilov posameznih skupin podatkovnih znanstvenikov so
predstavljale tudi demografske značilnosti anketirancev. Vprašalnik, ki je bil uporabljen v
raziskavi, se nahaja v Prilogi 4.
V raziskavo sem želela zajeti posameznike, ki se večino svojega časa ukvarjajo s podatki
oziroma s katerim od naslednjih področij: analitika, statistika, matematika, programiranje,
management podatkov, raziskovanje ali pa so vodje takšnih ekip. V uvodnem nagovoru
vprašalnika sem to še dodatno izpostavila. Takšni posamezniki so predstavljali populacijo.
Vzorčni okvir v tem primeru ne obstaja, saj ni popolnega seznama posameznikov, ki se v
Sloveniji ukvarjajo s katerim od naštetih področij. K izpolnitvi vprašalnika so na podlagi
preteklih izkušenj, sodelovanj in poznanstev bili povabljeni posamezniki iz različnih
organizacij: In516ht, d.o.o., Petrol, d.d., Inštitut Jožef Stefan, Studio Moderna, d.o.o., Spar
Slovenija, d.o.o., Si.Mobil, d.d., Zavarovalnica Triglav, d.d., ADD, d.o.o., Zavarovalnica
Maribor, d.d., Mercator, d.d., Kendu, d.o.o., Ekipa2, d.o.o., Javni holding Ljubljana, d.o.o.,
D.Labs, d.o.o., Adriatic Slovenica, d.d., Nova ljubljanska banka, d.d., Zavod za
pokojninsko in invalidsko zavarovanje Slovenije, IBM Slovenija, d.o.o., Ektimo, d.o.o.,
Revelo, d.o.o. , Hekovnik, Arhea Solutio, d.o.o., Valicon, d.o.o., Inštitut za raziskovanje
trga in medijev Mediana, d.o.o., Droga Kolinska, d.d., itd. Vprašalnik je bil objavljen tudi
na skupini Big Data Developers in Data Science Slovenia ter na Facebook strani
Udomačena Statistika. Povabilu k raziskavi je bila vključena tudi prošnja za posredovanje
vprašalnika drugim primernim posameznikom. Metoda vzorčenja je bilo namensko
priložnostno vzorčenje, saj so k izpolnitvi vprašalnika bili povabljeni le posamezniki iz
Slovenije, ki so ustrezali predhodno določenim kriterijem (ukvarjanje s podatki oziroma
86
ukvarjanje z vnaprej določenim področjem dela). Izpolnjevanje vprašalnika je potekalo od
26. 4. 2016 do 21. 5. 2016. Vprašalnik je v celoti izpolnilo 94 oseb. 47 pa je vprašalnik
izpolnilo le delno, zato sem jih izločila iz analize. Rezultati ankete so bili ustrezno
zakodirani v podatkovno bazo s 94 enotami in 126 spremenljivkami. Pri pregledu podatkov
se je izkazalo, da 2 enoti nista bili primerni za analizo, saj sta vsebovali preveliko število
neodgovorov. Končni nabor enot za analizo je zajemal 92 enot. Podatki so bili zbrani s
pomočjo spletnega orodja 1ka.si. Za analizo podatkov in vizualizacijo rezultatov pa sem
uporabila SPSS Statistics verzija 21 in MS Excel 2010.
Pri analizi podatkov sem uporabila metode opisnih statistik za prikaz rezultatov in
značilnosti vzorca, parametrične in neparametrične teste za preverjanje domnev ter metode
multivariantne analize (razvrščanje v skupine) za identifikacijo skupin podatkovnih
znanstvenikov glede na samooceno znanj in oceno pomembnosti znanj in sposobnosti.
3.3.2 Metode obdelave podatkov
3.3.2.1 Metode soodvisnosti
Pogosto proučujemo pojave, ki so zelo kompleksni. Da bi čim bolje poznali njihovo
naravo, moramo identificirati vse njihove bistvene lastnosti. Pri statističnem proučevanju
pojavov skušamo te lastnosti izmeriti pri vsaki enoti posebej. Tako dobimo množico
vrednosti spremenljivk, ki izraža naravo proučevanega pojava (Rovan, 2013, str. 2). Z
vprašalnikom sem skušala čim bolje identificirati in z merskimi lestvicami izmeriti
bistvene lastnosti podatkovnih znanstvenikov v Sloveniji. Na ta način sem lahko pridobila
množico vrednosti spremenljivk, ki izražajo naravo proučevanega pojava. V primeru
raziskave znanj in sposobnosti podatkovnih znanstvenikov v Sloveniji sem množico
spremenljivk proučevala kot celoto. V takšnih primerih z metodami soodvisnosti želimo
odkriti, kako in zakaj so spremenljivke povezane med seboj (Rovan, 2013, str. 6). Med
metode soodvisnosti za metrično vrsto merske lestvice spadajo: enostavna korelacija,
metoda glavnih komponent ter faktorska analiza. Omenjene metode soodvisnosti se
osredotočajo na odnose med spremenljivkami. Dodatno pa se lahko uporabi še metoda
razvrščanja enot v skupine. Ker sem v vprašalniku glede znanj in sposobnosti uporabila
več kot dve spremenljivki na metričnih merskih lestvicah, sem se odločila za uporabo
metode razvrščanja v skupine za identifikacijo skupin podatkovnih znanstvenikov.
Enostavno korelacijo pa sem uporabila za identifikacijo spremenljivk, ki visoko korelirajo
med seboj.
3.3.2.2 Opisna statistika in statistično preizkušanje domnev
Podatke, pridobljene s pomočjo vprašalnika, sem najprej analizirala z metodami opisne
statistike. Z namenom analize raziskovalnih vprašanj, predstavljenih v prejšnjem poglavju,
sem uporabila metode statističnega preizkušanja predpostavk (domnev) glede srednjih
87
vrednosti ali mer variabilnosti. Pri analizi rezultatov raziskave po vprašanjih sem pri
vprašanjih na nominalnih in ordinalnih merilnih lestvicah (en vzorec) uporabila hi-kvadrat
preizkus. Hi-kvadrat preizkus primerja niz opazovanih frekvenc s teoretičnimi. Na podlagi
preizkusa sem lahko ugotovila, ali so razlike med opazovanimi (dejanskimi) in teoretičnimi
(pričakovanimi) frekvencami statistično značilne. Pri vprašanjih na nominalnih merilnih
lestvicah z več možnimi odgovori sem za preverbo domneve, ali obstajajo razlike na
dihotomni odvisni spremenljivki med tremi ali več med seboj povezanimi skupinami,
uporabila Cochranov Q preizkus. Pri raziskovalnem vprašanju, povezanim s smerjo in
stopnjo izobrazbe ter pripadnostjo določeni skupini, dobljeni na podlagi razvrščanja v
skupine, sem uporabila kontingenčno tabelo s hi-kvadrat preizkusom. Kontingenčna
tabela s hi-kvadrat preizkusom se uporablja za ugotavljanje povezanosti med dvema (ali
tremi) neštevilskima spremenljivkama. Na ta način bo mogoče ugotoviti, ali obstaja
povezava med kategorično spremenljivko (stopnja izobrazbe, smerjo izobrazbe, spol) ter
razvrstitvijo v skupine.
Pri analizi rezultatov raziskave po vprašanjih sem pri intervalnih lestvicah (samoocena
znanj ter ocena pomembnosti znanj in sposobnosti) uporabila t-preizkus za preverjanje
domneve o aritmetični sredini. Na ta način sem lahko ugotovila, ali obstajajo statistično
značilne razlike (od samoocene 3 – Začetnik) v samooceni posameznih znanj ter ali
obstajajo statistično značilne razlike (od ocene pomembnosti 3) v oceni pomembnosti
znanj in sposobnosti. Z namenom ugotoviti, ali obstaja statistično značilna razlika v
povprečni samooceni znanja in povprečni pomembnosti znanja, sem uporabila t-preizkus
za odvisni merjenji (preizkus dvojic), saj sem iste enote primerjala glede na različne
značilnosti (samoocena in pomembnost določenega področja znanj). Z namenom
preverjanja domneve o primerjavi aritmetičnih sredin za več kot dve neodvisni merjenji
sem uporabila analizo varianc (angl. ANOVA). Primerjala sem aritmetične sredine
samoocene znanj, pomembnosti znanj in sposobnosti (odvisna spremenljivka) dobljenih
skupin, identificiranih preko postopka razvrščanja v skupine (neodvisna spremenljivka).
Na ta način sem lahko ugotovila, ali med identificiranimi skupinami dejansko obstajajo
statistično značilne razlike med spremenljivkami, ki bodo vključene v postopek
razvrščanja v skupine.
3.3.2.3 Priprava podatkov za multivariantno analizo
Pri uporabi faktorske analize, metode glavnih komponent ter pri metodi razvrščanja v
skupine je pomembno vprašanje, ali uporabiti centrirane (vsota centriranih podatkov je
enaka nič) ali standardizirane podatke (odkloni prvotnih podatkov od aritmetične
sredine, deljeni s pripadajočim standardnim odklonom) (Rovan, 2013, str. 4–10).
Vsaka od teh dveh vrst podatkov bo dala drugačne rezultate glede na to, v kolikšni meri se
razlikujejo variance spremenljivk v obeh primerih. Pri uporabi centriranih podatkov, kjer
izhodišče za analizo predstavlja kovariančna matrika, je vpliv posamezne spremenljivke
skladen z relativno velikostjo njene variance. Spremenljivke z večjo varianco imajo torej
88
večji vpliv na rezultate analize. Pri uporabi standardiziranih podatkov, kjer izhodišče za
analizo predstavlja korelacijska matrika, pa imajo vse spremenljivke zaradi enakih
varianc tudi enako močan vpliv na rezultate. Centrirani podatki so ustrezno izhodišče za
analizo glavnih komponent ter pri metodi razvrščanja v skupine v primerih, ko so vrednosti
vseh spremenljivk izražene v primerljivih enotah in kadar so višine varianc posameznih
spremenljivk tudi indikator vsebinske pomembnosti posameznih spremenljivk. V vseh
drugih primerih se uporabljajo standardizirani podatki (Rovan, 2013, str. 9). Kljub temu,
da so vse spremenljivke, ki bodo vključene v razvrščanje v skupine, merjene na isti lestvici
(intervalna), sem pri analizi uporabila standardizirane podatke in s tem za izhodišče
analize uporabila korelacijsko matriko, saj menim, da variabilnost spremenljivke ne
določa njenega pomena oziroma da imajo v razdalji enot vse spremenljivke enako težo.
3.3.2.4 Testiranje homogenosti odgovorov v okviru enega konstrukta – Cronbach alpha
Pri merjenju določenega pojava je potrebna zanesljivost merskega instrumenta (pri vsakem
merjenju pokaže enako vrednost). Žal je v družboslovju težko najti objektiven merski
instrument, katerega zanesljivost bi lahko nedvomno potrdili (Rovan, 2013, str. 2). V
raziskavi znanj in sposobnosti podatkovnih znanstvenikov v Sloveniji sem pomembnost
znanj in sposobnosti merila posredno, s pomočjo petstopenjskih in šeststopenjskih
Likertovih lestvic. Da bi nabor postavk (znanj in sposobnosti) dejansko meril isti pojav,
morajo biti odgovori konsistentni, kar pomeni, da morajo biti odgovori na različna
vprašanja iste lestvice (močno) korelirani med seboj (Rovan, 2013, str. 2). Zato sem kot
mero zanesljivosti lestvice uporabila Cronbach alfa. Matematično je definirana kot delež
variabilnosti v odgovorih, ki je posledica razlik med posameznimi enotami. To pomeni, da
se bodo pri zanesljivi lestvici odgovori razlikovali zato, ker imajo ljudje različna
mnenja/sposobnosti in ne zato, ker so različne ponovitve (postavke) med seboj različne.
Poleg korelacije med odgovori na zanesljivost lestvice vpliva tudi število postavk – več kot
jih je, zanesljivejša je lestvica. V splošnem veljajo za zanesljive lestvice, katerih je
Cronbach alfa večja od 0,8.
3.3.2.5 Razvrščanje v skupine
Metode razvrščanja v skupine so namenjene združevanju objektov (enot ali spremenljivk)
v skupine, za katere je značilno, da (Rovan, 2013, str. 2):
je vsaka skupina glede na določene lastnosti objektov homogena, njeni objekti so v tem
smislu medsebojno podobni in,
se mora vsaka skupina po proučevanih lastnostih objektov razlikovati od drugih skupin.
Pred pričetkom razvrščanja v skupine je ključno opredeliti osnovni cilj razvrščanja v
skupine oziroma raziskovalni problem. Raziskovalni problem po navadi vključuje
identifikacijo homogene skupine enot v populaciji in predstavlja osnovo za vse nadaljnje
89
odločitve. Zaradi narave mojega raziskovalnega problema (identifikacija skupin
podatkovnih znanstvenikov) sem se v nadaljevanju usmerila le v metodologijo, povezano z
razvrščanjem enot v skupine in ne v razvrščanje spremenljivk. Razvrščanje v skupine je
proces, ki vključuje več korakov (Slika 24), ki so bolj podrobno predstavljeni v
nadaljevanju (Mooi & Sarstedt, 2011, str. 237–240).
Slika 24: Postopek razvrščanja v skupine
Vir: E. Mooi & M. Sarstedt, A concise guide to market research, 2011, str. 240, Fig. 9.2
Zelo pomembno je natanko opredeliti tiste lastnosti, na podlagi katerih želimo enote
razvrstiti v skupine. Izbor lastnosti odločilno vpliva na razvrstitev enot v skupine (Rovan,
2013, str. 2). Pri večini analiz se v praksi za izbor lastnosti enot, ki se jih bo upoštevalo pri
razvrščanju v skupine, uporablja mešanica intuicije in razpoložljivosti podatkov, odločitev
pa lahko izhaja tudi iz narave raziskovalnega problema (Mooi & Sarstedt, 2011, str. 240).
Pri izbiri spremenljivk je predvsem pomembno to, da izbrane spremenljivke zagotavljajo
jasno ločnico med končnimi skupinami glede določenega raziskovalnega problema (Mooi
& Sarstedt, 2011, str. 242). Na podlagi napisanega sem za izbor spremenljivk za
razvrščanje v skupine upoštevala teoretična izhodišča, predstavljena v drugem poglavju ter
spremenljivke, uporabljene v že izvedenih raziskavah v tujini, predstavljene v poglavju
2.4.1. S ciljem identifikacije skupin podatkovnih znanstvenikov v Sloveniji je končna
odločitev glede nabora spremenljivk za razvrščanje vključevala spremenljivke, povezane s
samooceno znanj za prvo razvrščanje v skupine, pri drugem razvrščanju v skupine sem
upoštevala spremenljivke, povezane z oceno pomembnosti znanj in sposobnosti
udeležencev raziskave v Sloveniji. Podatke za razvrščanje v skupine sem pridobila s
90
spletnim vprašalnikom, ki je bil strukturiran na podlagi teoretičnih osnov, predstavljenih v
prvem in drugem poglavju, kar pomeni, da imajo vprašanja dobro teoretično osnovo. Kljub
temu pa obstaja možnost, da so udeleženci raziskave različno odgovarjali na vprašanja v
vprašalniku in s tem vplivali na kakovost pridobljenih podatkov.
Na splošno ni priporočljiva uporaba velikega števila spremenljivk za razvrščanje v
skupine, saj to povečuje verjetnost, da so si spremenljivke med seboj premalo različne. V
kolikor med spremenljivkami obstaja visoka stopnja korelacije, to pomeni, da
spremenljivke niso dovolj unikatne, da bi ustrezno identificirale skupine. V kolikor se v
razvrščanje v skupine vključi visoko korelirane spremenljivke (koeficient korelacije nad
0,9), bodo določeni vidiki, ki jih pokrivajo te spremenljivke, preveč izraženi v končni
rešitvi razvrščanja (Mooi & Sarstedt, 2011, str. 242). Z namenom rešitve tega problema se
navajajo različne možnosti, od redukcije dimenzij do zmanjšanja števila spremenljivk
(Mooi & Sarstedt, 2011, str. 242). Zaradi slabosti uporabe faktorske analize pri razvrščanju
v skupine sem se odločila, da bom v primeru visokih korelacij med spremenljivkami,
zajetimi v razvrščanje, smiselno presodila, ali bo mogoče spremenljivko izpustiti iz
nadaljnjega procesa razvrščanja.
Pri razvrščanju v skupine ločimo hierarhično razvrščanje, nehierarhično razvrščanje
(algoritem K-means) ter razvrščanje v dveh korakih (angl. two-step clustering). Vsaka od
teh metod uporabi drugačen pristop k razvrščanju najbolj podobnih enot v skupino. To
vključuje minimiziranje variance znotraj skupin ali maksimiziranje razlike med skupinami
(Mooi & Sarstedt, 2011, str. 243). K razvrščanju v skupine je smiselno pristopiti na način,
da se najprej izvede hierarhično razvrščanje v skupine, pri čemer se ugotovi, koliko skupin
je v populaciji in identificira začetne centroide skupin. Nato se model izpopolni z
nehierarhično metodo. Hierarhična metoda razvrščanja ima poleg prednosti (enostavnost,
ni potrebno vnaprej določiti števila skupin, prikaz razvrščanja z drevesom) tudi slabosti.
Največja slabost metode je ta, da je postopek enosmeren. To pomeni, da ko je enota enkrat
vključena v skupino, ostane v tej skupini. To pa včasih pomeni, da na ta način dobljene
skupine niso optimalne (Rovan, 2013, str. 2). Iz navedenega razloga sem se odločila, da v
prvi fazi izvedem hierarhično razvrščanje v skupine in rezultate (število skupin in začetne
centroide) uporabim v nehierarhični metodi K-means.
Podobnost oziroma različnost med pari enot se lahko izraža na podlagi neke vrste razdalje.
Enote, kjer je razdalja med njimi manjša, so si med seboj bolj podobne kot enote, kjer je
razdalja med njimi večja. Pri razvrščanju enot, ki so opredeljene s samimi metričnimi
spremenljivkami, se običajno uporablja ena izmed oblik razdalje Minkowskega: Evklidska
razdalja ali razdalja Manhattan (Rovan, 2013, str. 5). Za intervalne in razmernostne
lestvice je najbolj primerna kvadratna Evklidska razdalja, ki temelji na Evklidski razdalji
med dvema enotama, vendar zaradi kvadrata razdalje poveča pomembnost daljših razdalj
in zmanjša pomembnost majhnih razdalj (Rovan, 2013, str. 5). Kot metodo podobnosti
bom pri hierahičnem razvrščanju v skupine zato uporabila kvadratno Evklidsko razdaljo.
91
Na podlagi mer podobnosti oziroma različnosti se pri hierahičnem razvrščanju na različne
načine izračunajo mere različnosti med skupinami, ki določajo različne metode
hierarhičnega združevanja v skupine. Najpogosteje uporabljene metode hierahičnega
združevanja v skupine so (Mooi & Sarstedt, 2011, str. 250–252): minimalna metoda,
maksimalna metoda, povprečna metoda, metoda centroidov in Wardova metoda. Glede na
to, da pričakujem približno enako število enot v identificiranih skupinah in ker Wardova
metoda uporablja F vrednost v sklopu analize varianc, s čimer maksimizira značilnost
razlik med skupinami, sem pri hierarhičnem razvrščanju za združevanje skupin uporabila
Wardovo metodo. Glede odločitve o številu skupin je potrebno zagotoviti, da so skupine
dovolj majhne, da so enostavno razumljive in na podlagi katerih lahko sprejmemo
odločitve ter hkrati, da so dovolj velike, da so tudi profitabilne z vidika ciljnih aktivnosti.
Pri odločitvi o številu skupin si lahko pomagamo z različnimi pristopi (Mooi & Sarstedt,
2011, str. 253–255). Pri odločitvi o številu skupin sem najprej ocenila rezultate
hierarhičnega razvrščanja na podlagi dendograma in izračuna Calinski Harabsz VRC.
Pridobljene možne rešitve glede števila identificiranih skupin sem s pomočjo kvalitativne
primerjave skupin v sklopu K-means razvrščanja v skupine primerjala med seboj in izbrala
rešitev, ki bo omogočala ustrezno interpretacijo in velikost posameznih skupin. Pri razlagi
skupin sem si pomagala s pregledom srednjih vrednosti spremenljivk, vključenih v
razvrščanje. Samo v primeru, da se povprečne vrednosti spremenljivk v skupinah
statistično različne, gre za spremenljivke, ki se razlikujejo po skupinah (Mooi & Sarstedt,
2011, str. 261).
3.3.2.6 Mere asimetrije in mere sploščenosti
Z namenom odgovora na raziskovalno vprašanje, povezano z identifikacijo porazdelitev
oziroma vzorcev znanj anketirancev sem izračunala koeficient asimetrije (angl. Skewness)
in koeficient sploščenosti (angl. Kurtosis).V kolikor je koeficient asimetrije večji od 0, je
porazdelitev asimetrična v desno. V kolikor je enak 0 je porazdelitev simetrična ter v
kolikor je manjši od 0 je porazdelitev asimetrična v levo. V kolikor je koeficient
sploščenosti večji od 0, je porazdelitev koničasta. V kolikor je enak 0, je porazdelitev
normalna (angl. bell-shaped) ter v kolikor je manjši od 0, je porazdelitev sploščena.
Pridobljene rezultate sem uporabila za identifikacijo značilne porazdelitve za udeležence
raziskave.
4 REZULATI RAZISKAVE IN DISKUSIJA
4.1 Značilnosti vzorca
V raziskavi je sodelovalo 92 anketirancev. 59,8 % jih je bilo moškega spola, 40,2 % pa
ženskega. Prevladovali so anketiranci moškega spola. Največji delež anketirancev je
pripadalo starostni skupini od 26 do 35 let (51,1 %). Drugače pa je bilo 0 %, mlajših od 18
let, 1,1 % v starostni skupini od 18 do 25 let, 51,1 % v starostni skupini od 26 do 35 let,
92
35,9 % v starostni skupin od 36 do 45 let, 10,9 % v starostni skupini od 46 do 55 let in 1,1
% v starostni skupini 56 let ali več. Največji delež anketirancev je imel univerzitetno
izobrazbo (50 %). Sledili so anketiranci z magisterijem, doktoratom ali specializacijo (28,3
%) ter anketiranci s poklicno ali štiriletno srednjo šolo (13 %). Najmanj je bilo
anketirancev z višjo ali visoko šolo (8,7 %). V vzorec ni bilo zajetih anketirancev s stopnjo
izobrazbe osnovna šola ali manj. Največji delež anketirancev je kot svojo prevladujočo
smer izobrazbe izbralo računalništvo (26,1 %), sledita ekonomija in poslovne vede (19,6
%), splošno družboslovje (15,2 %), druge naravoslovne ali tehnične vede (14,1 %),
statistika (9,8 %) ter matematika (8,7 %). En anketiranec je kot smer izobrazbe izbral
fiziko (1,1 %). Slika 25 prikazuje strukturo vzorca po spolu, starosti, smeri izobrazbe in
stopnji izobrazbe.
Slika 25: Struktura vzorca po spolu, starosti, smeri in stopnji izobrazbe (n = 92)
4.2 Rezultati raziskave po vprašanjih
4.2.1 Masovni podatki
4.2.1.1 Volumen podatkov
Anketiranci so glede največje količine/volumna podatkov, s katero so se osebno do sedaj
ukvarjali (pridobili, obdelali, analizirali, odločali), najpogosteje izbrali možnost od 1 GB
93
do 1023 GB (44,6 %). Kot drugo najpogostejšo možnost so izbrali od 1 TB do 1023 TB z
23,9 %. Sledijo anketiranci, ki se ukvarjajo z 1 megabajt do 1023 megabajtov (v
nadaljevanju MB) z 21,7 %. Najmanj pa se jih ukvarja s kilo bajti (v nadaljevanu KB) ali
manj (1,1 %) in PB ali več (1,1 %). 7,6 % anketirancev pa je izbralo opcijo »ne vem«.
Slika 26: Največja obdelana količina/volumen podatkov (n = 92)
Na podlagi vzorčnih podatkov in hi-kvadrat preizkusa so razlike med izbranimi možnostmi
glede največje količine/volumna podatkov statistično značilne pri zanemarljivo majhni
stopnji značilnosti (Priloga 10). Sklepam lahko, da se je največ anketirancev do sedaj
ukvarjalo s podatki velikosti od 1 GB do 1023 GB.
4.2.1.2 Raznolikost podatkov
Pri vprašanju glede tega, s katerimi različnimi tipi/viri podatkov so se anketiranci že srečali
pri svojem delu, jih je največ (90,2 %) izbralo strukturirane podatke iz notranjih virov,
generirane s strani naprav (poslovne transakcije – nakupi, zaloge, računi ipd.; spletne
metrike iz spletnih dnevnikov; metrike iz nadzora procesov, senzorjev ipd.), drugo
najpogosteje (64,1%) pa so izbrali strukturirane podatke iz notranjih virov, generirane s
strani človeka (ocenjevalne lestvice v vprašalnikih – raziskave; ocenjevanje sposobnosti
ipd.). Najmanjkrat so izbrali nestrukturirane podatke iz notranjih virov, generiranih s strani
človeka (8,7 % – glasovna pošta, korporativni video, slike, avdio prepisi iz notranjih virov
organizacije) in nestrukturirane podatke iz zunanjih virov, generirane s strani človeka (7,6
% – slike na Instagramu, video posnetki na YouTube, avdio komentarji na spletnih mestih
ipd.).
94
Slika 27: Raznolikost podatkov (n = 92)
Na podlagi vzorčnih podatkov in Cochran Q preizkusa so razlike med % posameznih
možnosti statistično značilne pri zanemarljivo majhni stopnji značilnosti (Priloga 10).
Sklepam lahko, da so se anketiranci največkrat srečali s podatki o poslovnih transakcijah.
Tabela 4: Klasifikacija odgovorov in dimenzije raznolikosti podatkov
Odgovor v vprašalniku Človek/ Naprava Notranji/
Zunanji
Strukturirani/
Nestrukturirani
Poslovne transakcije (nakupi, zaloge, računi ipd.),
spletne metrike iz spletnih dnevnikov; metrike iz
nadzora procesov, senzorjev ipd.
Podatki generirani
s strani naprav Notranji Strukturirani
Ocenjevalne lestvice v vprašalnikih (raziskave);
ocenjevanje sposobnosti ipd.
Podatki generirani
s strani človeka Notranji Strukturirani
Vsebina elektronske pošte; vsebina dokumentov
znotraj organizacije; mnenja zaposlenih; komentarji
potrošnikov; zapisi opomb klicnega centra ipd.
Podatki generirani
s strani človeka Notranji Nestrukturirani
Datum in čas objave na Facebooku, Twitterju; GPS
podatki o Tweetih/Facebook objavah ipd.
Podatki generirani
s strani naprav Zunanji Strukturirani
Vsebina komentarjev na spletnih forumih; blogi,
zapisi in komentarji iz družbenih medijev; spletna
iskanja; vsebina SMS sporočil ipd.
Podatki generirani
s strani človeka Zunanji Nestrukturirani
Število všečkov na Facebooku; število retweetov;
ocene na družbenih medijih; spletne sledi ipd.
Podatki generirani
s strani človeka Zunanji Strukturirani
Glasovna pošta, korporativni video, slike,
ilustracije, avdio prepisi – iz notranjih virov
organizacije ipd.
Podatki generirani
s strani človeka Notranji Nestrukturirani
Slike na Instagramu, video posnetki na YouTube;
avdio komentarji na spletnih mestih ipd.
Podatki generirani
s strani človeka Zunanji Nestrukturirani
95
Anketirancem sem na podlagi tega, ali so izbrali določen odgovor ali ne, pripisala nove
izpeljane spremenljivke, glede na to, ali so izbrali odgovor, ki se na naša na eno od
dimenzij raznolikosti podatkov: strukturirani in nestrukturirani podatki, zunanji in notranji
podatki ter podatki, generirani s strani naprav in človeka. Tabela 4 prikazuje pregled
klasifikacije odgovorov in posamezne dimenzije raznolikosti podatkov (predstavljene v
poglavju 1.3.3). Iz podatkov je razvidno, da se je 96,7 % anketirancev že srečalo s podatki
s strani naprav, 79,3 % pa s podatki, generiranimi s strani človeka. Anketiranci so prav
tako večkrat izbrali, da so se srečali s podatki iz notranjih virov organizacije (97,8 %) kot
pa podatkov iz zunanjih virov organizacije (47,8 %). Vsi anketiranci (100 %) so izbrali
vsaj eno od možnih strukturiranih podatkov, polovica pa je izbrala vsaj eno možnost,
povezano z nestrukturiranimi podatki.
Tabela 5: Raznolikost podatkov glede na dimenzijo (n = 92)
Dimenzija Delež (v %)
Podatki, generirani s strani naprav 96,7 %
Podatki, generirani s strani človeka 79,3 %
Notranji viri 97,8 %
Zunanji viri 47,8 %
Strukturirani podatki 100,0 %
Nestrukturirani podatki 50,0 %
Na podlagi vzorčnih podatkov in Cochran Q preizkusa so razlike med odstotki posameznih
dimenzij raznolikosti podatkov statistično značilne pri zanemarljivo majhni stopnji
značilnosti (Priloga 10). Sklepam lahko, da so se anketiranci največkrat srečali s
strukturiranimi podatki v primerjavi z nestrukturiranimi, s podatki iz notranjih virov v
primerjavi iz zunanjimi ter podatki, generiranimi s strani naprav v primerjavi s podatki,
generiranimi s strani človeka.
Anketirance sem na podlagi frekvenc izbranih dimenzij podatkov razvrstila v skupine
glede na to, s katero dimenzijo podatkov so označili, da so se že srečali (Slika 28).
Največ anketirancev (31,5 %) se je že srečalo z vsemi dimenzijami raznolikosti
podatkov.
Sledijo anketiranci (20,7 %), ki so se srečali le s strukturiranimi, notranjimi podatki,
generiranimi s strani naprav. Zelo verjetno gre za »klasične« podatkovne analitike, ki
analize pripravljajo na strukturiranih podatkih, generiranih s strani naprav, ki jih črpajo
iz notranjih virov organizacije. Njihov delež v vzorcu je predstavljal eno petino vseh
udeležencev.
16,3 % anketirancev se je srečalo samo z notranjimi podatki (strukturiranimi in
nestrukturiranimi, generiranimi s strani naprav in človeka). Gre verjetno za »moderne«
96
podatkovne analitike, ki v svoje analize skušajo vključiti čim več podatkov iz notranjih
virov. Zanimivo je, da kombinirajo strukturirane in nestrukturirane podatke.
14,1 % se je srečalo samo s strukturiranimi podatki (zunanjimi in notranjimi,
generiranimi s strani naprav in človeka). Ta segment je zanimiv z vidika tega, da skuša
kombinirati strukturirane podatke iz notranjih virov s podatki iz zunanjih virov ne
glede na to, ali so generirani s strani naprav ali človeka. Še vedno pa gre za
podatkovnega analitika, saj se ukvarja le s strukturiranimi podatki, vendar podatke
pridobiva tudi iz zunanjih virov.
12 % anketirancev se je srečalo s strukturiranimi, notranjimi podatki (generiranimi s
strani človeka in naprav). Zelo verjetno gre za trženjske raziskovalce ali podatkovne
analitike, ki podatke iz raziskav kombinirajo s podatki, generiranimi s strani naprav iz
notranjih virov organizacije.
3,3 % anketirancev se je srečalo samo s strukturiranimi podatki iz notranjih virov,
generiranimi s strani človeka. Ta segment pa predstavlja »klasične« trženjske
raziskovalce, ki se srečujejo s strukturiranimi podatki, pridobljenimi iz raziskav.
2,2 % anketirancev se je srečalo samo z zunanjimi podatki (strukturiranimi in
nestrukturiranimi, generiranimi s strani naprav in človeka). Segment je zanimiv z
vidika tega, da gre za posameznike, ki strukturirane in nestrukturirane podatke
pridobivajo samo iz zunanjih virov ne glede na to, ali so generirani s strani naprav ali
človeka.
Slika 28: Razvrščanje anketirancev glede na izbrano raznolikost podatkov (n = 92)
97
4.2.1.3 Hitrost podatkov
47,8 % anketirancev je označilo, da so se že kdaj ukvarjali s podatki v realnem času (angl.
real time, streaming data), 47,8 % jih je označilo, da se še niso, 4,3 % pa jih je izbralo
opcijo »ne vem«. Delež takšnih, ki so se ukvarjali s podatki v realnem času, je torej enak
deležu takšnim, ki se še niso.
4.2.1.4 Vrednost podatkov
82,6 % anketiranih je kot najbolj otipljivo korist, ki jo dosegajo preko dela s podatki,
izbralo možnost boljšega odločanja na podlagi dejstev. Sledi izboljšanje izkušnje
potrošnika/uporabnika oziroma boljše razumevanje potrošnika (72,8 %). Bolj učinkovito
izvajanje procesov, načina dela, operacij ter povečanje prodaje/prihodkov sta dobili enako
število odgovorov (66,3 %). Sledi boljša kakovost izdelkov in storitev z 59,8 % in
zmanjšanje tveganja z 51,1 %. Najmanjkrat so anketiranci kot otipljivo korist izbrali
inovacije na področju izdelkov in storitev (39,1 %). 2 anketiranca (2,2 %) sta izbrala opcijo
drugo, pod katero je eden od njih navedel zaznavanje trendov.
Slika 29: Vrednost podatkov (n = 92)
Na podlagi vzorčnih podatkov in Cochran Q preizkusa so razlike med odstotki posameznih
možnosti izbranih otipljivih koristi statistično značilne pri zanemarljivo majhni stopnji
značilnosti (Priloga 10). Sklepam lahko, da so anketiranci najpogosteje kot otipljivo korist
dela s podatki izbrali boljše odločanje na podlagi dejstev.
98
4.2.2 Samoocena znanj
Anketiranci so pri 5. vprašanju ocenjevali svojo stopnjo znanja iz različnih področij znanj.
Pri tem je bila uporabljena intervalna lestvica od 1 – Ne poznam (ne uporabljam/ne ustreza
mojemu področju dela), 2 – Osnovno poznavanje (osnovno znanje, fokus je na
izobraževanju), 3 – Začetnik (znanje pripravnika, fokus je na pridobivanju izkušenj na
praktičnih primerih), 4 – Srednji nivo (samostojna kompetentna uporaba, fokus je na
izboljšanju znanja) do 5 – Napredni nivo (poglobljena znanja in kompetence, fokus je na
reševanju strokovnih problemov). Glede na to, da je določeno področje znanj lahko
pokrivalo več različnih znanj, aktivnosti, metod, so bili anketiranci naprošeni, da tudi v
primeru, da ne poznajo vseh znanj, naštetih znotraj določenega področja, ocenjujejo
tistega, ki ga poznajo ali uporabljajo. Za lažje razumevanje posameznega področja znanj je
bil kratek opis posameznega področja podan ob prehodu miške, čez besedilo znanja. Na to
vprašanje je odgovorilo od 87 do 91 anketirancev.
Prikaz frekvenčnih porazdelitev je prikazan v prilogi 5. Izmed vseh znanj so anketiranci
najbolj pogosto (modus), z najvišjo oceno (5 – Napredni nivo), ocenili: poizvedbeni jezik
SQL (45 %), Sistemi baz podatkov – relacijske baze podatkov (RDBMS): DB2, mySQL,
SQL Server ipd. (30 %), Opisna statistika in verjetnostne porazdelitve (29 %), Regresijska
analiza (30 %) in Statistično preizkušanje domnev (26 %).Z oceno 4 – Srednji nivo so
anketiranci najpogosteje (modus) ocenili Poslovna znanja (finance, trženje, logistika,
razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje) z 41 %, Oblikovanje
informacij (vizualizacija) z 37 %, Specifična znanja iz posameznega področja, dejavnosti
ali domene, iz katere izhaja problem z 40 %, Management podatkov z 35 % ter Linearna
algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov, manipulacija
matrik z 29 %. Znanstveno metodo so najpogosteje (28 %) ocenili z oceno 3 – Srednji
nivo. Več najpogosteje izbranih ocen se je pojavilo pri dveh področjih znanj. Pri znanjih,
povezanih z Delno strukturiranimi podatki: XML, .JSON je 24 % anketirancev izbralo
možnost 1 – Ne poznam ter 24 % oceno 4 – Napredni nivo. Podobno razhajanje je bilo tudi
pri Znanju programskih jezikov, npr. R, Python, SAS, Julija, Scala, Stata idr., kjer je 23 %
anketirancev izbralo 1 – Ne poznam in 23 % oceno 4 – Napredni nivo. Vsa ostala
navedena znanja so najbolj pogosto (modus) ocenili z najnižjo oceno (1 – Ne poznam). Če
omenim le tista, kjer je več kot polovica anketirancev izbrala opcijo (1 – Ne poznam):
Metodologije npr. CRISP-DM, SEMMA, DMAIC (63 %), Nagrajevalno učenje (63 %),
Obdelava naravnega jezika (59 %), Masovni in distribuirani podatki (Hadoop, MapReduce,
HiveQL) (57 %), Sistemi baz podatkov NoSQL (57 %), Poglobljeno učenje (57 %),
Prostorska statistika (52 %) in Nenadzorovano učenje (51 %).
Iz pregleda povprečnih ocen samoocene znanj (Slika 30) je razvidno, da imajo anketiranci
nadpovprečna znanja iz naslednjih področij (na podlagi povprečnih ocen samoocene znanj
je t-test pokazal statistično značilne razlike od ocene 3 – Začetnik pri zanemarljivi stopnji
značilnosti, Priloga 10): Poizvedbeni jezik SQL (3,7), Poslovna znanja (3,66), Oblikovanje
99
informacij (3,57), Specifična znanja iz posameznega področja, dejavnosti ali domene, iz
katere izhaja problem (3,48), Sistemi baz podatkov – relacijske baze podatkov (3,46),
opisna statistika in verjetnostne porazdelitve (3,46), Management podatkov (3,30; P =
0,015) ter Regresijska analiza (3,30; P = 0,03).
Slika 30: Povprečne ocene samoocene znanj (n = 87–91)
Povprečne ocene samoocen znanj iz področij Znanstvena metoda, Statistično preizkušanje
domnev, Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik, Redukcija dimenzij, Znanja programskih jezikov, npr. R, Python,
SAS, Julia, Scala, Strata idr. ter Delo z delno strukturiranimi podatki .XML, .JSON na
podlagi t-testa (Priloga 10) niso pokazale statistično značilnih razlik od ocene 3 – Začetnik
100
pri stopnji značilnosti α = 0,05. Pri ostalih znanjih je t-test (Priloga 10) pokazal statistično
značilne razlike od ocene 3 – Začetnik pri zanemarljivi stopnji značilnosti, kar pomeni, da
so anketiranci vsa ostala znanja v povprečju ocenili slabše od 3 – Začetnik.
4.2.3 Pomembnost znanj
Anketiranci so pri 5. vprašanju ocenjevali tudi stopnjo pomembnosti iz različnih področij
znanj. Pri tem je bila uporabljena intervalna lestvica od 1 – Sploh ni pomembno do 5 –
Zelo je pomembno. Glede na to, da je določeno področje znanj lahko pokrivalo več
različnih znanj, aktivnosti, metod, so bili anketiranci naprošeni, da tudi v primeru, da ne
poznajo vseh znanj, naštetih znotraj določenega področja, ocenjujejo tistega, ki ga poznajo
ali uporabljajo. Za lažje razumevanje posameznega področja znanj je bil kratek opis
posameznega področja podan ob prehodu miške, čez besedilo znanja. Na to vprašanje je
odgovorilo od 84 do 91 anketirancev. Prikaz frekvenčnih porazdelitev je prikazan v prilogi
5. Izmed vseh znanj so anketiranci najbolj pogosto (modus), z najvišjo oceno (5 – Zelo je
pomembno), ocenili: Poslovna znanja (finance, trženje, logistika, razvoj izdelka,
poznavanje organizacije, trženjsko raziskovanje) z 42 %, Poizvedbeni jezik SQL z 43 %,
Specifična znanja iz posameznega področja, dejavnosti ali domene, iz katere izhaja
problem z 36 %, Sistemi baz podatkov – relacijske baze podatkov (RDBMS) z 32 %,
Opisna statistika in verjetnostne porazdelitve z 29 % ter Znanstvena metoda z 26 %. Z
oceno 4 so anketiranci najpogosteje (modus) ocenili Oblikovanje informacij (vizualizacija)
z 35 % ter Management podatkov z 29 %.Vsa ostala navedena znanja so najbolj pogosto
(modus) ocenili z najnižjo oceno (1 – Sploh ni pomembno). Če omenim le tista, kjer je več
kot polovica anketirancev izbrala opcijo (1 – Sploh ni pomembno): Sistemi baz podatkov
NoSQL (63 %), Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) (60 %),
Poglobljeno učenje (60 %), Metodologije, npr. CRISP-DM, SEMMA, DMAIC (56 %),
Obdelava naravnega jezika (NLP) (56 %), Nadzorovano učenje (53 %) in Nagrajevalno
učenje (59 %).
Iz pregleda povprečnih ocen pomembnosti znanj je razvidno, da so anketiranci kot
nadpovprečno pomembna označili naslednja znanja (na podlagi povprečnih ocen
pomembnosti znanj je t-test pokazal statistično značilne razlike od ocene 3, pri
zanemarljivi stopnji značilnosti, Priloga 10): Poslovna znanja (3,83), Oblikovanje
informacij (3,72), Specifična znanja iz posameznega področja, dejavnosti ali domene, iz
katere izhaja problem (3,64), Poizvedbeni jezik SQL (3,59), Sistemi baz podatkov –
relacijske baze podatkov (3,52), Management podatkov (3,47) ter Opisna statistika in
verjetnostne porazdelitve (3,31; P = 0,04).
Povprečne ocene pomembnosti znanj iz področij Znanstvena metoda, Statistično
preizkušanje domnev, Regresijska analiza, Znanje programskih jezikov, npr. R, Python,
SAS, Julia, Scala, Stata idr. in Redukcija dimenzij na podlagi t-testa (Priloga 10) niso
pokazale statistično značilnih razlik od ocene 3 pri stopnji značilnosti α = 0,05. Pri ostalih
101
znanjih je t-test (Priloga 10) pokazal statistično značilne razlike od ocene 3 pri
zanemarljivi stopnji značilnosti, kar pomeni, da so anketiranci vsa ostala znanja v
povprečju ocenili kot manj pomembna.
Slika 31: Povprečne ocene pomembnosti znanj (n = 84–91)
4.2.4 Pomembnost sposobnosti
Anketiranci so pri 6. vprašanju ocenjevali stopnjo pomembnosti različnih sposobnosti. Pri
tem je bila uporabljena intervalna lestvica od 1 – Sploh ni pomembno do 5 – Zelo je
pomembno. Na to vprašanje je odgovorilo od 90 do 92 anketirancev.
102
Prikaz frekvenčnih porazdelitev je prikazan v prilogi 5. Izmed vseh sposobnosti so
anketiranci najbolj pogosto (modus), z najvišjo oceno (5 – Zelo je pomembno), ocenili:
»Postavljati prava vprašanja, definirati problem« (74 %), »Sposobnost reševanja
problemov« (67 %), »Analitične sposobnosti« (67 %), »Strast do učenja novih stvari« (56
%), »Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij)« (50 %), »Strast
do dela s podatki« (52 %), »Biti potrpežljiv in vztrajen« (47 %), »Imeti sposobnost
kreativnega mišljenja« (46 %), »Nameniti pozornost kakovosti« (41 %), »Imeti sposobnost
timskega dela« (41 %), »Strateško razmišljati in načrtovati« (38 %), »Spoštovati zakone in
predpise« (40 %) ter »Biti moralen in etičen« (41 %). Z oceno 4 so anketiranci
najpogosteje (modus) ocenili »Pogum in samozavest zagovarjati svoje ugotovitve,
odločitve« (45 %), »Imeti dobre komunikacijske sposobnosti« (45 %), »Sposobnost
sprejemanja odločitev« (37 %), »Sposobnost pripovedovanja zgodbe na podlagi dejstev«
(34 %), »Sposobnost vodenja projektov« (36 %), »Voditeljske sposobnosti – imeti
sposobnost motiviranja in navduševanja drugih« (30 %) ter »Občutek za umetnost in
prakso vizualizacije« (32 %). Z oceno pomembnosti 3 pa so anketiranci najpogosteje
ocenili le sposobnost »Podjetniška naravnanost, imeti poslovni čut« (32 %).
Slika 32: Povprečne ocene pomembnosti sposobnosti (n = 90–92)
103
Iz pregleda povprečnih ocen pomembnosti sposobnosti je razvidno, da so anketiranci kot
nadpovprečno pomembne označili vse navedene sposobnosti (na podlagi povprečnih ocen
pomembnosti sposobnosti je t-test pokazal statistično značilne razlike od ocene 3, pri
zanemarljivi stopnji značilnosti, Priloga 10). Povprečna ocena pomembnosti sposobnosti
»Podjetniška naravnanost, imeti poslovni čut« na podlagi t-testa (Priloga 10) ni pokazal
statistično značilnih razlik od ocene 3 pri stopnji značilnosti α = 0,05. To pomeni, da ne
morem trditi, da so anketiranci v povprečju to sposobnost označili kot pomembno. Pri
ostalih znanjih je t-test (Priloga 10) pokazal statistično značilne razlike od ocene 3 pri
zanemarljivi stopnji značilnosti, kar pomeni, da so anketiranci vse ostale sposobnosti v
povprečju ocenili kot podpovprečno pomembne.
4.2.5 Pretekle izkušnje in izobraževanje
Anketiranci so izmed vseh naštetih dejavnosti, s katerimi so osebno že imeli izkušnje v
preteklosti, najpogosteje izbrali, da so opravljali pogodbena in/ali svetovalna dela iz
področja znanj in sposobnosti (74,2 %). 70,8 % anketirancev je imelo izkušnje s predavanji
na izobraževalni ustanovi ali predstavitvami na konferenci (70,8%). 66,3 % anketirancev je
že kdaj prostovoljno sodelovalo/svetovalo na različnih projektih. Malo manj kot 60 %
anketirancev je že imelo vodstveno pozicijo. 42,7 % jih je svoje delo objavilo v
zborniku/knjigi/časopisu ali drugi publikaciji, 34,8 % jih je že odprlo svojo organizacijo ali
pa so sodelovali kot sodelavec/partner pri ustanovitvi organizacije. 24,7 % jih ima svojo
spletno stran ali piše blog.
Slika 33: Izkušnje (n = 89)
104
Največ anketirancev (92,4 %) je kot način pridobivanja znanj in sposobnosti iz svojega
področja dela označilo formalno izobrazbo. 85,9 % anketirancev znanja in sposobnosti
pridobiva na konferencah, 72,8 % pa se jih je že udeležilo delavnice ali tečaja s
pridobitvijo certifikata. Več kot polovica anketirancev (57,6 %) je že sodelovala na
masovnem odprtem spletnem tečaju (npr. Coursera, Udemy ipd.), malo manj kot polovica
(46,7 %) pa že ima izkušnje z delom na »odprtih podatkih« (angl. open data). 37 %
anketirancev sodeluje v družabnih skupinah in srečanjih, 36 % ima izkušnje z
mentorstvom, 18,5 % pa s pripravništvom. 13 % se jih je že udeležilo natečaja/tekmovanja
na spletnem portalu Kaggle.com. Anketiranec je pod drugo zapisal še pridobivanje znanj in
sposobnosti preko službenih obveznosti.
Slika 34: Izobraževanje (n = 92)
V sklopu četrtega raziskovalnega vprašanja sem skušala na podlagi podatkov, pridobljenih
v raziskavi, ugotoviti, ali lahko identificiram homogene skupine podatkovnih
znanstvenikov v Sloveniji. Odločila sem se narediti dve razvrščanji v skupine na podlagi
dveh različnih sklopov segmentacijskih spremenljivk. Kot osnovo za prvo razvrščanje
posameznikov v skupine sem vključila spremenljivke iz vprašalnika, povezane s
samooceno znanj. Kot osnovo za drugo razvrščanje posameznikov v skupine, pa sem
vključila spremenljivke iz vprašalnika, povezane z oceno pomembnosti znanj in
sposobnosti. Na ta način bo možna primerjava med rezultati obeh razvrščanj v skupine. V
nadaljevanju predstavljam rezultate obeh razvrščanj v skupine.
105
4.3 Razvrščanje v skupine
4.3.1 Razvrščanje na podlagi samoocene znanj
Pri prvem razvrščanju sem kot relevantne spremenljivke vzela odgovore na vprašanja,
povezana s samooceno znanj. Udeleženci so pri 5. vprašanju ocenjevali svojo stopnjo
znanja iz različnih področij znanj. Pri tem je bila uporabljena intervalna lestvica od 1 – Ne
poznam (ne uporabljam/ne ustreza mojemu področju dela), 2 – Osnovno poznavanje
(osnovno znanje, fokus je na izobraževanju), 3 – Začetnik (znanje pripravnika, fokus je na
pridobivanju izkušenj na praktičnih primerih), 4 – Srednji nivo (samostojna kompetentna
uporaba, fokus je na izboljšanju znanja) do 5 – Napredni nivo (poglobljena znanja in
kompetence, fokus je na reševanju strokovnih problemov).
Pred pričetkom procesa razvrščanja sem najprej preverila, ali med spremenljivkami obstaja
bistvena kolinearnost. Pri preverjanju korelacij med spremenljivkami sem ugotovila, da sta
edini spremenljivki, ki visoko korelirata med seboj Nadzorovano strojno učenje in
Nenadzorovano strojno učenje (Pearsonov korelacijski koeficient = 0,924). Korelacija med
vsemi ostalimi spremenljivkami je bila manjša kot 0,9. Zaradi navedenega sem se odločila
iz nadaljnje analize izpustiti spremenljivko Nenadzorovano učenje. Preostale
spremenljivke (30) so še vedno predstavljale dobro osnovo za razvrščanje v skupine.
V naslednjem koraku sem izračunala Cronbach alpha za preverbo notranje konsistentnosti.
Cronbach alpha za 30 spremenljivk in velikost vzorca n = 83 (toliko udeležencev je v
celoti odgovorilo na vsa vprašanja, povezana s samooceno znanj) je znašal 0,931, kar
pomeni visoko stopnjo notranje konsistentnosti za spremenljivke, merjene na tej lestvici in
ta specifični vzorec. Ker je šlo za majhen vzorec in ker končnega števila skupin nisem
poznala vnaprej, sem se najprej odločila za izvedbo hierarhičnega razvrščanja v skupine.
Kot mero podobnosti oziroma različnosti med skupinami sem izbrala kvadratno evklidsko
razdaljo s standardiziranimi spremenljivkami. Za metodo razvrščanja v skupine sem
izbrala Wardovo metodo, saj sem pričakovala enako velike skupine.
Na podlagi hierarhičnega razvrščanja v skupine, pregleda dendograma in izračuna VRC
Calinski in Harabasz (Priloga 6 in Priloga 8) sem se odločila za nadaljevanje analize z
razvrstitvijo v 4 ali 5 skupin. V naslednjem koraku sem izvedla nehierarhično razvrščanje v
4 in 5 skupin s K-means algoritmom. Pri uporabi K-means algoritma sem kot izhodiščne
centroide upoštevala povprečne ocene (centroide), pridobljene iz hierarhičnega razvrščanja
v 4 in 5 skupin. Na podlagi kvalitativne primerjave razvrščanja v 4 in 5 skupin (Priloga 8)
lahko sklepam, da je razvrščanje v 5 skupin identificiralo določeno podmnožico enot
znotraj skupine C1 pri razvrščanju v 4 skupine, ki predstavlja drugačen in zanimiv nabor
znanj, kot skupina C2 pri razvrščanju v 5 skupin. Z razvrstitvijo v 5 skupin se tudi zmanjša
variabilnost znotraj skupin, vendar se na ta račun poveča število osamelcev v skupini C2.
Zaradi vsega navedenega sem se odločila, da je najbolj primerna razvrstitev v 5 skupin.
106
4.3.2 Razvrščanje na podlagi pomembnosti znanj in sposobnosti
Pri drugem razvrščanju sem kot relevantne spremenljivke vzela odgovore na vprašanja,
povezana s pomembnostjo znanj in sposobnosti. Udeleženci so pri 5. in 6. vprašanju
ocenjevali stopnjo pomembnosti znanja iz različnih področij znanj in pomembnost
sposobnosti pri njihovem delu. Pri tem je bila uporabljena intervalna lestvica od 1 – Sploh
ni pomembno do 5 – Zelo je pomembno.
Pred pričetkom procesa razvrščanja sem najprej preverila, ali med spremenljivkami obstaja
bistvena kolinearnost. Pri preverjanju korelacij med spremenljivkami sem ugotovila, da sta
edini spremenljivki, ki visoko korelirata med seboj, Nadzorovano strojno učenje in
Nenadzorovano strojno učenje (Pearsonov korelacijski koeficient = 0,940). Korelacija med
vsemi ostalimi spremenljivkami je bila manjša kot 0,9. Zaradi navedenega sem se odločila
iz nadaljnje analize izpustiti spremenljivko Nenadzorovano učenje. Preostale
spremenljivke (51) so še vedno predstavljale dobro osnovo za razvrščanje v skupine. V
naslednjem koraku sem izračunala Cronbach alpha za preverbo notranje konsistentnosti.
Cronbach alpha za 51 spremenljivk in velikost vzorca n = 68 (toliko udeležencev je v
celoti odgovorilo na vsa vprašanja, povezana s pomembnostjo znanj in sposobnosti) je
znašal 0,919, kar pomeni visoko stopnjo notranje konsistentnosti za spremenljivke,
merjene na tej lestvici in ta specifični vzorec.
Ker je šlo za majhen vzorec in ker končnega števila skupin nisem poznala vnaprej, sem se
najprej odločila za izvedbo hierarhičnega razvrščanja v skupine. Kot mero podobnosti
oziroma različnosti med skupinami sem izbrala kvadratno evklidsko razdaljo s
standardiziranimi spremenljivkami. Za metodo razvrščanja v skupine sem izbrala Wardovo
metodo, saj sem pričakovala enako velike skupine. Na podlagi hierarhičnega razvrščanja v
skupine, pregleda dendograma in izračuna VRC Calinski in Harabasz (Priloga 7 in Priloga
9) sem odločila za nadaljevanje analize z razvrstitvijo v 3, 4 ali 5 skupin. V naslednjem
koraku sem izvedla nehierarhično razvrščanje v 3, 4 in 5 skupin s K-means algoritmom. Pri
uporabi K-means algoritma sem kot izhodiščne centroide upoštevala povprečne ocene
(centroide), pridobljene iz hierarhičnega razvrščanja v 3, 4 in 5 skupin. Na podlagi
kvalitativne primerjave razvrščanja v 3, 4 in 5 skupin (Priloga 9) lahko sklepam, da je
razvrščanje v 5 skupin identificiralo določeno podmnožico enot znotraj skupine C1 pri
razvrščanju v 4 skupine, ki predstavlja drugačen in zanimiv nabor znanj. Razvrstitev v 3
skupine sicer da ustrezno rešitev, vendar je interpretacija zaradi majhnega števila
segmentov slabša. Z razvrstitvijo v 5 skupin bo mogoča tudi primerjava s skupinami,
pridobljenimi na podlagi samoocene znanj. Zaradi vsega navedenega sem se odločila, da je
najbolj primerna razvrstitev v 5 skupin.
107
4.4 Diskusija
Na podlagi vzorčnih podatkov in rezultatov analize podatkov v nadaljevanju predstavljam
ugotovitve po posameznih raziskovalnih vprašanjih.
1. Ali se podatkovni znanstveniki v Sloveniji ukvarjajo z masovnimi podatki in kako
se to zrcali skozi različne dimenzije masovnih podatkov?
Z namenom odgovoriti na zastavljeno raziskovalno vprašanje sem rezultate, pridobljene iz
raziskave v Sloveniji glede različnih dimenzij masovnih podatkov, primerjala z rezultati
raziskav, predstavljenih v prvem poglavju.
Na podlagi rezultatov raziskave KDnuggets.com (poglavje 1.4) glede največjega
obdelanega nabora podatkov po geografskih področjih največji delež posameznikov, ki
obdeluje podatke v TB ali PB, prihaja iz Združenih držav Amerike in Kanade (26,6 %).
Evropa je na četrtem mestu z 20,7 % posameznikov, ki so obdelali TB podatkov ali več. V
Evropi so drugače kot največji obdelan nabor podatkov največkrat (60 %) izbrali podatke v
velikosti GB, manj kot 20 % pa jih obdeluje podatke velikosti MB. Na podlagi raziskave
KDNuggets.com sklepam, da bodo rezultati za Slovenijo podobni – torej, udeleženci bodo
največkrat izbrali za največji obdelani obseg podatkov GB. Rezultati iz raziskave v
Sloveniji so pokazali, da je približno 25 % udeležencev kot največji volumen podatkov, s
katerim so se ukvarjali, izbralo TB ali PB, kar je v primerjavi z raziskavo KDnuggets.com
bolj na ravni Združenih držav Amerike in Kanade. Udeleženci raziskave v Sloveniji so kot
največji volumen podatkov največkrat (44,6 %) izbrali podatke od 1 GB do 2023 GB.
Rezultat je sicer nižji kot delež v raziskavi Kdnuggets.com, vendar še vedno lahko
sprejmemo sklep, da se udeleženci raziskave v Sloveniji največ ukvarjajo z obdelavo
podatkov velikosti GB (hi-kvadrat preizkus za porazdelitev je pokazal statistično značilne
razlike med dejanskimi in pričakovanimi frekvencami pri vprašanju glede največje
obdelane količine podatkov, pri zanemarljivo majhni stopnji značilnosti, Priloga 10).
Na podlagi raziskave The Emerging Big Returns on Big Data (2015, str. 19) so ugotovili,
da je v organizacijah v Evropi povprečno ocenjen % strukturiranih podatkov 50 %, delno
strukturiranih je 25 % ter 25 % nestrukturiranih podatkov. Povprečno ocenjen %
nestrukturiranih podatkov je najvišji v azijsko-pacifiški regiji, kjer znaša 34 %. Pričakovala
sem, da bo raziskava v Sloveniji pokazala podobne rezultate, in sicer, da se bo približno 25
% udeležencev že ukvarjalo z nestrukturiranimi podatki. Rezultati obeh raziskav sicer niso
v celoti primerljivi, saj so v raziskavi The Emerging Big Returns on Big Data (2015)
spraševali po stanju strukturiranih/nestrukturiranih podatkov v organizacijah, v raziskavi v
Sloveniji pa se je spraševalo posameznike glede tega, ali so se že srečali z različnimi tipi
podatkov. Vseeno sem raziskavo The Emerging Big Returns on Big Data (2015) uporabila
kot možno primerjavo stanja uporabe nestrukturiranih podatkov. S pomočjo rezultatov
raziskave v Sloveniji sem dobila vpogled v trenutno stanje uporabe nestrukturiranih
108
podatkov. Rezultati so pokazali, da se je 100 % udeležencev že ukvarjalo s strukturiranimi
podatki, kar je pričakovano, saj so v raziskavi sodelovali posamezniki, ki se ukvarjajo s
podatki. Bolj zanimiv je podatek, da se je 50 % udeležencev raziskave že ukvarjalo z
nestrukturiranimi podatki, kar je višje kot pričakovano. Kot nestrukturirani podatki so se
upoštevali vsi nestrukturirani podatki (besedilo, avdio, video, slike), generirani s strani
človeka.
Na podlagi raziskave The Emerging Big Returns on Big Data (2015, str. 20) so ugotovili,
da je v organizacijah v Evropi povprečno ocenjen % podatkov, pridobljenih iz notranjih
virov, 68 % ter iz zunanjih virov 32 %. Povprečno ocenjen % podatkov, pridobljenih iz
zunanjih virov, je najvišji v azijsko-pacifiški regiji, kjer znaša 38 %. Pričakovala sem, da
bo raziskava v Sloveniji pokazala podobne rezultate, in sicer, da se bo približno 32 %
udeležencev že ukvarjalo s podatki iz zunanjih virov. Rezultati obeh raziskav sicer niso v
celoti primerljivi, saj so v raziskavi The Emerging Big Returns on Big Data (2015)
spraševali po stanju podatkov iz zunanjih in notranjih virov v organizacijah, v raziskavi v
Sloveniji pa sem spraševala posameznike glede tega, ali so se že srečali z različnimi tipi
podatkov. Vseeno sem raziskavo The Emerging Big Returns on Big Data (2015) uporabila
kot možno primerjavo stanja uporabe podatkov iz zunanjih virov. S pomočjo rezultatov
raziskave v Sloveniji sem dobila vpogled v trenutno stanje uporabe podatkov iz zunanjih
virov. Rezultati so pokazali, da se je 97,8 % udeležencev že ukvarjalo s podatki iz
notranjih virov, kar je pričakovano, saj so v raziskavi sodelovali posamezniki, ki se
ukvarjajo s podatki, ki večinoma izvirajo iz notranjih virov organizacije. Zanimivo je, da
obstaja določen % posameznikov (2,2 %), ki se ukvarja s podatki izključno iz zunanjih
virov. S podatki iz zunanjih virov pa se je srečalo že skoraj 48 % udeležencev raziskave,
kar je višje kot pričakovano. Razlog za razliko v primerjavi z raziskavo, izvedeno v tujini,
je lahko tudi izbor in velikost vzorca, vključenega v raziskavo v Sloveniji. Kot podatki iz
zunanjih virov so se upoštevali vsi strukturirani in nestrukturirani podatki (besedilo, avdio,
video, slike), generirani s strani človeka ali naprave, ki so pridobljeni iz zunanjih virov
organizacije.
Na podlagi raziskave TDWI Big Data Analytics (Russom, 2011, str. 19) se 4 % analiz v
organizacijah opravlja, izvaja ali ponovno izvaja v realnem času, 4 % na nivoju ure, 5 %
vsake nekaj ur, 24 % dnevno, 14 % tedensko, 35 % mesečno ter 15 % letno. Na podlagi
raziskave sklepam, da se bo 4 % udeležencev že srečalo z obdelavo podatkov v realnem
času. Delež udeležencev, ki so v raziskavi v Sloveniji označili, da so se že ukvarjali s
podatki v realnem času je bil 47,8 %, kar je nad pričakovanji. Vseeno je pred primerjavo
podatkov med raziskavama potrebno upoštevati, da je šlo za drugačen vzorec in da obstaja
možnost, da so udeleženci raziskave v Sloveniji neustrezno razumeli definicijo podatkov v
realnem času, kar predstavlja tudi pomembno omejitev raziskave.
Na podlagi raziskave Big Data Executive Survey (2012, str. 5) organizacije uporabljajo
masovne podatke za širok nabor namenov. Med dve najbolj izpostavljeni prednosti
109
uporabe masovnih podatkov so največkrat izbrali boljše odločanje na podlagi dejstev (22
%) ter izboljšanje izkušnje potrošnika/uporabnika (22 %). Sledi povečanje
prodaje/prihodkov (15 %), inovacije na področju izdelkov in storitev (11 %), zmanjšanje
tveganja (11 %), boljša kakovost izdelkov in storitev (10 %) ter bolj učinkovito izvajanje
procesov (10 %). Rezultati raziskave v Sloveniji so pokazali, da so udeleženci raziskave
kot glavno otipljivo korist, ki jo dosegajo preko dela s podatki, prav tako izbrali boljše
odločanje na podlagi dejstev (82,6 %). Sledi izboljšanje izkušnje potrošnika/uporabnika
oziroma boljše razumevanje potrošnika (72,2 %), kar se ujema z rezultati iz zgornje
raziskave. Razlike se pojavijo šele pri ostalih koristih, saj so udeleženci v Sloveniji kot
tretjo najbolj otipljivo korist izbrali bolj učinkovito izvajanje procesov, načina dela,
operacij (66,3 %) in povečanje prodaje/prihodkov (66,3 %), medtem ko se je možnost bolj
učinkovito izvajanje procesov v zgornji raziskavi pojavilo šele na zadnjih mestih. V
Sloveniji so najmanjkrat izbrali inovacije na področju izdelkov in storitev (39,1 %),
medtem ko je ta opcija v zgornji raziskavi bila med prvimi štirimi.
Na podlagi rezultatov raziskave v Sloveniji in primerjave rezultatov z drugimi raziskavami
sklepam, da se posamezniki v Sloveniji z vidika volumna, raznolikosti in vrednosti
podatkov dejansko ukvarjajo z masovnimi podatki. Zaradi možnosti nerazumevanja
vprašanja glede dimenzije hitrosti masovnih podatkov ne morem sklepati, da je tudi ta
dimenzija ustrezno zastopana v Sloveniji.
2. Katera znanja in sposobnosti so pomembna pri delu podatkovnega znanstvenika v
Sloveniji?
Na podlagi vzorčnih podatkov iz raziskave v Sloveniji in rezultatov preizkusa o aritmetični
sredini (t-test, testna vrednost = 3, Priloga 10) za vsako povprečno oceno pomembnosti
posameznega področja znanj so rezultati pokazali, da so bile razlike statistično značilne
(pri zanemarljivo majhni stopnji značilnosti) pri naslednjih področjih znanj z najvišjo
povprečno oceno pomembnosti:
Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije
(povprečna ocena pomembnosti 3,83).
Oblikovanje informacij (vizualizacija) (povprečna ocena pomembnosti 3,72).
Specifična znanja iz posameznega področja, dejavnosti ali domene, iz katere izhaja
problem (povprečna ocena pomembnosti 3,64).
Poizvedbeni jezik SQL (povprečna ocena pomembnosti 3,59).
Sistemi baz podatkov – relacijske baze podatkov (RDBMS): DB2, mySQL, SQL
Server idr. (povprečna ocena pomembnosti 3,52).
Management podatkov (povprečna ocena pomembnosti 3,47).
Opisna statistika in verjetnostne porazdelitve (povprečna ocena pomembnosti 3,31).
110
V sklopu najnižjih povprečnih ocen pomembnosti znanj pa (navedenih je 6 področij z
najnižjo povprečno samooceno):
Metodologije, npr. CRISP-DM, SEMMA, DMAIC (povprečna ocena pomembnosti
1,94).
Obdelava naravnega jezika (NLP) (povprečna ocena pomembnosti 1,93).
Masovni in distribuirani podatki (povprečna ocena pomembnosti 1,89).
Sistemi baz podatkov – NoSQL baze podatkov (povprečna ocena pomembnosti 1,80).
Poglobljeno učenje (povprečna ocena pomembnosti 1,74).
Nagrajevalno učenje (povprečna ocena pomembnosti 1,73).
Na podlagi vzorčnih podatkov in rezultatov preizkusa o aritmetični sredini (t-test; testna
vrednost = 3; Priloga 10) za vsako povprečno oceno pomembnosti sposobnosti so
rezultati pokazali, da so bile statistično značilne razlike (pri zanemarljivo majhni stopnji
značilnosti) pri vseh navedenih sposobnostih, razen pri sposobnosti »Podjetniška
naravnanost, imeti poslovni čut«, kjer razlika ni bila statistično značilna pri stopnji
značilnosti α = 0,05.
Sklepam torej, da so zgoraj navedena znanja in vse sposobnosti, razen »podjetniške
naravnanosti«, bila s strani anketirancev ocenjena kot pomembna pri njihovem delu in
pomembno vplivajo na uspešnost njihovega dela. Zanimivo je, da so v sklopu
posameznikov, ki se večino svojega časa ukvarjajo s podatki, med najbolj pomembnimi
poslovna znanja, oblikovanje informacij in specifična znanja iz posameznega področja.
Pričakovala bi, da bodo pomembna predvsem znanja iz statistike, baz podatkov ali druga
znanja. Menim, da razlog verjetno leži v tem, da je rezultate analiz obdelave podatkov
potrebno predstaviti na jasen, enostaven in vizualno privlačen način, da bodo razumljivi
tudi ostalim deležnikom in seveda z namenom, da prinašajo poslovno vrednost, za kar pa
so potrebna poslovna znanja. V sklopu pomembnosti sposobnosti so kot najbolj pomembne
bile ocenjene postavljanje pravih vprašanj, sposobnost reševanja problemov ter analitične
sposobnosti. To dopolnjuje prejšnjo ugotovitev, da v osnovi podatkovni znanstveniki
rešujejo poslovne probleme za kar potrebujejo ustrezne sposobnosti, da znajo pravilno
definirati problem, se ga lotiti na pravi način in pri tem ustrezno uporabiti vsa svoja znanja.
3. Kakšna so dejanska znanja podatkovnih znanstvenikov v Sloveniji in ali obstaja
kakšna vrzel med znanji, ki jih imajo (na podlagi samoocene) in tistimi, ki so
dejansko pomembna pri njihovem delu oziroma vplivajo na uspešnost njihovega
dela?
Na podlagi vzorčnih podatkov iz raziskave v Sloveniji in rezultatov preizkusa o aritmetični
sredini (t-test; testna vrednost = 3; Priloga 10) za vsako povprečno samooceno
posameznega področja znanj so rezultati pokazali, da so bile razlike statistično značilne
111
(pri zanemarljivo majhni stopnji značilnosti) pri naslednjih področjih znanj z najvišjo
povprečno samooceno:
Poizvedbeni jezik SQL (povprečna samoocena 3,70).
Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije
(povprečna samoocena 3,66).
Oblikovanje informacij (vizualizacija) (povprečna samoocena 3,57).
Specifična znanja iz posameznega področja, dejavnosti ali domene, iz katere izhaja
problem (povprečna samoocena 3,48).
Sistemi baz podatkov – relacijske baze podatkov (RDBMS): DB2, mySQL, SQL
Server idr. (povprečna samoocena 3,46).
Opisna statistika in verjetnostne porazdelitve (povprečna samoocena 3,46).
Management podatkov (povprečna samoocena 3,30).
Regresijska analiza (povprečna samoocena 3,30).
V sklopu najnižjih povprečnih samoocen pa (navedenih je 6 področij z najnižjo
povprečno samooceno):
Metodologije, npr. CRISP-DM, SEMMA, DMAIC (povprečna samoocena 1,84).
Obdelava naravnega jezika (NLP) (povprečna samoocena 1,80).
Masovni in distribuirani podatki (povprečna samoocena 1,78).
Sistemi baz podatkov – NoSQL baze podatkov (povprečna samoocena 1,74).
Poglobljeno učenje (povprečna samoocena 1,73).
Nagrajevalno učenje (povprečna samoocena 1,69).
V primerjavi s pomembnostjo znanj, kjer so na prvem mestu Poslovna znanja in
Oblikovanje informacij, sta pri samooceni v povprečju najvišje ocenjeni znanji
Poizvedbeni jezik SQL ter Poslovna znanja. Oblikovanje informacij je na tretjem mestu,
medtem ko je pri pomembnosti na drugem mestu. Pri najnižje ocenjenih znanjih pa sta
seznama v celoti enaka. Zanimivo je, da je Regresijska analiza bila ocenjena kot
nadpovprečna glede samoocene znanja, pri pomembnosti pa je prejela nevtralno oceno 3.
Enako velja za področje znanj iz Linearna algebra in računstvo, odvodi in integrali,
funkcije in risanje grafikonov. Da bi ugotovila, ali obstaja statistično značilna razlika med
samooceno znanj in pomembnostjo znanj, sem na podlagi vzorčnih podatkov primerjala
povprečne samoocene znanja in ocene pomembnosti znanja. Primerjava med povprečno
samooceno znanja in povprečno oceno pomembnosti znanja je pokazala statistično
značilne razlike (preizkus dvojic) le pri Regresijska analiza (povprečna samoocena = 3,3;
povprečna pomembnost: 3,0; P = 0,02; Priloga 10) ter pri Linearna algebra in računstvo,
odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik (povprečna
samoocena = 3,1; povprečna pomembnost: 2,5; P = 0,000; Priloga 10). Pri navedenih
znanjih lahko torej trdim, da obstaja vrzel med obstoječimi znanji (na podlagi samoocene)
112
in pomembnostjo pri njihovem delu. Pri obeh se je izkazalo, da anketiranci menijo, da
imajo več znanj, kot so pomembna pri njihovem delu. Rezultat verjetno izhaja iz tega, da
se matematike in delno statistike podrobno učimo v sklopu formalne izobrazbe (osnovna
šola, srednja šola itd.), v praksi pa iz teh področij uporabljamo le znanja, ki so pri delu
pomembna. Anketiranci namreč opravljajo različne funkcije, pri katerih uporabljajo
različna znanja, glede na njihovo področje dela, prav vsi pa imajo podobna osnovna
izhodišča, npr. iz matematike.
Raziskava Hayesa o znanjih in sposobnostih podatkovnih znanstvenikov ter delovanju v
timih je pokazala, da so sodelujoči v povprečju izrazili višjo stopnjo samoocene na
naslednjih področjih: komunikacija, strukturirani podatki, podatkovno rudarjenje,
znanost/znanstvena metoda, matematika, management projektov, management podatkov in
statistika in statistično modeliranje. V povprečju pa so nižjo stopnjo samoocene dodelili
področjem: sistemska administracija, čelno in zaledno programiranje, procesiranje
naravnega jezika (NLP), masovni in distribuirani podatki ter management podatkov v
oblaku (Hayes, 2015a, str. 2). Pri primerjavi rezultatov med obema raziskavama je
razvidno, da so skupna področja višje samoocenjenih znanj: strukturirani podatki/relacijske
baze podatkov (SQL), management podatkov ter do določene mere statistika (v Sloveniji
področje regresijske analize, opisne statistike in verjetnostne porazdelitve). V Sloveniji so
visoko povprečno samooceno dobila še druga, zgoraj omenjena področja znanj, ki pa v
raziskavi Hayesa niso bila zajeta v vprašalnik v takšni obliki. V raziskavi Hayesa pa so bila
v povprečju višje ocenjena znanja iz matematike in znanosti/znanstvene metode, ki pa sta v
Sloveniji dobili v povprečju oceno 3 – Začetnik. Sklepala bi lahko, da imajo posamezniki v
tujini bolj močno formalno izobrazbo iz teh dveh področij oziroma se več posameznikov iz
teh dveh področij ukvarja z znanostjo o podatkih ali pa omenjena razlika izhaja le iz
drugačne sestave in velikosti vzorca.
4. Katere skupine podatkovnih znanstvenikov v Sloveniji lahko identificiramo na
podlagi samoocene znanj?
Glede na rezultate razvrščanja v skupine na podlagi samoocene znanj v poglavju 4.3.1 se
v Sloveniji pojavlja 5 skupin podatkovnih znanstvenikov. S pomočjo centroidov skupin
sem v nadaljevanju pripravila interpretacijo vsake posamezne skupine.
Interpretacija skupine C1: posamezniki v skupini C1 imajo v povprečju osnovna znanja
(2,1) iz programskih jezikov, npr. R, Python ter čelnega programiranja. Zaledno
programiranje pa so v povprečju ocenili z ne poznajo ali uporabljajo. V sklopu znanj iz
managementa in baz podatkov imajo povprečno oceno 3 pri oblikovanju informacij
(vizualizacija) in managementu podatkov. Osnovna znanja imajo v povprečju iz relacijskih
baz podatkov, delno strukturiranih podatkov in poizvedbenega jezika SQL. Masovnih in
distribuiranih podatkov, NoSQL baz podatkov ne poznajo, prav tako se ne ukvarjajo s
sistemsko administracijo. V sklopu statistike in matematike imajo najvišjo povprečno
113
oceno iz opisnih statistik in verjetnostnih porazdelitev (3,6), statističnega preizkušanja
domnev (2,9), regresijske analize (2,9) ter znanstvene metode (2,8). Najmanj poznajo ali
uporabljajo prostorsko statistiko (1,2) , optimizacije (1,5) in simulacije (1,2). Celoten sklop
strojnega učenja v povprečju ne poznajo ali ne uporabljajo. Prav tako v povprečju ne
poznajo metodologij AGILE, LEAN, WATERFALL in CRISP-DM, SEMMA, DMAIC.
Osnovna znanja imajo iz specifičnih znanj iz posameznega področja ali domene, iz katere
izhaja problem (2,4) ter začetna znanja iz področja poslovnih znanj (3,2). Na podlagi
navedenih značilnosti sem to skupino poimenovala »Trženjski raziskovalci - analitiki«.
Interpretacija skupine C2: Posamezniki iz skupine C2 imajo v povprečju osnovna znanja
iz programskih jezikov (2,0) ter začetna znanja iz zalednega programiranja (2,6) in čelnega
programiranja (2,8). V sklopu znanj iz managementa in baz podatkov imajo znanja na
srednjem nivoju poizvedbenega jezika SQL (3,9) ter iz relacijskih baz podatkov (3,7).
Začetna znanja imajo na področju managementa podatkov (2,9), oblikovanja informacij
(2,9) ter dela z delno strukturiranimi podatki (2,5). Masovnih in distribuiranih podatkov,
NoSQL baz podatkov ne poznajo, pri sistemski administraciji poznajo osnove. Na
področju statistike in matematike znanj v povprečju ne poznajo ali ne uporabljajo, ali pa
poznajo le osnove (znanstvena metoda, opisna statistika, linearna algebra in računstvo,
odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik, optimizacija).
Celoten sklop strojnega učenja v povprečju ne poznajo ali ne uporabljajo. Prav tako ne
poznajo metodologij CRISP-DM, SEMMA, DMAIC. Bolj so seznanjeni z metodologijami
AGILE, LEAN, WATERFALL (2,6). Začetna znanja imajo iz specifičnih znanj iz
posameznega področja ali domene, iz katere izhaja problem (3,3) ter srednji nivo znanj iz
področja poslovnih znanj (3,8). Na podlagi navedenih značilnosti sem to skupino
poimenovala »Podatkovni analitiki«.
Interpretacija skupine C3: Posamezniki iz skupine C3 imajo v povprečju napredna
znanja iz programskih jezikov (4,5) ter srednji nivo znanj iz zalednega programiranja (2,8)
in čelnega programiranja (3). V sklopu znanj iz managementa in baz podatkov imajo
srednji nivo znanj iz oblikovanja informacij (4,4), poizvedbenega jezika SQL (4,3),
relacijskih baz podatkov (4,3), delno strukturiranih podatkov (3,8) in managementa
podatkov (3,7). Začetna znanja imajo na področju sistemske administracije (3,4), masovnih
in distribuiranih podatkov (2,7) in NoSQL baz podatkov (2,8). V sklopu statistike in
matematike imajo pri vseh področjih znanj v povprečju srednja ali napredna znanja, prav
tako na področju strojnega učenja. Na področju domenskih znanj pa imajo začetni nivo
znanj iz AGILE, LEAN, WATERFALL ter CRISP-DM, SEMMA, DMAIC metodologij,
pri ostalih domenskih znanjih pa srednji nivo. Posamezniki iz te skupine so v primerjavi z
ostalimi skupinami edini, ki imajo največje število področij znanj ocenjeno s povprečno
oceno 3 ali več. Na podlagi navedenih značilnosti sem to skupino poimenovala
»Podatkovni znanstveniki«.
114
Interpretacija skupine C4: Posamezniki iz skupine C4 v povprečju ne uporabljajo ali ne
poznajo zalednega programiranja. Začetna znanja imajo iz programskih jezikov (2,7) in
čelnega programiranja (1,6). V sklopu znanj iz managementa in baz podatkov imajo srednji
nivo znanj iz oblikovanja informacij (3,8), začetni nivo iz managementa podatkov (3,4),
poizvedbenega jezika SQL (3,2), relacijskih baz podatkov (2,8). V povprečju imajo osnove
iz dela z delno strukturiranimi podatki (1,9). Masovnih in distribuiranih podatkov, NoSQL
baz podatkov v povprečju ne poznajo, prav tako se ne ukvarjajo s sistemsko administracijo.
V sklopu statistike in matematike imajo pri vseh področjih znanj v povprečju srednji nivo
znanj, razen pri prostorski statistiki (2,4), simulacijah (2,9), optimizaciji (3). Iz področja
strojnega učenja imajo v povprečju osnovna znanja, razen pri obdelavi naravnega jezika
(1,4), ki ga ne poznajo ali uporabljajo ter analize omrežij (2,7), kjer imajo začetna znanja.
Na področju domenskih znanj pa imajo osnovni nivo znanj iz obeh metodologij. Srednji
nivo znanj pa imajo iz specifičnih znanj (3,8) in poslovnih znanj (4,2). Na podlagi
navedenih značilnosti sem to skupino poimenovala »Raziskovalci«.
Interpretacija skupine C5: Posamezniki iz skupine C5 imajo v povprečju srednji nivo
znanj iz zalednega programiranja (4,1) ter osnovni nivo iz čelnega programiranja (3,4) ter
programskih jezikov (3,3). Znanja programiranja najbolj izstopajo v tej skupini od vseh
naštetih skupin. V sklopu znanj iz managementa in baz podatkov imajo napredni nivo
znanj iz relacijskih baz podatkov (4,6) in poizvedbenega jezika SQL (4,7). Srednji nivo
znanj imajo iz managementa podatkov, oblikovanja informacij, dela z delno
strukturiranimi podatki in sistemsko administracijo. So edina skupina, ki ima začetni nivo
znanj na področju NoSQL baz podatkov (2,8) ter masovnih in distribuiranih podatkov
(2,5). V sklopu statistike in matematike imajo pri vseh področjih znanj v povprečju začetni
nivo znanj, razen pri linearni algebri in računstvu (3,5) in prostorski statistiki (1,8). Iz
področja strojnega učenja imajo v povprečju osnovna znanja, razen pri nadzorovanem
učenju (2,6), kjer imajo začetna znanja. Na področju domenskih znanj pa imajo srednji
nivo znanj AGILE, LEAN, WATERFALL metodologij ter osnove iz CRISP-DM,
SEMMA, DMAIC metodologij. Srednji nivo znanj pa imajo iz specifičnih znanj (3,8) in
poslovnih znanj (3,7). Na podlagi navedenih značilnosti sem to skupino poimenovala
»Programerji«.
Raziskava Harrisa, Vaismana & Murphya o identifikaciji različnih vlog podatkovnih
znanstvenikov je identificirala štiri segmente: Podatkovni znanstveniki – poslovni vodje,
Podatkovni znanstveniki – kreativci, Podatkovni znanstveniki – razvojniki ter Podatkovni
znanstveniki – raziskovalci. Posamezni segmenti so opisani v poglavju 2.5.1. Pri poskusu
primerjave skupin, identificiranih v Sloveniji, sem ugotovila, da primerjava ni smiselna, saj
so vsi segmenti v tujini imeli znanja iz metodologije analize podatkov, tehnologij
masovnih podatkov in procesa izvajanja znanosti o podatkih. V Sloveniji se je izkazalo, da
so znanja, povezana s tehnologijo masovnih podatkov (Masovni in distribuirani podatki in
Sistemi baz podatkov – NoSQL baze podatkov), dobila v povprečju samooceno znanj in
pomembnosti pod 2. To pomeni, da to področje slabo poznajo in hkrati trenutno ni
115
pomembno pri njihovem delu. Raziskava v Sloveniji je v osnovi pokazala le identifikacijo
skupine C3 – Podatkovni znanstveniki, ki imajo, poleg skupine C5 – Programerji, edini od
skupin v povprečju vsaj začetna znanja (povprečna ocena 3) iz omenjenih področij. Ta
ugotovitev je povezana s prvim raziskovalnim vprašanjem, kjer sem ugotovila, da
posamezniki v Sloveniji obdelujejo količine podatkov v obsegu TB in več ter se ukvarjajo
s podatki različnih tipov in različnih virov, vendar pa za to očitno ne uporabljajo tehnologij
masovnih podatkov (Hadoop, MapReduce, NoSQL baz podatkov) oziroma to počnejo le
posamezniki iz obeh omenjenih skupin.
Pri pregledu rezultatov raziskave Hayesa o znanjih in sposobnostih podatkovnih
znanstvenikov so rezultati bolj primerljivi, saj so bile tudi v tej raziskavi večje razlike med
identificiranimi segmenti podatkovnih znanstvenikov glede tehnologije masovnih
podatkov. Primerjavo sicer otežuje dejstvo, da so v raziskavi segmente oblikovali na
podlagi samoocene anketirancev v eno od skupin: poslovni management, razvijalec,
kreativec in raziskovalec. Na podlagi primerjave rezultatov raziskave v tujini in v Sloveniji
ugotavljam:
Da sta si med seboj primerljiva segment Razvijalec in skupina C5 – Programerji. Pri
obeh izstopajo znanja strukturiranih podatkov, čelnega in zalednega programiranja,
sistemske administracije ter masovni in distribuirani podatki v primerjavi z drugimi
identificiranimi skupinami.
Da sta si med seboj primerljiva segment Raziskovalec in skupina C4 – Raziskovalec.
Pri obeh izstopajo znanja statistike, znanstvene metode in matematika, slabši pa so na
področju programiranja. Razlika med skupinama obstaja v tem, da ima v tujini ta
segment tudi znanja iz strojnega učenja in podatkovnega rudarjenja, medtem ko imajo
v Sloveniji iz strojnega učenja v povprečju osnovna znanja (povprečna ocena 2).
Da sta si med seboj primerljiva segment Kreativec in skupina C3 – Podatkovni
znanstvenik. Pri obeh raziskavah gre za edini skupini, ki imata znanja iz vseh
navedenih področij.
Da je raziskava v tujini identificirala segment Poslovni management, ki ni primerljiv
z nobeno od identificiranih skupin v Sloveniji. Razlog verjetno leži v strukturi,
velikosti in načinu izbora enot, vključenih v raziskavo.
Da je raziskava v Sloveniji identificirala skupini C1 – Trženjskih raziskovalcev –
analitikov in C2 – Podatkovnih analitikov, ki nista primerljivi s segmenti,
identificiranimi v raziskavi v tujini.
5. Katere skupine podatkovnih znanstvenikov v Sloveniji lahko identificiramo na
podlagi pomembnosti znanj in sposobnosti?
Glede na rezultate razvrščanja v skupine na podlagi pomembnosti znanj in sposobnosti v
poglavju 4.3.2 se v Sloveniji pojavlja 5 skupin podatkovnih znanstvenikov. S pomočjo
centroidov skupin sem v nadaljevanju pripravila interpretacijo vsake posamezne skupine.
116
Interpretacija skupine C1: Posamezniki iz skupine C1 so s povprečno oceno
pomembnosti 4 ocenili naslednja področja: Zaledno programiranje, Relacijske baze
podatkov, Delo z delno strukturiranimi podatki, Poizvedbeni jezik SQL, Metodologije
AGILE, LEAN, WATERFALL, Specifična znanja in Poslovna znanja. V povprečju so s
srednjo pomembnostjo ocenili področja: Čelno programiranje, Management podatkov,
Oblikovanje informacij, Sistemska administracija in Optimizacija. S povprečno oceno
pomembnosti 2 pa so ocenili: Znanja programskih jezikov, Znanstvena metoda, Opisna
statistika in verjetnostne porazdelitve, Statistično preizkušanje domnev, Regresijska
analiza, Statistika časovnih vrst, Simulacije in Linearna algebra, računstvo, odvodi in
integrali, funkcije in risanje grafikonov, manipulacija matrik. Znanja iz področij Strojno
učenje, NoSQL baze podatkov in Masovni in distribuirani podatki so ocenili s povprečno
oceno pomembnosti 1. V sklopu sposobnosti so kot najbolj pomembne izpostavili
»Postavljati prava vprašanja, definirati problem«, »Sposobnost reševanja problemov«,
»Analitične sposobnosti«, »Nameniti pozornost kakovosti«, »Imeti sposobnost timskega
dela« in »Imeti dobre komunikacijske sposobnosti«. V povprečju so z najnižjo oceno
pomembnosti ocenili tri sposobnosti: »Podjetniška naravnanost, imeti poslovni čut«,
»Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling)« ter
»Občutek za umetnost in prakso vizualizacije«, kjer imajo povprečno oceno 3. Na podlagi
navedenih značilnosti sem to skupino poimenovala »Pomembna so znanja
programiranja, baz podatkov, analitične sposobnosti ter sposobnost reševanja
problemov«.
Interpretacija skupine C2: Posamezniki iz skupine C2 so s povprečno oceno
pomembnosti 4 ocenili področja: Opisna statistika in verjetnostne porazdelitve, Statistično
preizkušanje domnev, Znanstvena metoda, Regresijska analiza, Redukcija dimenzij,
Oblikovanje informacij, Poslovna znanja in Znanja programskih jezikov. S povprečno
oceno pomembnosti 3 so ocenili: Statistika časovnih vrst, Specifična znanja iz
posameznega področja, Linearna algebra, računstvo, odvodi in integrali, funkcije in risanje
grafikonov, manipulacija matrik, Management podatkov, Analiza omrežij in Simulacije. V
povprečju so najmanj pomembnosti pripisali področjem: NoSQL baze podatkov,
Nagrajevalno učenje in Metodologije AGILE, LEAN, WATERFALL in CRISP-DM,
SEMMA, DMAIC. V sklopu sposobnosti so kot najbolj pomembne izpostavili »Postavljati
prava vprašanja, definirati problem«, »Sposobnost reševanja problemov«, »Analitične
sposobnosti«, »Strast do dela s podatki« , »Strast do učenja novih stvari« in »Radovednost
glede opazovanih stvari (vzorcev, odnosov, razmerij)«,. V povprečju so z najnižjo oceno
pomembnosti ocenili dve sposobnosti: »Podjetniška naravnanost, imeti poslovni čut« ter
»Voditeljske sposobnosti – imeti sposobnost motiviranja in navduševanja drugih.«, kjer
imajo povprečno oceno 3. Na podlagi navedenih značilnosti sem to skupino poimenovala
»Pomembna so znanja statistike in oblikovanja informacij ter analitične sposobnosti,
sposobnosti reševanja problemov, radovednost in strast«.
117
Interpretacija skupine C3:Posamezniki iz skupine C3 so z najvišjo povprečno oceno 4
ocenili Poslovna znanja. S povprečno oceno pomembnosti 3 pa so ocenili znanja iz
področij Relacijske baze podatkov, Poizvedbeni jeziku SQL, Oblikovanje informacij
(vizualizacija), Management podatkov in Specifična znanja iz posameznega področja. S
povprečno oceno pomembnosti 1 ali 2 so ocenili NoSQL baze podatkov, Masovni in
distribuirani podatki, Sistemska administracija ter celotno področje statistike, matematike,
strojnega učenja in metodologij. Od sposobnosti so skoraj vse v povprečju ocenili s
povprečno oceno pomembnosti 4, razen »Podjetniška naravnanost, imeti poslovni čut«,
Voditeljske sposobnosti – imeti sposobnost motiviranja in navduševanja drugih«,
»Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling)« in »Občutek
za umetnost in prakso vizualizacije«. Na podlagi navedenih značilnosti sem to skupino
poimenovala »Pomembna so poslovna znanja, baze podatkov, management podatkov
in vse sposobnosti, razen podjetniških in kreativnih«.
Interpretacija skupine C4: Posamezniki iz skupine C4 so z najvišjo povprečno oceno
pomembnosti 5 ocenili Oblikovanje informacij (vizualizacija), Specifična znanja,
Relacijske baze podatkov, Management podatkov , Poslovna znanja in Poizvedbeni jezik
SQL. V tej skupini so s povprečno oceno pomembnosti 3 ali 4 ocenili znanja iz področja
baz podatkov in managementa podatkov celotnega področja statistike, strojnega učenja in
metodologij. Poleg skupine C5 so edini, ki so s povprečno oceno pomembnosti 3 ocenili
NoSQL baze podatkov ter Masovni in distribuirani podatki. Od sposobnosti so prav tako
edina skupina, ki ima več kot polovico sposobnosti, ocenjenih s povprečno oceno
pomembnosti 5 oziroma imajo vse sposobnosti ocenjene s povprečno oceno 4 ali 5. Na
podlagi navedenih značilnosti sem to skupino poimenovala »Vsa področja znanj in
sposobnosti so pomembna«.
Interpretacija skupine C5: Posamezniki iz skupine C5 so z najvišjo povprečno oceno
pomembnosti 5 ocenili Poizvedbeni jezik SQL. Povprečno oceno pomembnosti 4 so
dodelili področjem Poslovna znanja, Relacijske baze podatkov, Oblikovanje informacij
(vizualizacija), Specifična znanja iz posameznega področja, Management podatkov,
Opisna statistika in verjetnostne porazdelitve , Optimizacija, Regresijska analiza,
Znanstvena metoda in Statistično preizkušanje domnev. Pri vseh ostalih področjih znanj so
dodelili povprečno oceno pomembnosti 3, med drugim tudi NoSQL baze podatkov ter
Masovni in distribuirani podatki. Najnižjo povprečno oceno pomembnosti 2 so dodelili
področju Čelno programiranje. Zanimivo je, da z vidika sposobnosti nobena od naštetih
sposobnosti ni bila v povprečju ocenjena z zelo pomembno (5). Z najnižjo povprečno
oceno pomembnosti 3 so dodelili »Sposobnost sprejemanja odločitev«, »Strateško
razmišljati in načrtovati«, »Voditeljske sposobnosti – imeti sposobnost motiviranja in
navduševanja drugih«, »Sposobnost vodenja projektov, »Imeti sposobnost timskega dela«,
»Občutek za umetnost in prakso vizualizacije«, »Biti moralen in etičen« ter »Spoštovati
zakone in predpise«. Ostalim sposobnostim so dodelili povprečno oceno 4. Na podlagi
118
navedenih značilnosti sem to skupino poimenovala »Vse je pomembno –- razen
sposobnosti odločanja, vodenja.«
Slika 35: Identificirane skupine samoocena znanj v primerjavi z identificiranimi skupinami
na podlagi pomembnosti znanj in sposobnosti (n = 65)
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za pregled identificiranih skupin na podlagi pomembnosti znanj in
sposobnosti po vseh petih skupinah, identificiranih na podlagi samoocene. Vsaka
identificirana skupina na podlagi samoocene znanj je predstavljala neodvisno
spremenljivko, vsaka identificirana skupina na podlagi pomembnosti znanj in sposobnosti
pa je predstavljala odvisno spremenljivko. Razvidno je, da je v skupini C1 – Trženjski
raziskovalci – analitiki 75 % posameznikov takšnih, ki so jim pomembna C3 – poslovna
znanja, baze podatkov, management podatkov in vse sposobnosti, razen podjetniških in
kreativnih, 25 % posameznikom pa so pomembna C2 – znanja statistike oblikovanja
informacij ter analitične sposobnosti, reševanja problemov, radovednost in strast. V
skupini C2 – Podatkovni analitiki prevladujejo posamezniki (67 %), ki so jim pomembna
C3 – poslovna znanja, baze podatkov, management podatkov in vse sposobnosti, razen
podjetniških in kreativnih, 33 % pa so pomembna C1 – znanja programiranja, baz
podatkov, analitične sposobnosti ter sposobnost reševanja problemov. V skupini C3 –
Podatkovni znanstveniki prevladujejo posamezniki (73 %), ki so jim pomembna C4 – Vsa
področja znanj in sposobnosti. V skupini C4 – Raziskovalci prevladujejo posamezniki, ki
so jim pomembna C2 – znanja statistike oblikovanja informacij ter analitične sposobnosti,
reševanja problemov, radovednost in strast, 25 % pa je takšnih, ki so jim C4 – Vsa
področja znanj in sposobnosti. Skupina C5 – Programerji je edina skupina, kjer so
zastopane vse identificirane skupine na podlagi pomembnosti znanj in sposobnosti.
119
Prevladujejo (44 %) posamezniki, ki so jim pomembna C1 – Znanja programiranja, baz
podatkov, analitične sposobnosti ter sposobnost reševanja problemov. Iz rezultatov je
razvidno, da se posamezniki pri delu, kjer so pomembna vsa področja znanj in sposobnosti,
v največji meri nahajajo v segmentu C3 – Podatkovni znanstveniki. To se ujema z
razvrščanjem v skupine na podlagi samoocene znanj. Posamezniki, ki so jim pomembna
vsa področja znanj in sposobnosti, se nahajajo tudi v segmentih C4 – Raziskovalci ter C5 –
Programerji, ki imajo verjetno največji potencial, da postanejo Podatkovni znanstveniki.
Znotraj segmenta C1 – Trženjski raziskovalci – analitiki očitno obstaja segment
posameznikov, ki so jim pomembna poslovna znanja, baze podatkov, management
podatkov in ne samo statistika in oblikovanje informacij. Ta segment ima potencial, da
postanejo C4 – Raziskovalci. Znotraj segmenta C2 – Podatkovni analitiki pa tudi obstaja
segment, kjer so pomembna znanja programiranja. Ta segment ima potencial, da postane
C5 – Programerji.
6. Ali obstaja kakšna vrzel pri identificiranih skupinah podatkovnih znanstvenikov
(na podlagi samoocene znanj) med znanji, ki jih imajo (na podlagi samoocene) in
tistimi, ki so dejansko pomembna pri njihovem delu oziroma vplivajo na
uspešnost njihovega dela?
Da bi ugotovila, ali obstaja statistično značilna razlika med samooceno znanj in
pomembnostjo znanj pri identificiranih skupinah podatkovnih znanstvenikov glede na
samooceno svojih znanj, sem na podlagi vzorčnih podatkov primerjala povprečne
samoocene znanja in ocene pomembnosti znanja po identificiranih skupinah. Primerjava
med povprečno samooceno znanja in povprečno oceno pomembnosti znanja je pokazala
statistično značilne razlike (preizkus dvojic) pri spodaj navedenih področjih znanj. Pri teh
znanjih lahko torej trdim, da obstaja vrzel med obstoječimi znanji (na podlagi samoocene)
in pomembnostjo pri njihovem delu.
Skupina C1: Trženjski raziskovalci – analitiki
Oblikovanje informacij (vizualizacija) (povprečna samoocena = 3,27; povprečna
pomembnost = 3,87; P = 0,007).
Sistemi baz podatkov – relacijske baze podatkov (RDBMS) (povprečna samoocena =
2,07; povprečna pomembnost = 2,53; P = 0,029).
Poglobljeno učenje (povprečna samoocena = 1,07; povprečna pomembnost = 1,36; P =
0,040).
Analiza omrežij (povprečna samoocena = 1,07; povprečna pomembnost = 1,57; P =
0,047).
Posamezniki iz skupine C1 menijo, da imajo pri teh znanjih v povprečju manj znanj kot pa
so pomembna pri njihovem delu (povprečne samoocene so bile nižje kot pa povprečne
ocene pomembnosti). Na podlagi rezultatov očitno ta segment potrebuje dodatna znanja iz
120
oblikovanja informacij in sistemov baz podatkov. Zanimivo je, da v sklopu pomembnosti
izstopajo analiza omrežij in poglobljeno učenje.
Skupina C2: Podatkovni analitiki
Čelno programiranje (povprečna samoocena = 2,83; povprečna pomembnost = 2,22; P
= 0,004).
Regresija (povprečna samoocena = 1,39; povprečna pomembnost = 1,11; P = 0,020).
Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik (povprečna samoocena = 1,94; povprečna pomembnost = 1,28; P =
0,006).
Nadzorovano učenje (povprečna samoocena = 1,44; povprečna pomembnost = 1,11; P
= 0,029).
Posamezniki iz skupine C2 menijo, da imajo pri teh znanjih v povprečju več znanj, kot pa
so pomembna pri njihovem delu (povprečne samoocene znanj so bile višje kot pa
povprečne ocene pomembnosti).
Skupina C3: Podatkovni znanstveniki
Opisna statistika in verjetnostne porazdelitve (povprečna samoocena = 4,58; povprečna
pomembnost = 4,25; P = 0,039).
Redukcija dimenzij (povprečna samoocena = 4,83; povprečna pomembnost = 4,33; P =
0,026).
Posamezniki iz skupine C3 menijo, da imajo pri teh znanjih v povprečju več znanj, kot pa
so pomembna pri njihovem delu (povprečne samoocene znanj so bile višje kot pa
povprečne ocene pomembnosti).
Skupina C4: Raziskovalci
Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik (povprečna samoocena = 3,39; povprečna pomembnost = 2,56; P =
0,031).
Posamezniki iz skupine C4 menijo, da imajo pri tem znanju v povprečju več znanj, kot pa
je pomembno pri njihovem delu.
Skupina C5: Programerji
Poizvedbeni jezik SQL (povprečna samoocena = 4,74; povprečna pomembnost = 4,32;
P = 0,016).
121
Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik (povprečna samoocena = 3,53; povprečna pomembnost = 2,68; P =
0,011).
Poslovna znanja (povprečna samoocena = 3,68; povprečna pomembnost = 4,21; P =
0,047).
Posamezniki iz skupine C5 menijo, da imajo pri prvih dveh znanjih v povprečju več znanj,
kot pa so pomembna pri njihovem delu (povprečne samoocene znanj so bile višje kot pa
povprečne ocene pomembnosti). Pri Poslovna znanja pa menijo, da imajo premalo znanj,
kot pa so pomembna pri njihovem delu (povprečna samoocena znanj je bila nižja kot pa
povprečna ocena pomembnosti). Priporočala bi, da bi ta skupina izpopolnila poslovna
znanja v sklopu formalne izobrazbe.
7. Ali obstajajo kakšne razlike med identificiranimi skupinami podatkovnih
znanstvenikov glede na izobrazbo, smer izobrazbe, spol, izkušnje in način
izobraževanja?
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za pregled stopnje izobrazbe po vseh petih skupinah. Vsaka skupina
je predstavljala neodvisno spremenljivko, stopnja izobrazbe pa je predstavljala odvisno
spremenljivko.
Slika 36: Identificirane skupine glede na stopnjo izobrazbe – Samoocena znanj (n = 83)
Razvidno je, da v vseh skupinah prevladujejo posamezniki z univerzitetno izobrazbo
(okrog 50 %). Najnižji delež posameznikov z univerzitetno izobrazbo je v skupini C5, in
122
sicer 37 %. Delež posameznikov z magisterijem, doktoratom ali specializacijo je v
skupinah C1, C3, C4 in C5 od 32 % do 39 %, najnižji pa je v skupini C2 (11 %). Zanimalo
me je, ali obstaja povezava med identificiranimi skupinami podatkovnih znanstvenikov in
stopnjo izobrazbe. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat = 9,643; df = 12;
P = 0,647) ter dejstva, da obstaja prevelik delež celic, ki imajo pričakovano frekvenco
manj kot 5, ne morem trditi, da obstaja povezava med stopnjo izobrazbe in identificiranimi
skupinami podatkovnih znanstvenikov. Za identificirane skupine posameznikov na podlagi
samoocene znanj sem pripravila kontingenčno tabelo za pregled smeri izobrazbe po vseh
petih skupinah. Vsaka skupina je predstavljala neodvisno spremenljivko, smer izobrazbe
pa je predstavljala odvisno spremenljivko. Razvidno je, da v skupini C1 prevladuje smer
izobrazbe splošno družboslovje (38 %) in ekonomija (31 %), sledijo pa druge naravoslovne
in tehnične vede z 19 %. Zanimivo je, da v skupini C1 ni posameznikov z matematično ali
računalniško smerjo izobrazbe. Skupina C2 ima najbolj raznoliko sestavo glede smeri
izobrazbe, največ sicer prevladuje smer računalništvo (28 %) ter druge naravoslovne in
tehnične vede (22 %). 17 % pa izhaja iz ekonomske smeri ter 17 % iz splošnega
družboslovja. V skupini C3 prav tako prevladuje smer računalništvo (33 %), drugo mesto
pa si razdelijo ekonomija in poslovne vede (17 %), matematika (17 %) in statistika (17 %).
V skupini C4 je največ posameznikov iz ekonomskih in poslovnih ved (28 %) ter statistike
(28 %), sledi splošno družboslovje (22 %). Smer računalništvo najbolj prevladuje v skupini
C5 – Programerji, kar potrjuje poimenovanje skupine na podlagi samoocene znanj.
Drugače so v skupini C5 tudi posamezniki iz matematične smeri (16 %), ekonomije in
poslovnih ved (11 %) ter drugih naravoslovnih in tehničnih ved (11 %). Zanimivo je, da
med programerji ni posameznikov s statistično smerjo izobrazbe.
Slika 37: Identificirane skupine glede na smer izobrazbe – Samoocena znaj (n = 83)
123
Zanimalo me je, ali obstaja povezava med identificiranimi skupinami podatkovnih
znanstvenikov in smerjo izobrazbe. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat
= 44,867; df = 28; P = 0,023) bi sicer lahko sklepala, da obstaja povezava med smerjo
izobrazbe in identificiranimi skupinami podatkovnih znanstvenikov, vendar obstaja
prevelik delež celic, ki imajo pričakovano frekvenco manj kot 5, zato tega sklepa ne
morem sprejeti.
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za pregled spola po vseh petih skupinah. Vsaka skupina je
predstavljala neodvisno spremenljivko, spol pa je predstavljal odvisno spremenljivko.
Zanimalo me je, ali obstaja povezava med identificiranimi skupinami podatkovnih
znanstvenikov in spolom. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat = 15,856;
df = 4; P = 0,003) lahko sklepam, da obstaja povezava med spolom in identificiranimi
skupinami podatkovnih znanstvenikov pri stopnji značilnosti P = 0,003. Slika 38 prikazuje,
da moški prevladujejo v skupinah C2 (61 %), C3 (83 %) in C5 (84 %). V skupini C1 je
število moških in žensk enakovredno. V skupini C4 pa prevladujejo ženske (74 %).
Slika 38: Identificirane skupine glede na spol – Samoocena znanj (n = 83)
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za pregled izkušenj po vseh petih skupinah. Vsaka skupina je
predstavljala neodvisno spremenljivko, izkušnje pa so predstavljale odvisno spremenljivko
(možnih je bilo več odgovorov). Slika 39 prikazuje % posameznikov znotraj skupine, ki je
izbral določeno izkušnjo. Razvidno je, da je najvišji % (83 %) posameznikov v skupini C3
opravljalo pogodbena in/ali svetovalna dela, najmanjši % (63 %) pa v skupini C1. Kar 92
% posameznikov iz skupine C3 je že imelo predavanja na izobraževalni ustanovi ali pa so
imeli predstavitev svojega dela na konferenci, najmanj (47 %) jih je to možnost označilo v
skupini C2. Prostovoljna dela so najpogosteje izbrali v skupini C3 (83 %) ter najmanj v
skupini C5 (42 %). Je pa imela skupina C5 najvišji % posameznikov (68 %), ki so že imeli
124
vodstveno pozicijo, skupaj s skupinama C2 (65 %) in C1 (63 %). Najmanjši %
posameznikov je to možnost označilo v skupini C4 (44 %). 75 % posameznikov iz skupine
C3 in 61 % iz skupine C4 je svoje delo objavilo v zborniku/knjigi/časopisu ali drugi
publikaciji, najmanj (16 %) pa jih je to možnost izbralo v skupini C5. Podjetniške izkušnje
z odprtjem svoje organizacije imajo najpogosteje posamezniki v skupini C3 (58 %) in C5
(47 %), najmanj (6 %) pa v skupini C1. Skupina C3 ima tudi najvišji % posameznikov (58
%), ki ima svojo spletno stran ali piše blog, najmanj pa je takšnih v skupini C1 (13 %).
Slika 39: Identificirane skupine glede na izkušnje – Samoocena znanj (n = 83)
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za pregled načinov izobraževanja po vseh petih skupinah. Vsaka
skupina je predstavljala neodvisno spremenljivko, načini izobraževanja pa so predstavljali
odvisno spremenljivko (možnih je bilo več odgovorov). Slika 40 prikazuje %
posameznikov znotraj skupine, ki je izbralo določeno izkušnjo. Razvidno je, da so pri vseh
skupinah, razen pri skupini C5 (95 %), 100 % izbrali samostojno izobraževanje. Najvišji %
posameznikov, ki je izbralo formalno izobrazbo, prihaja iz skupine C1 (100%), najmanj pa
iz skupin C2 (89 %) in C5 (89 %). Najvišji % posameznikov, ki so kot način izobraževanja
izbrali udeležbo na konferenci, prihaja iz skupine C3 (100 %) in najmanj iz skupine C5 (79
%). Delavnic ali tečajev so se v največji meri udeležili posamezniki iz skupine C1 (81 %)
in C5 (79 %), najmanj pa iz skupine C3 (58 %). Na masovnih odprtih spletnih tečajih je v
vseh skupinah sodelovala več kot polovica posameznikov, razen iz skupine C1 (31 %).
Najvišji % posameznikov, ki je sodeloval v masovnih odprtih spletnih tečajih prihaja iz
skupine C3 (75 %). S praktičnim delom na »odprtih podatkih« se največ ukvarjajo v
skupini C5 (68 %), najmanj pa v skupini C1 (19 %). V družabnih skupinah in srečanjih
največ sodelujejo posamezniki iz skupine C3 (75 %), najmanj pa v skupini C1 ( 13 %). Je
pa najvišji % posameznikov iz skupine C1 (31 %) izbralo pripravništvo. Na
125
natečajih/tekmovanjih je najvišji % posameznikov sodelovalo v skupini C3 (33 %),
najmanj pa v skupini C1 (6 %). Nobeden iz skupine C4 ni še sodeloval na
natečaju/tekmovanju.
Slika 40: Identificirane skupine glede na izobraževanje – Samoocena znanj (n = 83)
8. Ali obstajajo kakšne razlike med identificiranimi skupinami podatkovnih
znanstvenikov glede obdelane količine, raznolikosti podatkov in koristi, ki jih
dosegajo preko dela s podatki?
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za primerjavo med identificiranimi skupinami glede tega, s kakšno
količino podatkov so se do sedaj že ukvarjali. Vsaka skupina je predstavljala neodvisno
spremenljivko, raznolikost podatkov pa je predstavljala odvisno spremenljivko. Razvidno
je, da v vseh skupinah največji delež predstavljajo posamezniki, ki so se ukvarjali s podatki
v obsegu od 1 GB do 1023 GB. Delež takšnih, ki se ukvarjajo z 1 MB do 1023 MB, je
najvišji v skupini C1 (38 %) in C4 (33 %). Največji delež takšnih, ki se ukvarja s podatki
od 1 TB do 1023 TB se nahaja v skupini C3 (42 %). Visok je tudi v skupini C5 (32 %).
Zanimivo je, da edini, ki se ukvarjajo s PB ali več (6 %), prihajajo iz skupine C4. Največji
delež takšnih, ki je odgovorilo z »ne vem«, pa prihaja iz skupine C1 (19 %). Zanimalo me
je, ali obstaja povezava med identificiranimi skupinami podatkovnih znanstvenikov in
količino podatkov, s katero so se ukvarjali. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-
kvadrat = 20,674; df = 20; P = 0,417) ter dejstva, da obstaja prevelik delež celic, ki imajo
126
pričakovano frekvenco manj kot 5, ne morem trditi, da obstaja povezava med obdelano
količino podatkov in identificiranimi skupinami podatkovnih znanstvenikov.
Slika 41: Identificirane skupine glede na obdelane količine podatkov – Samoocena znanj
(n = 83)
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za primerjavo med identificiranimi skupinami glede tega, s kakšnimi
tipi oziroma viri podatki so se že srečali. Vsaka skupina je predstavljala neodvisno
spremenljivko, raznolikost podatkov pa je predstavljala odvisno spremenljivko. Razvidno
je, da v C1 prevladujejo posamezniki, ki so se srečali z notranjimi, strukturiranimi podatki
(31 %). V C2 prevladujejo posamezniki, ki so se srečali z vsemi dimenzijami raznolikosti
podatkov (39 %). Največji delež takšnih posameznikov, ki se je srečal z vsemi
dimenzijami raznolikosti podatkov, je v skupini C3 (50 %). V skupini C4 prav tako
prevladujejo posamezniki, ki so srečali z vsemi dimenzijami raznolikosti podatkov (33 %),
na drugem mestu pa so posamezniki, ki so se srečali z notranjimi, strukturiranimi podatki
(28 %). V skupini C5 pa prevladujejo posamezniki, ki so se srečali z notranjimi,
strukturiranimi podatki, generiranimi s strani naprav (32 %). Zanimalo me je, ali obstaja
povezava med identificiranimi skupinami podatkovnih znanstvenikov in raznolikostjo
podatkov. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-kvadrat = 36,336; df = 24; P =
0,051) ter dejstva, da obstaja prevelik delež celic, ki imajo pričakovano frekvenco manj kot
5, ne morem trditi, da obstaja povezava med raznolikostjo podatkov in identificiranimi
skupinami podatkovnih znanstvenikov.
127
Slika 42: Identificirane skupine glede na raznolikost podatkov – Samoocena znanj (n =
83)
Za identificirane skupine posameznikov na podlagi samoocene znanj sem pripravila
kontingenčno tabelo za primerjavo med identificiranimi skupinami glede tega, kakšne
koristi menijo, da dosegajo preko dela s podatki.
Vsaka skupina je predstavljala neodvisno spremenljivko, koristi iz naslova dela s podatki
pa je predstavljala odvisno spremenljivko. Razvidno je, da je najvišji % posameznikov iz
skupine C3 (92 %) izbralo »Boljše odločanje na podlagi dejstev«, najmanjši % pa v
skupini C1 (75 %). Korist »Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše
razumevanje potrošnika« je izbralo največ posameznikov v skupini C5 (84 %) in najmanj v
skupini C1 (63 %). Korist »Bolj učinkovito izvajanje procesov, načina, dela operacij« je
izbralo največ posameznikov v skupini C2 (78 %) ter najmanj v skupini C1 (50 %). Korist
»Povečanje prodaje/prihodkov« je izbralo največ posameznikov v skupini C4 (72 %) in
najmanj v C1 (56 %). Pri koristi »Boljša kakovost izdelkov ali storitev« izstopa skupina
C3, kjer je to možnost izbralo kar 92 % posameznikov, najmanj pa C1 (38 %). Korist
»Zmanjšanje tveganja« je izbralo največ posameznikov v skupini C3 (58 %) in najmanj v
skupinah C1 in C4 (44 %). Koristi »Inovacije na področju izdelkov in storitev« je izbralo
največ posameznikov v skupini C2 (44 %) in najmanj v skupini C1 (19 %).
128
Slika 43: Identificirane skupine glede na koristi dela s podatki – Samoocena znanj (n =
83)
9. Ali je mogoče identificirati porazdelitve oziroma vzorce znanj po posameznih
področjih med identificiranimi skupinami podatkovnih znanstvenikov na podlagi
samoocene znanj?
Z namenom identifikacije porazdelitve oziroma vzorcev znanj sem rezultate glede
samoocene znanj za vse posameznike, ki so sodelovali v raziskavi, izvozila v Excel in
njihove samoocene znanj razvrstila od najmanjše do najvišje ter z orodjem »Sparkline« v
Excelu vizualizirala pridobljene rezultate. Izračunala sem koeficient asimetrije KA (angl.
skewness) ter koeficient sploščenosti KS (angl. kurtosis) za vsakega posameznega
udeleženca na podlagi njegove samoocene znanj. Po prvem pregledu podatkov sem
ugotovila, da je mogoče identificirati naslednje porazdelitve oziroma vzorce znanj
posameznikov:
»T-oblika« (angl. T-shaped), v kolikor sta KA in KS med -1 in 1. To so
posamezniki, ki imajo visoko samooceno znanj na določenem področju znanj ali parih
področjih znanj, na drugih področjih pa imajo začetna ali osnovna znanja. Njihova
porazdelitev znanj je simetrična ter približno podobna normalni porazdelitvi. Takšnih
je 31,5 % anketirancev.
»Minus-oblika« (angl. Dash-shaped), v kolikor je KA med -1 in 1 ter KS manjši od
-1. To so posamezniki, ki imajo simetrično porazdelitev znanj po področjih, vendar je
129
njihova porazdelitev bolj sploščena (KS je manjši od -1). To pomeni, da imajo iz veliko
področij znanj določeno stopnjo znanja, nikjer pa ne izstopajo ali pa hkrati izstopajo na
več področjih. Takšnih je 34,8 % anketirancev.
»Normalna I-oblika« (angl. Normal I-shaped), v kolikor je KA večji od 1 ter KS
med -1 in 1. To so posamezniki, ki imajo porazdelitev znanj asimetrično v desno. To
pomeni, da imajo določeno področje znanja, ki ima visoko oceno, pri ostalih pa imajo
zelo nizke samoocene znanja ali pa jih sploh ne poznajo. Njihova značilnost je še, da je
njihova porazdelitev precej podobna normalni (KS je med -1 in 1). To pomeni, da
imajo določeno poznavanje ostalih znanj, čeprav ne tako visoko kot pri »T-obliki«
posameznikih. Takšnih je 21,7 % anketirancev.
»Koničasta I-oblika« (angl. Peak I-shaped), v kolikor sta KA in KS večji od 1. To
so posamezniki, ki so podobni »normalni I-obliki«, vendar je njihova »koničastost« še
bolj izrazita (KS je večji od 1), kar še dodatno poudarja višjo oceno znanj iz samo
določenega področja. Takšnih je 5,4 % anketirancev.
»Unikatna oblika« (angl. Unicorn), v kolikor je KA manjši od -1 ter KS večji od 1.
Na podlagi podatkov sem identificirala tudi posameznike, ki imajo porazdelitve znanj
zelo asimetrične v levo (KA je manjši od -1) ter zelo »koničasto« porazdelitev. To
pomeni, da imajo visoko samooceno iz vseh znanj, kar jih naredi zelo unikatne.
Takšnih je 6,5 % anketirancev.
Tabela 6: Identifikacija porazdelitve oziroma vzorca znanj na podlagi koeficienta
asimetrije in koeficienta sploščenosti (n = 92)
Vzorec znanj n %
MINUS-OBLIKA 32 34,78%
T-OBLIKA 29 31,52%
NORMALNA I-OBLIKA 20 21,74%
UNIKATNA OBLIKA 6 6,52%
KONIČASTA I-OBLIKA 5 5,43%
Skupaj 92 100,00%
Slika 44 prikazuje porazdelitev znanj po izbranih anketirancih kot primer določene
porazdelitve znanj.
130
Slika 44: Porazdelitve znanj po izbranih anketirancih – Samoocena znanj
Za identificirane skupine posameznikov na podlagi porazdelitve znanj sem pripravila
kontingenčno tabelo za primerjavo z identificiranimi skupinami glede samoocene znanj.
Vsaka skupina je predstavljala neodvisno spremenljivko, porazdelitev znanj pa je
predstavljala odvisno spremenljivko. Razvidno je, da v skupinah C1 in C2 prevladujejo
posamezniki, ki imajo »Normalno I-obliko« porazdelitev znanj. Prav tako se posamezniki s
»Koničasto I-obliko« znanj pojavljajo le v skupinah C1 in C2. Na podlagi značilnosti teh
dveh skupin, predstavljenih v prejšnjih poglavjih, je to pričakovano, saj imajo znanja le iz
določenega področja (C1 iz statistike in vizualizacije ter C2 iz baz podatkov in poslovnih
znanj), pri ostalih področjih pa imajo osnovna znanja ali pa področja ne poznajo. V skupini
C3 prevladujejo posamezniki, ki imajo »Unikatno obliko« ter »T-obliko« porazdelitve
znanj. Ker se »Unikatna oblika« znanj pojavi le pri segmentu C3, s tem dodatno potrjuje
131
rezultate razvrščanja v skupine, da ta skupina izstopa tako po porazdelitvi znanj,
kombinaciji znanj kot povprečni samooceni znanj, zaradi česar so resnično unikatni. V
skupini C4 prevladujejo posamezniki, ki imajo »Minus-obliko« porazdelitev znanj.
Skupini C4 in C5 sta si z vidika porazdelitve znanj precej podobni, saj v obeh prevladujejo
posamezniki, ki imajo »T-obliko« in »Minus-obliko« porazdelitev znanj, kar pomeni, da
kombinirajo različna področja znanj oziroma imajo vsaj osnovna znanja iz vseh področjih
znanj.
Zanimalo me je, ali obstaja povezava med identificiranimi skupinami podatkovnih
znanstvenikov in porazdelitvijo znanj. Na podlagi hi-kvadrat preizkusa (Pearsonov hi-
kvadrat = 84,155; df = 16; P = 0,000) bi sicer lahko trdila, da obstaja povezava med obliko
porazdelitve znanj in identificiranimi skupinami znanstvenikov, vendar obstaja prevelik
delež celic, ki imajo pričakovano frekvenco manj kot 5, zato preizkusa ne morem
upoštevati kot veljavnega.
Slika 45: Identificirane skupine glede na porazdelitev znanj – Samoocena znanj (n = 83)
4.5 Omejitve raziskave
Pri oblikovanju raziskovalnega načrta, metodologije ter pri sami izvedbi raziskave in
analizi podatkov sem skušala kar najbolj upoštevati standarde na področju trženjskega
raziskovanja (Malhotra, 2012). Kljub temu v nadaljevanju omenjam določene omejitve, ki
izhajajo iz različnih področij in vplivajo na rezultate raziskave.
Kot prvo omejitev naj navedem velikost vzorca – v kolikor bi bila velikost vzorca večja, bi
lahko bili rezultati bolj zanesljivi. Pri metodi vzorčenja je bilo uporabljeno priložnostno
namensko vzorčenje (neverjetnostno vzorčenje), kar pomeni, da vzorec ni reprezentativen
132
in rezultatov raziskave ni mogoče posplošiti na populacijo. Kljub temu so bili k raziskavi
povabljeni posamezniki, ki s svojim področjem dela pokrivajo širok spekter strokovnjakov,
ki bi se jih lahko uvrščalo med podatkovne znanstvenike. Ne morem pa zagotoviti, da gre
za nepristranski vzorec. Vzorec posameznikov, ki so sodelovali v raziskavi, je bil
povabljen k sodelovanju na podlagi splošno razpoložljivih informacij o njihovem področju
dela, preteklih izkušnjah, zapisov na LinkedInu ter osebnih poznanstev. V kolikor bi v
raziskavi sodelovale druge osebe, bi rezultati lahko bili drugačni.
Zaradi še neraziskane narave tega področja v Sloveniji uporaba pojmov v angleškem
jeziku, nedefiniranih pojmov oziroma splošnega konsenza glede razumevanja posameznih
področij, so lahko vprašanja bila razumljena drugače, kot pa je bilo namenjeno. To velja
predvsem za vprašanja o dimenzijah masovnih podatkov (hitrost). V vprašalniku sem sicer
skušala razumevanje poenotiti s kratkimi definicijami pojmov ter dodanimi angleškimi
prevodi k slovenskim izrazom. Dodatno je lahko k pristranskosti rezultatov vplivala sama
dolžina in težavnost vprašalnika.
Omejitve glede identificiranih skupin podatkovnih znanstvenikov vključujejo
predpostavko, da so v raziskavi sodelovali določeni posamezniki: programerji, podatkovni
analitiki, trženjski raziskovalci itd., kar je vplivalo na identificirane skupine.
SKLEP
Zaradi napredka v tehnologiji in možnosti shranjevanja ter obdelave velike količine
raznolikih podatkov, pridobljenih z veliko hitrostjo, so organizacije identificirale
popolnoma novo področje konkurenčnih prednosti. Na podlagi različnih teoretičnih
opredelitev pojma masovni podatki sem masovne podatke opredelila v ožjem in širšem
smislu. V kolikor na izraz gledamo v ožjem smislu, gre za opredelitev tega, kakšne
značilnosti morajo imeti podatki, da jih opredelimo kot masovne. V povezavi s tem sem
opredelila vse štiri dimenzije masovnih podatkov: volumen, raznolikost, hitrost in vrednost
in na podlagi klasifikacije po IDC opredelila podatke kot masovne v ožjem smislu takrat,
ko ustrezajo vsaj dvema od treh dimenzij masovnih podatkov (volumen, raznolikost,
hitrost), vendar vedno z namenom prinašanja vrednosti organizaciji v obliki nižjih
stroškov, večji učinkovitosti ali izboljšanju poslovnih procesov. Masovne podatke v širšem
smislu pa sem opredelila kot novo generacijo tehnologij in arhitekturnih rešitev, katerih
namen je pridobiti ekonomsko vrednost iz velike količine različnih tipov podatkov s
pomočjo visoko-intenzivnega shranjevanja, raziskovanja in analize teh podatkov. Področje
znanosti o podatkih pa predstavlja rešitev, kako odkriti potencialne vpoglede, ki se skrivajo
v masovnih podatkih in kako premostiti izziv vseh dimenzij masovnih podatkov.
Masovne podatke in znanost o podatkih so organizacije prepoznale kot področja, ki jim
lahko prinašajo vrednost v obliki večje transparentnosti informacij, povečanje frekvence
uporabe informacij, sprejemanje boljših poslovnih odločitev na podlagi analize podatkov,
133
optimizacije procesov, prihranka na stroških, povečanju prihodkov ali kreiranju novega
produkta ali storitve na podlagi podatkov. Z namenom izkoriščanja tega potenciala se je
povečalo povpraševanje po posameznikih s specifičnimi znanji in sposobnostmi, ki so
sposobni iz množice raznolikih podatkov pridobiti koristne informacije in jih na razumljiv
način implementirati v obstoječe procese in aktivnosti v organizaciji. Takšne posameznike
sem, zaradi specifičnega področja znanj in sposobnosti, ki ga imajo, opredelila kot
podatkovne znanstvenike. Menim, da je z izrazom podatkovni znanstvenik bolj poudarjen
ravno vidik znanosti, znanstvene metode pri delu podatkovnega znanstvenika ter nova
znanja in sposobnosti, potrebna za delo z vsemi dimenzijami masovnih podatkov in
izvajanje procesa znanosti o podatkih. Z novostmi, ki jih prinašajo masovni podatki in
znanost o podatkih, bo pomembno, da bodo organizacije poiskale nove načine, kako bodo
informacijski viri predstavljali vzvod za rast, kako bodo uvedli sistemski management
informacij za usmerjanje inovacij, kako se bodo soočile z izzivi iz področja zasebnosti,
varnosti, intelektualne lastnine ter odgovornosti in kako bodo ustrezno pozicionirale
podatkovne znanstvenike oziroma ekipe podatkovnih znanstvenikov v organizacijsko
shemo. Hkrati pa bodo te spremembe in razvoj od organizacij zahtevale tudi spremembo
kulture in odnosa do podatkov ter sprejemanja odločitev. Da bi organizacije lahko uspešno
vključevale nove konkurenčne prioritete, potrebujejo nove tehnologije, znanja in procese.
Organizacije bodo morale preko življenjskega cikla informacij (pridobiti, shraniti,
procesirati in uporabiti) upoštevati štiri ključne komponente managementa informacij:
informacijska arhitektura, management informacij, management podatkov ter orodja in
tehnologije. Začeti morajo z zasnovo in uporabo platform, ki bodo pokrile vse storitve, ki
temeljijo na masovnih podatkih in znanosti o podatkih.
Konvergenca različnih znanstvenih disciplin je omogočila pojav novega razreda
strokovnjaka – podatkovni znanstvenik – katerega naziv še ni v celoti sprejet, vendar je s
strani različnih avtorjev uporabljen za opis »nove« discipline, kategorije dela, katere
pomembnost raste skupaj z masovnimi podatki. Trenutno še ne obstaja standard glede
uporabe nazivov, povezanih s podatki (podatkovni analitik, podatkovni rudar, podatkovni
inženir, statistik ipd.) zaradi razmeroma novega področja dela ter neprestanega razvoja
tega področja. Podatkovnega znanstvenika sem v sklopu magistrskega dela opredelila kot
strokovnjaka, ki se večino svojega časa ukvarja s podatki ter preko podatkovno
naravnanega pristopa z uporabo svojih znanj in sposobnosti iz več različnih znanstvenih
področjih odkriva zanimive informacije iz podatkov, pridobiva napovedni vpogled v
podatke, ki služi za izboljšanje prihodnjih odločitev, ustvarja t. i. nov izdelek ali storitev na
podlagi podatkov, zagotavlja vpogled v svoja dognanja ter ustrezno komunicira uspešne
zgodbe, na podlagi podatkov, drugim deležnikom. Podatkovni znanstveniki se razlikujejo
od statistikov, računalniških inženirjev in podatkovnih analitikov v tem, da imajo znanja in
sposobnosti, da lahko samostojno izvedejo celoten proces znanosti o podatkih.
Pri odgovoru na vprašanje, katera znanja in sposobnosti naj bi podatkovni znanstvenik
imel, sem se oprla na proces izvajanja znanosti o podatkih, tujo literaturo ter raziskave,
134
povezane z znanji in sposobnostmi podatkovnih znanstvenikov, že izvedene v tujini.
Identificirala sem, da naj bi podatkovni znanstvenik imel znanja iz področij:
programiranja, managementa podatkov, baz podatkov, znanosti (znanstvena metoda),
statistike, matematike, strojnega učenja in domenskih znanj. V sklopu sposobnosti pa so
pomembne: analitične sposobnosti, sposobnost reševanja problemov, strast do učenja
novih stvari, strast do dela s podatki, radovednost, potrpežljivost, vztrajnost, pogum in
samozavest zagovarjati svoje odločitve, kreativno mišljenje, sposobnost timskega dela,
pozornost nameniti kakovosti, sposobnost sprejemanja odločitev, strateško razmišljanje,
sposobnost motiviranja in navduševanja drugih, občutek za umetnost in prakso
vizualizacije, podjetništvo, spoštovanje zakonov in predpisov ter moralnost in etičnost. Na
ta način ima namreč vse potrebno, da lahko samostojno izvede celoten proces znanosti o
podatkih.
Z namenom odgovoriti na vprašanja, ali se v Sloveniji ukvarjamo z masovnimi podatki, ali
tudi v Sloveniji obstajajo podatkovni znanstveniki ter kakšna znanja in sposobnosti imajo,
sem izvedla raziskavo, v kateri je sodelovalo 92 posameznikov iz Slovenije, ki se večino
svojega časa ukvarjajo s podatki. Povabljeni so bili k izpolnitvi strukturiranega spletnega
vprašalnika, ki je vključeval vprašanja, povezana z dimenzijami masovnih podatkov,
samooceno znanj, pomembnostjo znanj in sposobnosti, njihovimi dosedanjimi izkušnjami
ter načini izobraževanja.
Na podlagi podatkov, pridobljenih z vprašalnikom, sem ugotovila, da se določeni
posamezniki v Sloveniji z vidika dimenzije volumna (TB ali več), raznolikosti (vse
dimenzije podatkov) in vrednosti podatkov (boljše odločitve na podlagi dejstev) dejansko
ukvarjajo z masovnimi podatki v ožjem smislu. Hkrati pa sem z analizo samoocen znanj
ugotovila, da so ravno znanja iz področja tehnologije masovnih podatkov (masovni in
distribuirani podatki, sistemi baz podatkov – NoSQL baze podatkov) v povprečju najslabše
ocenjena (povprečna ocena je bila okrog 2 – osnove). Zanimivo je bilo, da so tudi z vidika
pomembnosti znanj omenjena znanja iz tehnologije masovnih podatkov slabo ocenjena
(povprečna ocena pomembnosti je bila okrog 2). Sklepam lahko, da se v Sloveniji
posamezniki ukvarjajo z masovnimi podatki v ožjem smislu, vendar pri tem ne uporabljajo
tehnologij masovnih podatkov oziroma teh tehnologij še ne uporabljajo v tolikšni meri, kot
so že sprejete v tujini.
Na podlagi podatkov iz raziskave sem ugotovila tudi, da so na splošno posamezniki v
Sloveniji v povprečju najvišjo samooceno znanj dodelili znanjem iz področij: baz podatkov
(SQL, relacijske baze podatkov, management podatkov), statistike (opisna statistika in
verjetnostne porazdelitve ter regresija), domenskih znanj (poslovna znanja, specifična
znanja iz področja iz katerega izhaja problem) ter oblikovanja informacij. Vsa omenjena
znanja, z izjemo regresije, so bila v povprečju tudi ocenjena kot najbolj pomembna pri
njihovem delu. Na splošno pa v povprečju slabo poznajo področja: metodologije strojnega
učenja, nagrajevalno in poglobljeno učenje, obdelavo naravnega jezika ter tehnologije
135
masovnih podatkov. Razlog je verjetno v tem, da ta znanja pri njihovem delu trenutno niso
pomembna, saj so ta področja znanj dobila tudi najnižjo povprečno oceno pomembnosti. Z
namenom približati tehnologijo masovnih podatkov (Hadoop, MapReduce, NoSQL baze
podatkov) ter napredna področja strojnega učenja posameznikom in organizacijam v
Sloveniji bi priporočala večjo vključitev primerov dobrih praks iz tega področja v sklopu
predstavitev na konferencah, povabilo strokovnjakov iz tujine v sklopu delavnic, konferenc
ali tečajev, boljše deljenje znanja v sklopu družabnih skupin in srečanjih ter v sklopu
formalnega izobraževanja vzpodbujanje uporabe tehnologij masovnih podatkov na odprtih
podatkih ali pa preko vzajemnega sodelovanja z organizacijami. Primeri dobre prakse in
prikazani dejanski učinki uporabe tehnologij masovnih podatkov bodo na ta način
vzpodbudili organizacije, da bodo začele razmišljati o uvajanju teh tehnologij.
Na podlagi statističnega preizkusa sem identificirala vrzel med povprečno samooceno
znanj in povprečno oceno pomembnosti le pri področjih znanj: regresijska analiza in
linearna algebra, računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik. Pri obeh se je izkazalo, da anketiranci menijo, da imajo več znanj, kot
pa so pomembna pri njihovem delu. Rezultat verjetno izhaja iz tega, da se matematike in
delno statistike podrobno učimo v sklopu formalne izobrazbe (osnovna šola, srednja šola
itd.), v praksi pa iz teh področij uporabljamo le znanja, ki so pri delu pomembna.
Anketiranci namreč opravljajo različne funkcije, pri katerih uporabljajo različna znanja
glede na njihovo področje dela, prav vsi pa imajo podobna osnovna izhodišča iz npr.
matematike.
Pri primerjavi rezultatov iz raziskave v Sloveniji in raziskave Hayesa glede samoocene
znanj sem ugotovila, da so skupna področja višje samoocenjenih znanj strukturirani
podatki/relacijske baze podatkov (SQL), management podatkov ter do določene mere
statistika (v Sloveniji področje regresijske analize, opisne statistike in verjetnostne
porazdelitve). Do razlik pa je prišlo pri področju znanj iz matematike in
znanosti/znanstvene metode, ki sta v Sloveniji dobili v povprečju oceno 3 – Začetnik.
Sklepala bi lahko, da imajo posamezniki v tujini bolj »močno« formalno izobrazbo iz teh
dveh področij oziroma se več posameznikov iz teh dveh področij ukvarja z znanostjo o
podatkih ali pa omenjena razlika izhaja le iz drugačne sestave in velikosti vzorca.
Ugotovila sem, da se posamezniki v sklopu pridobivanja znanj in sposobnosti poslužujejo
različnih načinov. Največkrat so omenili, da so znanja pridobili preko formalnega
izobraževanja. 86 % je kot način pridobivanja znanj in sposobnosti izbralo udeležbo na
konferenci, 73 % pa delavnico ali tečaj s pridobitvijo certifikata. Zanimiv je podatek, da se
jih je več kot polovica (57 %) že udeležila masovnega odprtega spletnega tečaja ter da jih
skoraj polovica (46 %) znanja pridobiva preko praktičnega dela na »odprtih podatkih«.
Izvajanje procesa znanosti o podatkih je namreč iterativen proces, ki zahteva čim več
izkušenj, da se število iteracij optimizira. Ravno ta znanja in sposobnosti pa lahko
pridobijo iz naslova masovnih odprtih spletnih tečajev ter praktičnega dela na »odprtih
136
podatkih«. Zanimiv je tudi podatek, da se jih je 13 % že udeležilo natečaja/tekmovanja (kot
je Kaggle.com), kjer se izpopolnjuje tudi sposobnosti izboljšanja procesa znanosti o
podatkih. S popularnostjo udeležbe na družabnih skupinah (kjer znanja pridobiva 37 %
anketirancev) se bo verjetno % udeležencev tekmovanj še povečal. Menim, da bi lahko
tudi v Sloveniji organizirali natečaj iz naslova znanosti o podatkih. Pri tem bi se lahko
uporabilo podatke, ki so že javno dostopni ali pa k sodelovanju povabilo organizacije.
Na podlagi razvrščanja v skupine z algoritmom K-means sem identificirala 5 skupin
posameznikov v Sloveniji, ki se med seboj razlikujejo glede samoocene svojih znanj.
Skupine sem na podlagi njihovih značilnosti poimenovala: »Trženjski raziskovalci –
analitiki«, »Podatkovni analitiki«, »Raziskovalci«, »Programerji« in »Podatkovni
znanstveniki«. V primerjavi z raziskavo Hayesa o znanjih in sposobnostih podatkovnih
znanstvenikov sem ugotovila podobnost med segmenti Razvijalec in »Programerji«,
Raziskovalec in »Raziskovalec« ter Kreativec in »Podatkovni znanstvenik«. V Sloveniji
nisem identificirala segmenta, ki bi bil primerljiv s segmentom Poslovni management,
identificiranim v raziskavi od Hayesa. Sem pa identificirala dva dodatna segmenta:
»Trženjski raziskovalci – analitiki« ter »Podatkovni analitiki«.
»Trženjski raziskovalci – analitiki« imajo začetni nivo znanj iz statistike in matematike ter
poslovnih znanj. Večini v tej skupini so pomembna poslovna znanja, baze podatkov,
management podatkov in vse sposobnosti, razen podjetniških in kreativnih. Menijo, da
imajo manj znanj, kot pa so pomembna iz področij: oblikovanja informacij, relacijskih baz
podatkov, poglobljenega učenja in analize omrežij. Z vidika dimenzije raznolikosti
podatkov se jih največji % ukvarja z notranjimi, strukturiranimi podatki, generiranimi s
strani naprav ali človeka (31 %). V tej skupini je najnižji % takšnih, ki so se srečali z vsemi
dimenzijami raznolikosti podatkov (13 %). Z vidika porazdelitve samoocene znanj v tej
skupini prevladujejo posamezniki (50 %), ki imajo »Normalno I-obliko« porazdelitev
znanj. To pomeni, da imajo določeno področje znanja visoko ocenjeno, pri ostalih pa imajo
zelo nizke samoocene znanja ali pa jih sploh ne poznajo. Priporočila bi, da ta skupina
predvsem razvija naprej znanja iz statistike in matematike, ki sta najmočnejši področji te
skupine. Manjka jim predvsem razširitev njihovih znanj (vsaj na osnove) iz področij znanj
programiranja, baz podatkov, managementa podatkov, strojnega učenja in domenskih
znanj, da bi postali »Podatkovni znanstveniki«. Predlagam, da bi se s programiranjem
seznanili preko uporabe programskega jezika R, v katerem bi se lahko hitro naučili izvedbo
ukazov iz področja statistike, ki bi jih lahko takoj uporabili pri svojem delu. Ker se pogosto
udeležujejo delavnic ali tečajev, bi lahko na kakšni od njih predstavili nove možnosti
vizualizacije, osnove baz podatkov ter metode strojnega učenja, ki bi jih lahko kar
najhitreje praktično uporabili pri svojem delu. Pozitivni učinki uporabe pri delu bi jih
vzpodbudili k nadaljnji uporabi in raziskovanje teh področij tudi v prihodnje, saj določen
del te skupine meni, da sta pri delu s podatki pomembni radovednost in strast.
137
»Podatkovni analitiki« imajo srednji nivo znanj iz področij baz podatkov ter poslovnih
znanj ter začetna znanja iz področja pogramiranja. Večini v tej skupini so prav tako
pomembna poslovna znanja, baze podatkov, management podatkov in vse sposobnosti,
razen podjetniških in kreativnih. Menijo, da imajo več znanj, kot pa so pomembna iz
področij: čelno programiranje, regresija, nadzorovano učenje, linearna algebra in
računstvo, odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik. Imajo
potencial, da postanejo »Podatkovni znanstveniki«, saj se jih že sedaj skoraj 40 % ukvarja
z vsemi dimenzijami raznolikosti podatkov, prav tako pa očitno delajo na področjih, kjer
so pomembna znanja programiranja (čelno) in strojnega učenja. Z vidika porazdelitve
samoocene znanj v tej skupini prevladujejo posamezniki (61 %), ki imajo »Normalno I-
obliko« porazdelitev znanj. To pomeni, da imajo določeno področje znanja visoko
ocenjeno, pri ostalih pa imajo zelo nizke samoocene znanja ali pa jih sploh ne poznajo.
Priporočila bi, da ta skupina v nadaljevanju razvija znanja iz področij znanosti/znanstvena
metoda, programiranja, statistike, strojnega učenja in domenskih znanj. Njihova prednost
leži v dobri osnovi na področju baz podatkov in poslovnih znanjih.
»Raziskovalci« zelo dobro kombinirajo znanja iz področja oblikovanja informacij,
poslovnih znanj, baz podatkov ter statistike. Predstavljajo zelo dober potencial, da
postanejo »Podatkovni znanstveniki«, saj so jim (25 %) pomembna vsa področja znanj in
sposobnosti. Dobro izhodišče je tudi, da iz te skupine prihaja najvišji % posameznikov, ki
je kot največjo obdelano količino podatkov izbralo PB (6 %). V tej skupini se jih največ
(33 %) ukvarja z vsemi dimenzijami raznolikosti podatkov. Z vidika porazdelitve
samoocene znanj v tej skupini prevladujejo posamezniki, ki imajo »Minus-obliko« (72,2
%) porazdelitve znanj. To pomeni, da imajo iz veliko področij znanj določeno stopnjo
znanja, nikjer pa ne izstopajo ali pa izstopajo na več področjih. Priporočila bi, da ta
skupina v nadaljevanju razvija znanja iz področja programiranja, strojnega učenja in
domenska znanja. Ker imajo dobra znanja iz področja vizualizacije, menim, da bi se jim
lahko približalo programske jezike in programiranje preko različnih načinov vizualizacij
podatkov s pomočjo programskih jezikov. Preko uporabe strojnega učenja pa bi lahko
izboljšali rezultate, kjer si želijo doseči boljše odločanje na podlagi dejstev. Ker se v
primerjavi z drugimi skupinami veliko udeležujejo masovnih odprtih spletnih tečajih, bi
priporočala, da pridobivajo omenjena znanja preko masovnih odprtih spletnih tečajev.
»Programerji« izstopajo z najvišjo povprečno samooceno znanj iz programiranja, baz
podatkov in domenskih znanj. So edina skupina, ki ima začetni nivo znanj na področju
NoSQL baz podatkov ter osnovni nivo znanj iz masovnih in distribuiranih podatkov. To
potrjuje tudi dejstvo, da se jih največ ukvarja s podatki v GB in TB. Ker menijo, da imajo
manj poslovnih znanj, kot pa so pomembna pri njihovem delu, bi priporočala, da znanja
razvijajo iz področja poslovnih ved. Da postanejo »Podatkovni znanstveniki« jim manjkajo
še znanja iz področja znanosti/znanstvene metode in statistike. Z vidika porazdelitve
samoocene znanj v tej skupini prevladujejo posamezniki, ki imajo »T-obliko« (53 %) in
»Minus-obliko« porazdelitve znanj. Priporočala bi, da ta skupina tesno sodeluje s skupino
138
»Podatkovnih znanstvenikov« pri različnih projektih. Na podlagi skupnega sodelovanja
bodo lahko »Programerji« pridobili vpogled v znanstveni pristop k podatkom. Hkrati pa bi
priporočala formalno izobrazbo ali vsaj udeležbo na masovnem odprtem spletnem tečaju iz
področja statistike, znanstvene metode in poslovnih znanj.
»Podatkovni znanstveniki« izstopajo predvsem po naprednem znanju programskih jezikov
in so edini od skupin, ki imajo največje število področij znanj ocenjeno s povprečno oceno
3 (začetnik) ali več. Večini so pri delu pomembna vsa področja znanj in sposobnosti.
Menijo, da imajo več znanj, kot pa so pomembna iz področij: opisna statistika in
verjetnostne porazdelitve ter redukcija dimenzij. Večina jih prihaja iz smeri računalništva.
Ukvarjajo se s podatki v GB in TB. Več kot polovica se je že srečala z vsemi dimenzijami
raznolikosti podatkov. Kakovost izdelkov in storitev jim je enako pomembna kot odločanje
na podlagi dejstev. Z vidika porazdelitve samoocene znanj v tej skupini prevladujejo
posamezniki, ki imajo »Unikatno obliko« (42 %) in »T-obliko« (42 %) porazdelitve znanj.
V primerjavi z drugimi skupinami so tudi edina skupina, ki sploh vsebuje »Unikatno
obliko« porazdelitve znanj. Menim, da je za to skupino predvsem pomembno to, da lahko
svoje bogato znanje uporabijo v praksi na zanimivih projektih, ki jim bodo predstavljali
izziv. Svoje znanje že sedaj izpopolnjujejo in ga bodo tudi v prihodnje, zato je pomembno,
da so obveščeni o aktualnih konferencah v Sloveniji in tujini ter aktualnih natečajih in
tekmovanjih. Ker so jim verjetno najbolj pomembne praktične izkušnje iz izvedenih
projektov, menim, da bi lahko znanje medsebojno delili preko srečanj v družabnih
skupinah.
Na podlagi identificiranih segmentov in njihovih značilnosti menim, da v Sloveniji
obstajajo posamezniki, ki bi jim lahko podelili naziv »podatkovni znanstveniki«, saj imajo
znanja in sposobnosti iz vseh identificiranih področij, s katerimi lahko pokrijejo celoten
proces izvajanja znanosti o podatkih. Glede na podatke o rastočem povpraševanju po
takšnih posameznikih v svetu bo v prihodnosti predvsem pomembno ustvariti okolje in
pogoje, da bodo takšni posamezniki našli ustrezne izzive za izpopolnitev svojega
potenciala v Sloveniji, hkrati pa razviti oziroma dopolniti potencial preostalih
posameznikov iz identificiranih skupin. Pri tem bo zelo pomembna podpora v sklopu
formalnega izobraževanja iz navedenih področij, stalno izpopolnjevanje, prenos znanja
med posamezniki in skupinami in pridobivanje izkušenj na praktičnih primerih. V ta
namen bi bilo potrebno še bolj vzpodbujati srečanja v družabnih skupinah, omogočiti delo
na »odprtih« podatkih ter ustrezna znanja za opravljanje takšne pozicije vključiti v del
redne formalne izobrazbe.
139
LITERATURA IN VIRI
1. Big data developers in Slovenia. Najdeno 21. novembra 2015 na spletnem naslovu
http://www.meetup.com/Big-Data-Developers-in-Slovenia/
2. Big Data Executive Survey (2012). Najdeno 10. januarja 2015 na spletnem naslovu
http://newvantage.com/wp-content/uploads/2012/12/NVP-Big-Data-Survey-Themes-
Trends.pdf
3. Big data management and Analytics. Najdeno 21. novembra 2015 na spletnem naslovu
http://www.gartner.com/technology/topics/big-data.jsp
4. Boyd, D. & Crawford, K. (2012). Critical questions for big data. Information,
Communication & Society, 15(5), 662–679.
5. Chordas, L. (2014). Data driven. Best’s Review, 115(1), 22–26.
6. Conway, D. (2015). The data science venn diagram. Drewconway. Najdeno 20. januara
2015 na spletnem naslovu http://drewconway.com/zia/2013/3/26/the-data-science-
venn-diagram
7. Coursera. Najdeno 15. januarja 2016 na spletnem naslovu
https://www.coursera.org/specializations/jhudatascience
8. Crnoja, D., Jastrić, A. (2013, 19. september). Big data i nove uloge u organizaciji.
ICTBusiness. Najdeno 5. novembra 2014 na spletnem naslovu
http://www.ictbusiness.info/poslovanje/big-data-i-nove-uloge-u-organizaciji
9. DAMA (2014, 6. marec). DAMA-DMBOK2 Framework Guide. Dama. Najdeno 21.
marca 2016 na spletnem naslovu
https://www.dama.org/sites/default/files/download/DAMA-DMBOK2-Framework-V2-
20140317-FINAL.pdf
10. Data science talks: predictive modeling using R. Najdeno 21. novembra 2015 na
spletnem naslovu http://eventful.com/ljubljana/events/data-science-talks-1-predictive-
modeling-using-r-/E0-001-084350665-8
11. Davenport, T. T., & Patil, D. J. (2012). Data scientists: the sexiest job of the 21st
century. Harvard Business Review, oktober 2012, 70–76.
12. Davenport, T. H., Barth, P., & Bean, R. (2012). How ‘Big Data’ is different. MIT Sloan
Management Review54(1). Najdeno 10. januarja 2015 na spletnem naslovu
http://www.hbs.edu/faculty/Publication%20Files/SMR-How-Big-Data-Is-
Different_782ad61f-8e5f-4b1e-b79f-83f33c903455.pdf
13. Declues, J. (2015). Four types of big data Analytics and examples of their use.
Ingramicroadvisor.Najdeno 21. novembra 2015 na spletnem naslovu
http://www.ingrammicroadvisor.com/data-center/four-types-of-big-data-analytics-and-
examples-of-their-use
14. Dhar, V. (2013). Data Science and Prediction. Communications of the ACM, 56(12),
64-73.
15. Discovery Science Bled (2014). Najdeno 21. novembra 2015 na spletnem naslovu
http://ds2014.ijs.si/
140
16. EDSA. Najdeno 21. novembra 2015 na spletnem naslovu http://edsa-
project.eu/overview/about-edsa/
17. The Emerging Big Returns on Big Data (2013). Najdeno 16. januarja 2015 na spletnem
naslovu http://www.tcs.com/SiteCollectionDocuments/Trends_Study/TCS-Big-Data-
Global-Trend-Study-2013.pdf
18. Evans, et al. (2015). IT’s Challenge: Bringing Structure to the Unstructured World of
Big Data. AT Kearney. Najdeno 15. decembra 2015 na spletnem naslovu
https://www.atkearney.com/paper/-
/asset_publisher/dVxv4Hz2h8bS/content/id/5152447
19. Ferle, M. (2013, 27. februar). Znanost podatkov. MonitorPRO. Najdeno 5. novembra
2014 na spletnem naslovu http://www.monitorpro.si/147145/praksa/znanost-podatkov/
20. The field guide to data science.Najdeno 10. januarja 2015 na spletnem naslovu
https://www.boozallen.com/content/dam/boozallen/documents/2015/12/2015-FIeld-
Guide-To-Data-Science.pdf
21. Gams, M. (2008). Inteligentni programski sistemi. Prosojnice predavanj pri predmetu
Inteligentni programski sistemi. Ljubljana: Ekonomska fakulteta.
22. Google Ngram viewer. Najdeno 23. junija 2016 na spletnem naslovu
https://books.google.com/ngrams/graph?content=big+data%2Cdata+science%2Cdata+
scientist&case_insensitive=on&year_start=1800&year_end=2008&corpus=15&smoot
hing=1&share=&direct_url=t4%3B%2Cbig%20data%3B%2Cc0%3B%2Cs0%3B%3B
big%20data%3B%2Cc0%3B%3BBig%20Data%3B%2Cc0%3B%3BBig%20data%3B
%2Cc0%3B.t4%3B%2Cdata%20science%3B%2Cc0%3B%2Cs0%3B%3BData%20Sc
ience%3B%2Cc0%3B%3Bdata%20science%3B%2Cc0%3B%3Bdata%20Science%3B
%2Cc0
23. Google trends.Najdeno 23. junija 2016 na spletnem naslovu
https://www.google.com/trends/explore#q=big%20data%2C%20data%20science%2C
%20data%20scientist&cmpt=q&tz=Etc%2FGMT-2
24. Granville, V. (2013). Job titles for data scientists. Datasciencecentral. Najdeno 5.
decembra 2015 na spletnem naslovu
http://www.datasciencecentral.com/profiles/blogs/job-titles-for-data-scientists
25. Granville, V. (2014). Developing analytic talent: becoming a data scientist. United
States: Wiley.
26. Gualtieri, M. (2012). The Pragmatic Definition of Big Data. Forrester. Najdeno 21.
novembra 2015 na spletnem naslovu http://blogs.forrester.com/mike_gualtieri/12-12-
05-the_pragmatic_definition_of_big_data
27. Harris, H., Murphy, S. & Vaisman, M. (2013). Analyzing the analyzers: an
introspective survey of data scientists and their work. United States: O’Reilly Media.
28. Hayes, B. E. (2014a). The One hidden skill you need to unlock the value of your data.
Businessoverbroadway. Najdeno 5. decembra 2015 na spletnem naslovu
http://businessoverbroadway.com/the-one-hidden-skill-you-need-to-unlock-the-value-
of-your-data
141
29. Hayes, B. E. (2014b). The what and where of big data: a data definition framework.
Customerthink. Najdeno 5. decembra 2015 na spletnem naslovu
http://customerthink.com/the-what-and-where-of-big-data-a-data-definition-
framework/
30. Hayes, B. E. (2015a). Optimizing your data science team, a survey of data
professionals. Analytics Week. Najdeno 5. decembra 2015 na spletnem naslovu
https://analyticsweek.com/docs/research/open/OptimizingYourDataScienceTeamsV2.0
31. Hayes, B. E. (2015b). Investigating data scientists, their skills and team makeup.
Businessoverbroadway. Najdeno 5. decembra 2015 na spletnem naslovu
http://businessoverbroadway.com/investigating-data-scientists-their-skills-and-team-
makeup
32. Here’s why IBM's new computer chip matters. Najdeno 21. avgusta 2015 na spletnem
naslovu http://time.com/3950873/ibm-chip/
33. IBM what is big data?. Najdeno 21. novembra 2015 na spletnem naslovu http://www-
01.ibm.com/software/in/data/bigdata/
34. Information Systems Masters Degree. Najdeno 21. novembra 2015 na spletnem
naslovu http://www.uni.li/master-information-
systems?gclid=CICLn5b11sgCFYLnwgodef4IFg
35. INSINC (1997). Najdeno 5. decembra 2015 na spletnem naslovu http://www.local-
level.org.uk/uploads/8/2/1/0/8210988/netresult.pdf
36. Jaklič, J., Lukman, T., Popovič, A. (2010). Zrelost poslovne inteligence v slovenskih
organizacijah. Uporabna informatika, 18(1), 16-31.
37. Jin, Q., Li J., Zhang N., Cheng, J., Yu, C., Noguchi S. (2002). Enabling society with
information technology. Japan: Springer.
38. Ključ do rešitev Slovenija (2014). Najdeno 21. novembra 2015 na spletnem naslovu
http://www-01.ibm.com/software/si/businessconnect/index.html
39. Košmelj, B., & Rovan, J. (2007). Statistično sklepanje. Ljubljana: Ekonomska
fakulteta.
40. Kuhn, M. (2015). CRAN task view: Reproducible research. CRAN. Najdeno 5.
decembra 2015 na spletnem naslovu https://cran.r-
project.org/web/views/ReproducibleResearch.html
41. Leban, G. (2007). Vizualizacija podatkov s strojnim učenjem (doktorska dizertacija).
Ljubljana: Fakulteta za računalništvo in informatiko.
42. Leskovec, J., Rajaraman, A., & Ullman, J. D. (2014). Mining of massive datasets.
United Kingdom: Cambridge University Press.
43. Linguee.Najdeno 5. novembra 2014 na spletnem naslovu
http://sl.linguee.com/sloven%C5%A1%C4%8Dina-
angle%C5%A1%C4%8Dina/search?source=auto&query=data+science
44. Lipičnik B. (1998). Ravnanje z ljudmi pri delu. Ljubljana: Gospodarski vestnik.
142
45. Lorica, B., Howard, J., Dumbill, E. (2012, 11. januar). What is big data. O'Reilly.
Najdeno 21. novembra 2015 na spletnem naslovu https://beta.oreilly.com/ideas/what-
is-big-data
46. Lukman, T. (2009). Nivoji zrelosti poslovne inteligence v slovenskih organizacijah
(magistrsko delo). Ljubljana: Ekonomska fakulteta.
47. Malhotra, N. K. (2012). Basic marketing research: integration of social media (4th
ed.).
New Jersey: Prentice Hall.
48. Manyika, J., et al. (2011). Big data: The next frontier for innovation, competition, and
productivity. McKinsey Global Institute. Najdeno 5. decembra 2015 na spletnem
naslovu
http://www.mckinsey.com/insights/business_technology/big_data_the_next_frontier_fo
r_innovation
49. Marr, B. (2015). Ten top languages for crunching big data. Datasciencecentral.
Najdeno 5. decembra 2015 na spletnem naslovu
http://www.datasciencecentral.com/profiles/blogs/ten-top-languages-for-crunching-big-
data
50. Mayo, M. (2016). 7 steps to understanding deep learning. Kdnuggets. Najdeno 5.
decembra 2015 na spletnem naslovu http://www.kdnuggets.com/2016/01/seven-steps-
deep-learning.html
51. McAfee, A. & Brynjolfsson, E. (2012). Big Data: the management revolution. Harvard
Business Review, oktober 2012, 59-68.
52. Metcalfe’s law. Najdeno 15. januarja 2015 na spletnem naslovu
http://www.christopherspenn.com/2010/12/metcalfes-law-and-social-media-size-does-
matter/
53. Mooi, E. & Sarstedt., M. (2011). A concise guide to market research. Berlin
Heildeberg: Springer - Verlag.
54. Moorov zakon. Najdeno 15. januarja 2015 na spletnem naslovu
http://www.mooreslaw.org/
55. Murthy, S. (2014). The 25 hottest skills that got people hired in 2014. LinkedIn.
Najdeno 21. novembra 2015 na spletnem naslovu
http://blog.linkedin.com/2014/12/17/the-25-hottest-skills-that-got-people-hired-in-
2014/
56. Nickyintheclouds. Najdeno 15. januarja 2015 na spletnem naslovu
http://nickyintheclouds.com/wp-content/uploads/2013/05/comparative-scale-of-
bytes.png
57. NIO. Najdeno 21.novembra 2015 na spletnem naslovu http://nio.gov.si/nio/data/
58. NoSQL. Najdeno 16. januarja 2016 na spletnem naslovu http://nosql-database.org/
59. Number of chief digital officers doubled in 2013 (2013). Najdeno 17. novembra 2014
na spletnem naslovu http://cdoclub.com/number-of-chief-digital-officers-doubled-in-
2013-seven-cdos-became-ceo-and-four-cdos-became-board-directors-according-to-the-
cdo-talent-map-2014-video/
60. O’Neill, C. & Schutt, R. (2013). Doing data science. United States: O’Reilly Media.
143
61. OECD (2015). Data driven innovation: Big Data for growth and well-being. Paris:
OECD Publishing.
62. Olofson, C. W. & Vesset, D. (2012). Big Data: Trends, Strategies, and SAP
Technology. SAP. Najdeno 16. januarja 2015 na spletnem naslovu
https://www.sap.com/bin/sapcom/en_ae/downloadasset.2012-09-sep-26-13.idc-report--
big-data-trends-strategies-and-sap-technology-pdf.html
63. Oracle. Najdeno 22. novembra 2015 na spletnem naslovu https://www.oracle.com/big-
data/index.html
64. Pavlovič, L. (2014, 16. oktober). Zoubin Ghahramani: Podatki so naravnost
eksplodirali. Delo. Najdeno 5. novembra 2014 na spletnem naslovu
http://www.delo.si/znanje/znanost/hiter-napredek-znanstvenih-spoznanj-z-novimi-
orodji.html
65. PcMag. Najdeno 21.januarja 2016 na spletnem naslovu
http://www.pcmag.com/encyclopedia/term/52162/structured-data
66. Piatetsky, G. (2014). Four main languages for Analytics, data mining, data science.
Kdnuggets. Najdeno 21.novembra 2015 na spletnem naslovu
http://www.kdnuggets.com/2014/08/four-main-languages-analytics-data-mining-data-
science.html
67. Piatetsky, G. (2015). Poll results: Where is big data?. Kdnuggets. Najdeno 15. avgusta
2015 na spletnem naslovu http://www.kdnuggets.com/2015/08/largest-dataset-
analyzed-more-gigabytes-petabytes.html
68. Politiki na lovu za podatkovnimi analitiki. (2013, 9. september). MonitorPRO. Najdeno
5. novembra 2014 na spletnem naslovu
http://www.monitorpro.si/148157/novice/politiki-na-lovu-za-podatkovnimi-analitiki/
69. Press, G., (2012, 26. april). A very short history of data science. What's the big data?.
Najdeno 21. novembra 2015 na spletnem naslovu
http://whatsthebigdata.com/2012/04/26/a-very-short-history-of-data-science/
70. Qmee. Najdeno 15. januarja 2015 na spletnem naslovu http://blog.qmee.com/qmee-
online-in-60-seconds/
71. Raywood, D. (2012). Big data analyst shortage is a challenge for the UK. Scmagazine.
Najdeno 21.novembra 2015 na spletnem naslovu http://www.scmagazineuk.com/big-
data-analyst-shortage-is-a-challenge-for-the-uk/article/270538/
72. Rivera, R. and Haverson, A. (2014). Data Scientist vs Data Analyst.
Captechconsulting. Najdeno 15. decembra 2015 na spletnem naslovu
https://www.captechconsulting.com/blogs/data-scientist-vs-data-analyst
73. Rovan J. (2013). Statistika 3. Prosojnice predavanj pri predmetu Statistika 3.
Ljubljana: Ekonomska fakulteta.
74. Russom, P. (2011). Big Data Analytics. Tableau. Najdeno 21.marca 2016 na spletnem
naslovu
http://www.tableau.com/sites/default/files/whitepapers/tdwi_bpreport_q411_big_data_
analytics_tableau.pdf
144
75. Siegler, M. (2010). Eric Schmidt: every 2 days we create as much information as we
did up to 2003. Techcrunch. Najdeno 15. januarja 2015 na spletnem naslovu
http://techcrunch.com/2010/08/04/schmidt-data/
76. Somohano, C. (2013). Big data & data science: what does a data scientist do?. Data
Science London. Najdeno 21. novembra 2015 na spletnem naslovu
https://www.slideshare.net/datasciencelondon/big-data-sorry-data-science-what-does-a-
data-scientist-do
77. Stanton, J. M. (2013). Introduction to data science. iTunes. Najdeno 21. januarja 2016
na spletnem naslovu https://itunes.apple.com/us/book/introduction-to-data-
science/id529088127?mt=11
78. Structured and unstructured data: What is it? (2013). Najdeno 21. novembra 2015 na
spletnem naslovu http://www.sherpasoftware.com/blog/structured-and-unstructured-
data-what-is-it/
79. Swan, A. (2008). The skills, role and career structure of data scientists and curators: an
assessment of current practice and future needs. Key Perspectives. Najdeno 17. januara
2015 na spletnem naslovu
http://beta.jisc.ac.uk/media/documents/programmes/digitalrepositories/data
80. Štebe, J. & Bezjak, S. (2012). Odprti podatki pot k bolj odprti znanosti. Sociološko
srečanje, Maribor 2012. Najdeno 5. novembra 2014 na spletnem naslovu
http://www.adp.fdv.uni-lj.si/media/publikacije/predavanja/2012/2012_ss_pred_stebe2
81. Toš, N. & Hafner-Fink, M. (1998). Metode družboslovnega raziskovanja. Ljubljana:
Fakulteta za družbene vede.
82. Tuitt, D. (2013). A history of big data. Hcltech. Najdeno 21.novembra 2015 na
spletnem naslovu http://www.hcltech.com/blogs/transformation-through-
technology/history-big-data
83. Ultimate skills checklist for your first data analyst job. Najdeno 21. novembra 2015 na
spletnem naslovu
http://static.cdn.responsys.net/i2/responsysimages/content/udacity/Ultimate%20Skills
%20Checklist%20For%20Your%20First%20Data%20Analyst%20Job.pdf
84. Uporabna statistika. Najdeno 21. januarja 2016 na spletnem naslovuhttp://stat.uni-
lj.si/?predmet=ProstorskaStatistika
85. Vale, S. (2013). Classification of types of big data. Unece. Najdeno 21.novembra 2015
na spletnem naslovu
http://www1.unece.org/stat/platform/display/bigdata/Classification+of+Types+of+Big
+Data
86. Vesset D., et al. (2012). Wordlwide big data technology and services 2012 - 2016
Forecast. IDC. Najdeno 21. novembra 2015 na spletnem naslovu
http://laser.inf.ethz.ch/2013/material/breitman/additional%20reading/Worldwide%20Bi
g%20Data%20Technology%20and%20Services%202012-2016%20Forecast.pdf
87. Voulgaris, Z. (2014). Data scientist: The definitive guide to becoming a data scientist.
United States: Technics Publications.
145
88. Wales, M. (2014). Front-end vs back-end vs full stack web developers. Udacity.
Najdeno 21. januarja 2016 na spletnem naslovu http://blog.udacity.com/2014/12/front-
end-vs-back-end-vs-full-stack-web-developers.html
89. What is big data? Najdeno 21. novembra 2015 na spletnem naslovu
http://www.gartner.com/it-glossary/big-data/
90. Žerdin, A. (2014, 20. september). Ne gre za to, da bi ti Pitija, ki si jo nakrmil z
množico številk, izpljunila sliko prihodnosti. Delo. Najdeno 5. novembra 2014 na
spletnem naslovu http://www.delo.si/sobotna/ne-gre-za-to-da-bi-ti-pitija-ki-si-jo-
nakrmil-z-mnozico-stevilk-izpljunila-sliko-prihodnosti.html
PRILOGE
i
KAZALO PRILOG
Priloga 1: Seznam nazivov delovnih mest povezanih z znanostjo o podatkih...................... 1
Priloga 2: Objavljena delovna mesta povezana z znanostjo o podatkih ................................ 3
Priloga 3: Vprašalnik ............................................................................................................. 5
Priloga 4: Spremenljivke in opisi spremenljivk .................................................................. 13
Priloga 5: Frekvenčne porazdelitve samoocene in pomembnosti znanj in sposobnosti ...... 20
Priloga 6: Dendogram – razvrščanje na podlagi samoocene znanj ..................................... 23
Priloga 7: Dendogram – razvrščanje na podlagi pomembnosti znanj in sposobnosti ......... 24
Priloga 8: Razvrščanje v skupine na podlagi samoocene znanj .......................................... 25
Priloga 9: Razvrščanje v skupine na podlagi pomembnosti znanj in sposobnosti .............. 29
Priloga 10: Pomembni statistični preizkusi ......................................................................... 34
1
Priloga 1: Seznam nazivov delovnih mest, povezanih z znanostjo o podatkih
Tabela 1: Seznam nazivov delovnih mest, povezanih z znanostjo o podatkih
Št. Naziv delovnega mesta
1 Data Scientist
2 Business Analyst
3 Analyst
4 Data Analyst
5 Statistician
6 Senior Analyst
7 Senior Data Scientist
8 Chief Scientist
9 Research Scientist
10 Analytics Manager
11 Business Intelligence Consultant
12 Senior Business Analyst
13 Analytics Consultant
14 Data Architect
15 Research Analyst
16 Scientist
17 Web Analyst
18 Chief Data Scientist
19 Director of Analytics
20 Director, Analytics
21 Lead Analyst
22 Principal Data Scientist
23 Quantitative Analyst
24 Principal Scientist
25 SAS Programmer
26 Senior Web Analyst
26 Database Administrator
27 Director of Research
28 Director, Web Analytics
29 Lead Data Scientist
30 Lead Scientist
31 Manager Analytics
32 Manager, Analytics
33 Market Research Analyst
34 Senior Credit Risk Analyst
35 Senior Manager, Business Analytics
36 Senior Marketing Analyst
37 Senior Research Scientist
38 Sr. Statistician
39 Statistical Consultant
40 Vice President - Analytics
41 Web Analytics Manager
42 Actuary
43 Advanced Analytics Consultant
44 Analytic Scientist
45 Analytics Scientist
46 Analytics Specialist
47 Associate Business Analyst
48 Biostatistician
49 Business Analysis Manager
50 Business Analytics Director
se nadaljuje
2
Tabela 1: Seznam nazivov delovnih mest, povezanih z znanostjo o podatkih (nad.)
Št. Naziv delovnega mesta
51 Business Intelligence Analyst
52 Business Intelligence Specialist
53 Chief Analytics Officer
54 Data Analytics Consultant
55 Data Anayltics Professional
56 Data Engineer
57 Data Manager
58 Data Miner
59 Director of Advanced Analytics
60 Director, Advanced Analytics
61 Director, Data Science
62 Enterprise Information Architect
63 IT Business Analyst
64 Information Management Specialist
65 Lead Statistician
66 Machine Learning Engineer
67 Manager analytics
68 Manager of Analytics
69 Manager, Business Analytics
70 Mathematician
71 Planning Analyst
72 Principal Research Scientist
73 Quant
74 R&D Director
75 Reporting Analyst
76 Research Director
77 Research Engineer
78 Research Manager
79 Research and Development Manager
80 Risk Analytics Manager
81 Risk Consultant
82 Risk Manager
83 Risk Officer
84 SAP Solution Architect
85 SAS Consultant
86 SAS Data Analyst
87 Senior Analytics Consultant
88 Senior Bioinformatics Scientist
89 Senior Business Intelligence Consultant
90 Senior Business Intelligence Developer
91 Senior Data Analyst
92 Senior Market Analyst
93 Senior Research Analyst
94 Senior Statistician
95 Sr Quantitative Analyst
96 Sr. Data Scientist
97 Sr. Risk Analyst
98 Statistical Programmer
99 Statistical Programmer (SAS)
100 System Analyst
101 Systems Analyst
102 Technical Business Analyst
103 VP of Analytics
104 Vice President, Analytics
3
Priloga 2: Objavljena delovna mesta, povezana z znanostjo o podatkih
Tabela 2: Objavljena delovna mesta povezana z znanostjo o podatkih
Organizacija Celtra
Vir LinkedIn
Datum 2. maj 2015
Delovno mesto Podatkovni znanstvenik (angl. Data Scientist)
Opis delovnega
mesta
Izvedba statističnih analiz in statistično modeliranje (nelinearno in multivariantni
pristop).Raziskovanje interakcij med metrikami povezanimi z oglaševanjem z
različnimi kontektsti z namenom identificiranja priložnosti za izboljšanje algoritmov.
Podpora odločanju inženirjem in produktni ekipi z pripravljanjem poročil, pripravo
poizvedb ter izgradnjo prediktivnih modelov.Izgradnja orodij/vizualizacij v pomoč
raziskovanju podatkovih interakcij.Zaznavanje problemov povezanih s kakovostjo
podatkov in odkrivanje ter odprava vzrokov za te probleme.
Formalna
izobrazba
Pričakujejo diplomo ali magisterij iz računalništva, statistike, matematike ali drugih
kvantitativnih področij ali relevantne delovne izkušnje (ali tečaji MOOC).
Znanja Statistično modeliranje, strojno učenje, napovedna analitika in /ali algoritmi
podatkovnega rudarjenja.Obvladovanje najmanj enega od statističnih orodij kot so R,
SAS, Weka, Python/Scipy.Znanje SQL za raziskovalno analizo.Tekoče znanje
(govorno in pisno) angleškega jezika
Sposobnosti Analitične sposobnosti in neodvisno raziskovanje.Sposobnost hitre izgranje prototipnih
idej.Strast do dela s podatki, natančnost, pozitiven odnos do analitičnih
izzivov.Odlične komunikacijske in medosebne sposobnosti vključujoč sposobnost
opisa/razlage logike in implikacij kompleksnega modela sodelavcem iz različnih
področij dela.Strast do učenja in iskanja novih metodologij.Sposobnost dela v
spreminjajočem se okolju, kjer zahteve niso (vedno) jasno definirane vnaprej.
Izkušnje ("nice-
to-have")
Relevantne izkušnje iz analize nabora podatkov, katerih količina presega zmožnost
shranjevanja podatkov.Dobre izkušnje iz področja Bayesove statistike in poglobljeno
razumevanje razlik med frekventnostjo in Bayesianizmom.Dobre izkušnje iz analize in
obdelave kompleksnega, visoko dimenzionalnega nabora podatkov z uporabo orodij
Spark, Pig, Hive (ali drugih Hadoop orodji).
Ponudba Konkurenčna osnovna plača, dodatki in kvartalni bonusi.Velikodušen budget za
konference, tečaje, literaturo ali študij.Izbor lastnega orodja.Delo v San Franciscu CA
ali v starem mestnem jedru Ljubljane.Hladilnik je vedno poln in pijejo najboljšo kavo.
Organizacija Zemanta
Vir Zemanta.jobscore.com Datum 2015 Delovno mesto Podatkovni znanstvenik (angl. Data Scientist) Opis delovnega
mesta Pedstavitev podatkov uporabnikom in pridobivanje znanja iz podatkov.Kandidat se bo
pridružil uveljavljeni podatkovni ekipi znotraj njihovega inženirskega oddelka.Delo
zajema delo na produkcijskih sistemih z visokim pretkom in volumnom podatkov. Formalna
izobrazba Ni omenjena.
Znanja Strojno učenje in podatkovno rudarjenje.Go-lang, Python, Django + Angular JS,
Linux. AWS storritve kot ponudnik infrastrukture: EC2, S3, RDS, SQS.Cassandra,
ElsticSearch, PostgresSQL podatkovne baze.Ansible in Docker za management z
infrastrukturo.SaaS za vzdrževanje storitev: github, liberato metrics, Circle CI, New
Relic, Pingdom. Sposobnosti Talent, volja do učenja in odločenost za uspeh.Inženirske sposobnosti. Izkušnje Izkušnje iz strojnega učenja in podatkovega rudarjenje.Izkušnje iz področja modernih
načinov procesiranja podatkov: MapReduce, Hadoop, Spark ali drugih Apache
projektov masovnih podatkov. Ponudba Zaposlitev za poln delovni čas.Konkurenčna plača.Priložnost za delo na zanimivem
globalnem projektu v ekipi bistrih posameznikov. se nadaljuje
4
Tabela 2: Objavljena delovna mesta povezana z znanostjo o podatkih (nad.)
Organizacija Outfit7
Vir Outfit7.com Datum 24. december 2015 Delovno mesto Zaledni podatkovni znanstvenik (angl. Backend Data Scientist) Opis delovnega
mesta Spodbujanje stalnega napredka v učinkovitosti sistemov preko izboljšav algoritmov.Na
podlagi zbranih podatkov identifikacija vzrocev in predlaganje idej za
izboljšave.Nadziranje, primerjanje in preverjanje delovanja sistema na podlagi
primerjave specifikacij in dejanskega delovanja, zbranega iz podatkov.Odgovornost
nad zbiranjem podatkov in vzpostavitev mehanizmi za procesiranje teh
podatkov.Vzpodbujanje izboljšav zbiranja podatkov, analitičnih procesov in
tehnologij.Učinkovito delo, kot član ekipe. Formalna
izobrazba Ni omenjena.
Znanja Podatkovno rudarjenje in strojno učenje.Statistične metode.Programiranje (Java).SQL Sposobnosti Izjemne sposobnosti reševanja problemov.Natančnost, pozornost nameniti
podrobnostim.Pozitivna naravnanost, proaktivnost.Veselje do dela v podjetniško
naravnanem okolju z kratkimi življenjskimi cikli in agresivnimi urniki. Izkušnje Vsaj 2 leti delovnih izkušenj na delovnem mestu povezanim s podatki.Močno tehnično
in analitično ozadje (optimizacije, podatkovno rudarjenje, strojno učenje,...).Izkušnje z
masovnimi podatki, podatkovno analitiko, statističnimi metodami.Izkušnje s splošnimi
podatkovnimi tehnologijami (SQL, BIgQuery, statistična orodja). Ponudba Zaposlitev za nedoločen čas s 6 mesečnim poskusnim obdobjem.Sproščeno in urejeno
mednarodno poslovno okolje v ekipi strokovnjakov.Profesionalni in osebni
razvoj.Privlačna plača in možnost odkupa delnic. Organizacija Singtel
Vir Therecruitmentjob.com Datum 28. september 2015 Delovno mesto Podatkovni znanstvenik (angl. Data Scientist) Opis delovnega
mesta Svetovalna vloga za poslovno stran.Uporaba poslovnih znanj za identifikacijo kupcev
in trženjskih izzivov, ki jih je mogoče rešiti z analitičnim
modeliranjem.Implementacija analitičnih procesov, doseganje operativne odličnosti,
uveljavljanja povratne zanke kakovosti in zajemanje rezultatov in dognanj. Formalna
izobrazba Pričakujejo minimalno magisterij iz kvantitativne/matematične discipline.
Znanja Matematični/statistični modeli, optimizacijske metode in statistično
modeliranje.Poslovna podlaga metodam znanosti o podatkih na poslovnih
problemih.Statistični programski jeziki/paketi kot so SAS, SAS Enterprise Miner, R in
SQL. Sposobnosti Odlične komunikacijske in predstavitvene sposobnosti.Logika in sistematičnost pri
delu.Timsko delo.Neodvisnost in sposobnost hitrega učenja. Izkušnje Izkušnje iz področja telekomunikacij so prednost.Vsaj 5 let delovnih izkušenj iz
razvoja kvantitativnih modelov in podatkovnih analiz na praktičnem področju
operativnih raziskav in področja uporabne statistike/matematike.Izkušnje iz uporabnih
matematičnih/statističnih algoritmov, metod optimizacije in statističnega
modeliranja.Dokazan uspeh pri sintezi podatkov z namenom doseganja poslovnih
uspehov. Ponudba Ni omenjeno.
5
Priloga 3: Vprašalnik
Spoštovani,
sem Mateja Grobelnik, študentka podiplomskega programa informacijsko-upravljalske
vede na Ekonomski fakulteti, Univerze v Ljubljani.
Pišem magistrsko delo, katerega namen je pridobiti vpogled v znanja in sposobnosti
posameznikov v Sloveniji, ki se večino svojega časa ukvarjajo s podatki (pridobivanje,
obdelava, analiza, odločanje) oziroma s katerimi od naslednjih
področij: analitika (angl. Analytics), znanost o podatkih (angl. Data Science), masovni
podatki (angl. Big Data), statistika (angl. Statistics), strojno učenje (angl. Machine
Learning), management podatkov (angl. Data Management)
ali programiranje (angl. Programming) ter ugotoviti, kako se znanja in sposobnosti
posameznikov razlikujejo.
V ta namen bi vas vljudno prosila za izpolnitev vprašalnika, kar vam bo vzelo približno 10
minut vašega časa.
Vprašalnik je popolnoma anonimen. Rezultati raziskave pa bodo uporabljeni izključno
za namen magistrskega dela.
Za sodelovanje se vam že vnaprej zahvaljujem.
Mateja Grobelnik
1. Prosim označite, kakšna je bila največja količina/volumen podatkov, s katero ste se
vi osebno do sedaj ukvarjali (pridobivanje, obdelava, analiza, odločanje):
do 1023 KB (kilobajti) ali manj
od 1 MB do 1023 MB (megabajti)
od 1 GB do 1023 GB (gigabajti)
od 1 TB do 1023 TB (terabajti)
od 1 PB (petabajti) ali več
Ne vem
2. Prosim označite, s katerimi različnimi tipi/viri podatkov ste se vi osebno že srečali
pri ukvarjanju s podatki (pridobivanje, obdelava, analiza, odločanje).
Če ste se srečali samo z enim od naštetih primerov znotraj posamezne možnosti ali
podobnim primerom, ki pa ni naveden, to možnost vseeno označite.
6
Podatki, generirani s strani naprav:
Možnih je več odgovorov
Poslovne transakcije (nakupi, zaloge, računi ipd.); spletne metrike iz spletnih
dnevnikov; metrike iz nadzora procesov, senzorjev ipd.
Datum in čas objave na Facebooku, Twitterju; GPS podatki o Tweetih/Facebook
objavah ipd.
Podatki, generirani s strani človeka:
Možnih je več odgovorov
Število všečkov na Facebooku; število retweetov; ocene na družbenih medijih; spletne
sledi (clicks) ipd.
Ocenjevalne lestvice v vprašalnikih (raziskave); ocenjevanje sposobnosti ipd.
Vsebina elektronske pošte; vsebina dokumentov znotraj organizacije; mnenja
zaposlenih; komentarji potrošnikov; zapisi opomb klicnega centra ipd.
Vsebina komentarjev na spletnih forumih; blogi, zapisi in komentarji iz družbenih
medijev; spletna iskanja; vsebina SMS sporočil ipd.
Glasovna pošta, korporativni video, slike, ilustracije, avdio prepisi - iz notranjih virov
organizacije ipd.
Slike na Instagramu; video posnetki na YouTube; avdio komentarji na spletnih mestih
ipd.
Nič od naštetega
3. Prosim označite, ali ste se vi osebno že kdaj ukvarjali s podatki v realnem času
(angl. real time, streaming data):
Da
Ne
Ne vem
4. Prosim označite katere otipljive koristi vi osebno menite, da dosegate preko dela s
podatki?
Možnih je več odgovorov
Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše razumevanje potrošnika.
Povečanje prodaje/prihodkov.
Boljša kakovost izdelkov ali storitev.
Bolj učinkovito izvajanje procesov, načina dela, operacij.
7
Inovacije na področju izdelkov in storitev.
Boljše odločanje na podlagi dejstev.
Zmanjšanje tveganja.
Drugo:
5. Prosim ocenite spodnja PODROČJA ZNANJ glede na:
a) VAŠ NIVO ZNANJA na lestvici od 1–5, pri čemer pomeni 1 – Ne poznam in 5 –
Napredni nivo
b) POMEMBNOST PRI VAŠEM DELU in vplivu na uspešnost vašega dela, pri
čemer pomeni 1 – Sploh ni pomembno in 5 – Zelo je pomembno.
Pri oceni vašega nivoja znanja podajte oceno od 1–5, ki pomeni:
1 – Ne poznam: ne uporabljam/ne ustreza mojemu področju dela.
2 – Osnovno poznavanje: osnovno znanje, fokus je na izobraževanju.
3 – Začetnik: znanje pripravnika, fokus je na pridobivanju izkušenj na praktičnih primerih.
4 – Srednji nivo: samostojna kompetentna uporaba, fokus je na izboljšanju znanja.
5 – Napredni nivo: poglobljena znanja in kompetence, fokus je na reševanju strokovnih
problemov.
Tudi, če ne poznate vseh znanj, omenjenih znotraj določenega področja znanj, ocenjujte
tistega znotraj področja, ki ga poznate ali uporabljate.
Za lažje razumevanje, kaj je mišljeno pod posameznim področjem znanj, je več informacij
in razlaga posameznega področja znanj na voljo ob prehodu miške čez posamezno
področje znanj.
I. del: PROGRAMIRANJE
a) Vaš nivo znanja: 1 – Ne
poznam / 2 – Osnove / 3 –
Začetnik / 4 – Srednji nivo / 5 –
Napredni nivo
b) Pomembnost pri delu: 1 –
Sploh ni pomembno / 5 – Zelo je
pomembno
1 2 3 4 5 1 2 3 4 5
Zaledno programiranje (Back End
Programming):
Java/Rails/.NET/PHP/Ruby/Go
lang,idr.
Čelno programiranje (Front End
Programming):
JavaScript/HTML/CSS/jQuery/AJAX,
idr.
Znanje programskih jezikov npr. R,
Python, SAS, Julia, Scala, Stata, idr.
8
II. del: MANAGEMENT PODATKOV IN BAZE PODATKOV
a) Vaš nivo znanja:1 – Ne poznam /
2 – Osnove / 3 – Začetnik /4 –
Srednji nivo / 5 – Napredni nivo
b) Pomembnost pri delu: 1 –
Sploh ni pomembno / 5 –
Zelo je pomembno
1 2 3 4 5 1 2 3 4 5
Management podatkov (Data
Management)
Oblikovanje informacij (vizualizacija)
Sistemi baz podatkov – relacijske baze
podatkov (RDBMS): DB2, mySQL,
SQL Server, PostgreSQL idr.
Delo z delno strukturiranimi podatki:
XML, .JSON
Sistemi baz podatkov – NoSQL baze
podatkov: Cassandra, Hbase,
CouchBase, MongoDB idr.
Poizvedbeni jezik SQL
Masovni in distribuirani podatki
(Hadoop, MapReduce, Hive QL)
Sistemska administracija (SSH, *nix,
računalništvo v oblaku)
III. del: STATISTIKA IN MATEMATIKA
a) Vaš nivo znanja:1 – Ne poznam / 2
– Osnove / 3 – Začetnik /4 – Srednji
nivo / 5 – Napredni nivo
b) Pomembnost pri delu: 1 –
Sploh ni pomembno / 5 – Zelo
je pomembno
1 2 3 4 5 1 2 3 4 5
Znanstvena metoda (Scientific method)
Opisna statistika in verjetnostne
porazdelitve (Descriptive Statistics and
Probability Distributions)
Statistično preizkušanje domnev
(Inferential Statistics)
Redukcija dimenzij (Dimension
Reduction): PCA, faktorska analiza
Regresijska analiza (Regression)
Statistika časovnih vrst (Temporal
Statistics)
Prostorska statistika (Spatial statistics)
Simulacije (Simulations), npr. Monte
Carlo
Linearna algebra in računstvo, odvodi
in integrali, funkcije in risanje
grafikonov, manipulacija matrik
Optimizacija (Optimization)
9
IV. del: STROJNO UČENJE
a) Vaš nivo znanja:1 – Ne poznam / 2 –
Osnove / 3 – Začetnik /4 – Srednji nivo / 5
– Napredni nivo
b) Pomembnost pri delu: 1 – Sploh
ni pomembno / 5 – Zelo je
pomembno
1 2 3 4 5 1 2 3 4 5
Nadzorovano učenje
(Supervised Learning)
Nenadzorovano učenje
(Unsupervised Learning)
Nagrajevalno učenje
(Reinforcement Learning)
Poglobljeno učenje (Deep
Learning)
Obdelava naravnega jezika
(NLP)
Analiza omrežji (Network
Analysis)
V. del: DOMENSKA ZNANJA
a) Vaš nivo znanja:1 – Ne poznam /
2 – Osnove / 3 – Začetnik /4 –
Srednji nivo / 5 – Napredni nivo
b) Pomembnost pri delu: 1 –
Sploh ni pomembno / 5 –
Zelo je pomembno
1 2 3 4 5 1 2 3 4 5
Metodologije npr. AGILE, LEAN,
WATERFALL
Metodologije npr. CRISP-DM,
SEMMA, DMAIC
Specifična znanja iz posameznega
področja, dejavnosti ali domene iz katere
izhaja problem, ki ga rešujem
Poslovna znanja (finance, trženje,
logistika, razvoj izdelka, poznavanje
organizacije, trženjsko raziskovanje)
6. Prosim, ocenite spodnje SPOSOBNOSTI glede na njihovo POMEMBNOST PRI
VAŠEM DELU in vplivu na uspešnost vašega dela, pri čemer pomeni 1 – Sploh ni
pomembno in 5 – Zelo je pomembno.
1 – Sploh ni
pomembno
2 3 4 5 – Zelo je
pomembno
Radovednost glede opazovanih stvari (vzorcev, odnosov,
razmerij).
Analitične sposobnosti.
Postavljati prava vprašanja, definirati problem.
Sposobnost reševanja problemov.
Imeti sposobnost kreativnega mišljenja (angl. thinking outside
10
1 – Sploh ni
pomembno
2 3 4 5 – Zelo je
pomembno
the box).
Biti potrpežljiv in vztrajen.
Podjetniška naravnanost, imeti poslovni čut.
Sposobnost sprejemanja odločitev.
Pogum in samozavest zagovarjati svoje ugotovitve, odločitve.
Strateško razmišljati in načrtovati.
Nameniti pozornost kakovosti.
Voditeljske sposobnosti – imeti sposobnost motiviranja in
navduševanja drugih.
Sposobnost vodenja projektov.
Imeti sposobnost timskega dela.
Imeti dobre komunikacijske sposobnosti.
Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl.
storytelling).
Občutek za umetnost in prakso vizualizacije.
Biti moralen in etičen.
Spoštovati zakone in predpise.
Strast do učenja novih stvari.
Strast do dela s podatki.
7. Prosim, označite vse od spodaj naštetih dejavnosti, s katerimi ste vi osebno že imeli
izkušnje.
Možnih je več odgovorov
Pri svojem delu sem že imel ali imam vodstveno pozicijo (vodja oddelka, ravnanje z
zaposlenimi ipd.)
Opravljal sem pogodbena in/ali svetovalna dela iz mojega področja znanj in
sposobnosti.
Imel sem predavanja na izobraževalni ustanovi in/ali sem svoje delo/znanje predstavil na
konferenci.
Odprl sem svoje podjetje ali sodeloval kot partner/sodelavec pri ustanovitvi podjetja.
Prostovoljno sem sodeloval/svetoval na različnih projektih.
Svoje delo sem objavil v zborniku/knjigi/časopisu ali drugi publikaciji.
Imam svojo spletno stran ali pišem blog.
8. Prosim, označite katerih načinov izobraževanja oziroma pridobivanja znanj in
sposobnosti, povezanih z vašim področjem dela, ste se v preteklosti že poslužili:
Možnih je več odgovorov
Formalna izobrazba – znanja in sposobnosti pridobljena tekom formalnega
izobraževanja.
11
Udeležba na delavnici ali tečaju – s pridobitvijo certifikata.
Udeležba na masovnem odprtem spletnem tečaju (npr. Coursera, Udemy ipd.).
Samostojno izobraževanje: knjige, članki, video vsebine, spletni portali ipd.
Praktično delo na "odprtih podatkih" (angl. open data).
Udeležba na natečaju/tekmovanju (npr. Kaggle.com).
Pripravništvo.
Mentorstvo.
Sodelovanje v družabnih skupinah in srečanjih (angl. community group & meetups –
npr. Big Data Developers Slovenia, Data Science Slovenia).
Udeležba na konferenci.
Drugo:
Nič od naštetega
9. Spol:
Moški
Ženski
10. V katero starostno skupino spadate?
Manj kot 18 let
18 - 25 let
26 - 35 let
36 - 45 let
46 - 55 let
56 let ali več
11. Kakšna je vaša dopolnjena formalna izobrazba?
Osnovna šola ali manj
Poklicna ali štiriletna srednja šola
Višja ali visoka šola
Univerzitetni študij
Magisterij, doktorat, specializacija
12. Kakšna je vaša smer izobrazbe? Prosim izberite prevladujočo smer:
Splošno družboslovje
Ekonomija in poslovne vede
Fizika
Računalništvo
Statistika
12
Matematika
Druge naravoslovne ali tehnične vede
Druge vede
13. V kolikor vas zanimajo rezultati ankete prosim vpišite vašo elektronsko pošto ali
pa mi pišite na [email protected]:
(npr. [email protected])
13
Priloga 4: Spremenljivke in opisi spremenljivk
Tabela 3: Spremenljivke in opisi spremenljivk
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q1
Prosim, označite kakšna je bila največja količina/volumen
podatkov, s katero ste se vi osebno do sedaj ukvarjali (pridobivanje, obdelava, analiza, odločanje):
1-do 1023 KB (kilobajti)
ali manj
2-od 1 MB do 1023 MB (megabajti)
3-od 1 GB do 1023 GB
(gigabajti) 4-od 1 TB do 1023 TB
(terabajti) 5-od 1 PB (petabajti) ali
več
6-ne vem
-99 - -1 Nominalna
Q3a Naprave: Poslovne transakcije (nakupi, zaloge, računi ipd.); spletne metrike iz spletnih dnevnikov; metrike iz nadzora
procesov, senzorjev ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q3b Naprave: Datum in čas objave na Facebook-u, Twitterju; GPS
podatki o Tweetih/Facebook objavah ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q4a Človek: Število všečkov na Facebook-u; število retweet-ov;
ocene na družbenih medijih; spletne sledi (clicks) ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q4b Človek: Ocenjevalne lestvice v vprašalnikih (raziskave);
ocenjevanje sposobnosti ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q4c
Človek: Vsebina elektronske pošte; vsebina dokumentov
znotraj organizacije; mnenja zaposlenih; komentarji
potrošnikov; zapisi opomb klicnega centra ipd.
1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q4d
Človek: Vsebina komentarjev na spletnih forumih;
blogi, zapisi in komentarji iz družbenih medijev; spletna
iskanja; vsebina SMS sporočil ipd.
1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q4e Človek: Glasovna pošta, korporativni video, slike, ilustracije,
avdio prepisi - iz notranjih virov organizacije ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q4f Človek: Slike na Instagramu; video posnetki na YouTube;
avdio komentarji na spletnih mestih ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q5 Prosim označite ali ste se vi osebno že kdaj ukvarjali s podatki v realnem času (angl. real time, streaming data)
1-Da
2-Ne
3-Ne vem
-99 - -1 Nominalna
Q6a Koristi: Izboljšanje izkušnje potrošnika/uporabnika oziroma boljše razumevanje potrošnika.
1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q6b Koristi: Povečanje prodaje/prihodkov. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6c Koristi: Boljša kakovost izdelkov ali storitev. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6d Koristi: Bolj učinkovito izvajanje procesov, načina dela,
operacij.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6e Koristi: Inovacije na področju izdelkov in storitev. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6f Koristi: Boljše odločanje na podlagi dejstev. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6g Koristi: Zmanjšanje tveganja. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6h Koristi: Drugo: 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q6h_text Koristi: Drugo: (tekst)
Nominalna
Q8a_1
I.PROGRAMIRANJE_SAMOOCENA: Zaledno
programiranje (Back End Programming): Java/Rails/.NET/PHP/Ruby/Go lang,idr.
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
se nadaljuje
14
Tabela 3: Spremenljivke in opisi spremenljivk (nad.)
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q8b_1
I.PROGRAMIRANJE_SAMOOCENA: Čelno programiranje
(Front End Programming):
JavaScript/HTML/CSS/jQuery/AJAX, idr.
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q8c_1 I.PROGRAMIRANJE_SAMOOCENA: Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr.
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q8a_2
I.PROGRAMIRANJE_POMEMBNOST: Zaledno
programiranje (Back End Programming): Java/Rails/.NET/PHP/Ruby/Go lang,idr.
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q8b_2
I.PROGRAMIRANJE_POMEMBNOST: Čelno
programiranje (Front End Programming):
JavaScript/HTML/CSS/jQuery/AJAX, idr.
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q8c_2 I.PROGRAMIRANJE_POMEMBNOST: Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr.
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q9a_1 II.MANAGEMENT_SAMOOCENA: Management podatkov (Data Management)
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q9b_1 II.MANAGEMENT_SAMOOCENA: Oblikovanje informacij
(vizualizacija)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q9c_1
II.MANAGEMENT_SAMOOCENA: Sistemi baz podatkov -
relacijske baze podatkov (RDBMS): DB2, mySQL, SQL
Server, PostgreSQL, idr.
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q9d_1 II.MANAGEMENT_SAMOOCENA: Delo z delno
strukturiranimi podatki: XML, .JSON
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q9e_1
II.MANAGEMENT_SAMOOCENA: Sistemi baz podatkov -
NoSQL baze podatkov: Cassandra, Hbase, CouchBase, MongoDB, idr.
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q9f_1 II.MANAGEMENT_SAMOOCENA: Poizvedbeni jezik SQL
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q9g_1 II.MANAGEMENT_SAMOOCENA: Masovni in distribuirani
podatki (Hadoop, MapReduce, Hive QL)
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q9h_1 II.MANAGEMENT_SAMOOCENA: Sistemska administracija (SSH, *nix, računalništvo v oblaku)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q9a_2 II.MANAGEMENT_POMEMBNOST: Management podatkov (Data Management)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q9b_2 II.MANAGEMENT_POMEMBNOST: Oblikovanje informacij (vizualizacija)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
se nadaljuje
15
Tabela 3: Spremenljivke in opisi spremenljivk (nad.)
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q9c_2
II.MANAGEMENT_POMEMBNOST: Sistemi baz podatkov
- relacijske baze podatkov (RDBMS): DB2, mySQL, SQL
Server, PostgreSQL, idr.
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q9d_2 II.MANAGEMENT_POMEMBNOST: Delo z delno strukturiranimi podatki: XML, .JSON
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q9e_2 II.MANAGEMENT_POMEMBNOST: Sistemi baz podatkov - NoSQL baze podatkov: Cassandra, Hbase, CouchBase,
MongoDB, idr.
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q9f_2 II.MANAGEMENT_POMEMBNOST: Poizvedbeni jezik
SQL
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q9g_2 II.MANAGEMENT_POMEMBNOST: Masovni in
distribuirani podatki (Hadoop, MapReduce, Hive QL)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q9h_2 II.MANAGEMENT_POMEMBNOST: Sistemska
administracija (SSH, *nix, računalništvo v oblaku)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q10a_1 III.STATISTIKA_SAMOOCENA: Znanstvena metoda
(Scientific method)
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q10b_1
III.STATISTIKA_SAMOOCENA: Opisna statistika in
verjetnostne porazdelitve (Descriptive Statistics and
Probability Distributions)
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q10c_1 III.STATISTIKA_SAMOOCENA: Statistično preizkušanje
domnev (Inferential Statistics)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q10d_1 III.STATISTIKA_SAMOOCENA: Redukcija dimenzij
(Dimension Reduction): PCA, faktorska analiza
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q10e_1 III.STATISTIKA_SAMOOCENA: Regresijska analiza
(Regression)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q10f_1 III.STATISTIKA_SAMOOCENA: Statistika časovnih vrst (Temporal Statistics)
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q10g_1 III.STATISTIKA_SAMOOCENA: Prostorska statistika
(Spatial statistics)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q10h_1 III.STATISTIKA_SAMOOCENA: Simulacije (Simulations),
npr. Monte Carlo
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q10i_1 III.STATISTIKA_SAMOOCENA: Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q10j_1 III.STATISTIKA_SAMOOCENA: Optimizacija
(Optimization)
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
se nadaljuje
16
Tabela 3: Spremenljivke in opisi spremenljivk (nad.)
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q10a_2 III.STATISTIKA_POMEMBNOST: Znanstvena metoda (Scientific method)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q10b_2
III.STATISTIKA_POMEMBNOST: Opisna statistika in
verjetnostne porazdelitve (Descriptive Statistics and
Probability Distributions)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q10c_2 III.STATISTIKA_POMEMBNOST: Statistično preizkušanje
domnev (Inferential Statistics)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q10d_2 III.STATISTIKA_POMEMBNOST: Redukcija dimenzij
(Dimension Reduction): PCA, faktorska analiza
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q10e_2 III.STATISTIKA_POMEMBNOST: Regresijska analiza
(Regression)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q10f_2 III.STATISTIKA_POMEMBNOST: Statistika časovnih vrst
(Temporal Statistics)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q10g_2 III.STATISTIKA_POMEMBNOST: Prostorska statistika (Spatial statistics)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q10h_2 III.STATISTIKA_POMEMBNOST: Simulacije (Simulations), npr. Monte Carlo
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q10i_2 III.STATISTIKA_POMEMBNOST: Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q10j_2 III.STATISTIKA_POMEMBNOST: Optimizacija
(Optimization)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q11a_1 IV.STROJNO UČENJE_SAMOOCENA: Nadzorovano
učenje (Supervised Learning)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q11b_1 IV.STROJNO UČENJE_SAMOOCENA: Nenadzorovano
učenje (Unsupervised Learning)
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q11c_1 IV.STROJNO UČENJE_SAMOOCENA: Nagrajevalno učenje (Reinforcement Learning)
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q11d_1 IV.STROJNO UČENJE_SAMOOCENA: Poglobljeno učenje
(Deep Learning)
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q11e_1 IV.STROJNO UČENJE_SAMOOCENA: Obdelava naravnega jezika (NLP)
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q11f_1 IV.STROJNO UČENJE_SAMOOCENA: Analiza omrežji
(Network Analysis)
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q11a_2 IV.STROJNO UČENJE_POMEMBNOST: Nadzorovano
učenje (Supervised Learning)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q11b_2 IV.STROJNO UČENJE_POMEMBNOST: Nenadzorovano
učenje (Unsupervised Learning)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q11c_2 IV.STROJNO UČENJE_POMEMBNOST: Nagrajevalno
učenje (Reinforcement Learning)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
se nadaljuje
17
Tabela 3: Spremenljivke in opisi spremenljivk (nad.)
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q11d_2 IV.STROJNO UČENJE_POMEMBNOST: Poglobljeno učenje (Deep Learning)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q11e_2 IV.STROJNO UČENJE_POMEMBNOST: Obdelava naravnega jezika (NLP)
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q11f_2 IV.STROJNO UČENJE_POMEMBNOST: Analiza omrežji
(Network Analysis)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q12a_1 V.DOMENSKA ZNANJA_SAMOOCENA: Metodologije npr. AGILE, LEAN, WATERFALL
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q12b_1 V.DOMENSKA ZNANJA_SAMOOCENA: Metodologije
npr. CRISP-DM, SEMMA, DMAIC
1 - Ne poznam
2 - Osnovno poznavanje
3 – Začetnik 4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q12c_1
V.DOMENSKA ZNANJA_SAMOOCENA: Specifična znanja
iz posameznega področja, dejavnosti ali domene iz katere
izhaja problem, ki ga rešujem
1 - Ne poznam 2 - Osnovno poznavanje
3 – Začetnik
4 – Srednji nivo 5 – Napredni nivo
-99 - -1 Intervalna
Q12d_1 V.DOMENSKA ZNANJA_SAMOOCENA: Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje
organizacije, trženjsko raziskovanje)
1 - Ne poznam
2 - Osnovno poznavanje 3 – Začetnik
4 – Srednji nivo
5 – Napredni nivo
-99 - -1 Intervalna
Q12a_2 V.DOMENSKA ZNANJA_POMEMBNOST: Metodologije
npr. AGILE, LEAN, WATERFALL
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q12b_2 V.DOMENSKA ZNANJA_POMEMBNOST: Metodologije
npr. CRISP-DM, SEMMA, DMAIC
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q12c_2
V.DOMENSKA ZNANJA_POMEMBNOST: Specifična
znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q12d_2
V.DOMENSKA ZNANJA_POMEMBNOST: Poslovna
znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje)
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13a SPOSOBNOST: Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij).
1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13b SPOSOBNOST: Analitične sposobnosti. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13c SPOSOBNOST: Postavljati prava vprašanja, definirati
problem.
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13d SPOSOBNOST: Sposobnost reševanja problemov. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13e SPOSOBNOST: Imeti sposobnost kreativnega mišljenja (angl.
thinking outside the box).
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13f SPOSOBNOST: Biti potrpežljiv in vztrajen. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13g SPOSOBNOST: Podjetniška naravnanost, imeti poslovni čut. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13h SPOSOBNOST: Sposobnost sprejemanja odločitev. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13i SPOSOBNOST: Pogum in samozavest zagovarjati svoje
ugotovitve, odločitve.
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13j SPOSOBNOST: Strateško razmišljati in načrtovati. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
se nadaljuje
18
Tabela 3: Spremenljivke in opisi spremenljivk (nad.)
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q13k SPOSOBNOST: Nameniti pozornost kakovosti. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13l SPOSOBNOST: Voditeljske sposobnosti - imeti sposobnost
motiviranja in navduševanja drugih.
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13m SPOSOBNOST: Sposobnost vodenja projektov. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13n SPOSOBNOST: Imeti sposobnost timskega dela. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13o SPOSOBNOST: Imeti dobre komunikacijske sposobnosti. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13p SPOSOBNOST: Sposobnost pripovedovanja zgodbe na
podlagi podatkov (angl. storytelling).
1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13q SPOSOBNOST: Občutek za umetnost in prakso vizualizacije. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13r SPOSOBNOST: Biti moralen in etičen. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13s SPOSOBNOST: Spoštovati zakone in predpise. 1-sploh ni pomembno
5- zelo je pomembno -99 - -1 Intervalna
Q13t SPOSOBNOST: Strast do učenja novih stvari. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q13u SPOSOBNOST: Strast do dela s podatki. 1-sploh ni pomembno 5- zelo je pomembno
-99 - -1 Intervalna
Q14a IZKUŠNJE: Pri svojem delu sem že imel ali imam vodstveno
pozicijo (vodja oddelka, ravnanje z zaposlenimi ipd.)
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q14b IZKUŠNJE: Opravljal sem pogodbena in/ali svetovalna dela iz
mojega področja znanj in sposobnosti.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q14c IZKUŠNJE: Imel sem predavanja na izobraževalni ustanovi
in/ali sem svoje delo/znanje predstavil na konferenci.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q14d IZKUŠNJE: Odprl sem svoje podjetje ali sodeloval kot
partner/sodelavec pri ustanovitvi podjetja.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q14e IZKUŠNJE: Prostovoljno sem sodeloval/svetoval na različnih projektih.
1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q14f IZKUŠNJE: Svoje delo sem objavil v zborniku/knjigi/časopisu ali drugi publikaciji.
1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q14g IZKUŠNJE: Imam svojo spletno stran ali pišem blog. 1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q15a IZOBRAŽEVANJE: Formalna izobrazba - znanja in
sposobnosti pridobljena tekom formalnega izobraževanja.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15b IZOBRAŽEVANJE: Udeležba na delavnici ali tečaju - s pridobitvijo certifikata.
1-je izbral 0-ni izbral
-99 - -1 Nominalna
Q15c IZOBRAŽEVANJE: Udeležba na masovnem odprtem
spletnem tečaju (npr. Coursera, Udemy ipd.).
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15d IZOBRAŽEVANJE: Samostojno izobraževanje: knjige,
članki, video vsebine, spletni portali ipd.
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15e IZOBRAŽEVANJE: Praktično delo na "odprtih podatkih"
(angl. open data).
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15f IZOBRAŽEVANJE: Udeležba na natečaju/tekmovanju (npr.
Kaggle.com).
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15g IZOBRAŽEVANJE: Pripravništvo. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15h IZOBRAŽEVANJE: Mentorstvo. 1-je izbral 0-ni izbral
-99 - -1 Nominalna
se nadaljuje
19
Tabela 3: Spremenljivke in opisi spremenljivk (nad.)
Koda Opis Vrednosti Man.
vr.
Merilna
lestvica
Q15i IZOBRAŽEVANJE: Sodelovanje v družabnih skupinah in srečanjih (angl. community group & meetups - npr. Big
Data Developers Slovenia, Data Science Slovenia).
1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15j IZOBRAŽEVANJE: Udeležba na konferenci. 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15k IZOBRAŽEVANJE: Drugo: 1-je izbral
0-ni izbral -99 - -1 Nominalna
Q15k_text IZOBRAŽEVANJE: Drugo: (tekst)
Nominalna
XSPOL Spol: 1-Moški 2-Ženski
-99 - -1 Nominalna
Q16 V katero starostno skupino spadate?
1- Manj kot 18 let
2- 18-25 let
3- 26-35 let 4- 36-45 let
5- 46-55 let
6- 56 let ali več
-99 - -1 Ordinalna
Q17 Kakšna je vaša dopolnjena formalna izobrazba?
1- Osnovna šola ali manj
2- Poklicna ali štiriletna
srednja šola 3- Višja ali visoka šola
4- Univerzitetni študij
5- Magisterij, doktorat, specializacija
-99 - -1 Ordinalna
Q18 Kakšna je vaša smer izobrazbe? Prosim izberite prevladujočo
smer:
1- Splošno družboslovje
2- Ekonomija in poslovne vede
3- Fizika
4- Računalništvo 5- Statistika
6- Druge naravoslovne
ali tehnične vede 7- Druge vede
-99 - -1 Nominalna
20
Priloga 5: Frekvenčne porazdelitve samoocene in pomembnosti znanj in sposobnosti
Slika 1: Samoocena znanj (n = 87–91)
21
Slika 2: Pomembnost znanj (n = 84–91)
22
Slika 3: Pomembnost sposobnosti (n = 90–92)
23
Priloga 6: Dendogram – razvrščanje na podlagi samoocene znanj
Slika 4: Dendogram – razvrščanje na podlagi samoocene znanj
24
Priloga 7: Dendogram – razvrščanje na podlagi pomembnosti znanj in sposobnosti
Slika 5: Dendogram – razvrščanje na podlagi pomembnosti znanj in sposobnosti
25
Priloga 8: Razvrščanje v skupine na podlagi samoocene znanj
Na podlagi rezultatov hierahičnega razvrščanja so se za smiselne izkazale rešitve s 4, 5 ali
6 skupinami. Značilen prelom (»koleno«) se namreč pojavi pri teh treh skupinah, kar na
splošno označuje rešitev glede števila skupin, saj predstavlja točko, kjer se zgodi dodatna
kombinacija dveh enot ali skupin pri zelo povečani razdalji med skupinama.
Slika 6: Scree plot – Samoocena znanj (n = 83)
Pregled dendograma (Priloga 6) narekuje možne rešitve glede števila skupin v 3, 4, ali 5
skupin. Na podlagi izračuna VRC Calinski in Harabasz (Tabela 4) pa sta se kot ustrezni
rešitvi glede števila skupin izkazali razvrstitvi v 4 ali 5 skupin, saj imata najnižjo vrednost
ωk.
Tabela 4: Rezultati VRC Calinski in Harabasz za razvrščanje v 2 – 8 skupin – Samoocena
znanj
Število skupin VRC ωk
2 862,004
3 669,381 164,290
4 641,047 -50,095
5 562,620 2,036
6 486,228 35,870
7 445,708 18,303
8 423,490
Odločila sem se za nadaljevanje analize z razvrstitvijo v 4 ali 5 skupin.
26
Pri razvrstitvi v 4 skupine je bilo največ enot (31) razvrščenih v skupino poimenovano C1,
kar predstavlja 37 % vseh enot. Najmanj enot (12) pa je bilo razporejenih v skupino
poimenovano C2, kar predstavlja 15 % vseh enot. Skupini C4 in C5 vsebujeta enako
število enot (20). Pri razvrstitvi v 5 skupin je razporeditev enot v skupine bolj
enakovredna. Največ enot (19) je bilo razvrščenih v skupino poimenovano C5, kar
predstavlja 23 % vseh enot. Sledita skupini C2 in C4 z 18 enotami (22 %) ter skupina C1 z
16 enotami (19 %). Najmanj enot (12) je bilo razvrščenih v skupino C3, kar predstavlja 14
% vseh enot.
Slika 7: Število enot v posamezni skupini pri razvrstitvi v 4 in 5 skupin – Samoocena znanj
(n = 83)
Pri obeh razvrščanjih v skupine je preizkus o domnevi enakosti varianc (Priloga 10) med
identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi
samoocenami znanj med vsaj dvema skupinama, razen pri področju Poslovna znanja
(finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko
raziskovanje).
Slika 8: Centroidi skupin pri razvrstitvi v 4 skupine – Samoocena znanj (n = 83)
27
Slika 9: Centroidi skupin pri razvrstitvi v 5 skupin – Samoocena znanj (n = 83)
Z namenom izbora ustreznega števila skupin sem se odločila za kvalitativno primerjavo
obeh razvrstitev. Kvalitativna analiza je vključevala pregled nad razvrščanjem posameznih
enot v skupine ter vizualno primerjavo centroidov posameznih spremenljivk pri razvrstitvi
v 4 ali 5 skupin. Na podlagi pregleda razvrščenih enot v posamezne skupine in primerjave
centroidov spremenljivk sem ugotovila, da:
Sta si skupini C5 (razvrščanje v 5 skupin) in C4 (razvrščanje v 4 skupine) skoraj v
celoti enaki glede enot, ki so razvrščene v vsako skupino. 19 enot iz teh dveh skupin je
popolnoma enakih v obeh, 1 enota pa je bila v sklopu razvrščanja v 5 skupin razvrščena
v C2. Tudi iz primerjave centroidov je razvidno, da sta si C5 (razvrščanje v 5 skupin)
in C4 (razvrščanje v 4 skupine) skoraj popolnoma enaki glede značilnosti.
Sta si skupini skupini C4 (razvrščanje v 5 skupin) in C3 (razvrščanje v 4 skupine)
skoraj v celoti enaki glede enot, ki so razvrščene v vsako skupino. 18 enot iz teh dveh
skupin je popolnoma enakih v obeh, 2 enoti pa sta bili v sklopu razvrščanja v 5 skupin
razvrščeni v C1. Tudi iz primerjave centroidov je razvidno, da sta si C4 (razvrščanje v
5 skupin) in C3 (razvrščanje v 4 skupine) skoraj popolnoma enaki glede značilnosti.
Sta si skupini C3 (razvrščanje v 5 skupin) in C2 (razvrščanje v 4 skupine) v celoti enaki
glede enot, ki so razvrščene v vsako skupino. Torej vseh 12 enot je v obeh primerih
razvrščanja bilo razvrščenih v eno samo skupino. Tudi iz primerjave centroidov je
razvidno, da sta si C3 (razvrščanje v 5 skupin) in C2 (razvrščanje v 4 skupine)
popolnoma enaki glede značilnosti.
skupina C1 (razvrščanje v 4 skupine) skoraj v celoti vključuje vse enote iz skupin C1 in
C2 iz razvrščanja v 5 skupin. To pomeni, da je C1 (razvrščanje v 5 skupin) nova
skupina, ki je pri razvrščanju v 4 skupine ni bilo. Na podlagi primerjave centroidov je
razvidno, da C1 (razvrščanje v 5 skupin) vključuje enote z visoko povprečno oceno pri
28
Oblikovanju informacij (vizualizacija), Opisna statistika in verjetnostne porazdelitve
ter Poslovna znanja. Skupina C2 (razvrščanje v 5 skupin) pa vključuje enote z visoko
povprečno oceno pri Relacijske baze podatkov (RDBMS), Poizvedbenei jeziku SQL,
Specifičnia znanja iz posameznega področja ter Poslovna znanja.
Z vidika kvantitativne analize izbora primernega števila skupin za razvrstitev enot sem
primerjala tudi razdalje enot v vsaki skupini od centroida skupine za razvrstitev v 4 in 5
skupin.
Razvidno je, da je pri razvrstitvi v 4 skupine simetrična porazdelitev pri skupini C1, C3 in
C4. Pri skupini C2 pa je porazdelitev razdalj od centroidov asimetrična v desno, kar
pomeni, da je 25 % enot precej daleč od centroida skupine. Razvrstitev v 4 skupine
vključuje v vsaki skupini določeno mero variabilnosti, še najmanj variabilnosti je v skupini
4, kjer pa sta tudi dva osamelca. Osamelec se prav tako pojavi v skupini C1.
Pri razvrstitvi v 5 skupin pa je mogoče ugotoviti, da gre za simetrično porazdelitev pri
skupinah C1, C4 in C5. Porazdelitev pri skupini C2 je asimetrična v levo, pri skupini C3 pa
je asimetrična v desno. Skupina C2 ima sicer najmanjšo variabilnost, vendar je v njen
največ osamelcev skupaj z enim ekstremnim osamelcem. Osamelci se pojavijo tudi v
skupini C5, ki pa ima tudi manjšo variabilnost v primerjavi s skupinama C3 in C4. Na
splošno je razvrstitev v 5 skupin boljša, saj je variabilnost znotraj skupin manjša.
Slika 10: Prikaz razdalje enot od centroida skupine za razvrstitev v 4 in 5 skupin –
Samoocena znanj (n = 83)
29
Priloga 9: Razvrščanje v skupine na podlagi pomembnost znanj in sposobnosti
Na podlagi rezultatov hierahičnega razvrščanja so se za smiselne izkazale rešitve s 3, 4, 5
ali 6 skupinami. Značilen prelom (»koleno«) se namreč pojavi pri teh štirih skupinah, kar
na splošno označuje rešitev glede števila skupin, saj predstavlja točko, kjer se zgodi
dodatna kombinacija dveh enot ali skupin pri zelo povečani razdalji med skupinama.
Slika 11: Scree plot – Pomembnost znanj in sposobnosti (n = 68)
Pregled dendograma (Priloga 7) narekuje možne rešitve glede števila skupin v 2, 3, 4, ali 5
skupin. Na podlagi izračuna VRC Calinski in Harabasz (Tabela 5) pa so so kot ustrezne
rešitve glede števila skupin izkazale razvrstitve v 3, 4 ali 5 skupin, saj imajo najnižjo
vrednost ωk.
Tabela 5: Rezultati VRC Calinski in Harabasz za razvrščanje v 2 – 8 skupin – Pombemnost
znanj in sposobnosti (n = 68)
Število skupin VRC ωk
2 399,4
3 416,4 11,7
4 445,0 28,7
5 502,4 38,9
6 598,7 79,3
7 774,2 105,0
8 1054,7
Odločila sem se za nadaljevanje analize z razvrstitvijo v 3, 4 ali 5 skupin. Pri razvrstitvi v 3
skupine je bilo največ enot (27) razvrščenih v skupino, poimenovano C1, kar predstavlja
40 % vseh enot. V skupino C2 je bilo razvrščenih 23 enot, kar predstavlja 34 % vseh enot.
Najmanj enot (18) pa je bilo razporejenih v skupino, poimenovano C2, kar predstavlja 26
% vseh enot. Pri razvrstitvi v 4 skupine je bilo največ enot (29) razvrščenih v skupino,
poimenovano C1, kar predstavlja 43 % vseh enot. Najmanj enot (9) pa je bilo razporejenih
30
v skupino, poimenovano C4, kar predstavlja 13 % vseh enot. Skupini C2 in C3 vsebujeta
enako število enot (15). Pri razvrstitvi v 5 skupin je razporeditev enot v skupine bolj
enakovredna. Največ enot (17) je bilo razvrščenih v skupino, poimenovano C3, kar
predstavlja 25 % vseh enot. Sledita skupini C2 in C4 s 15 enotami (22 %) ter skupina C1 z
12 enotami (18 %). Najmanj enot (9) je bilo razvrščenih v skupino C5, kar predstavlja 13
% vseh enot.
Slika 12: Število enot v posamezni skupini pri razvrstitvi v 3, 4 in 5 skupin – Pomembnost
znanj in sposobnosti (n = 68)
Slika 13: Centroidi skupin pri razvrstitvi v 3 skupine – Pomembnost znanj in sposobnosti
(n = 68)
31
Slika 14: Centroidi skupin pri razvrstitvi v 4 skupine – Pomembnost znanj in sposobnosti
(n = 68)
Slika 15: Centroidi skupin pri razvrstitvi v 5 skupin – Pomembnost znanj in sposobnosti (n
= 68)
32
Pri razvrščanju v 5 skupin je preizkus o domnevi enakosti varianc (priloga 10) med
identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi ocenami
vseh pomembnosti znanj in sposobnosti med vsaj dvema skupinama (pri zanemarljivi
stopnji značilnosti), razen pri Čelno programiranje, Poslovna znanja ter sposobnostih »Biti
potrpežljiv in vztrajen«, »Podjetniška naravnanost, imeti poslovi čut«, »Pogum in
samozavest zagovarjati svoje ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti
sposobnost motiviranja in navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti
moralen in etičen.« in »Spoštovati zakone in predpise.«. Pri razvrščanju v 4 skupine je
preizkus o domnevi enakosti varianc (priloga 10) med identificiranimi skupinami pokazal
statistično značilne razlike med povprečnimi ocenami vseh pomembnosti znanj in
sposobnosti med vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti), razen pri
Zaledno programiranje, Čelno programiranje, Sistemska administracija, Poslovna znanja
ter sposobnostih »Biti potrpežljiv in vztrajen«, »Pogum in samozavest zagovarjati svoje
ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti sposobnost motiviranja in
navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti moralen in etičen.« in
»Spoštovati zakone in predpise« in »Nameniti pozornost kakovosti«. Pri razvrščanju v 3
skupine je preizkus o domnevi enakosti varianc (priloga 10) med identificiranimi
skupinami pokazal statistično značilne razlike med povprečnimi ocenami vseh
pomembnosti znanj in sposobnosti med vsaj dvema skupinama (pri zanemarljivi stopnji
značilnosti), razen pri Čelno programiranje, Sistemska administracija, Poslovna znanja ter
pri skoraj vseh sposobnostih (razen pri »Radovednost glede opazovanih stvari (vzorcev,
odnosov, razmerij)«, »Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl.
storytelling)« ter »Strast do dela s podatki«).
Z namenom izbora ustreznega števila skupin sem se odločila za kvalitativno primerjavo
vseh treh razvrstitev. Kvalitativna analiza je vključevala pregled nad razvrščanjem
posameznih enot v skupine ter vizualno primerjavo centroidov posameznih spremenljivk
pri razvrstitvi v 3, 4 ali 5 skupin. Na podlagi pregleda razvrščenih enot v posamezne
skupine in primerjave centroidov spremenljivk sem ugotovila, da:
Sta si razvrstitvi v 4 skupine ali 5 skupin glede tega, katere enote so bile razvrščene v
skupine, popolnoma enaki z izjemo, da je razvrstitev v 5 skupin skupino C1 iz
razvrstitve v 4 skupine, dodatno razdelila v 2 skupini (C1 in C3). Torej enaka situacija,
kot je bila identificirana že pri razvrščanju enot glede na samooceno znanj. Tudi iz
primerjave centroidov je razvidno, da so si skupine C2 (razvrščanje v 5 skupin) in C2
(razvrščanje v 4 skupine), C4 (razvrščanje v 5 skupin) in C3 (razvrščanje v 4 skupine)
ter C5 (razvrščanje v 5 skupin) in C4 (razvrščanje v 4 skupine) popolnoma enake glede
značilnosti.
Razvrstitev v 3 skupine vsebuje posamezne enote iz različnih skupin pri razvrščanju v
4 ali 5 skupin. To pomeni, da zaradi manjšega števila skupin določene enote niso
razporejene v drugo skupino, kot bi bile pri razvrščanju v 4 ali 5 skupin, kar zmanjša
možnost identifikacije ustreznih skupin ter omeji interpretacijo.
33
Z vidika kvantitativne analize izbora primernega števila skupin za razvrstitev enot sem
primerjala tudi razdalje enot v vsaki skupini od centroida skupine za razvrstitev v 3, 4 in 5
skupin. Razvidno je, da je pri razvrstitvi v 3 skupine simetrična porazdelitev pri skupinah
C1 in C2. Pri skupini C3 pa je porazdelitev razdalj od centroidov asimetrična v desno, kar
pomeni, da je 25 % enot malce dlje stran od centroida skupine, vendar še vedno v
smiselnem obsegu. Razvrstitev v 3 skupine vključuje v vsaki skupini določeno mero
variabilnosti, ki so si med seboj precej podobne. Osamelci se ne pojavijo. Razvidno je, da
je pri razvrstitvi v 4 skupine simetrična porazdelitev pri skupini C1, C3 in C4. Pri skupini
C2 pa je porazdelitev razdalj od centroidov rahlo asimetrična v levo, kar pomeni, da je 25
% enot precej blizu centroida skupine, preostalih 75 % pa dlje. Razvrstitev v 4 skupine
vključuje v vsaki skupini določeno mero variabilnosti, pri skupinah C3 in C4 se
variabilnost zmanjša v primerjavi z razvrstitvijo v 3 skupine. Osamelcev ni v nobeni od
skupin. Pri razvrstitvi v 5 skupin je razvidno, da obstaja simetrična porazdelitev pri
skupinah C2, C3, C4 in C5. Pri skupini C1 je porazdelitev razdalj od centroidov
asimetrična v desno, kar pomeni, da je 25 % enot precej daleč centroida skupine, preostalih
75 % pa blizu. Variabilnost je najmanjša v skupini C1, C4 in C5, največja pa v skupinah
C2 in C3. Osamelec je opaziti v skpini C1, vendar še vedno v razumnem obsegu od
centroida. Razvrstitev v 5 skupin pri nekaterih skupinah zmanjša variabilnost med
skupinami v primerjavi z razvrščanjem v 3 skupine.
Slika 16: Prikaz razdalje enot od centroida skupine za razvrstitev v 3, 4 in 5 skupin –
Pomembnost znanj in sposobnosti (n = 68)
34
Priloga 10: Pomembni statistični preizkusi
Volumen podatkov
Tabela 6: Volumen podatkov (n = 92)
Prosim, označite kakšna je bila največja količina/volumen podatkov, s katero ste se vi osebno do sedaj
ukvarjali (pridobivanje, obdelava, analiza, odločanje):
Volumen podatkov Frekvence % Veljaven % Kumulativen
%
do 1023 KB (kilobajti) ali manj 1 1,1 1,1 1,1
od 1 MB do 1023 MB (megabajti) 20 21,7 21,7 22,8
od 1 GB do 1023 GB (gigabajti) 41 44,6 44,6 67,4
od 1 TB do 1023 TB (terabajti) 22 23,9 23,9 91,3
od 1 PB (petabajti) ali več 1 1,1 1,1 92,4
Ne vem 7 7,6 7,6 100,0
Skupaj 92 100,0 100,0
Domneva: anketiranci so najbolj pogosto izbrali GB. S statističnim preizkusom hi-kvadrat
želim preveriti, ali obstaja razlika med dejanskimi in pričakovanimi (teoretičnimi)
frekvencami.
Preizkus: hi-kvadrat
H0: med dejanskimi in pričakovanimi frekvencami ni razlik
H1: med dejanskimi in pričakovanimi frekvencami so statistično značilne razlike
Sklep: na podlagi vzorčnih podatkov in hi-kvadrat preizkusa lahko zavrnem ničelno
domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da
obstajajo statistično značilne razlike med dejanskimi in pričakovanimi frekvencami. Trdim
lahko, da so anketiranci najpogosteje izbrali GB kot največji volumen podatkov, ki so ga
do sedaj obdelali.
Raznolikost podatkov
Domneva: anketiranci so najbolj pogosto izbrali poslovne transakcije. S statističnim
preizkusom Cochran Q želim preveriti, ali so anketiranci dejansko različno izbirali s
kakšnimi tipi/viri podatkov so se že ukvarjali.
Preizkus: Cochran Q
H0: frekvence izbranih tipov/virov podatkov so enake glede na izbrane tipe/vire podatkov.
H1: frekvence izbranih tipov/virov podatkov niso enake glede na izbrane tipe/vire
podatkov.
35
Tabela 7: Raznolikost podatkov (n = 92)
Raznolikost podatkov Vrednost
Ni izbral Je izbral
Naprave: Poslovne transakcije (nakupi, zaloge, računi ipd.); spletne metrike
iz spletnih dnevnikov; metrike iz nadzora procesov, senzorjev ipd. 9 83
Naprave: Datum in čas objave na Facebook-u, Twitterju; GPS podatki o
Tweetih/Facebook objavah ipd. 61 31
Človek: Število všečkov na Facebooku; število retweetov; ocene na
družbenih medijih; spletne sledi (clicks) ipd. 61 31
Človek: Ocenjevalne lestvice v vprašalnikih (raziskave); ocenjevanje
sposobnosti ipd. 33 59
Človek: Vsebina elektronske pošte; vsebina dokumentov znotraj organizacije;
mnenja zaposlenih; komentarji potrošnikov; zapisi opomb klicnega centra
ipd.
60 32
Človek: Vsebina komentarjev na spletnih forumih; blogi, zapisi in
komentarji iz družbenih medijev; spletna iskanja; vsebina SMS sporočil ipd. 67 25
Človek: Glasovna pošta, korporativni video, slike, ilustracije, avdio prepisi -
iz notranjih virov organizacije ipd. 84 8
Človek: Slike na Instagramu; video posnetki na YouTube; avdio komentarji
na spletnih mestih ipd. 85 7
Tabela 8: Rezultat preizkusa – Raznolikost podatkov (n = 92)
Testna statistika
N 92
Cochran's Q 227,005a
df 7
Stopnja značilnosti 0,000
Sklep: na podlagi vzorčnih podatkov in Cochran Q preizkusa lahko zavrnem ničelno
domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da
obstajajo razlike v frekvencah med tipi/viri podatkov, s katerimi so se anketiranci že
ukvarjali. Potrdim lahko, da so anketiranci najpogosteje izbrali poslovne transakcije kot
tip/vir podatkov, s katerim so se ukvarjali.
Raznolikost podatkov – agregirano
Domneva: anketiranci se bolj pogosto ukvarjajo s podatki, generiranimi s strani naprav kot
človeka. S statističnim preizkusom Cochran Q želim preveriti, ali so anketiranci dejansko
različno izbirali s kakšnimi tipi/viri podatkov so se že ukvarjali.
Preizkus: Cochran Q
H0: frekvence izbranih tipov/virov podatkov so enake glede na izbrane tipe/vire podatkov.
H1: frekvence izbranih tipov/virov podatkov niso enake glede na izbrane tipe/vire
podatkov.
36
Tabela 9: Raznolikost podatkov, agregirano glede na vir (naprava, človek) (n = 92)
Frekvence
Raznolikost podatkov Vrednost
Ni izbral Je izbral
Podatki generirani s strani naprav 3 89
Podatki generirani s strani človeka 19 73
Tabela 10: Rezultat preizkusa, agregirano glede na vir (naprava, človek) (n = 92)
Testna statistika
N 92
Cochran's Q 11,636
df 1
Stopnja značilnosti 0,001
Sklep: na podlagi vzorčnih podatkov in Cochran Q preizkusa lahko zavrnem ničelno
domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da
obstajajo razlike v frekvencah med tipi/viri podatkov, s katerimi so se anketiranci že
ukvarjali. Trdim lahko, da so se več ukvarjali s podatki, generiranimi s strani naprav kot
človeka.
Tabela 11: Raznolikost podatkov, agregirano glede na vir (notranji, zunanji) (n = 92)
Frekvence
Raznolikost podatkov Vrednost
Ni izbral Je izbral
Podatki iz notranjih virov 2 90
Podatki iz zunanjih virov 48 44
Domneva: anketiranci se bolj pogosto ukvarjajo s podatki iz notranjih virov kot zunanjih
virov. S statističnim preizkusom Cochran Q želim preveriti, ali so anketiranci dejansko
različno izbirali s kakšnimi tipi/viri podatkov so se že ukvarjali.
Tabela 12: Rezultat preizkusa, agregirano glede na vir (notranji, zunanji) (n = 92)
Testna statistika
N 92
Cochran's Q 42,320a
df 1
Stopnja značilnosti 0,000
Preizkus: Cochran Q
H0: frekvence izbranih tipov/virov podatkov so enake glede na izbrane tipe/vire podatkov.
37
H1: frekvence izbranih tipov/virov podatkov niso enake glede na izbrane tipe/vire
podatkov.
Sklep: na podlagi vzorčnih podatkov in Cochran Q preizkusa lahko zavrnem ničelno
domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da
obstajajo razlike v frekvencah med tipi/viri podatkov, s katerimi so se anketiranci že
ukvarjali. Trdim lahko, da so se več ukvarjali s podatki iz notranjih virov kot podatki iz
zunanjih virov.
Tabela 13: Raznolikost podatkov, agregirano glede na tip (strukturirani, nestrukturirani)
(n = 92)
Frekvence
Raznolikost podatkov Vrednost
Ni izbral Je izbral
Strukturirani podatki 0 92
Nestrukturirani podatki 46 46
Domneva: anketiranci se bolj pogosto ukvarjajo s strukturianimi podatki kot z
nestrukturiranimi podatki. S statističnim preizkusom Cochran Q želim preveriti, ali so
anketiranci dejansko različno izbirali s kakšnimi tipi/viri podatkov so se že ukvarjali.
Preizkus: Cochran Q
H0: frekvence izbranih tipov/virov podatkov so enake glede na izbrane tipe/vire podatkov.
H1: frekvence izbranih tipov/virov podatkov niso enake glede na izbrane tipe/vire
podatkov.
Tabela 14: Rezultat preizkusa, agregirano glede na tip (strukturirani, nestrukturirani) (n =
92)
Testna statistika
N 92
Cochran's Q 46,000a
df 1
Stopnja značilnosti 0,000
Sklep: na podlagi vzorčnih podatkov in Cochran Q preizkusa lahko zavrnem ničelno
domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da
obstajajo razlike v frekvencah med tipi/viri podatkov, s katerimi so se anketiranci že
ukvarjali. Trdim lahko, da so se več ukvarjali s strukturiranimi podatki kot
nestrukturiranimi podatki.
38
Hitrost podatkov
Tabela 15: Hitrost podatkov (n = 92)
Prosim označite, ali ste se vi osebno že kdaj ukvarjali s podatki v realnem času (angl. real time,
streaming data):
Odgovor Frekvence % Veljaven % Kumulativen %
Da 44 47,8 47,8 47,8
Ne 44 47,8 47,8 95,7
Ne vem 4 4,3 4,3 100,0
Skupaj 92 100,0 100,0
Na podlagi frekvenčnih porazdelitev ne morem trditi, da bi se manj anketirancev ukvarjalo
s podatki v realnem času, saj sta odstotka za odgovor »DA« in »NE« enaka.
Vrednost podatkov
Tabela 16: Vrednost podatkov (n = 92)
Frekvence
Vrednost podatkov Vrednosti
Ni izbral Je izbral
Izboljšanje izkušnje potrošnika/uporabnika oz. boljše razumevanje potrošnika. 25 67
Povečanje prodaje/prihodkov. 31 61
Boljša kakovost izdelkov ali storitev. 37 55
Bolj učinkovito izvajanje procesov, načina dela, operacij. 31 61
Inovacije na področju izdelkov in storitev. 56 36
Boljše odločanje na podlagi dejstev. 16 76
Zmanjšanje tveganja. 45 47
Drugo: 90 2
Domneva: anketiranci so največkrat izbrali »Boljše odločanje na podlagi dejstev« kot
najbolj otipljivo korist dela s podatki. S statističnim preizkusom Cochran Q želim preveriti,
ali so anketiranci dejansko različno izbirali otipljive koristi, povezane z delom s podatki.
Preizkus: Cochran Q
H0: frekvence izbranih koristi so enake glede na posamezne koristi.
H1: frekvence izbranih koristi niso enake glede na posamezne koristi.
Tabela 17: Rezultat preizkusa –Vrednost podatkov (n = 92)
Testna statistika
N 92
Cochran's Q 197,287a
df 7
Stopnja značilnosti 0,000
39
Sklep: na podlagi vzorčnih podatkov in Cochran Q preizkusa lahko zavrnem ničelno
domnevo pri zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da
obstajajo razlike v frekvencah med otipljivimi koristi preko dela s podatki. Trdim lahko, da
so anketiranci dejansko največkrat izbrali »Boljše odločanje na podlagi dejstev«.
Intervali zaupanja ter opisne statistike za samooceno znanj
Tabela 18: Intervali zaupanja ter opisne statistike za samooceno znanj
Področje znanj n Man.
vr.
Povpre
-čje
Med
-iana
Mod
-us
St.
Odklon
Sp. int.
zaupanja
Zg. int.
zaupanja
Poizvedbeni jezik SQL 91 1 3,70 4 5 1,441 3,40 4,00
Poslovna znanja (finance, trženje, logistika,
razvoj izdelka, poznavanje organizacije,
trženjsko raziskovanje)
90 2 3,66 4 4 1,210 3,40 3,91
Oblikovanje informacij (vizualizacija) 91 1 3,57 4 4 1,127 3,34 3,81
Specifična znanja iz posameznega področja,
dejavnosti ali domene iz katere izhaja problem,
ki ga rešujem
91 1 3,48 4 4 1,294 3,21 3,75
Sistemi baz podatkov – relacijske baze podatkov (RDBMS)
91 1 3,46 4 5 1,377 3,17 3,75
Opisna statistika in verjetnostne porazdelitve
(Descriptive Statistics and Probability Distributions)
89 3 3,46 4 5 1,332 3,18 3,74
Management podatkov (Data Management) 91 1 3,30 4 4 1,304 3,03 3,57
Regresijska analiza (Regression) 88 4 3,30 3 5 1,456 2,99 3,60
Znanstvena metoda (Scientific method) 89 3 3,13 3 3 1,367 2,85 3,42
Statistično preizkušanje domnev (Inferential
Statistics) 88 4 3,13 3 5 1,500 2,81 3,44
Linearna algebra in računstvo, odvodi in
integrali, funkcije in risanje grafikonov,
manipulacija matrik
89 3 3,12 3 4 1,338 2,84 3,41
Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza
88 4 2,91 3 1 1,580 2,57 3,24
Znanje programskih jezikov npr. R, Python,
SAS, Julia, Scala, Stata idr. 90 2 2,88 3 1a 1,413 2,58 3,17
Delo z delno strukturiranimi podatki: XML, .JSON
90 2 2,78 3 1a 1,356 2,49 3,06
Optimizacija (Optimization) 89 3 2,72 3 1 1,373 2,43 3,01
Metodologije npr. AGILE, LEAN, WATERFALL
91 1 2,64 3 1 1,588 2,31 2,97
Statistika časovnih vrst (Temporal Statistics) 89 3 2,60 3 1 1,320 2,32 2,87
Čelno programiranje (Front End Programming) 90 2 2,44 2 1 1,282 2,18 2,71
Simulacije (Simulations), npr. Monte Carlo 87 5 2,44 2 1 1,300 2,16 2,71
Nadzorovano učenje (Supervised Learning) 88 4 2,35 2 1 1,501 2,03 2,67
Zaledno programiranje (Back End Programming)
90 2 2,31 2 1 1,489 2,00 2,62
Nenadzorovano učenje (Unsupervised Learning) 88 4 2,23 1 1 1,491 1,91 2,54
Sistemska administracija (SSH, *nix, računalništvo v oblaku)
90 2 2,19 2 1 1,445 1,89 2,49
Analiza omrežji (Network Analysis) 88 4 2,05 2 1 1,249 1,78 2,31
Prostorska statistika (Spatial statistics) 88 4 1,98 1 1 1,213 1,72 2,23
Metodologije npr. CRISP-DM, SEMMA,
DMAIC 90 2 1,84 1 1 1,297 1,57 2,12
Obdelava naravnega jezika (NLP) 88 4 1,80 1 1 1,214 1,54 2,05
Masovni in distribuirani podatki (Hadoop,
MapReduce, Hive QL) 90 2 1,78 1 1 1,099 1,55 2,01
Sistemi baz podatkov - NoSQL baze podatkov 91 1 1,74 1 1 1,031 1,52 1,95
Poglobljeno učenje (Deep Learning) 88 4 1,73 1 1 1,025 1,51 1,94
Nagrajevalno učenje (Reinforcement Learning) 88 4 1,69 1 1 1,076 1,47 1,92
40
T-preizkus za preverjanje domneve o aritmetični sredini za samooceno znanj
Domneva: s statističnim preizkusom t-preizkus za preverjanje domneve o aritmetični
sredini želim preveriti, ali obstaja statistično značilna razlika za vsako posamezno področje
znanj glede povprečne ocene samoocene znanja glede na vrednost 3 – Začetnik.
Preizkus: t-preizkus
H0: μs = 3
H1: μs ≠ 3, kjer je s = samoocena znanja.
Tabela 19: Rezultati preizkusa o aritmetični sredini za samooceno znanj
Področje znanj n t df St. značilnosti
(dvostranska)
Poizvedbeni jezik SQL 91 4,7 90,0 0,00
Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije, trženjsko raziskovanje)
90 5,1 89,0 0,00
Oblikovanje informacij (vizualizacija) 91 4,8 90,0 0,00
Specifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem
91 3,6 90,0 0,00
Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 91 3,2 90,0 0,00
Opisna statistika in verjetnostne porazdelitve (Descriptive Statistics and Probability
Distributions) 89 3,3 88,0 0,00
Management podatkov (Data Management) 91 2,2 90,0 0,03
Regresijska analiza (Regression) 88 1,9 87,0 0,06
Znanstvena metoda (Scientific method) 89 0,9 88,0 0,35
Statistično preizkušanje domnev (Inferential Statistics) 88 0,8 87,0 0,44
Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje
grafikonov, manipulacija matrik 89 0,9 88,0 0,39
Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza 88 -0,5 87,0 0,59
Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata idr. 90 -0,8 89,0 0,41
Delo z delno strukturiranimi podatki: XML, .JSON 90 -1,6 89,0 0,12
Optimizacija (Optimization) 89 -1,9 88,0 0,06
Metodologije npr. AGILE, LEAN, WATERFALL 91 -2,2 90,0 0,03
Statistika časovnih vrst (Temporal Statistics) 89 -2,9 88,0 0,00
Čelno programiranje (Front End Programming): 90 -4,1 89,0 0,00
Simulacije (Simulations), npr. Monte Carlo 87 -4,0 86,0 0,00
Nadzorovano učenje (Supervised Learning) 88 -4,0 87,0 0,00
Zaledno programiranje (Back End Programming) 90 -4,4 89,0 0,00
Nenadzorovano učenje (Unsupervised Learning) 88 -4,9 87,0 0,00
Sistemska administracija (SSH, *nix, računalništvo v oblaku) 90 -5,3 89,0 0,00
Analiza omrežji (Network Analysis) 88 -7,2 87,0 0,00
Prostorska statistika (Spatial statistics) 88 -7,9 87,0 0,00
Metodologije npr. CRISP-DM, SEMMA, DMAIC 90 -8,4 89,0 0,00
Obdelava naravnega jezika (NLP) 88 -9,3 87,0 0,00
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 90 -10,5 89,0 0,00
Sistemi baz podatkov - NoSQL baze podatkov 91 -11,7 90,0 0,00
Poglobljeno učenje (Deep Learning) 88 -11,6 87,0 0,00
Nagrajevalno učenje (Reinforcement Learning) 88 -11,4 87,0 0,00
Sklep: na podlagi vzorčnih podatkov in t-preizkusa lahko zavrnem ničelno domnevo pri
zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da obstajajo statistično
značilne razlike med povprečno samooceno posameznega področja znanj od vrednosti 3 –
41
Začetnik. Tega ne morem trditi pri področjih Regresijska analiza, Znanstvena metoda,
Statistično preverjanje domnev, Linearna algebra in računstvo, odvodi in integrali, funkcije
in risanje grafikonov, manipulacija matrik, Redukcija dimenzij, Znanje programskih
jezikov, Delno strukutrirani podatki, Optimizacija, kjer razlike niso bile statistično značilne
pri stopnji značilnosti α = 0,05.
Intervali zaupanja ter opisne statistike za pomembnost znanj in sposobnosti
Tabela 20: Intervali zaupanja ter opisne statistike za pomembnost znanj in sposobnosti
Področje znanj n Man
. vr.
Povpre
-čje
Med
-iana
Mod
-us
St.
Odklon
Sp. int.
zaupanja
Zg. int.
zaupanja
Poslovna znanja (finance, trženje, logistika,
razvoj izdelka, poznavanje organizacije, trženjsko
raziskovanje)
90 2 3,83 4,00 5 1,265 3,57 4,10
Oblikovanje informacij (vizualizacija) 89 3 3,72 4,00 4 1,270 3,45 3,99
Specifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki
ga rešujem
91 1 3,64 4,00 5 1,395 3,35 3,93
Poizvedbeni jezik SQL 90 2 3,59 4,00 5 1,550 3,26 3,91
Sistemi baz podatkov - relacijske baze podatkov
(RDBMS) 90 2 3,52 4,00 5 1,416 3,23 3,82
Management podatkov 90 2 3,47 4,00 4 1,326 3,19 3,74
Opisna statistika in verjetnostne porazdelitve
(Descriptive Statistics and Probability
Distributions)
89 3 3,31 3,00 5 1,458 3,01 3,62
Znanstvena metoda (Scientific method) 88 4 3,07 3,00 5 1,545 2,74 3,40
Statistično preizkušanje domnev (Inferential
Statistics) 88 4 2,97 3,00 1 1,481 2,65 3,28
Regresijska analiza (Regression) 87 5 2,97 3,00 1 1,544 2,64 3,29
Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr.
89 3 2,87 3,00 1 1,546 2,54 3,19
Redukcija dimenzij (Dimension Reduction):
PCA, faktorska analiza 86 6 2,83 3,00 1 1,543 2,49 3,16
Delo z delno strukturiranimi podatki: XML, .JSON
88 4 2,68 3,00 1 1,335 2,40 2,96
Statistika časovnih vrst (Temporal Statistics) 87 5 2,64 3,00 1 1,389 2,35 2,94
Optimizacija (Optimization) 89 3 2,64 2,00 1 1,456 2,33 2,95
Metodologije npr. AGILE, LEAN,
WATERFALL 86 6 2,63 3,00 1 1,527 2,30 2,96
Linearna algebra in računstvo, odvodi in integrali,
funkcije in risanje grafikonov, manipulacija matrik
89 3 2,53 2,00 1 1,358 2,24 2,81
Nadzorovano učenje (Supervised Learning) 85 7 2,31 2,00 1 1,535 1,97 2,64
Zaledno programiranje (Back End Programming) 88 4 2,28 2,00 1 1,508 1,96 2,60
Simulacije (Simulations), npr. Monte Carlo 86 6 2,28 2,00 1 1,334 1,99 2,57
Čelno programiranje (Front End Programming) 87 5 2,26 2,00 1 1,262 2,00 2,53
Sistemska administracija (SSH, *nix, računalništvo v oblaku)
89 3 2,18 2,00 1 1,378 1,89 2,47
Nenadzorovano učenje (Unsupervised Learning) 86 6 2,14 1,00 1 1,457 1,83 2,45
Prostorska statistika (Spatial statistics) 87 5 2,10 2,00 1 1,230 1,84 2,37
Analiza omrežji (Network Analysis) 85 7 2,09 2,00 1 1,201 1,83 2,35
Metodologije npr. CRISP-DM, SEMMA,
DMAIC 84 8 1,94 1,00 1 1,283 1,66 2,22
Obdelava naravnega jezika (NLP) 84 8 1,93 1,00 1 1,269 1,65 2,20
Masovni in distribuirani podatki (Hadoop,
MapReduce, Hive QL) 88 4 1,89 1,00 1 1,245 1,62 2,15
Sistemi baz podatkov - NoSQL baze podatkov 88 4 1,80 1,00 1 1,186 1,54 2,05
se nadaljuje
42
Tabela 20: Intervali zaupanja ter opisne statistike za pomembnost znanj in sposobnosti
(nad.)
Področje sposobnosti n Man
. vr.
Povpre
-čje
Med
-iana
Mod
-us
St.
Odklon
Sp. int.
zaupanja
Zg. int.
zaupanja
Poglobljeno učenje (Deep Learning) 86 6 1,74 1,00 1 1,129 1,50 1,99
Nagrajevalno učenje (Reinforcement Learning) 86 6 1,73 1,00 1 1,056 1,51 1,96
Postavljati prava vprašanja, definirati problem. 91 1 4,70 5,00 5 0,527 4,59 4,81
Sposobnost reševanja problemov. 91 1 4,66 5,00 5 0,499 4,56 4,76
Analitične sposobnosti. 91 1 4,60 5,00 5 0,630 4,47 4,74
Strast do učenja novih stvari. 91 1 4,36 5,00 5 0,837 4,19 4,54
Radovednost glede opazovanih stvari (vzorcev,
odnosov, razmerij). 92 0 4,28 4,50 5 0,856 4,11 4,46
Strast do dela s podatki. 91 1 4,26 5,00 5 0,917 4,07 4,45
Biti potrpežljiv in vztrajen. 91 1 4,24 4,00 5 0,861 4,06 4,42
Imeti sposobnost kreativnega mišljenja (angl.
thinking outside the box). 90 2 4,21 4,00 5 0,868 4,03 4,39
Pogum in samozavest zagovarjati svoje ugotovitve, odločitve.
91 1 4,18 4,00 4 0,769 4,02 4,34
Nameniti pozornost kakovosti. 91 1 4,13 4,00 5 0,933 3,94 4,33
Imeti sposobnost timskega dela. 91 1 4,13 4,00 5 0,897 3,95 4,32
Imeti dobre komunikacijske sposobnosti. 91 1 4,07 4,00 4 0,867 3,89 4,25
Strateško razmišljati in načrtovati. 91 1 4,00 4,00 5 0,978 3,80 4,20
Sposobnost sprejemanja odločitev. 91 1 3,91 4,00 4 0,939 3,72 4,11
Spoštovati zakone in predpise. 91 1 3,85 4,00 5 1,182 3,60 4,09
Biti moralen in etičen. 91 1 3,80 4,00 5 1,213 3,55 4,05
Sposobnost pripovedovanja zgodbe na podlagi
podatkov (angl. storytelling). 91 1 3,71 4,00 4 1,088 3,49 3,94
Sposobnost vodenja projektov. 91 1 3,65 4,00 4 1,058 3,43 3,87
Voditeljske sposobnosti - imeti sposobnost
motiviranja in navduševanja drugih. 91 1 3,34 3,00 4 1,098 3,11 3,57
Občutek za umetnost in prakso vizualizacije. 91 1 3,34 3,00 4 1,077 3,12 3,57
Podjetniška naravnanost, imeti poslovni čut. 91 1 3,16 3,00 3 1,108 2,93 3,40
T- preizkus za domnevo o aritmetični sredini za pomembnost znanj in sposobnosti.
Domneva: s statističnim preizkusom t-preizkus za preverjanje domneve o aritmetični
sredini želim preveriti, ali obstaja statistično značilna razlika za vsako posamezno področje
znanj in sposobnosti glede povprečne ocene pomembnosti znanj in sposobnosti glede na
vrednost 3 – Niti ni pomembno, niti nepomembno.
Preizkus: t-preizkus
H0: μp = 3
H1: μp ≠ 3, kjer je p = pomembnost znanja ali sposobnosti.
Sklep: na podlagi vzorčnih podatkov in t-preizkusa lahko zavrnem ničelno domnevo pri
zanemarljivi stopnji značilnosti in sprejmem alternativno domnevo, da obstajajo statistično
značilne razlike med povprečno pomembnostjo posameznega področja znanj in
sposobnosti od vrednosti 3. Tega ne morem trditi pri področjih Znanstvena metoda,
Statistično preizkušanje domnev, Regresijska analiza, Znanje programskih jezikov,
43
Redukcija dimenzij ter sposobnosti »Podjetniška naravnanost, imeti poslovni čut«, kjer
razlike niso bile statistično značilne pri stopnji značilnosti α = 0,05.
Tabela 21: Rezultati preizkusa o aritmetični sredini za pomembnost znanj in sposobnosti
Področje znanj/sposobnosti n t df St. značilnosti
(dvostranska)
Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje organizacije,
trženjsko raziskovanje) 90 6,248 89 0,00
Oblikovanje informacij (vizualizacija) 89 5,341 88 0,00
Specifična znanja iz posameznega področja, dejavnosti ali domene iz katere izhaja problem, ki ga rešujem
91 4,360 90 0,00
Poizvedbeni jezik SQL 90 3,605 89 0,00
Sistemi baz podatkov - relacijske baze podatkov (RDBMS) 90 3,499 89 0,00
Management podatkov (Data Management) 90 3,340 89 0,00
Opisna statistika in verjetnostne porazdelitve 89 2,035 88 0,04
Znanstvena metoda (Scientific method) 88 0,414 87 0,68
Statistično preizkušanje domnev (Inferential Statistics) 88 -0,216 87 0,83
Regresijska analiza (Regression) 87 -0,208 86 0,84
Znanje programskih jezikov npr. R, Python, SAS, Julia, Scala, Stata, idr. 89 -0,823 88 0,41
Redukcija dimenzij (Dimension Reduction): PCA, faktorska analiza 86 -1,048 85 0,30
Delo z delno strukturiranimi podatki: XML, .JSON 88 -2,236 87 0,03
Statistika časovnih vrst (Temporal Statistics) 87 -2,393 86 0,02
Optimizacija (Optimization) 89 -2,330 88 0,02
Metodologije npr. AGILE, LEAN, WATERFALL 86 -2,260 85 0,03
Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik 89 -3,279 88 0,00
Nadzorovano učenje (Supervised Learning) 85 -4,168 84 0,00
Zaledno programiranje (Back End Programming) 88 -4,453 87 0,00
Simulacije (Simulations), npr. Monte Carlo 86 -5,011 85 0,00
Čelno programiranje (Front End Programming) 87 -5,438 86 0,00
Sistemska administracija (SSH, *nix, računalništvo v oblaku) 89 -5,615 88 0,00
Nenadzorovano učenje (Unsupervised Learning) 86 -5,479 85 0,00
Prostorska statistika (Spatial statistics) 87 -6,800 86 0,00
Analiza omrežji (Network Analysis) 85 -6,952 84 0,00
Metodologije npr. CRISP-DM, SEMMA, DMAIC 84 -7,567 83 0,00
Obdelava naravnega jezika (NLP) 84 -7,741 83 0,00
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 88 -8,391 87 0,00
Sistemi baz podatkov - NoSQL baze podatkov 88 -9,530 87 0,00
Poglobljeno učenje (Deep Learning) 86 -10,314 85 0,00
Nagrajevalno učenje (Reinforcement Learning) 86 -11,127 85 0,00
Postavljati prava vprašanja, definirati problem. 91 30,836 90 0,00
Sposobnost reševanja problemov. 91 31,701 90 0,00
Analitične sposobnosti. 91 24,281 90 0,00
Strast do učenja novih stvari. 91 15,532 90 0,00
Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij). 92 14,375 91 0,00
Strast do dela s podatki. 91 13,147 90 0,00
Biti potrpežljiv in vztrajen. 91 13,762 90 0,00
Imeti sposobnost kreativnega mišljenja (angl. thinking outside the box). 90 13,243 89 0,00
Pogum in samozavest zagovarjati svoje ugotovitve, odločitve. 91 14,591 90 0,00
Nameniti pozornost kakovosti. 91 11,567 90 0,00
Imeti sposobnost timskega dela. 91 12,037 90 0,00
Imeti dobre komunikacijske sposobnosti. 91 11,732 90 0,00
Strateško razmišljati in načrtovati. 91 9,759 90 0,00
Sposobnost sprejemanja odločitev. 91 9,269 90 0,00
Spoštovati zakone in predpise. 91 6,826 90 0,00
Biti moralen in etičen. 91 6,308 90 0,00
Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling). 91 6,262 90 0,00
Sposobnost vodenja projektov. 91 5,846 90 0,00
Voditeljske sposobnosti - imeti sposobnost motiviranja in navduševanja drugih. 91 2,961 90 0,00
Občutek za umetnost in prakso vizualizacije. 91 3,017 90 0,00
Podjetniška naravnanost, imeti poslovni čut. 91 1,419 90 0,16
44
T-preizkus o razliki med aritmetičnima sredinama za odvisna vzorca (preizkus
dvojic)
Domneva: s statističnim preizkusom t-preizkus za odvisna vzorca želim preveriti, ali
obstaja statistično značilna razlika med povprečno samooceno in povprečno oceno
pomembnosti za katero od področij znanj.
Preizkus: t-preizkus o razliki med aritmetičnima sredinama za odvisna vzorca (preizkus
dvojic)
H0:μs = μp
H1:μs ≠ μp, kjer je s = samoocena znanja in p = pomembnost znanja.
Tabela 22: Rezultati preizkusa med aritmetičnima sredinama za odvisna vzorca
Par Samoocena / Pomembnost n t df St. Znač.
(dvo str.)
Par 1 Zaledno programiranje 88 0,568 87 0,572
Par 2 Čelno programiranje 87 1,901 86 0,061
Par 3 Znanje programskih jezikov npr. R, Python 89 0,324 88 0,747
Par 4 Management podatkov 90 -1,555 89 0,124
Par 5 Oblikovanje informacij (vizualizacija) 89 -1,000 88 0,320
Par 6 Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 90 -0,382 89 0,703
Par 7 Delo z delno strukturiranimi podatki: XML, .JSON 88 1,255 87 0,213
Par 8 Sistemi baz podatkov – NoSQL baze podatkov 88 -0,451 87 0,653
Par 9 Poizvedbeni jezik SQL 90 1,578 89 0,118
Par 10 Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 88 -0,833 87 0,407
Par 11 Sistemska administracija (SSH, *nix, računalništvo v oblaku) 88 0,281 87 0,779
Par 12 Znanstvena metoda 87 0,505 86 0,615
Par 13 Opisna statistika in verjetnostne porazdelitve 89 1,472 88 0,145
Par 14 Statistično preizkušanje domnev 88 1,486 87 0,141
Par 15 Redukcija dimenzij: PCA, faktorska analiza 86 1,096 85 0,276
Par 16 Regresijska analiza 87 3,121 86 0,002
Par 17 Statistika časovnih vrst 87 -0,313 86 0,755
Par 18 Prostorska statistika 86 -0,980 85 0,330
Par 19 Simulacije npr. Monte Carlo 85 1,299 84 0,197
Par 20 Linearna algebra in računstvo, odvodi in integrali, funkcije in
risanje grafikonov, manipulacija matrik 89 4,400 88 0,000
Par 21 Optimizacija 89 0,609 88 0,544
Par 22 Nadzorovano učenje 85 0,956 84 0,342
Par 23 Nenadzorovano učenje 86 1,216 85 0,227
Par 24 Nagrajevalno učenje 86 -0,261 85 0,795
Par 25 Poglobljeno učenje 86 0,000 85 1,000
Par 26 Obdelava naravnega jezika (NLP) 84 -0,882 83 0,380
Par 27 Analiza omrežji 85 -0,120 84 0,905
Par 28 Metodologije npr. AGILE, LEAN, WATERFALL 86 0,701 85 0,485
Par 29 Metodologije npr. CRISP-DM, SEMMA, DMAIC 84 -0,316 83 0,753
Par 30 Specifična znanja iz posameznega področja 91 -1,863 90 0,066
Par 31 Poslovna znanja 90 -1,788 89 0,077
Sklep: na podlagi vzorčnih podatkov in t-preizkusa o razliki med aritmetičnima sredinama
za odvisna vzorca lahko zavrnem ničelno domnevo pri zanemarljivi stopnji značilnosti in
sprejmem alternativno domnevo, da obstajajo razlike med povprečno samooceno in
povprečno pomembnostjo posameznega področja znanj le pri »Regresijska analiza« in
»Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov,
manipulacija matrik«. Pri ostalih področjih razlike niso bile statistično značilne pri stopnji
značilnosti α = 0,05.
45
Preizkušanje domneve o enakosti več aritmetičnih sredin za neodvisne vzorce –
analiza variance (One-way ANOVA) – Samoocena znanj
Domneva: s statističnim preizkusom One Way ANOVA za preverjanje domneve o
enakosti več aritmetičnih sredin za neodvisne vzorce želim preveriti, ali obstaja statistično
značilna razlika med identificiranimi skupinami posameznikov na podlagi samoocene
znanj.
Preizkus: One-way ANOVA
H0: μ1 = μ2 = μ3= μ4= μ5 oz. μ1 = μ2 = μ3= μ4
H1:vse μj niso enake, kjer je j = število skupin.
Sklep: pri obeh razvrščanjih v skupine je preizkus o domnevi enakosti varianc med
identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi
samoocenami znanj med vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti),
razen pri področju Poslovna znanja (finance, trženje, logistika, razvoj izdelka, poznavanje
organizacije, trženjsko raziskovanje).
Tabela 23: Rezultati preizkusa za razvrstitev v 5 skupin
Skupina Napaka
F Stopnja
znač. Povprečje
kvadratov df
Povprečje
kvadratov df
Zaledno programiranje 28,320 4 0,943 78 30,019 0,000
Čelno programiranje 12,790 4 1,071 78 11,946 0,000
Znanje programskih jezikov npr. R, Python 14,996 4 1,175 78 12,762 0,000
Management podatkov 4,700 4 1,470 78 3,197 0,017
Oblikovanje informacij (vizualizacija) 5,025 4 1,108 78 4,536 0,002
Sistemi baz podatkov - relacijske baze podatkov (RDBMS) 18,628 4 0,974 78 19,120 0,000
Delo z delno strukturiranimi podatki: XML, .JSON 20,110 4 0,842 78 23,890 0,000
Sistemi baz podatkov - NoSQL baze podatkov 13,392 4 0,469 78 28,538 0,000
Poizvedbeni jezik SQL 16,265 4 1,267 78 12,841 0,000
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 8,466 4 0,754 78 11,234 0,000
Sistemska administracija (SSH, *nix, računalništvo v oblaku) 24,907 4 0,957 78 26,021 0,000
Znanstvena metoda 21,721 4 0,864 78 25,144 0,000
Opisna statistika in verjetnostne porazdelitve 22,194 4 0,739 78 30,048 0,000
Statistično preizkušanje domnev 30,812 4 0,722 78 42,675 0,000
Redukcija dimenzij: PCA, faktorska analiza 35,537 4 0,771 78 46,110 0,000
Regresijska analiza 29,342 4 0,722 78 40,639 0,000
Statistika časovnih vrst 17,790 4 0,966 78 18,416 0,000
Prostorska statistika 13,659 4 0,746 78 18,319 0,000
Simulacije npr. Monte Carlo 16,892 4 0,786 78 21,494 0,000
Linearna algebra in računstvo, odvodi in integrali, funkcije in
risanje grafikonov, manipulacija matrik 15,946 4 1,111 78 14,358 0,000
Optimizacija 21,360 4 0,860 78 24,824 0,000
Nadzorovano učenje 22,873 4 1,077 78 21,245 0,000
Nagrajevalno učenje 12,805 4 0,608 78 21,067 0,000
Poglobljeno učenje 12,732 4 0,477 78 26,666 0,000
Obdelava naravnega jezika (NLP) 18,423 4 0,481 78 38,334 0,000
Analiza omrežji 18,428 4 0,593 78 31,083 0,000
Metodologije npr. AGILE, LEAN, WATERFALL 13,176 4 1,961 78 6,719 0,000
Metodologije npr. CRISP-DM, SEMMA, DMAIC 7,810 4 1,407 78 5,552 0,001
Specifična znanja iz posameznega področja 6,876 4 1,426 78 4,822 0,002
Poslovna znanja 2,104 4 1,362 78 1,545 0,197
46
Tabela 24: Rezultati preizkusa za razvrstitev v 4 skupine
Skupina Napaka F
Stopnja
znač. Povp. kv. df Povp. kv. df
Zaledno programiranje 30,778 3 1,197 79 25,720 0,000
Čelno programiranje 12,784 3 1,219 79 10,484 0,000
Znanje programskih jezikov npr. R, Python 18,739 3 1,208 79 15,514 0,000
Management podatkov 6,605 3 1,439 79 4,591 0,005
Oblikovanje informacij (vizualizacija) 7,074 3 1,080 79 6,553 0,001
Sistemi baz podatkov - relacijske baze podatkov (RDBMS) 18,732 3 1,194 79 15,691 0,000
Delo z delno strukturiranimi podatki: XML, .JSON 23,836 3 0,944 79 25,246 0,000
Sistemi baz podatkov - NoSQL baze podatkov 17,916 3 0,461 79 38,861 0,000
Poizvedbeni jezik SQL 14,867 3 1,510 79 9,848 0,000
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL) 11,115 3 0,751 79 14,806 0,000
Sistemska administracija (SSH, *nix, računalništvo v oblaku) 36,495 3 0,820 79 44,490 0,000
Znanstvena metoda 25,877 3 0,970 79 26,676 0,000
Opisna statistika in verjetnostne porazdelitve 23,659 3 0,955 79 24,786 0,000
Statistično preizkušanje domnev 34,822 3 0,951 79 36,630 0,000
Redukcija dimenzij: PCA, faktorska analiza 47,807 3 0,745 79 64,182 0,000
Regresijska analiza 33,567 3 0,924 79 36,334 0,000
Statistika časovnih vrst 21,787 3 1,027 79 21,212 0,000
Prostorska statistika 18,387 3 0,730 79 25,203 0,000
Simulacije npr. Monte Carlo 20,518 3 0,852 79 24,080 0,000
Linearna algebra in računstvo, odvodi in integrali, funkcije risanje
grafikonov, manipulacija matrik 17,358 3 1,245 79 13,945 0,000
Optimizacija 25,442 3 0,965 79 26,368 0,000
Nadzorovano učenje 30,911 3 1,047 79 29,515 0,000
Nagrajevalno učenje 17,652 3 0,578 79 30,534 0,000
Poglobljeno učenje 17,516 3 0,451 79 38,847 0,000
Obdelava naravnega jezika (NLP) 24,849 3 0,464 79 53,586 0,000
Analiza omrežji 23,084 3 0,642 79 35,968 0,000
Metodologije npr. AGILE, LEAN, WATERFALL 10,192 3 2,216 79 4,599 0,005
Metodologije npr. CRISP-DM, SEMMA, DMAIC 10,746 3 1,376 79 7,808 0,000
Specifična znanja iz posameznega področja 8,231 3 1,444 79 5,701 0,001
Poslovna znanja 1,823 3 1,382 79 1,319 0,274
Preizkušanje domneve o enakosti več aritmetičnih sredin za neodvisne vzorce -
analiza variance (One-way ANOVA) – Pomembnost znanj in sposobnosti
Domneva: s statističnim preizkusom One Way ANOVA za preverjanje domneve o
enakosti več aritmetičnih sredin za neodvisne vzorce želim preveriti, ali obstaja statistično
značilna razlika med identificiranimi skupinami posameznikov na podlagi pomembnosti
znanj in sposobnosti.
Preizkus: One-way ANOVA
H0: μ1 = μ2 = μ3= μ4= μ5 oz. μ1 = μ2 = μ3= μ4 oz. μ1 = μ2 = μ3
H1: vse μj niso enake, kjer je j = število skupin.
Sklep: pri razvrščanju v 5 skupin je preizkus o domnevi enakosti varianc med
identificiranimi skupinami pokazal statistično značilne razlike med povprečnimi ocenami
vseh pomembnosti znanj in sposobnosti med vsaj dvema skupinama (pri zanemarljivi
stopnji značilnosti), razen pri Čelno programiranje, Poslovna znanja ter sposobnostih »Biti
potrpežljiv in vztrajen«, »Podjetniška naravnanost, imeti poslovi čut«, »Pogum in
samozavest zagovarjati svoje ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti
sposobnost motiviranja in navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti
moralen in etičen.« in »Spoštovati zakone in predpise.«. Pri razvrščanju v 4 skupine je
47
preizkus o domnevi enakosti varianc med identificiranimi skupinami pokazal statistično
značilne razlike med povprečnimi ocenami vseh pomembnosti znanj in sposobnosti med
vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti), razen pri Zaledno
programiranje,Čelno programiranje, Sistemska administracija, Poslovna znanja ter
sposobnostih »Biti potrpežljiv in vztrajen«, »Pogum in samozavest zagovarjati svoje
ugotovitve, odločitve.«, »Voditeljske sposobnosti – imeti sposobnost motiviranja in
navduševanja drugih.«, »Sposobnost vodenja projektov«, »Biti moralen in etičen.« in
»Spoštovati zakone in predpise« ter »Nameniti pozornost kakovosti«. Pri razvrščanju v 3
skupine je preizkus o domnevi enakosti varianc med identificiranimi skupinami pokazal
statistično značilne razlike med povprečnimi ocenami vseh pomembnosti znanj in
sposobnosti med vsaj dvema skupinama (pri zanemarljivi stopnji značilnosti), razen pri
Čelno programiranje, Sistemska administracija, Poslovna znanja ter pri skoraj vseh
sposobnostih (razen pri »Radovednost glede opazovanih stvari (vzorcev, odnosov,
razmerij)«, »Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling)«
ter »Strast do dela s podatki«).
Tabela 25: Rezultati preizkusa za razvrstitev v 5 skupin
Skupina Napaka
F Stopnja
znač. Povprečje
kvadratov df
Povprečje
kvadratov df
Zaledno programiranje 16,801 4 1,556 63 10,799 0,000
Čelno programiranje 2,223 4 1,432 63 1,552 0,198
Znanje programskih jezikov npr. R, Python 7,232 4 2,091 63 3,459 0,013
Management podatkov 7,911 4 1,482 63 5,339 0,001
Oblikovanje informacij (vizualizacija) 7,806 4 1,284 63 6,080 0,000
Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 13,517 4 0,939 63 14,392 0,000
Delo z delno strukturiranimi podatki: XML, .JSON 13,871 4 1,019 63 13,611 0,000
Sistemi baz podatkov – NoSQL baze podatkov 12,596 4 0,804 63 15,659 0,000
Poizvedbeni jezik SQL 15,331 4 1,276 63 12,018 0,000
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL)
12,283 4 0,887 63 13,855 0,000
Sistemska administracija (SSH, *nix, računalništvo v
oblaku) 7,929 4 1,638 63 4,842 0,002
Znanstvena metoda 21,524 4 1,183 63 18,193 0,000
Opisna statistika in verjetnostne porazdelitve 17,719 4 1,130 63 15,681 0,000
Statistično preizkušanje domnev 25,602 4 0,787 63 32,525 0,000
Redukcija dimenzij: PCA, faktorska analiza 27,893 4 0,766 63 36,431 0,000
Regresijska analiza 27,323 4 0,868 63 31,465 0,000
Statistika časovnih vrst 16,815 4 0,998 63 16,854 0,000
Prostorska statistika 13,199 4 0,746 63 17,687 0,000
Simulacije npr. Monte Carlo 15,189 4 0,859 63 17,680 0,000
Linearna algebra in računstvo, odvodi in integrali, funkcije
in risanje grafikonov, manipulacija matrik 6,837 4 1,483 63 4,611 0,002
Optimizacija 13,555 4 1,471 63 9,216 0,000
Nadzorovano učenje 19,409 4 1,241 63 15,642 0,000
Nagrajevalno učenje 9,397 4 0,532 63 17,655 0,000
Poglobljeno učenje 7,562 4 0,825 63 9,164 0,000
Obdelava naravnega jezika (NLP) 10,330 4 1,185 63 8,714 0,000
Analiza omrežji 15,887 4 0,565 63 28,138 0,000
Metodologije npr. AGILE, LEAN, WATERFALL 19,650 4 1,384 63 14,195 0,000
Metodologije npr. CRISP-DM, SEMMA, DMAIC 21,377 4 0,558 63 38,341 0,000
Specifična znanja iz posameznega področja 9,475 4 1,565 63 6,053 0,000
Poslovna znanja 3,132 4 1,325 63 2,364 0,062
Radovednost glede opazovanih stvari (vzorcev, odnosov,
razmerij). 3,405 4 0,597 63 5,703 0,001
Analitične sposobnosti. 1,464 4 0,359 63 4,079 0,005
se nadaljuje
48
Tabela 25: Rezultati preizkusa za razvrstitev v 5 skupin (nad.)
Skupina Napaka
F Stopnja znač. Povprečje
kvadratov df
Povprečje
kvadratov df
Postavljati prava vprašanja, definirati problem. 1,014 4 0,216 63 4,685 0,002
Sposobnost reševanja problemov. 1,110 4 0,197 63 5,623 0,001
Imeti sposobnost kreativnega mišljenja (angl. thinking
outside the box). 1,798 4 0,713 63 2,522 0,050
Biti potrpežljiv in vztrajen. 1,405 4 0,772 63 1,821 0,136
Podjetniška naravnanost, imeti poslovni čut. 2,940 4 1,187 63 2,477 0,053
Sposobnost sprejemanja odločitev. 3,703 4 0,690 63 5,368 0,001
Pogum in samozavest zagovarjati svoje ugotovitve,
odločitve. 1,236 4 0,583 63 2,119 0,089
Strateško razmišljati in načrtovati. 3,163 4 0,767 63 4,123 0,005
Nameniti pozornost kakovosti. 3,505 4 0,822 63 4,263 0,004
Voditeljske sposobnosti – imeti sposobnost motiviranja
in navduševanja drugih. 2,299 4 1,134 63 2,027 0,101
Sposobnost vodenja projektov. 1,834 4 1,136 63 1,615 0,182
Imeti sposobnost timskega dela. 2,125 4 0,667 63 3,187 0,019
Imeti dobre komunikacijske sposobnosti. 2,849 4 0,449 63 6,342 0,000
Sposobnost pripovedovanja zgodbe na podlagi podatkov
(angl. storytelling). 5,122 4 0,876 63 5,846 0,000
Občutek za umetnost in prakso vizualizacije. 5,715 4 0,914 63 6,250 0,000
Biti moralen in etičen. 2,494 4 1,459 63 1,709 0,159
Spoštovati zakone in predpise. 1,612 4 1,271 63 1,268 0,292
Strast do učenja novih stvari. 1,940 4 0,617 63 3,144 0,020
Strast do dela s podatki. 3,867 4 0,765 63 5,052 0,001
Tabela 26: Rezultati preizkusa za razvrstitev v 4 skupine
Skupina Napaka
F Stopnja
znač. Povprečje
kvadratov df
Povprečje
kvadratov df
Zaledno programiranje 5,481 3 2,325 64 2,358 0,080
Čelno programiranje 0,573 3 1,522 64 0,376 0,770
Znanje programskih jezikov npr. R, Python 9,602 3 2,060 64 4,662 0,005
Management podatkov 10,527 3 1,459 64 7,213 0,000
Oblikovanje informacij (vizualizacija) 10,132 3 1,277 64 7,935 0,000
Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 16,277 3 1,006 64 16,175 0,000
Delo z delno strukturiranimi podatki: XML, .JSON 9,881 3 1,407 64 7,023 0,000
Sistemi baz podatkov – NoSQL baze podatkov 16,659 3 0,798 64 20,872 0,000
Poizvedbeni jezik SQL 18,696 3 1,338 64 13,977 0,000
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive QL)
16,268 3 0,878 64 18,532 0,000
Sistemska administracija (SSH, *nix, računalništvo v
oblaku) 4,020 3 1,919 64 2,095 0,110
Znanstvena metoda 28,595 3 1,169 64 24,451 0,000
Opisna statistika in verjetnostne porazdelitve 23,227 3 1,131 64 20,539 0,000
Statistično preizkušanje domnev 33,828 3 0,789 64 42,857 0,000
Redukcija dimenzij: PCA, faktorska analiza 37,147 3 0,756 64 49,153 0,000
Regresijska analiza 36,424 3 0,855 64 42,595 0,000
Statistika časovnih vrst 22,420 3 0,982 64 22,828 0,000
Prostorska statistika 17,298 3 0,749 64 23,106 0,000
Simulacije npr. Monte Carlo 19,608 3 0,876 64 22,385 0,000
Linearna algebra in računstvo, odvodi in integrali, funkcije
in risanje grafikonov, manipulacija matrik 8,483 3 1,489 64 5,696 0,002
Optimizacija 9,851 3 1,833 64 5,374 0,002
Nadzorovano učenje 25,798 3 1,225 64 21,055 0,000
Nagrajevalno učenje 12,475 3 0,526 64 23,695 0,000
Poglobljeno učenje 10,050 3 0,814 64 12,350 0,000
Obdelava naravnega jezika (NLP) 13,732 3 1,169 64 11,748 0,000
Analiza omrežji 21,180 3 0,556 64 38,099 0,000
Metodologije npr. AGILE, LEAN, WATERFALL 18,938 3 1,703 64 11,120 0,000
Metodologije npr. CRISP-DM, SEMMA, DMAIC 28,491 3 0,549 64 51,863 0,000
se nadaljuje
49
Tabela 26: Rezultati preizkusa za razvrstitev v 4 skupine (nad.)
Skupina Napaka
F Stopnja
znač. Povprečje
kvadratov df
Povprečje
kvadratov df
Specifična znanja iz posameznega področja 9,575 3 1,684 64 5,685 0,002
Poslovna znanja 3,391 3 1,341 64 2,529 0,065
Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij).
4,161 3 0,605 64 6,873 0,000
Analitične sposobnosti. 1,516 3 0,374 64 4,055 0,011
Postavljati prava vprašanja, definirati problem. 1,043 3 0,228 64 4,586 0,006
Sposobnost reševanja problemov. 1,297 3 0,203 64 6,392 0,001
Imeti sposobnost kreativnega mišljenja (angl. thinking outside the box).
2,396 3 0,702 64 3,413 0,023
Biti potrpežljiv in vztrajen. 1,851 3 0,761 64 2,434 0,073
Podjetniška naravnanost, imeti poslovni čut. 3,710 3 1,178 64 3,149 0,031
Sposobnost sprejemanja odločitev. 4,492 3 0,700 64 6,416 0,001
Pogum in samozavest zagovarjati svoje ugotovitve,
odločitve. 1,118 3 0,599 64 1,866 0,144
Strateško razmišljati in načrtovati. 4,152 3 0,758 64 5,476 0,002
Nameniti pozornost kakovosti. 2,351 3 0,918 64 2,561 0,063
Voditeljske sposobnosti - imeti sposobnost motiviranja
in navduševanja drugih. 2,834 3 1,127 64 2,515 0,066
Sposobnost vodenja projektov. 2,422 3 1,119 64 2,165 0,101
Imeti sposobnost timskega dela. 2,669 3 0,664 64 4,019 0,011
Imeti dobre komunikacijske sposobnosti. 3,066 3 0,476 64 6,435 0,001
Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling).
6,726 3 0,867 64 7,754 0,000
Občutek za umetnost in prakso vizualizacije. 7,600 3 0,901 64 8,434 0,000
Biti moralen in etičen. 2,605 3 1,470 64 1,773 0,161
Spoštovati zakone in predpise. 2,102 3 1,253 64 1,677 0,181
Strast do učenja novih stvari. 2,180 3 0,626 64 3,479 0,021
Strast do dela s podatki. 4,896 3 0,766 64 6,394 0,001
Tabela 27: Rezultati preizkusa za razvrstitev v 3 skupine
Skupina Napaka
F Stopnja znač. Povprečje
kvadratov df
Povprečje kvadratov
df
Zaledno programiranje 8,898 2 2,268 65 3,923 0,025
Čelno programiranje 2,106 2 1,460 65 1,442 0,244
Znanje programskih jezikov npr. R, Python 16,271 2 1,971 65 8,257 0,001
Management podatkov 13,504 2 1,507 65 8,958 0,000
Oblikovanje informacij (vizualizacija) 15,152 2 1,259 65 12,038 0,000
Sistemi baz podatkov – relacijske baze podatkov (RDBMS) 21,838 2 1,070 65 20,406 0,000
Delo z delno strukturiranimi podatki: XML, .JSON 19,069 2 1,255 65 15,199 0,000
Sistemi baz podatkov – NoSQL baze podatkov 29,035 2 0,661 65 43,900 0,000
Poizvedbeni jezik SQL 24,547 2 1,425 65 17,231 0,000
Masovni in distribuirani podatki (Hadoop, MapReduce, Hive
QL) 25,803 2 0,821 65 31,421 0,000
Sistemska administracija (SSH, *nix, računalništvo v
oblaku) 5,544 2 1,905 65 2,911 0,062
Znanstvena metoda 40,183 2 1,235 65 32,540 0,000
Opisna statistika in verjetnostne porazdelitve 34,709 2 1,118 65 31,057 0,000
Statistično preizkušanje domnev 50,118 2 0,796 65 62,931 0,000
Redukcija dimenzij: PCA, faktorska analiza 50,215 2 0,914 65 54,969 0,000
Regresijska analiza 59,485 2 0,693 65 85,864 0,000
Statistika časovnih vrst 36,291 2 0,885 65 40,998 0,000
Prostorska statistika 25,743 2 0,743 65 34,627 0,000
Simulacije npr. Monte Carlo 28,335 2 0,896 65 31,639 0,000
Linearna algebra in računstvo, odvodi in integrali, funkcije in risanje grafikonov, manipulacija matrik
12,569 2 1,471 65 8,543 0,001
Optimizacija 14,433 2 1,816 65 7,949 0,001
Nadzorovano učenje 32,041 2 1,411 65 22,705 0,000
se nadaljuje
50
Tabela 27: Rezultati preizkusa za razvrstitev v 3 skupine (nad.)
Skupina Napaka
F Stopnja
znač. Povprečje
kvadratov df
Povprečje
kvadratov df
Nagrajevalno učenje 14,865 2 0,637 65 23,345 0,000
Poglobljeno učenje 14,647 2 0,814 65 17,983 0,000
Obdelava naravnega jezika (NLP) 17,770 2 1,238 65 14,355 0,000
Analiza omrežji 26,975 2 0,695 65 38,821 0,000
Metodologije npr. AGILE, LEAN, WATERFALL 31,809 2 1,572 65 20,233 0,000
Metodologije npr. CRISP-DM, SEMMA, DMAIC 37,290 2 0,708 65 52,633 0,000
Specifična znanja iz posameznega področja 12,351 2 1,720 65 7,180 0,002
Poslovna znanja 4,093 2 1,351 65 3,030 0,055
Radovednost glede opazovanih stvari (vzorcev, odnosov, razmerij).
2,572 2 0,709 65 3,627 0,032
Analitične sposobnosti. 0,987 2 0,408 65 2,421 0,097
Postavljati prava vprašanja, definirati problem. 0,380 2 0,260 65 1,458 0,240
Sposobnost reševanja problemov. 0,192 2 0,254 65 0,755 0,474
Imeti sposobnost kreativnega mišljenja (angl. thinking
outside the box). 2,033 2 0,739 65 2,750 0,071
Biti potrpežljiv in vztrajen. 0,096 2 0,831 65 0,116 0,891
Podjetniška naravnanost, imeti poslovni čut. 2,387 2 1,258 65 1,898 0,158
Sposobnost sprejemanja odločitev. 0,634 2 0,877 65 0,723 0,489
Pogum in samozavest zagovarjati svoje ugotovitve,
odločitve. 0,844 2 0,615 65 1,371 0,261
Strateško razmišljati in načrtovati. 0,061 2 0,936 65 0,065 0,937
Nameniti pozornost kakovosti. 0,216 2 1,006 65 0,215 0,807
Voditeljske sposobnosti - imeti sposobnost motiviranja in
navduševanja drugih. 0,994 2 1,210 65 0,821 0,444
Sposobnost vodenja projektov. 0,230 2 1,207 65 0,190 0,827
Imeti sposobnost timskega dela. 1,264 2 0,738 65 1,712 0,189
Imeti dobre komunikacijske sposobnosti. 0,311 2 0,601 65 0,517 0,599
Sposobnost pripovedovanja zgodbe na podlagi podatkov (angl. storytelling).
9,189 2 0,882 65 10,421 0,000
Občutek za umetnost in prakso vizualizacije. 7,831 2 0,997 65 7,854 0,001
Biti moralen in etičen. 0,637 2 1,548 65 0,411 0,664
Spoštovati zakone in predpise. 0,132 2 1,327 65 0,100 0,905
Strast do učenja novih stvari. 1,782 2 0,663 65 2,689 0,076
Strast do dela s podatki. 4,844 2 0,831 65 5,830 0,005