Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Znanja in sposobnosti podatkovnih znanstvenikov: pregled in analiza stanja v
Sloveniji Mateja Grobelnik, Jurij Jaklič 10.4.2017
AGENDA
• Namen prispevka
• Kdo so podatkovni znanstveniki?
• Znanja in sposobnosti podatkovnih znanstvenikov
• Rezultati raziskave v Sloveniji
• Ugotovitve in priporočila
POVPRAŠEVANJE PO SPECIFIČNIH ZNANJIH
MGI & McKinsey 2011
Do leta 2018 bo samo v ZDA 50-60 % vrzel
med ponudbo in povpraševanjem po
poglobljenem analitičnem znanju
Gartner 2014:
V 2015 bo 4,4 mio delovnih mest za
podporo delu z masovnimi podatki
Talent Map 2014:
V 2013 prvič zaznali naziv Chief Data Officer). Do konca 2013 jih bo 250.
New Vantage Partners 2012:
70 % odločevalcev bo zaposlilo podatkovne znanstvenike, 80 % jih meni, da bo to izziv
Big Data London Group 2012:
78 % meni, da obstaja pomanjkanje znanj in
sposobnosti iz masovnih podatkov
70 % meni, da obstaja prepad v znanju
NAMEN PRISPEVKA
Razumeti in opredeliti znanja in sposobnosti podatkovnih znanstvenikov
Ugotoviti ali obstajajo skupine podatkovnih znanstvenikov v Sloveniji
Podati smernice razvoja na tem področju
PODATKOVNI ZNANSTVENIKI
Strokovnjaki, ki se večino časa ukvarjajo s podatki, pri čemer uporabljajo raznolika
znanja in sposobnosti iz več različnih znanstvenih področji z namenom, da lahko
samostojno iz surovih (masovnih) podatkov preko procesa znanosti o
podatkih pridobijo dodano vrednost.
ZNANJA
Programiranje
Statistika Matematika
Management podatkov
Baze podatkov Strojno učenje
Domenska znanja
Znanstvena metoda
SPOSOBNOSTI
Postavljati prava
vprašanja
Reševanje problemov
Kreativno mišljenje
Analitične sposobnosti
Radovednost
Potrpežljivost, vztrajnost
Pogum in samozavest
Sprejemanje odločitev
Podjetništvo Strateško
razmišljati, načrtovati
Voditeljske sposobnosti
Sposobnost vodenja
projektov Timsko delo
Nameniti pozornost kakovosti
Komunikacijske sposobnosti
Pripovedovanje zgodbe
Umetnost vizualizacije
Morala in etika Spoštovati zakone in predpise
Strast do učenja novih
stvari
Strast do dela s podatki
POMEMBNOST (n=84) in SAMOOCENA ZNANJ (n=87)(I)
3,8
3,7
3,6
3,6
3,5
3,5
3,3
3,1
3,0
3,0
2,9
2,8
1 2 3 4 5
Poslovna znanja
Oblikovanje informacij
Specifična domenska znanja
Poizvedbeni jezik SQL
Relacijske baze podatkov
Management podatkov
Opisna statistika in…
Znanstvena metoda
Statistično preizkušanje…
Regresijska analiza
Znanje programskih…
Redukcija dimenzij
1 - Sploh ni pomembno 5 - Zelo je pomembno
3,7
3,7
3,6
3,5
3,5
3,5
3,3
3,3
3,1
3,1
3,1
2,9
2,9
2,8
1 2 3 4 5
Poizvedbeni jezik SQL
Poslovna znanja
Oblikovanje informacij
Specifična znanja
Relacijske baze podatkov
Opisna statistika in…
Management podatkov
Regresijska analiza
Znanstvena metoda
Statistično preizkušanje…
Linearna algebra in…
Redukcija dimenzij
Znanje programskih…
Delo z delno strukturiranimi…
1 - Ne poznam 2 - Osnove 3 - Začetnik 4 - Srednji nivo 5 - Napredni nivo
2,7
2,6
2,6
2,6
2,5
2,3
2,3
2,3
2,3
2,2
2,1
2,1
2,1
1,9
1,9
1,9
1,8
1,7
1,7
1 2 3 4 5
Delo z delno…
Statistika časovnih vrst
Optimizacija
Metodologije npr. AGILE,…
Linearna algebra in…
Nadzorovano učenje
Zaledno programiranje
Simulacije
Čelno programiranje
Sistemska administracija
Nenadzorovano učenje
Prostorska statistika
Analiza omrežji
Metodologije npr. CRISP-…
Obdelava naravnega jezika
Masovni in distribuirani…
NoSQL baze podatkov
Poglobljeno učenje
Nagrajevalno učenje
1 - Sploh ni pomembno - Zelo je pomembno
2,7
2,6
2,6
2,4
2,4
2,4
2,3
2,2
2,2
2,0
2,0
1,8
1,8
1,8
1,7
1,7
1,7
1 2 3 4 5
Optimizacija
Metodologije npr. AGILE,…
Statistika časovnih vrst
Čelno programiranje
Simulacije
Nadzorovano učenje
Zaledno programiranje
Nenadzorovano učenje
Sistemska administracija
Analiza omrežji
Prostorska statistika
Metodologije npr. CRISP-…
Obdelava naravnega jezika
Masovni in distribuirani…
NoSQL baze podatkov
Poglobljeno učenje
Nagrajevalno učenje
1 - Ne poznam 2 - Osnove 3 - Začetnik 4 - Srednji nivo 5 - Napredni nivo
POMEMBNOST (n=84) in SAMOOCENA ZNANJ (n=87)(II)
POMEMBNOST SPOSOBNOSTI (n = 91)
4,7
4,7
4,6
4,4
4,3
4,3
4,2
4,2
4,2
4,1
4,1
4,1
4,0
3,9
3,8
3,8
3,7
3,6
3,3
3,3
3,2
1 2 3 4 5
Postavljati prava vprašanja, definirati problem.
Sposobnost reševanja problemov.
Analitične sposobnosti.
Strast do učenja novih stvari.
Radovednost glede opazovanih stvari (vzorcev,…
Strast do dela s podatki.
Biti potrpežljiv in vztrajen.
Imeti sposobnost kreativnega mišljenja (angl. thinking…
Pogum in samozavest zagovarjati svoje ugotovitve,…
Nameniti pozornost kakovosti.
Imeti sposobnost timskega dela.
Imeti dobre komunikacijske sposobnosti.
Strateško razmišljati in načrtovati.
Sposobnost sprejemanja odločitev.
Spoštovati zakone in predpise.
Biti moralen in etičen.
Sposobnost pripovedovanja zgodbe na podlagi…
Sposobnost vodenja projektov.
Voditeljske sposobnosti - imeti sposobnost motiviranja…
Občutek za umetnost in prakso vizualizacije.
Podjetniška naravnanost, imeti poslovni čut.
1 - Sploh ni pomembno 5 - Zelo je pomembno
1
2
3
4
5
Področje znanj (razvrščeno)
T-OBLIKA (T-SHAPED)
1
2
3
4
5
Področje znanj (razvrščeno)
MINUS-OBLIKA (DASH-SHAPED)
1
2
3
4
5
Področje znanj (razvrščeno)
KONIČASTA I-OBLIKA (PEAK I-SHAPED)
1
2
3
4
5
Področje znanj (razvrščeno)
NORMALNA I-OBLIKA (NORMAL I-SHAPED)
1
2
3
4
5
Področje znanj (razvrščeno)
UNIKATNA OBLIKA (UNICORN)
KA [-1,1] KS [-1,1] 31,5 %
KA [-1,1] KS < -1 34,8 %
KA > 1 KS > 1 5,4 %
KA > 1 KS [-1, 1]
21,8 %
KA < -1 KS > 1 6,5 %
VZORCI ZNANJ
SKUPINE NA PODLAGI SAMOOCENE ZNANJ (n = 86)
C1 – Trženjski raziskovalci – analitiki (19 %)
C2 – Podatkovni analitiki (22 %)
C3 – Podatkovni znanstveniki (14 %)
C4 – Raziskovalci (22 %)
C5 – Programerji (23 %)
UGOTOVITVE IN PRIPOROČILA
Znanja iz področja tehnologije masovnih podatkov so v povprečju slabo ocenjena (samoocena in pomembnost).
Identificiranih 5 skupin posameznikov na področju samoocene znanj.
V Sloveniji obstajajo posamezniki z kombinacijo vseh navedenih znanj – podatkovni znanstveniki.
Razviti/dopolniti potencial preostalih skupin.
Primeri dobrih praks na konferencah, vabilo strokovnjakov na delavnice, več deljenja znanja preko družabnih skupin, vzpodbujanje uporabe tehnologij masovnih podatkov na odprtih podatkih preko formalnega izobraževanja ali sodelovanja z organizacijami.
Priporočila podana za vsako identificirano skupino.
Pokrijejo lahko celoten proces znanosti o podatkih. Ustvariti okolje in pogoje, da bodo našli ustrezne izzive v Sloveniji.
Podpora v sklopu formalnega izobraževanja, prenos znanja, pridobivanje izkušenj na praktičnih primerih.
PODATKOVNI ZNANSTVENIKI
Skrbniki in vloge povezane z zbiranjem
podatkov Podatkovni analitiki Odločevalci
Skrbniki baz podatkov Skrbniki podatkov Vnosni referenti Načrtovalci baz
podatkov
Statistiki Aktuarji
Znanstveniki Analitiki
Managerji Inženirji
Podatkovni znanstveniki
Zbiranje podatkov
Analiza podatkov & programska
oprema
Odločanje
METODOLOGIJA RAZISKAVE
Namen
Identificirati skupine podatkovnih znanstvenikov v Sloveniji glede na njihova znanja in sposobnosti
Vzorčenje
• Populacija: posamezniki v Sloveniji, ki se večino svojega časa ukvarjajo s podatki oziroma s katerim od naslednjih področji: analitika, statistika, matematika, programiranje, management podatkov, raziskovanje ali pa so vodje takšnih ekip
• Namensko priložnostno vzorčenje
• Strukturiran vprašalnik
(1ka.si) • Več sklopov:
• Masovni podatki • Samoocena znanj • Pomembnost znanj &
sposobnosti • Izkušnje • Pridobivanje znanj • Demografija
• Testiranje: 1.4.2016 – 23.4.2016
Zbiranje podatkov
• Zbiranje podatkov (vabila): 26.4.2016 – 21.5.2016 • Velikost vzorca: 92 enot 126 spremenljivk
Vprašalnik
ZNAČILNOSTI VZORCA
Starost
Izobrazba Smer izobrazbe
1,1%
10,9%
35,9%
51,1%
1,1%
0,0%
56 let ali več
46 - 55 let
36 - 45 let
26 - 35 let
18 - 25 let
Manj kot 18 let
28,3%
50,0%
8,7%
13,0%
0,0%
Magisterij, doktorat,
specializacija
Univerzitetni študij
Višja ali visoka šola
Poklicna ali štiriletna
srednja šola
Osnovna šola ali manj
1,1%
5,4%
8,7%
9,8%
14,1%
15,2%
19,6%
26,1%
Fizika
Druge vede
Matematika
Statistika
Druge naravoslovne ali…
Splošno družboslovje
Ekonomija in poslovne vede
Računalništvo
59,8 % 40,2 %
C1 – TRŽENJSKI RAZISKOVALCI - ANALITIKI
1
2
3
4
5
Zaledno programiranjeČelno programiranje
Znanje programskih jezikov
Management podatkov
Oblikovanje informacij
Relacijske baze podatkov
Delo z delno…
NoSQL baze podatkov
Poizvedbeni jezik SQL
Masovni in distribuirani…
Sistemska administracija
Znanstvena metoda
Opisna statistika in…
Statistično preizkušanje…Redukcija dimenzij
Regresijska analizaStatistika časovnih vrst
Prostorska statistika
Simulacije
Linearna algebra in…
Optimizacija
Nadzorovano učenje
Nagrajevalno učenje
Poglobljeno učenje
Obdelava naravnega jezika
Analiza omrežji
Metodologije npr. AGILE,…
Metodologije npr. CRISP-…
Specifična domenska znanjaPoslovna znanja
Normalna I-oblika (50%)
C2 – PODATKOVNI ANALITIKI
1
2
3
4
5
Zaledno programiranjeČelno programiranje
Znanje programskih jezikov
Management podatkov
Oblikovanje informacij
Relacijske baze podatkov
Delo z delno…
NoSQL baze podatkov
Poizvedbeni jezik SQL
Masovni in distribuirani…
Sistemska administracija
Znanstvena metoda
Opisna statistika in…
Statistično preizkušanje…Redukcija dimenzij
Regresijska analizaStatistika časovnih vrst
Prostorska statistika
Simulacije
Linearna algebra in…
Optimizacija
Nadzorovano učenje
Nagrajevalno učenje
Poglobljeno učenje
Obdelava naravnega jezika
Analiza omrežji
Metodologije npr. AGILE,…
Metodologije npr. CRISP-…
Specifična domenska znanjaPoslovna znanja
Normalna I-oblika (61%)
C3 – PODATKOVNI ZNANSTVENIKI
1
2
3
4
5
Zaledno programiranjeČelno programiranje
Znanje programskih jezikov
Management podatkov
Oblikovanje informacij
Relacijske baze podatkov
Delo z delno…
NoSQL baze podatkov
Poizvedbeni jezik SQL
Masovni in distribuirani…
Sistemska administracija
Znanstvena metoda
Opisna statistika in…
Statistično preizkušanje…Redukcija dimenzij
Regresijska analizaStatistika časovnih vrst
Prostorska statistika
Simulacije
Linearna algebra in…
Optimizacija
Nadzorovano učenje
Nagrajevalno učenje
Poglobljeno učenje
Obdelava naravnega jezika
Analiza omrežji
Metodologije npr. AGILE,…
Metodologije npr. CRISP-…
Specifična domenska znanjaPoslovna znanja
Unikatna (41%) in T-oblika (41%)
C4 – RAZISKOVALCI
1
2
3
4
5
Zaledno programiranjeČelno programiranje
Znanje programskih jezikov
Management podatkov
Oblikovanje informacij
Relacijske baze podatkov
Delo z delno…
NoSQL baze podatkov
Poizvedbeni jezik SQL
Masovni in distribuirani…
Sistemska administracija
Znanstvena metoda
Opisna statistika in…
Statistično preizkušanje…Redukcija dimenzij
Regresijska analizaStatistika časovnih vrst
Prostorska statistika
Simulacije
Linearna algebra in…
Optimizacija
Nadzorovano učenje
Nagrajevalno učenje
Poglobljeno učenje
Obdelava naravnega jezika
Analiza omrežji
Metodologije npr. AGILE,…
Metodologije npr. CRISP-…
Specifična domenska znanjaPoslovna znanja
Minus (78%) in T-oblika (28%)
C5 – PROGRAMERJI
1
2
3
4
5
Zaledno programiranjeČelno programiranje
Znanje programskih jezikov
Management podatkov
Oblikovanje informacij
Relacijske baze podatkov
Delo z delno…
NoSQL baze podatkov
Poizvedbeni jezik SQL
Masovni in distribuirani…
Sistemska administracija
Znanstvena metoda
Opisna statistika in…
Statistično preizkušanje…Redukcija dimenzij
Regresijska analizaStatistika časovnih vrst
Prostorska statistika
Simulacije
Linearna algebra in…
Optimizacija
Nadzorovano učenje
Nagrajevalno učenje
Poglobljeno učenje
Obdelava naravnega jezika
Analiza omrežji
Metodologije npr. AGILE,…
Metodologije npr. CRISP-…
Specifična domenska znanjaPoslovna znanja
T (53%) in Minus (47%) oblika