95
Magistrsko delo Organizacija in management informacijskih sistemov UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTU Mentorica: doc. dr. Mirjana Kljajić Borštnar Kandidat: Matjaž Ogrinc Kranj, marec 2016

UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Magistrsko delo Organizacija in management informacijskih sistemov

UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTU

Mentorica: doc. dr. Mirjana Kljajić Borštnar Kandidat: Matjaž Ogrinc

Kranj, marec 2016

Page 2: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

ZAHVALA V prvi vrsti se zahvaljujem mentorici doc. dr. Mirjani Kljajić Borštnar za strokovno pomoč, koristne napotke in usmeritve pri izdelavi magistrske naloge. Hkrati se zahvaljujem vodstvu in zaposlenim na Hokejski zvezi Slovenije za koristne nasvete in podatke, ki sem jih uporabil v magistrski nalogi. Posebej pa se zahvaljujem moji družini za vzpodbujanje in moralno podporo pri študiju ter izdelavi magistrskega dela.

Page 3: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

POVZETEK

V podatkih se skrivajo potencialno koristne informacije, ki jih lahko izkoristimo za pridobitev novega, uporabnega znanja. V magistrski nalogi smo obravnavali problem analize igre hokeja na ledu z uporabo podatkovnega rudarjenja. Glavni cilj naloge je predstaviti možnosti in uporabnost podatkovnega rudarjenja v športu ter s tem prispevati k razvoju hokeja na ledu doma in po svetu. Po drugi strani pa želimo spodbuditi tudi vodenje statistike, ki je podlaga za uporabo podatkovnega rudarjenja v športu. Rešitev problema smo izvedli po korakih procesa za odkrivanje znanja v podatkih in metodologije CRISP-DM. Na podlagi Evklidske razdalje smo praktično prikazali kako iščemo podobnosti med primeri. Njihovo povezanost pa smo preverili s pomočjo Pearsonovega koeficienta korelacije in postavili homogene napadalne trojke. S programom Orange, smo izdelali modele za uvrščanje igralcev na igralne pozicije (metoda k-NN), razvrstitev ekip in igralcev v skupine (hierarhično razvrščanje, metoda voditeljev) in za vpliv igralca na uspeh ekipe (agoritem CN2, Naive Bayesov klasifikator, odločitvena drevesa in nevronske mreže). Kot pomoč pri vizualizaciji rezultatov smo uporabili ustrezne diagrame. V zaključku smo izdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so v pomoč strokovnemu in učinkovitemu pristopu k hokejski igri ter so z modifikacijami uporabni tudi za druge športe. Koristni so za igralce in trenerje pri analizi igre, moštva in nasprotnikov, managerjem ter vodstvu klubov pri nakupu in menjavi igralcev, iskalcem talentov, sponzorjem, novinarjem…

KLJUČNE BESEDE:

- podatkovno rudarjenje - odkrivanje znanja v podatkih - Orange - hokej na ledu

Page 4: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

ABSTRACT Potentially useful informations are hiding in data that can be used to obtain a new useful knowledge. In this master's thesis we address the problem of analysis of the ice hockey game with the usage of data mining. The main goal of the project is to present the possibilities and usability of data mining in sports, thereby contributing to the development of ice hockey at home and worldwide. On the other hand, we want to encourage the collecting of statistics, which is the basis for the use of data mining in sports. For solving the problem we have used knowledge discovery in data process step by step and CRISP-DM methodology. Based on measurements of Euclidean distance we practically demonstrated how we search for similarities between the examples. We checked their relationships using Pearsons correlation coefficient and setup homogeneous offensive lines. By usnig Orange Data mining program, we have developed models for classifying players on playing positions (k-NN method), classification of teams and players in clusters (hierarchical clustering, k-Means Clustering) and the player's contribution to team succes (CN2 algorithm, Naive Bayes classification, decission trees and neural networks). Appropriate diagrams were used to assist the visualization of the results. Master's thesis is concluded by a SWOT analysis and introduction of stastistics, which should be used for serious analysis of the Slovenian ice hockey. Constructed models are representing contribution to the professional and efficient approach to hockey game and other sports. They are useful for players and coaches in the analysis of the game, the team and opponents, team managers in the purchase and replacement of players, scouts, sponsors, journalists…

KEYWORDS:

- data mining - knowledge discovery data - Orange - ice hockey

Page 5: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

KAZALO

1. UVOD ................................................................................... 1

1.1. PREDSTAVITEV PROBLEMA ........................................................ 2

1.2. HOKEJ NA LEDU .................................................................... 3

1.3. PREDPOSTAVKE IN OMEJITVE ..................................................... 4

1.4. METODE DELA ....................................................................... 5

2. ODKRIVANJE ZNANJA V PODATKIH ................................................. 6

2.1. PROCES ODKRIVANJA ZNANJA V PODATKIH ..................................... 6

2.2. PODATKOVNO RUDARJENJE ....................................................... 7

2.3. PODROČJA UPORABE PODATKOVNEGA RUDARJENJA .......................... 9

2.4. PODATKOVNO RUDARJENJE V ŠPORTU ......................................... 10

2.5. ORODJA ZA PODATKOVNO RUDARJENJE ....................................... 11

3. METODE IN TEHNIKE PODATKOVNEGA RUDARJENJA ............................ 13

3.1. METODOLOGIJA CRISP-DM ....................................................... 13

3.2. ISKANJE PODOBNOSTI MED PRIMERI ............................................ 15

3.3. UČENJE NA PRIMERIH ............................................................. 16

3.4. RAZVRŠČANJE V SKUPINE ........................................................ 17

3.5. NAPOVEDNO MODELIRANJE ...................................................... 18

4. ANALIZA OBSTOJEČEGA STANJA ................................................... 20

5. RAZVOJ MODELOV ZA PODATKOVNO RUDARJENJE .............................. 22

5.1. ISKANJE PODOBNOSTI MED PRIMERI ............................................ 22

5.2. UVRŠČANJE IGRALCEV NA IGRALNE POZICIJE ................................. 27

5.3. RAZVRSTITEV EKIP IN IGRALCEV V SKUPINE ................................... 37

5. 3. 1 ANALIZA RAZVRŠČANJA EKIP V SKUPINE .................................... 37

5. 3. 2 ANALIZA RAZVRŠČANJA IGRALCEV V SKUPINE.............................. 53

5.4. VPLIV IGRALCA NA USPEH EKIPE ................................................ 61

6. DISKUSIJA ............................................................................. 73

6.1. SWOT ANALIZA..................................................................... 73

6.2. POGOJI ZA UVEDBO ............................................................... 74

7. ZAKLJUČEK ........................................................................... 76

LITERATURA IN VIRI .......................................................................... 78

PRILOGE .................................................................................... 81

KAZALO SLIK ............................................................................... 87

KAZALO TABEL ............................................................................. 88

POJMOVNIK................................................................................. 88

Page 6: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

KRATICE IN AKRONIMI ..................................................................... 88

Page 7: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 1

1. UVOD

Z vse večjo uporabo informacijske tehnologije se povečuje tudi količina podatkov. Podatki se nahajajo na osebnih računalnikih, v organizacijah in podjetjih, podatkovnih skladiščih, raznih statistikah in postajajo vse bolj dostopni. Zbirajo se na različnih področjih: analize poslovanja, trga, poslovnih partnerjev, znanstvene raziskave, internet… in tudi v športu, kjer se vodijo v obliki raznih statistik. Namen podatkov ni le shranjevanje in kopičenje, iz podatkov se lahko tudi kaj naučimo. Obdelava podatkov omogoča odkrivanje in pridobivanje novega znanja. V okviru procesa odkrivanja znanja iz podatkov (ang. Knowledge Discovery Data, krajše KDD) se uporablja podatkovno rudarjenje (ang. Data Mining, krajše DM). Podatkovno rudarjenje najpogosteje uporabljamo za naslednje naloge: opisovanje, ocenjevanje, napovedovanje, razvrščanje, grozdenje in združevanje. Za odkrivanje zakonitosti iz podatkov uporabljamo statistiko, strojno učenje in vizualizacijo. Cilj podatkovnega rudarjenja je prodobitev novega, uporabnega znanja, ki služi tudi kot podpora pri odločanju. Primer dobre prakse predstavljajo Bohanec, Kljajić Borštnar in Robnik Šikonja (2015), ki na primeru napovedovanja medpodjetniške (ang. Business to Business, krajše B2B) prodaje, vpeljujejo strojno učenje in podatkovno rudarjenje v podjetniško okolje. Z uporabo metod in tehnik strojnega učenja predlagajo klasifikacijski model, ki je na podlagi podatkov zgodovine prodaje, sposoben ponuditi, do sedaj neznane prodajne priložnosti na celovit in človeku razumljiv način. Na področju poslovne inteligence pa Korelič, Mirchevska, Rajkovič, Borštnar Kljajić in Gams (2015) prikazujejo nov pristop k prilagoditvi večdimenzionalnih podatkovnih modelov za specifične potrebe uporabnikov. Z uporabo metode za večparametersko odločitveno modeliranje, ki temelji na hierarhičnih drevesih in “kaj-če” pravilih, razdelijo večje težave uporabnikov na skupine manjših. Model naredi poslovne inteligentne sisteme bolj enostavne in hkrati prispeva k večjemu zadovoljstvu uporabnikov. Sodobna informacijska tehnologija omogoča hitrejše in učinkovitejše zbiranje podatkov tudi v športu. Enostavne statistične obdelave ne zadoščajo več, zato vodstva klubov, trenerji, iskalci talentov ipd. za podrobnejše analize vse bolj pogosto uporabljajo podatkovno rudarjenje. Podatkovno rudarjenje prinaša dodano vrednost oziroma prednost pred konkurenco, saj podatki postanejo uporabne informacije, ki služijo k boljši igri, treningom, preprečevanju poškodb… Slovenski hokejisti so zelo uspešni na mednarodnem nivoju, tako v tujih klubih kot na reprezentančni ravni, kar potrjujejo nedavni uspehi. Domači hokejski klubi, pa žal niso konkurenčni s tujimi, zato je nujno izkoristiti možnosti, ki jih ponuja informacijska tehnologija.

Page 8: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 2

1.1. PREDSTAVITEV PROBLEMA

V magistrski nalogi bomo obravnavali problem analize igre hokeja na ledu z uporabo podatkovnega rudarjenja. Hokejska zveza Slovenije (krajše HZS) ima na članski ravni registriranih sedem klubov. Klubi nastopajo v domači ligi in pokalu ter dveh mednarodnih ligah. Na podlagi odigranih tekem se vodi statistika. Vodijo se osnovne statistike (strelci, podajalci, izključitve… ), ki omogočajo osnovne statistične obdelave (najboljši strelci, podajalci, igralci z največ izključitvami…). Predvidevamo, da bi bilo za učinkovito podatkovno rudarjenje potrebno uvesti dodatne statistike oziroma atribute. V primerjavi z nekaterimi drugimi športi je hokej na ledu dokaj slabo analiziran. Kot ugotavljata Hipp in Mazlack (2011, stran 1) je to verjetno zaradi neprekinjenega poteka igre z malo glavnimi dogodki (npr. zadetki). Vodijo pa se zelo dobre statistike, še posebej v priznanih ligah, zato menimo, da je podatke smotrno uporabiti za podatkovno rudarjenje. Razvrščanje klubov in igralcev na dobre, povprečne, slabše, napadalce, branilce, ipd. je popularna tema strokovnih delavcev, komentatorjev in zainteresirane javnosti. Razne analize, npr. razvrščanje, večinoma nimajo podlage v podrobnih analizah empiričnih podatkov. V nalogi želimo prikazati in spodbuditi nove možnosti za statistične analize in podatkovno rudarjenje v hokeju in športu na splošno. Cilj naloge je predstaviti možnosti in uporabnost podatkovnega rudarjenja v športu ter s tem prispevati k razvoju hokeja na ledu doma in po svetu. Želimo pa spodbuditi tudi vodenje statistike, ki je podlaga za uporabo podatkovnega rudarjenja v športu. Prikazali bomo možnosti za uporabo podatkovnega rudarjenja z uporabo ustreznih algoritmov, v zvezi z igro hokeja, na naslednjih primerih:

praktičen prikaz iskanja podobnosti med atributi oziroma kako najdemo vzorce v bazah podatkov,

kateri napadalci se med seboj najbolj ujemajo za postavitev homogenih napadov,

uvrščanje igralcev na igralne pozicije,

razvrstitev ekip v skupine,

razvrstitev igralcev v skupine,

napovedovanje izidov tekem oziroma prispevek posameznega igralca h končnemu rezultatu in

ocenjevanje klasifikacijskih modelov. Na navedenih praktičnih primerih bomo prikazali uporabo osnovnih algoritmov podatkovnega rudarjenja (razvrščanje v skupine, k-Means, K-NN, Naive-Bayes, drevesa odločitve, klasifikacijska pravila in nevronske mreže). V zaključku naloge bomo predstavili statistike, ki so pomembne oziroma jih je potrebno uporabljati za učinkovito uporabo podatkovnega rudarjenja.

Page 9: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 3

1.2. HOKEJ NA LEDU

Hokej na ledu velja za najhitrejšo moštveno igro in je po definiciji Društva za mednarodne hokejske raziskave (ang. Society for International Hockey research, krajše SIHR) igra, ki se igra na drsališču, na katerem sta nasprotni ekipi drsalcev, ki z uporabo ukrivljenih palic, skušata poriniti majhen disk v nasprotnikov gol. Prve organizirane tekme so se odigrale po letu 1875 v Kanadi, v Evropi pa v začetku 20. stoletja. Danes je hokej zelo popularna igra predvsem v severni ameriki, evropi, Rusiji… kjer so organizirana tudi najmočnejša ligaška tekmovanja. Vsaka ekipa ima na ledu hkrati pet igralcev in vratarja. Na tekmo moštvo lahko prijavi dva vratarja in dvajset igralcev, ki so običajno razporejeni v štiri napadalne linije po pet igralcev. Napadalne linije se menjavajo med prekinitvami oziroma z t.i. letečimi menjavami. Igra traja 3 krat 20 minut čiste igre. Ob prekinitvah se izvajajo sodniški meti. Igralci uporabljajo posebne palice in plošček iz trde gume (ang. Puck), s katerim poskušajo zadeti nasprotnikov gol. Za premikanje po ledu uporabljajo drsalke, ki pripomorejo k visokim hitrostim. Hokej je kontaktna igra pri kateri pogosto pride do telesnih kontaktov med igralci, zato igralci uporabljajo zaščitno opremo, ki preprečuje poškodbe. Kljub temu, da so dovoljeni telesni kontakti, pogosto pride do prekrškov (spotikanje, naleti na ogrado, udarci s palico…), katerih posledica je izključitev igralca in so pomemben dejavnik pri razvoju igre. Slika 1 prikazuje igrišče za hokej, ki ima napadalno, obrambno in nevtralno tretjino.

Slika 1: Igrišče za hokej na ledu

Page 10: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 4

Vsi igralci imajo svoje naloge glede na igralno mesto, tako v obrambi kot v napadu. Za posamezna igralna mesta so potrebne specifične lastnosti. Poleg vratarjev so v ekipi še:

napadalci:

o C – center, o LK – levo krilo, o DK – desno krilo in

branilci: o LB – levi branilec ter o DB – desni branilec.

Krovna organizacija je Mednarodna hokejska zveza (ang. International Ice Hockey Federation, krajše IIHF). Deluje na podlagi uradne knjige pravil in športnega pravilnika, ki predpisujeta pravila igre ter organizacijo tekmovanj. Združuje 74 nacionalnih zvez, med katerimi je tudi HZS. Glavna naloga HZS je organizacija raznih tekmovanj v različnih ligah in pokalih, na področju hokeja v Sloveniji. Pod njenim okriljem je poleg državne reprezentance tudi sedem klubov, ki nastopajo v domačem prvenstvu. Klubi nastopajo tudi na mednarodnem področju, v ligi INL (ang. Inter National League) in EBEL (nem. Erste Bank Eishockey Liga). Ena izmed poglavitnih nalog HZS je vodenje statistike. Med člani HZS je tudi Hokejski klub Triglav Kranj, ki je bil ustanovljen leta 1968. V sezoni 2014-2015 je članska ekipa nastopala v državnem prvenstvu in pokalu ter v ligi INL. Vodstvo kluba in trenerji poleg vodenja in organizacije kluba, dajejo velik pomen predvsem vzgoji mlajših generacij. Na mednarodnem področju je najbolj organizirana severno-ameriška profesionalna liga (ang. National Hockey League, krajše NHL), ki ima 30 franšiznih klubov iz Kanade in Združenih držav Amerike. Velja za najmočnejšo in najbolj popularno profesionalno ligo, ki ima nekoliko spremenjena IIHF pravila. Prilagoditev pravil, naj bi v hokejsko igro vnesla več dinamike in razburljivosti. Glavne razlike so v velikosti igrišča, ki je nekoliko krajše in ožje, dovoljene so podaje čez dve liniji, zmanjšana je oprema vratarja...

1.3. PREDPOSTAVKE IN OMEJITVE

Izhajamo iz predpostavke, da se nekateri podatki (statistike igre) v slovenski hokejski ligi zbirajo. Žal pa ne v takšni meri ali tako sistematično, da bi te podatke lahko uporabili za resne analize, ki bi pripomogle k bolj učinkoviti organizaciji treningov in igre ter posledično k boljšim rezultatom. Primerna statistika se vodi v severno-ameriški profesionalni ligi NHL. Za prikaz možnosti podatkovnega rudarjenja, smo zato uporabili javno dostopne podatkovne baze, ki omogočajo podatkovno rudarjenje. Precej podatkov zbirajo tudi klubi NHL za svoje lastne analize, kar je razumljivo, saj s tem ohranjajo prednost pred konkurenco. Kljub temu na svetovnem spletu lahko dostopamo do skoraj vseh podatkov, ki so pomembni za igro hokeja na ledu.

Page 11: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 5

Izbor pravih atributov za posamezne primere ima velik pomen. Glavni problem pa predstavljajo različni tipi, manjkajoče in napačne vrednosti ter razpršenost podatkov. Vsakdo jih v prvi vrsti potrebuje za svoje lastne analize, zato so podatki prilagojeni njihovim potrebam. Za potrebe podatkovnega rudarjenja smo združevali podatke iz različnih podatkovnih baz, kar pa predstavlja kar velik problem. Opravili smo veliko dela pri preoblikovanju, čiščenju, integraciji podatkov in izboru atributov.

1.4. METODE DELA

V teoretičnem delu smo predstavili pojem podatkovnega rudarjenja v okviru procesa pridobivanje znanja iz podatkov. Preučili smo literaturo in se seznanili z osnovnimi pojmi procesa odkrivanja znanja v podatkih, preučili podatkovno rudarjenje in področja uporabe. Preverili smo tudi uporabo DM v športu, s poudarkom na hokeju. Pregledali smo orodja, s poudarkom na program Orange in preučili metodologije ter tehnike DM. Na HZS smo preverili kakšno statistiko vodijo in kakšno statistiko jim dostavljajo klubi. S predstavnikom hokejskega kluba Triglav smo izvedli intervju o vodenju in uporabi statistike v klubu ter preverili stanje v ostalih slovenskih hokejskih klubih. Posebno pozornost smo namenili vodenju statistike in uporabi podatkovnega rudarjenja v ligi NHL. V empiričnem delu raziskave smo na spletu pridobili podatke iz obstoječih podatkovnih baz, ki so javno dostopne. Za prikaz kako iščemo podobnosti oziroma vzorce med atributi, smo uporabili program Excel, s pomočjo programa Orange pa smo izdelali modele za podatkovno rudarjenje. Metodo najbližjega soseda smo uporabili za uvrščanje oziroma za razvrstitev igralcev na igralne pozicije. Za razvrstitev ekip in igralcev v skupine smo uporabili analizo razvrščanja v skupine. Ekipe smo razvrstili s pomočjo metode hierarhičnega razvrščanja, igralce pa na podlagi metode voditeljev. Pri izgradnji napovednega modela za prispevek posameznega igralca na rezultat ekipe smo uporabili odločitvena drevesa, klasifikacijska pravila in nevronske mreže. V vseh primerih smo gradili modele na podlagi CRISP (ang. Cross Industry Standard Protocol) metodologije. Izdelali smo analizo prednosti, slabosti, priložnosti ter nevarnosti (ang. Strengths, Weaknesses, Opportunities, Threats, krajše SWOT) uporabe podatkovnega rudarjenja v hokeju in predstavili katere statistike in v kakšni meri bi jih bilo smiselno uvesti, za temeljite analize.

Page 12: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 6

2. ODKRIVANJE ZNANJA V PODATKIH

Vzporedno z razvojem informacijske tehnologije, še posebej s pojavom in razvojem interneta (ang. World Wide Web, krajše www), je naraščalo tudi število in dosegljivost podatkov. Svet je preplavljen s podatki, količina pa se vsakodnevno povečuje in ji ni videti konca. Ocenjuje se, da se število podatkov shranjenih v datotekah, po vsem svetu podvoji vsakih 20 mesecev. Witten, Frank in Hall (2011, stran 3-5) ugotavljajo, da obstaja vrzel med pridobivanjem in razumevanjem podatkov. V vseh podatkih so skrite potencialno koristne informacije, ki jih je potrebno izkoristiti za pridobitev novega, uporabnega znanja. S podatkovnim rudarjenjem analiziramo in odkrivamo probleme, ki so v bistvu že prisotni oziroma zapisani v podatkovnih bazah. Uporabni vzorci omogočajo netrivialne napovedi in odgovore. Za prepoznavanje vzorca obstajata dve skrajnosti: princip črne (vsebine ne vidimo) in transparentne škatle (konstrukcija razkriva strukturo vzorca). Osnovni pojmi, ki se pojavljajo pri procesu odkrivanju znanja iz podatkov so: podatek, informacija in znanje, ki so med seboj v tesni (hierarhični) povezavi ter upravljanje znanja, ki jih povezuje z informacijsko tehnologijo. Mohorič (1999, stran 446) podatek opredeljuje kot “poljubno množico predstavitev znanja, izraženih s pomočjo jezika in zapisanih s pomočjo simbolov”. Informacija pa predstavlja “inkrement znanja, pridobljen s sprejemom sporočila. To je razlika med koncepcijami, pridobljenimi z interpretacijo sprejetega sporočila in znanjem prejemnika pred sprejemom sporočila”. Preden pridemo do informacije potrebujemo podatke, informacija pa postane znanje, ko jo razumemo in dobi smiseln pomen oziroma dodano vrednost (Tuomi, 2000, stran 104). “Upravljanje znanja je disciplina, ki spodbuja celovit pristop k prepoznavanju, zajemanju, vrednotenju, pridobivanju in izmenjavi vseh informacijskih sredstev podjetja. Ta sredstva lahko vsebujejo baze podatkov, dokumente, postopke in strokovno znanje ter izkušnje posameznih delavcev” (Duhon, 1998, stran 8). Podatki in informacije so pomembni za delovanje organizacij. Upravljanje znanja z uporabo informacijskih tehnologij pa organizaciji prinese učinkovito znanje in dodano vrednost.

2.1. PROCES ODKRIVANJA ZNANJA V PODATKIH

V procesu odkrivanja znanja v podatkih (ang. Knowledge Discovery Data, krajše KDD), ki ga prikazuje Slika 2, je podatkovno rudarjenje ključni korak. Kot navajata Han in Kamber (2006, stran 5-9) razdelimo proces KDD v naslednje korake:

1. čiščenje podatkov, 2. integracija podatkov, 3. izbor podatkov, 4. preoblikovanje podatkov,

Page 13: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 7

5. podatkovno rudarjenje, 6. vrednotenje vzorca in 7. predstavitev znanja.

Slika 2: Proces odkrivanja znanja v podatkih (vir: Han in Kamber (2006))

V prvih štirih korakih pripravimo podatke za podatkovno rudarjenje. V petem koraku z uporabo metod in tehnik za odkrivanje zanimivih vzorcev izvedemo podatkovno rudarjenje. V šestem koraku z vrednotenjem, ugotavljamo resnično zanimive vzorce, ki predstavljajo novo koristno znanje in jih v sedmem koraku z uporabo tehnik vizualizacije tudi predstavimo. Vzorci predstavljajo novo znanje in jih shranjujemo v bazah znanja.

2.2. PODATKOVNO RUDARJENJE

Podatkovno rudarjenje je ključen korak v procesu odkrivanja znanja v podatkih, v katerem dejansko pride do odkrivanja nekega novega, do sedaj neznanega in potencialno uporabnega znanja.

Page 14: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 8

Kot navajajo Witten, Frank in Hall (2001, stran 8), “podatkovno rudarjenje vključuje učenje v smislu pridobivanja praktičnega znanja. Zanimajo nas tehnike za iskanje in opisovanje strukturiranih vzorcev v podatkih. Služi nam kot orodje, ki pomaga pri razlagi podatkov in napovedih”. Je netrivialen proces za prepoznavanje novih, veljavnih in v končni fazi razumljivih vzorcev ali pravil v podatkih. Rezultati so uporabni pri sistemih za podporo odločanju, pri katerih pogosto s poizvedbami (ang. Query) ne moremo odgovoriti na zastavljena raziskovalna vprašanja. Po drugi strani pa tehnike podatkovnega rudarjenja podpirajo avtomatsko raziskovanje podatkov, s katerimi skušamo najti vzorce na podlagi katerih lahko sklepamo oziroma postavljamo nova pravila. Podatkovno rudarjenje običajno izvajamo na velikih količinah podatkov. Razvoj in napredek podatkovnega rudarjenja je omogočil napredek tehnologij za množično zbiranje podatkov, visoko zmogljivih računalnikov in algoritmov za podatkovno rudarjenje. V bistvu je podatkovno rudarjenje sistem, ki se uči iz obstoječih podatkov, torej je novo znanje potrebno le odkriti. Pri tem uporabljamo metode in tehnike statistike, strojnega učenja in vizualizacije (Pujari, 2001, stran 43-47). Statistika Statistika je znanstvena disciplina, katere naloga je pridobivanje informacij iz podatkov in temelji na uporabni matematiki. Namen statistične obdelave podatkov, je obdelava podatkov z uporabo osnovnih statističnih metod (aritmetična sredina, mediana, modus…) in oblikovanje podatkov o populaciji na podlagi vzorcev. Kot navajajo v Two Crows Corporation (2005, stran 4) podatkovno rudarjenje ne nadomešča tradicionalnih statističnih metod temveč jih nadgrajuje. Do nedavnega so statistične metode zadostovale za analizo podatkov, z razvojem informacijske tehnologije in večanjem števila podatkov, pa je bilo za raziskovanje potrebno razviti nove tehnike (npr. odločitvena drevesa, nevronske mreže…). Podatkovno rudarjenje je orodje, ki omogoča čim boljši izkoristek statističnih metod pri reševanju poslovnih rešitev in povečuje storilnost strokovnjakov pri gradnji napovednih modelov. Strojno učenje in umetna inteligenca Pojmi učenje, znanje ter inteligenca so med seboj tesno povezani in skupaj tvorijo osnovo za strojno učenje (ang. Machine Learning). Kadar imamo učenca oziroma sistem, ki želi ali mora opraviti določeno nalogo govorimo o učenju. Pri učenju uporabljamo vajo, tehnike posnemanja učitelja in poskušanje z napakami. Rezultat učenja so spremembe v opravljanju naloge, s katerimi lahko nalogo opravimo bolje, hitreje, natančneje, ceneje… Spremembam pravimo pridobivanje znanja, ki ga lahko definiramo kot interpretacijo informacije, ki jo nosijo podatki. Učenje in znanje opredeljujeta inteligenco, ki predstavlja sposobnost prilagajanja okolju in reševanja problemov. Učenju živih sistemov pravimo naravno učenje, če pa je učenec stroj - računalnik, govorimo o avtomatskem oziroma strojnem učenju. Osnovni namen razvoja metod strojnega učenja je avtomatsko generiranje

Page 15: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 9

baz znanja iz katerih ekspertni sistemi pridobivajo novo znanje (Kononenko, 1997, stran 2-17). Kadar združimo pristope, ki skušajo zgraditi sistem, ki deluje podobno ali celo bolje kot to zmore človek govorimo o pojmu umetna inteligenca (ang. Artificial Intelligence). Eno izmed področij umetne inteligence je tudi strojno učenje. Kot navajata Guid in Strnad (2007, stran 1-2) univerzalni inteligentni sistem vsebuje več modulov, ki so prikazani na Sliki 3. Notranja predstavitev (ang. Internal Representation), ki pomeni skupni jezik med moduli, povezuje notranjost z vhodom in izhodom. Področja umetne inteligence so računalniški vid, obdelava naravnega jezika, predstavitev znanja, avtomatsko sklepanje, planiranje, strojno učenje, robotika…

Slika 3: Univezalni inteligentni sistem (vir: Guid in Strnad (2007))

Vizualizacija Vizualizacija je v podatkovnem rudarjenju zelo uporabna, saj je že v človekovi naravi, da nekatere stvari bolje in hitreje razumemo v slikovni obliki. Vizualizacija nam nudi drugačen pogled na svet. Mnogi avtorji ugotavljajo, da lahko slika pove več kot tisoč besed. Tufte (1997) med drugim ugotavlja, da se je vizualizacija zelo izkazala v podatkovnem rudarjenju in ima velik potencial. Ponuja številne primere in tehnike vizualizacije, ki so primerne za podatkovno rudarjenje po velikih bazah podatkov, kot so histogrami, krožni diagrami, razpršitveni, parketni diagrami, mozaik… Kot ugotavljata Lee in Siau (2001, stran 44) pa proces vizualizacije ne more delovati sam po sebi, temveč zahteva vključevanje človeka. Potrebna je tudi določena mera pazljivosti, saj nas same in druge lahko tudi zavaja.

2.3. PODROČJA UPORABE PODATKOVNEGA RUDARJENJA

Podatkovno rudarjenje se uporablja na številnih področjih in je uporabno za razne analize, predvidevanja, napovedi, znanstvene raziskave… Naglo se širi tudi na nova področja, kjer dobiva vse večji pomen. Padhy, Mishra in Panighari (2012, stran 48-54) navajajo nekatera področja kjer je uporaba podatkovnega rudarjenja najbolj razširjena:

marketing: analiza nakupovalnih košaric, trženje, odnosi z javnostjo, odliv in priliv kupcev…

medicina: genetika,farmacija, odkrivanje bolezni, zdravstveno varstvo…

- iskanje - sklepanje - planiranje - razlaga

- učenje

robotika notranja

predstavitev

govor notranja

predstavitev

vid

sluh

notranja predstavitev

notranja predstavitev

NOTRANJOST IZHOD VHOD

Page 16: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 10

izobraževanje: izboljševanje izobraževalnih sistemov, povečevanje učnega uspeha…

proizvodnja: analiza trga, poslovanja, strank, povečanje kvalitete proizvodov, zmanjšanje odpadka, revizija…

politika: vodenje volilnih kampanij, napovedovanje volilnih izidov…

bančništvo: dodeljevanje kreditov, odkrivanje zlorab…

astronomija: klasifikacija nebesnih teles…

kriminal: odkrivanje teroristov, prevare, pranje denarja, obveščevalne službe…

svetovni splet: tekstovno rudarjenje, prepoznavanje jezika, iskanje informacij, zaznavanje vdorov v omrežja, odkrivanje zlonamerne programske opreme, spletne trgovine, digitalne knjižnice (tekst, slike, zvočni zapisi, video posnetki)…

šport: odkrivanje talentov, analize tekem, napovedi izidov… Podatkovno rudarjenje uporabljajo podjetja, organizacije, znanstvene ustanove, izobraževalni centri in posamezniki. Izvajajo ga na svojih lastnih podatkih oziroma jih pridobijo na svetovnem spletu, če so javno dostopni.

2.4. PODATKOVNO RUDARJENJE V ŠPORTU

V športu se že od samega razvoja posameznih panog in disciplin uporablja statistika. Zbirajo se podatki o igralcih, ekipah, tekmah, sezonah in že kmalu se je pokazalo, da so statistične obdelave podatkov pripomogle k izboljšanju rezultatov. Danes je podatkov, tako kot na drugih področjih, tudi v športu vse več. Treningi postajajo vse bolj naporni, od športnikov pa se zahteva maksimum. Šport je postal velik posel, z velikimi denarnimi vložki, zato je pomemben tudi iz ekonomskega vidika. Vse bolj pa se povezuje z znanostjo, saj sodobne metode, tehnike in orodja ponujajo kvalitetno obdelavo podatkov. Poleg drugih znanstevnih pristopov kot so medicina, psihologija, ekonomija… se vse več uporablja tudi podatkovno rudarjenje. Kot navaja De Marchi (2011, stran 5) se analiza športnih aktivnosti uporablja pri:

napovedovanju uspešnosti,

iskanju kazalcev prednosti in pomankljivosti treninga,

merjenju napredka,

oceni uspešnosti programa treninga,

uvrstitvi športnika v primerno skupino na treningu in

motivaciji športnika. Uporaba podatkovnega rudarjenja lahko pripomore k boljšim rezultatom posameznikov in moštev, prepoznavanje prispevka posameznikov k moštvenemu uspehu, prilagajanje igralcev določenim situacijam, ocenjevanje in odkrivanje slabosti nasprotnikov… Rezultati so v prvi vrsti namenjeni športnim organizacijam, ekipam, trenerjem, iskalcem talentov, novinarjem in športni javnosti – športnim navdušencem (Schumaker, Solieman in Chen, 2010, stran 1-15).

Page 17: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 11

Največ se podatkovno rudarjenje uporablja v košarki, nogometu, basebalu… medtem, ko ga v hokeju še ni zaslediti v večji meri. Kot ugotavljata Hipp in Mazlack (2011, stran 1) je razlog, da je relativno slabo analiziran,verjetno v tem, da je hokej tekoča, neprekinjena igra z malo dogodki (npr. goli).

2.5. ORODJA ZA PODATKOVNO RUDARJENJE

Z iznajdbo in zasnovo metode odločitvenih dreves, so se po letu 1980 začela razvijati tudi orodja za strojno učenje in podatkovno rudarjenje. Z vse večjo uporabo informacijske tehnologije, še zlasti z dostopom do interneta sredi 1990-tih let, pa je več podjetij začelo razvijati programsko opremo za podatkovno rudarjenje. V začetku so v večjih podjetjih (IBM, Oracle, SAS…) razvijali licenčne programe, katerim je sledil razvoj odprtokodnih (ang. Open-source) programov. Danes je na tržišču dostopnih precej programov, ki večinoma temeljijo na vizuelnem programiranju in imajo uporabniku prijazne grafične vmesnike (Demšar, Zupan, 2013, stran 55). Tabela 1 prikazuje nekaj najbolj pogosto uporabljenih licenčnih in odprtokodnih programov.

Licenčni programi Odprtokodni programi

AdvancedMiner Gnome DM Tools

Angoss Knowledge Studio KEEL

IBM SPSS Modeler (Clementine) KNIME

KnowledgeMiner for Excel Orange

Oracle Data mining RapidMiner

QIWare TANAGRA

SAS Enterprise miner… Weka…

Tabela 1: Orodja za podatkovno rudarjenje (vir: www.kdnuggets.com)

Kot navajajo Schumaker, Solieman in Chen (2010, stran 51-61) je bilo sistematično podatkovno rudarjenje v športu sprva omejeno znotraj samih športnih organizacij in klubov. V zadnjem času pa je opaziti porast programskih podjetij, ki posameznikom in športnim organizacijam ponujajo orodja za podatkovno rudarjenje, kot so Advanced Scout, B Ball, Synergie Online, Sports Viz, Sports Data Hub, Digital Scout, Inside Edge, Offshore Gaming… Programi so namenjeni analizam, vizualiziaciji in za odkrivanje prevar. ORANGE Programska oprema Orange je bila razvita na Fakulteti za računalništvo in informatiko (krajše FRI) Univerze v Ljubljani, v Laboratoriju za umetno inteligenco. Razvoj programa se je začel leta 1997, danes pa je v uporabi verzija 2.7. Orange deluje v okolju Windows, Linux in OS X. Je odprtokodna programska oprema, ki uporablja programski jezik Python. Podatkovno rudarjenje se izvaja preko uporabniškega vmesnika (ang. Graphical User Interface, krajše GUI), s pomočjo vizuelnega programiranja in omogoča analizo ter vizualizacijo podatkov.

Page 18: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 12

Demšar in Zupan (2013, stran 55-60) navajata, da je program primeren tako za začetnike kot za strokovnjake. Na Sliki 4 je prikazan uporabniški vmesnik programa Orange. Namizje Orange je sestavljeno iz ti. platna (ang. Canvas) na katerega dodajamo gradnike (ang. Widgets). Gradniki so predstavljeni z ikonami in predstavljajo uporabniški vmesnik za podatkovno rudarjenje ter metode strojnega učenja. Omogočajo vnos in obdelavo podatkov, vizualizacijo ter klasifikacijo. Vsak ima svoj namen (nalaganje podatkov, vizualizacija…) in vhod (ang. Input) ter izhod (ang. Output). Razdeljeni so v skupine:

podatki (ang. Data),

vizualizacija (ang. Visualize),

klasifikacija (ang. Classify),

regresija (ang. Regression),

evalvacija (ang. Evaluate),

nenadzorovano učenje (ang. Unsupervised Learning),

asociacija (ang. Associate) in

prototipi modelov (ang. Prototypes).

Slika 4: Namizje programa Orange

S povezovanjem gradnikov vzpostavljamo tok podatkov (ang. Data Flow) v modelu. Deluje na osnovi algoritmov za strojno učenje kot so Naive-Bayesov klasifikator (ang. Naive-Bayes Clasiffier), agoritm k-najbližjega soseda (ang. K-Nearest Neighbour), CN2 algoritem (ang. CN2 Algorithm)...

Page 19: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 13

3. METODE IN TEHNIKE PODATKOVNEGA RUDARJENJA

Podatkovno rudarjenje deluje v tesni povezavi s statistiko, bazami podatkov, strojnim učenjem, vizualizacijo, informatiko in različnimi znanstvenimi disciplinami. Izvaja se na podlagi različnih metodologij in algoritmov. Najbolj pogosto se uporabljajo asociacijska in klasifikacijska pravila, analiza razvrščanja v skupine, odločitvena drevesa, nevronske mreže, generični algoritmi…

3.1. METODOLOGIJA CRISP-DM

Za proces podatkovnega rudarjenja obstajajo različne standardizirane metodologije, ki so uporabnikom v pomoč, da proces poteka bolj zanesljivo, hitreje in z manj stroški. Številne organizacije uporabljajo specifičen model, ki vodi uporabnika do rezultata. Po podatkih ankete (Slika 5) izvedene na KDNuggets, pa Piatetsky (2014) ugotavlja, da je najbolj razširjena metodologija CRISP-DM (ang. Cross-Industry Standard Process for Data Mining), katero uporablja 43% anketirancev.

Slika 5: Primerjava uporabe metodologij za podatkovno rudarjenje za leto 2014 in 2007 (vir: http://www.kdnuggets.com)

Model CRISP-DM opisuje življenski cikel procesa odkrivanja znanja v podatkih. Opredeljuje posamezne faze, ustrezne aktivnosti in naloge ter razmerja med njimi. Življenski cikel je opisan v šestih fazah, ki jih prikazuje Slika 6. Puščice označujejo najpomembnejša in najpogostejša razmerja med fazami. Rezultat

Page 20: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 14

posamezne faze določa naslednjo nalogo. Zaporedje faz je prilagodljivo, prehajanje med njimi pa je celo vedno dobrodošlo.

Slika 6: Model CRISP-DM (vir: www.crisp-dm.org CRISP-DM 1.0 (2000))

Zunanji krog simbolizira cikličnost procesa. Znotraj kroga pa potekajo procesi, ki se ne končajo vedno, ko pridemo do neke rešitve. Spoznanja med procesom lahko sprožijo nova poslovna ali raziskovalna vprašanja. V skladu z modelom CRISP-DM 1.0 (2000, stran 10-12) so posamezne faze modela:

Razumevanje problema

Začetna faza, katere cilj je razumevanje problema s poslovnega vidika. Z namenom, da bi dosegli cilj, poslovno znanje prenesemo v načrt za podatkovno rudarjenje.

Razumevanje podatkov

Zberemo začetne podatke in izvedemo aktivnosti v zvezi s pomenom in razumevanjem podatkov. Poskušamo najti zanimive vzorce ali skrite informacije.

Priprava podatkov

Priprava podatkov je najdaljša in delovno najbolj intenzivna faza, v kateri izvedemo vse aktivnosti za vnos podatkov v končni model. Izvedemo naloge kot so priprava tabel, zapisov, izbor atributov, čiščenje, integracija,

Page 21: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 15

selekcija, transformacija… Vrstni red nalog ni predpisan, posamezno nalogo pa ponavadi izvedemo večkrat.

Modeliranje podatkov

V fazi modeliranja izberemo in uporabimo primerne metode za preučevani problem. Pogosto obstaja za isti problem več metod. Glede na podatke imajo nekatere metode posebne zahteve, zato se je pogosto potrebno vrniti v fazo priprave podatkov.

Evalvacija modela

V tej fazi izvedemo vrednotenje zgrajenega modela glede na analizo podatkov. Pomembno je, da pred uporabo modela, temeljito pregledamo in ocenimo vse predhodne faze ter se prepričamo, da je model primeren za rešitev zastavljenega cilja. Kjučnega pomena je ugotovitev, da nismo spregledali kakšnega pomembnega vidika, v zvezi z zastavljenim problemom.

Uporaba modela

S predajo modela v uporabo se projekt običajno ne zaključi. Model in pridobljeno znanje, je potrebno na primeren način predstaviti uporabnikom, da ga lahko uporabljajo. Model stalno spremljamo in preizkušamo v spremenjenih okoliščinah, na drugih podatkih oziroma poslovnih ali raziskovalnih problemih.

3.2. ISKANJE PODOBNOSTI MED PRIMERI

Kot navaja Zacharski (2011, stran 3-37) ima bistven pomen pri podatkovnem rudarjenju iskanje podobnosti med primeri oziroma iskanje najbližjega soseda. Najbolj podobna sta si primera med katerima obstaja najmanjša razdalja. Najpreprostejša metoda za izračun razdalje med primeri je tako imenovana Manhattan razdalja (ang. Manhattan Distance). V dvodimenzionalnem pogledu je vsak atribut prikazan z vrednostjo v koordinatnem sistemu, s točko 'x' na abscisni in 'y' na ordinatni osi. Manhattan razdaljo med dvema točkama izračunamo po formuli:

in predstavlja vsoto absolutnih vrednosti razlik med točkama 'x' in 'y'. Podlaga za izračun Evklidske razdalje (ang. Euclidian Distance) je Pitagorov izrek. Njeno vrednost predstavlja najbližja linija med dvema primeroma. V primeru, da ima primer več atributov (večdimenzionalni podatki) jo izračunamo po formuli:

Page 22: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 16

Manhattan in Evklidska razdalja delujeta zanesljivo, ko atributi ne vsebujejo mankajočih vrednosti. V primeru mankajočih vrednosti atributov pa je izračun razdalje pomankljiv in je potrebno izvesti generalizacijo (ang. Generalization) oziroma posplošitev. Pomembna je tudi medsebojna povezanost dveh primerov. Za izračun povezanosti oziroma korelacije med dvema spremenljivkama (atributoma) uporabljamo Pearsonov koeficient korelacije (ang. Pearson Correlation Coefficient), ki ga izračunamo po naslednji formuli:

Pearsonov koeficient korelacije lahko zavzema vrednosti med -1 in 1. Idealno ujemanje dveh primerov predstavlja ravna linija (vsi so na isti premici) v koordinatnem sistemu, pri čemer koeficient zavzema vrednost 1. V praksi se pojavlja zelo malo idealnih primerov. Bolj, ko se koeficient približa vrednosti 1, večja je povezanost med atributoma.

3.3. UČENJE NA PRIMERIH

Ena izmed metod strojnega učenja je učenje na primerih (ang. Insatance-Based Learning). Uporablja algoritem k-najbližjega soseda (ang. k-Nearest Neighbour, krajše k-NN), ki sodi med preprostejše metode podatkovnega rudarjenja. Najbolj pogosto se uporablja pri klasifikaciji, lahko pa se uporablja tudi pri ocenjevanju in napovedovanju. Na podlagi algoritma med učnimi primeri izberemo primer, ki se najbolj približa testnemu in podaja odgovor kateri primer učne množice je nabližji neznanemu testnemu primeru. Metoda je zelo uporabna tudi za lažje prepoznavanje vzorcev (Slika 7).

Slika 7: Primer metode k-NN (vir: lasten)

k = 5

Page 23: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 17

Kot navajata Han in Kamber (2006) število sosedov določa klasifikator k, ki ga lahko določimo s poskusi. Na testni množici primerov začnemo s k = 1 in ocenimo stopnjo napake za razvrščanje. Proces ponavljamo in povečujemo k. Izberemo vrednost k, ki ima najmanjšo stopnjo napake za razvrščanje. Na splošno velja, da se s številom podatkov v testni množici povečuje tudi vrednost k. Čeprav je metoda preprosta in učinkovita je pogosto počasna. Med vsemi testnimi primeri moramo izračunati razdalje in izbrati najmanjšo. V praksi pa pogosto razpolagamo tudi z atributi, ki imajo različne merske lestvice. Rešitev je v izvedbi normalizacije po naslednji formuli:

pri čemer je vi dejanska vrednost atributa i, max in min pa predstavljata največjo in najmanjšo vrednost atributa. Z normalizacijo vse vrednosti atributa zavzamejo vrednost med 0 in 1 (Witten, Frank in Hall, 2011, stran 132).

3.4. RAZVRŠČANJE V SKUPINE

Metode razvrščanja v skupine spadajo med nenadzorovano učenje pri katerem primere združujemo v razrede s podobnimi lastnostmi in odkrivamo nepoznane vzorce. Razred (ang. Cluster) je zbirka zapisov, ki so si med seboj podobni in hkrati različni od zapisov v drugih razredih. Z analizo razvrščanja v skupine (ang. Cluster Analysis) poskušamo primere, ki so si podobni uvrstiti v isto skupino. Cilj razvrščanja ni klasificiranje, ocenjevanje ali napovedovanje, temveč algoritmi za razvrščanje skušajo celotni nabor podatkov segmentirati oziroma razvrstiti v homogene skupine in podskupine t.i. gruče. Skupna vprašanja, ki se pojavljajo pri teh analizah so: kako meriti podobnosti, kako normalizirati numerične spremenljivke in koliko skupin pričakujemo (Larose, 2005, stran 147-149). Hierarhično razvrščanje Algoritmi hierarhičnega razvrščanja na podlagi razdalje (podobnosti) med seboj primerjajo posamezne primere. Primerni so za podatkovne baze z manjšim številom primerov. Kot navaja Pujari (2001, stran 122-123), podatkovno bazo s primeri razdelijo na manjše podskupine. V začetku vsak posamezen primer razvrstimo v svoj razred. Nato poiščemo najbolj podobna primera oziroma par med katerima je razdalja najmanjša. Tako dobimo nov razred, ki ga primerjamo z vsemi ostalimi primeri. Postopek ponavljamo dokler niso vsi primeri uvrščeni v isti razred. Rezultat hierarhičnega razvrščanja prikažemo v dendogramu. Za merjenje razdalje med primeri obstaja več možnosti. Kot je navedeno v (Witten, Frank in Hall, 2011, stran 274) so med njimi najbolj pogoste:

enojna (ang. Single Linkage), minimalna,

popolna (ang. Complete Linkage), maksimalna in

povprečna povezava (ang. Average Linkage), povprečna razdalja med primeri.

Page 24: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 18

Metoda voditeljev Za podatkovne baze z večjim številom primerov uporabljamo metodo voditeljev (ang. k-Means Clustering). Podatke enostavno razdelimo na k razredov. Parameter k določimo sami glede na posamezen problem, ki ga obravnavamo. Za merjenje razdalje med primeri vedno uporabljamo Evklidsko razdaljo. Prednost k-Means razvrščanja je, da je razred pogosto bolje definiran kot pri hierarhičnem razvrščanju (Orange Tutorial). Kot navaja Larose (2005, stran 153) se algoritem k-Means razvrščanja izvaja po naslednjih korakih:

1. Opredelimo število razredov k. 2. Začetnemo razredu naključno dodelimo k primerov. 3. Vsakemu primeru poiščemo center razreda. 4. Poiščemo centroid vsakega razreda, ki postane nova sredina razreda. 5. Ponavljamo korake od 3 do 5 do konvergence oziroma zaključka.

Algoritem se zaključi, ko se centoidi več ne spreminjajo.

3.5. NAPOVEDNO MODELIRANJE

Napovedno modeliranje (ang. Predictive Modeling) predstavlja izgradnjo modela, za opis vzorcev in odnosov v naboru podatkov, ki jih lahko uporabimo za napovedi. Kot ugotavljajo v Two Crows Corporation (2005, stran 9-10) je najpomembnejši korak pri izgradnji modela odločitev, katero vrsto napovedi izbrati: klasifikacijo ali regresijo? S klasifikacijo opredelimo značilnosti v katero skupino spada vsak posamezni primer, pri regresiji pa uporabimo obstoječe vrednosti za napoved kakšne bodo druge/nove vrednosti. Za obe vrsti napovedi uporabljamo različne tehnike in algoritme. Naive Bayesov klasifikator Naive Bayesov klasifikator deluje na podlagi Bayesovega teorema. Kot navajata Han in Kamber (2006, stran 93) se metoda dobro obnese na velikih količinah podatkov, saj dosega visoko natančnost in hitrost. Rezultati primerjalnih raziskav klasifikacijskih algoritmov so pokazali, da je preprost algoritem imenovan naivni Bayesov klasifikator primerljiv z ostalimi algoritmi za napovedovanje. Algoritem predvideva, da je vpliv na vrednost atributa določenega razreda neodvisen od vrednosti drugih atributov. Odločitvena drevesa Odločitvena drevesa so zelo primerna za napovedovanja, saj predstavljajo pravila. Drevo je sestavljeno iz listov in vozlišč. Beremo ga od zgoraj navzdol in ga po potrebi obrezujemo (ang. Pruning). Kot navaja Pujari (2001, stran 155) algoritem predstavlja klasifikacijski sistem, ki iz danega nabora podatkov, na podlagi pravil zgradi drevo. Nabor zapisov je praviloma razdeljen na testno in učno množico. Na učni množici zgradimo klasifikator, testno množico pa uporabimo za merjenje

Page 25: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 19

natančnosti klasifikatorja, ki procentualno predstavlja koliko testnih primerov je bilo pravilno razvrščenih. Algoritem CN2 Algoritem CN2 je algoritem za učenje indukcijskih pravil. Iz nabora podatkov se nauči pravil v smislu če-potem (ang. If-Then). Njegove značilnosti so natančna klasifikacija ter preprosto in učinkovito generiranje pravil (Clark in Niblett, 1989, stran 262-268). Nevronske mreže Nevronske mreže lahko primerjamo z nevroni v človeških možganih. Mreža je sestavljena iz treh ali več plasti, ki jih predstavljajo vhodna, skrita in izhodna vozlišča. Vhodnih vozlišč je toliko kolikor je atributov v naboru podatkov. Nevronska mreža je popolnoma povezana. Vsako vhodno vozlišče je povezano z vsakim skritim vozliščem. Skrita vozlišča so lahko povezana z drugim skritim vozliščem ali pa z izhodnim vozliščem. Izhodno plast predstavljajo ena ali več spremenljivk z odgovori (Larose, 2005, stran 131-132).

Page 26: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 20

4. ANALIZA OBSTOJEČEGA STANJA

V skladu s Pravilnikom o tekmovanju hokeja na ledu HZS, se na vsaki tekmi vodi zapisnik. Na tekmi je prisotno tehnično osebje, med katerimi je tudi zapisnikar. Odgovoren je za vodenje uradnega zapisnika o dogodkih na tekmi (Priloga 1). Vodijo se podatki o tekmi, igralcih domače in gostujoče ekipe, zadetkih, kaznih, vratarjih, sodnikih in tehničnem osebju. Zapisnikar mora vpisati igralce, trenerje in sodnike. Med samo tekmo mora vpisati vsako spremembo rezultata, kazni, menjave vratarjev in voditi statistiko strelov. Po končani tekmi mora sodnik zapisnik pregledati in podpisati. Po njegovem podpisu se na zapisniku ne sme več ničesar spreminjati, dodajati ali odvzemati. Na podlagi 49. člena pravilnika je domači klub dolžan takoj po končani tekmi po telefaksu poslati zapisnik v tajništvo HZS (arhiv). Kopijo zapisnika dobi vsaka ekipa in zapisnikar, ki podatke ažurira na spletni strani HZS. HZS objavlja statistiko tekmovanj za redno sezono za tekmovanja DP, lige EBEL in INL ter za tekmovanja in lige mlajših kategorij. Objavljeni so tudi arhivski podatki po sezonah, od sezone za leto 2006/2007 dalje. Statistika ekip je izdelana za lestvice posameznih tekmovanj, prikazani pa so tudi rezultati odigranih in razpored tekem. Statistika prikazuje osnovne statistike odigranih tekem. Statistika igralcev je prikazana na lestvicah:

strelcev po točkah,

strelcev po zadetkih

podajalcev

izključitve igralcev,

strelcev z igralcem več,

strelcev z igralcem manj in

statistika vratarjev. Na spletni strani www.hktriglav.si je objavljena statistika kluba v ligi INL. Za člansko ekipo so objavljene in opisane naslednje statistike:

uvrstitve na lestvici INL po posameznih tekmovalnih dnevih,

zmage in porazi po posameznih krogih,

procent izkupička točk glede na možne po posameznem krogu,

uvrstitve na lestvici igre z igralcem več po posameznem krogu,

izkoristek v igri z igralcem več po posameznem krogu,

uvrstitve na lestvici z igralcem naj na ledu po posameznih tekmovalnih dnevih,

izkoristek v igri z igralcem manj po posameznem krogu,

in uvrstitve igralcev HK Triglav na lestvici 15 najučinkovitejših igralcev, najboljših strelcev, najboljših podajalcev, najuspešnejših pri statistiki plus-minus, z največ izključitvami in najboljših vratarjev.

Page 27: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 21

Podobne ugotovitve veljajo tudi za vse ostale klube. Ugotavljamo, da se vodijo osnovni statistični podatki, ki so primerni le za osnovne statistične obdelave. V ligi NHL se statistika vodi na podlagi Uradnih pravil lige NHL (ang. NHL Official Rules). Za statistiko sta najpomembnejši pravili 33 in 37. Uradni zapisnikar je zadolžen, da že pred tekmo zbere vse podatke o igralcih. Med samo tekmo vodi evidenco o zadetkih, strelcih, podajalcih in kaznih, po končani tekmi pa mora podpisan zapisnik poslati na sedež lige. Za samo statistiko pa so mnogo bolj pomembni zapisnikarji statističnih podatkov (ang. Real Time Scorers). Njihova naloga je elektronsko beleženje vseh uradnih statističnih podatkov na tekmi. V ekipi je pet zapisnikarjev: 2 zapisnikarja za vnos podatkov (ang. Stats Entry Scorer), zapisnikarja, ki spremljata igralce v času, ko so na ledu, za domačo in gostujočo ekipo (ang. Time on Ice Scorer) ter analitik dogodkov (ang. Event Analyst). To so dobro uigrani timi, ki delujejo v okviru posamezne ekipe. Podobno kot v primeru ekipe Los Angeles Kings, tudi ostali pri zbiranju podatkov uporabljajo sistem HITS (ang. Hockey Information Tracking System), ki je lastniški sistem razvit s strani NHL. Podatki se zbirajo na petih računalnikih, ki so povezani v mrežo. Sistem HITS podatke obdela, oblikuje poročila in pripravi statistične podatke. Delo zapisnikarjev nadzira vodja sistema vodenja statistike (ang. Scoring System Manager). Poročilo se izdela po prvi in drugi tretjini, ter končno poročilo po tekmi, ki se pošlje vodstvu lige. Poročilo se preda tudi predstavniku domačega kluba za odnose z javnostmi, kateri jih dostavi trenerjema ekip in medijem.

Page 28: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 22

5. RAZVOJ MODELOV ZA PODATKOVNO RUDARJENJE

5.1. ISKANJE PODOBNOSTI MED PRIMERI

Za praktičen prikaz iskanja podobnosti med primeri, smo med ekipami lige NHL izbrali ekipo Pittsburg Penguins. Ekipa je bila izbrana naključno med vsemi ekipami. Na Sliki 8 je prikazana sestava napadalnih trojk moštva v sezoni 2014-2015 z dne 22. aprila 2015. Napad je sestavljen iz centra ter levega in desnega krila, ki se skupaj pojavljajo na ledu. Natančno sestavljanje napadov oziroma kateri igralci se med seboj najbolj ujamejo, je zelo težko. Napadalne trojke se pogosto spreminjajo, na kar imajo največji vpliv poškodbe in prestopi igralcev. Za uspešno igro ima bistven pomen dobro medsebojno ujemanje igralcev. Glede na zbrane statistične podatke, so kriteriji za homogene napade doseženi goli, asistence, podaje in priložnosti. Izhajali smo iz predpostavke, da so na poziciji centra standardni igralci, v štirih napadih in se njihova pozicija ne spreminja. Kateri krilni igralci se najbolje ujamejo s centrom smo ugotovili na podlagi izračuna Evklidske razdalje med posameznimi primeri.

Slika 8: Postava Pittsburg Penguins – napadalci (vir: www2.dailyfaceoff.com/teams/lines/36/pitssburg-penguins)

Page 29: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 23

Podatke smo pridobili na spletni strani hockeyabstract.com. Upoštevali smo podatke na podlagi igre pri izenačenih močeh ekip, igra 5 na 5. Izbrali smo igralce na pozicijah v napadu (center, levo krilo, desno krilo) in atribute, ki so prikazani v Tabeli 2.

Pozicija Igralec Goli Asistence Podaje Priložnosti G_N A_N P_N C_N

LK Comeau Blake 14 14 112 117 0,80 0,19 0,37 0,45

C Crosby Sidney 16 35 220 173 0,93 1,00 1,00 1,00

DK Downie Steve 10 12 76 73 0,53 0,12 0,16 0,02

DK Hornquist Patric 15 17 75 152 0,87 0,31 0,15 0,79

LK Kunitz Chris 7 16 153 125 0,33 0,27 0,61 0,53

C Lapierre Maxim 2 9 104 71 0,00 0,00 0,32 0,00

C Malkin Evgeni 17 25 124 156 1,00 0,62 0,44 0,83

DK Perron David 14 18 120 139 0,80 0,35 0,42 0,67

LK Spaling Nick 8 18 87 91 0,40 0,35 0,22 0,20

C Sutter Brandon 13 10 49 113 0,73 0,04 0,00 0,41

LK Wilson Scott 10 19 100 100 0,53 0,38 0,30 0,28

DK Winnik Daniel 9 24 174 98 0,47 0,58 0,73 0,26

Max: 17 35 220 173

Min: 2 9 49 71

Tabela 2: Pittsburg Penguins – statistika napadalcev

Izbrali smo kriterije oziroma atribute, ki vplivajo na medsebojno ujemanje igralcev in posledično na rezultat ekipe:

Goli: število doseženih golov,

Asistence: število asistenc, podaja po kateri je bil dosežen gol,

Podaje: število vseh podaj,

Priložnosti: število priložnosti za zadetek, ter izvedli normalizacijo:

G_N: število doseženih golov – normalizirano,

A_N: število asistenc – normalizirano,

P_N: število vseh podaj – normalizirano,

C_N: število priložnosti za zadetek – normalizirano. Na rezultat ekipe ima največji vpliv število doseženih golov igralcev. Asistence, podaje in priložnosti za zadetek pa so pomembni kriteriji za homogene sestave napadov. Bolj se igralci ujemajo v navedenih kriterijih, večja je možnost za doseganje zadetkov, kar posledično vpliva na rezultat. Normalizacijo smo izvedli zaradi dokaj velikega razpona med najvišjimi (Max) in najnižjimi (Min) vrednostmi podatkov. Sestavili smo kombinacije oziroma pare centrov z levimi in desnimi krili. Igralcev na poziciji centra nismo menjavali, vsakemu pa smo dodelili vse možne levokrilne in desnokrilne igralce. Za posamezne pare smo izračunali Evklidsko razdaljo in Pearsonov koeficient korelacije na podlagi normaliziranih podatkov (Tabela 3).

Page 30: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 24

# LK C DK Evklidska razdalja Pearson. koef. kor.

1 Kunitz Crosby - 1,13 -0,36

2 Comeau Crosby - 1,17 -0,91

3 Spaling Crosby - 1,40 -0,73

4 Wilson Crosby - 1,24 -0,92

5 - Crosby Hornquist 1,12 -0,64

6 - Crosby Perron 0,95 -0,76

7 - Crosby Downie 1,62 -0,96

8 - Crosby Winnik 1,00 0,13

9 Kunitz Malkin - 0,42 -0,43

10 Comeau Malkin - 0,40 0,78

11 Spaling Malkin - 0,69 0,48

12 Wilson Malkin - 0,58 0,64

13 - Malkin Hornquist 0,44 0,97

14 - Malkin Perron 0,38 0,90

15 - Malkin Downie 1,10 0,57

16 - Malkin Winnik 0,83 -0,75

17 Kunitz Sutter - 0,77 -0,26

18 Comeau Sutter - 0,41 0,92

19 Spaling Sutter - 0,55 0,42

20 Wilson Sutter - 0,51 0,67

21 - Sutter Hornquist 0,51 0,95

22 - Sutter Perron 0,58 -0,26

23 - Sutter Downie 0,47 0,68

24 - Sutter Winnik 0,96 -0,64

25 Kunitz Lapierre - 0,74 0,72

26 Comeau Lapierre - 0,94 -0,22

27 Spaling Lapierre - 0,57 -0,47

28 Wilson Lapierre - 0,72 -0,45

29 - Lapierre Hornquist 1,23 -0,71

30 - Lapierre Perron 1,10 -0,44

31 - Lapierre Downie 0,57 -0,14

32 - Lapierre Winnik 0,89 0,75

Tabela 3: Izračun Evklidske razdalje in Pearsonovega koeficienta korelacije

Najprej smo izračunali Evklidsko razdaljo Ed in Pearsonov koeficient korelacije P, glede na postavitev napadalnih tojk iz meseca aprila 2015. Modra črta, s svojo dolžino, ponazarja razdaljo med posameznimi primeri. Krajša kot je črta, bolj sta primera povezana. Postavitev napadov prikazana na Sliki 9, nam je v nadaljevanju služila za primerjavo z novo nastalimi postavitvami.

Page 31: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 25

Slika 9: Postavitev napadov – april 2015

Nato smo sestavili oziroma preoblikovali napadalne trojke ob upoštevanju Evklidske razdalje - Ed (Slika 10). Na prvo mesto smo postavili napadalni par z najmanjšo razdaljo (Malkin – Perron), potem naslednji par z najmanjšo razdaljo (Malkin – Comeau)… ter nadaljevali do zapolnitve vseh prostih napadalnih mest. Razmerje oziroma razdaljo smo ponazorili z dolžino črte. Krajša črta pomeni manjšo Evklidsko razdaljo in posledično večjo povezanost para.

Slika 10: Postavitev napadov na podlagi Evklidske razdalje

Izvedli smo tudi sestavo napadalnih trojk glede na Pearsonov koeficient korelacije - P, ki je prikazana na Sliki 11. Najprej smo izbrali par z največjim koeficientom (Malkin – Hornquist), ki predstavlja največjo medsebojno povezanost napadalcev, nato naslednjega (Sutter – Comeau)… in nadaljevali do zapolnitve prostih mest. Razmerja smo ponazorili s črto, ki predstavlja Evklidsko razdaljo.

Desno krilo Center Levo krilo

Kunitz

Comeau

Spaling

Crosby

Malkin

Sutter

Hornquist

Perron

Downie

Winnik Lapierre Wilson

Ed = 1,13

P = -0,36

Ed = 0,40

P = 0,78

Ed = 0,55

P = 0,42

Ed = 0,72

P = -0,45

Ed = 1,12

P = -0,64

Ed = 0,38

P = 0,90

Ed = 0,47

P = 0,68

Ed = 0,89

P = 0,75

Desno krilo Center Levo krilo

Kunitz

Comeau

Wilson

Crosby

Malkin

Sutter

Hornquist

Perron

Downie

Winnik Lapierre Spalling

Ed = 1,13

P = -0,36

Ed = 0,40

P = 0,78

Ed = 0,51

P = 0,67

Ed = 0,57

P = -0,47

Ed = 1,12

P = -0,64

Ed = 0,38

P = 0,90

Ed = 0,47

P = 0,68

Ed = 0,89

P = 0,75

Page 32: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 26

Slika 11: Postavitev napadov na podlagi Pearsonovega koeficienta korelacije

Centrov namenoma nismo menjali, ostajajo na pozicijah po napadih od prvega do četrtega. Menjamo jih lahko na podlagi drugih ugotovitev, kot so kvaliteta, dogovori, na podlagi pogodbenih obveznosti… Ugotavljamo, da se v našem primeru, postavitve napadov na podlagi Evklidske razdalje ni bistveno spremenilo. 1. in 2. napadalna trojka se nista spremenili. Spremenila pa se je postava v 3. in 4. napadu in sicer sta se igralca na poziciji levega krila zamenjala (Wilson – Spalling). Postavitev napadov pa se je bistveno spremenila na podlagi Pearsonovega koeficienta korelacije. Struktura napadov je povsem drugačna. Za preizkus smo za posamezne napade izračunali število doseženih točk (vsota golov in podaj), ki so jih skupaj dosegli (Tabela 4).

NAPAD T* = G + A LK C DK T = G + A

1 106 Wilson Crosby Perron 112

2 100 Spalling Malkin Horquist 102

3 71 Comeau Sutter Downie 73

4 73 Kunitz Lapierre Winnik 67 T* - točke napada pred preureditvijo

Tabela 4: Izračun števila doseženih točk

Rezultati kažejo uspešnost napadov. Iz Tabele 4 je razvidno, da so na novo postavljeni napadi bolj homogeni in uspešnejši. V prvih treh napadih so prej dosegli manj točk. Pričakovati je, da bosta 1. in 2. napad najbolj napadalno usmerjena, 3. in 4. pa lahko več priložnosti dobita pri ohranjanju pozitivnega rezultata ter se bolj posvečata obrambnim nalogam. Navedene ugotovitve so v pomoč predvsem trenerjem pri sestavi napadov. Sestavo napada lahko prilagodijo glede na trenutni rezultat. V primeru, da je ekipa v vodstvu, je potrebno rezultat zadržati, zato je smiselno sestaviti homogene napade. Ob zaostanku, pa je potrebno več časa igrati z napadom, ki je najbolj napadalno usmerjen. V primeru neodločenega rezultata po odigranih 60 minutah,

Desno krilo Center Levo krilo

Wilson

Spalling

Comeau

Crosby

Malkin

Sutter

Perron

Hornquist

Downie

Winnik Lapierre Kunitz

Ed = 1,24

P = -0,92

Ed = 0,69

P = 0,48

Ed = 0,41

P = 0,92

Ed = 0,74

P = 0,72

Ed = 0,95

P = -0,76

Ed = 0,44

P = 0,97

Ed = 0,47

P = 0,68

Ed = 0,89

P = 0,75

Page 33: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 27

se izvede 5 minutni podaljšek z igro 4 na 4. Trener lahko kombinira napadalce iz različnih napadov, ki se najbolje ujemajo in s tem skuša vplivati na rezultat.

5.2. UVRŠČANJE IGRALCEV NA IGRALNE POZICIJE

Razumevanje problema Hokej je igra pri kateri se od igralcev zahteva, da dobro pokrivajo svoj prostor, tako v napadu kot v obrambi. Igralna pozicija igralca se pogosto določi že v mlajših kategorijah, ko se igralci še razvijajo. Z izgradno modela se ponuja priložnost, da na podlagi podatkov izkušenih igralcev, dobimo smernice za uvrščanje mlajših na primerna igralna mesta. Značilnosti igralcev za posamezna igralna mesta so:

Obramba, ang. Defence

obrambni igralci so večji, težji, imajo večjo kondicijsko vzdržljivost in posledično prebijejo več časa na ledu, prednost namenjajo obrambi, zato morajo večkrat blokirati strele in igrati na telo nasprotnika

Center, ang. Centre

značilnost igralcev na poziciji centra je spretnost, pregled nad igro in dobra realizacija sodniških metov po prekinitvah

Leva in desna krila, ang. Left, Right Wing

igralce na krilih odlikuje večje število podaj, s tem pa se zveča tudi možnost za večje število doseženih točk (goli + podaje)

Igralci pri igri uporabljajo različne tehnike strelov na gol. Vrsta strela je odvisna od situacije in igralnega mesta. Najbolj značilne so naslednje vrste:

strel z zamahom, ang. Slapshot,

strel s potegom, ang. Snapshot in

strel iz zapestja, ang. Wristshot. Priprava podatkov Podatke smo pridobili na spletnih straneh behindthenet.ca in hockeyabstract.com. Izbrali smo sezono 2014-2015, igro 5 na 5 in igralce, ki so odigrali več kot 50 tekem ter jih zapisali v naslednje atribute:

First name ime, ang. First name

Last name priimek, ang. Last name

GP število tekem, ang. Games Played

Slap G doseženi goli s strelom z zamahom, ang. Slap Goals

Snap G doseženi goli s strelom iz potega, ang. Snap Goals

Wrist G doseženi goli s strelom iz zapestja, ang. Wrist Goals

PTS seštevek golov in podaj, ang. Points

Page 34: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 28

TOI/G povprečna vrednost igre na tekmo, ang. Total Time on Ice per Game

Pass število podaj, ang. Passes

FO število sodniških metov, ang. Face Offs

Bks število blokiranih strelov nasprotnika, ang. Block Shots

Pos igralno mesto, ang. Position Za posamezna igralna mesta smo izbrali kriterije, ki jih opisujejo naslednji atributi:

Obramba: TOI/G, BkS,

Center: FO in

Krilni igralci: PTS, Pass. Podatke smo pripravili v Excelu. Prevedli smo jih v obliko, ki jo prepozna program Orange - besedilo ločeno s tabulatorji (.txt). Z uporabo gradnika ‘Data Table’ smo pregledali podatke in ugotovili, da baza podatkov vsebuje 530 primerov, 9 atributov, 2 meta atributa, diskretni razred s 4 vrednostmi in nima mankajočih vrednosti. Razred predstavlja igralno mesto (atribut Pos). Podatke prikazuje Slika 12.

Slika 12: Preglednica atributov in podatkov modela za uvrščanje igralcev na igralne pozicije

Page 35: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 29

Izgradnja modela Oblikovali smo napovedni model za razvrščanje oziroma razporejanje igralcev na igralna mesta, glede na navedene atribute. Model je prikazan na Sliki 13.

Slika 13: Model za razporejanje igralcev na igralna mesta

Najprej smo uvozili podatke s pomočjo gradnika ‘File’. Nato smo izvedli vizualizacijo podatkov z uporabo gradnikov za dvo in večdimenzionalne razsevne diagrame ‘Scater Plot’ in ‘Linear Projection’. Z gradnikom ‘Data Sampler’ smo podatke razdelili na testno in učno množico v razmerju 30% : 70% ter izvedli naključno vzorčenje (Slika 14).

Page 36: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 30

Slika 14: Izbor podatkov za vzorčenje

Število razredov lahko poljubno izbiramo. V našem primeru imamo 4 razrede, ki predstavljajo centre, branilce ter leve in desne krilne igralce. Z gradnikom ‘k-Means Clustering’ smo ugotovili optimalno število razredov. Izkazalo se je, da je optimalno število 9, s katerimi dosežemo najboljši rezultat 351,6 (Slika 15).

Slika 15: Izračun optimalnega števila razredov

Page 37: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 31

V model smo vključili gradnik za izvedbo algoritma k-najbližjega soseda ‘k Nearest Neighbours’ (Slika 16) in mu na podlagi vrednotenja določili število sosedov k=9. Izbrali smo Evklidsko razdaljo med primeri in normalizacijo zveznih atributov.

Slika 16: Izvedbo algoritma k-najbližjega soseda

Vrednotenje modela Vrednotenje modela smo izvedli z gradnikom ‘Test Learners’ (Slika 17). Vzorčenje smo izvedli z navzkrižno validacijo in preverili klasifikacijsko točnost (ang. Classification Accuracy, krajše CA), natančnost testa (ang. Area Under ROC Curve, krajše AUC) in Brierovo oceno verjetnosti napovedi (ang. Brier Score, krajše Brier).

Slika 17: Vrednotenje modela za uvrščanje igralcev na igralne pozicije

Page 38: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 32

Z uporabo kNN metode je klasifikacijska točnost modela CA = 0,6898 (68%), kar je zadovoljivo, če upoštevamo, da je največja vrednost 1. Natančnost testa nam pove AUC, ki je v našem primeru AUC = 0,8844 (88%). Vrednosti nad 80% so dobre, zato ocenjujemo da je model sprejemljiv. Brierova ocena predstavlja natančnost verjetnostnih napovedi. V našem primeru je Brier = 0,4360, kar je sprejemljivo saj mora biti čim bližje 0. Gradnik ‘Confusion Matrix’ (Slika 18) predstavlja matriko napak, ki omogoča vizualizacijo uspešnosti izvedenega algoritma ter daje oceno točnosti napovedi pri uvrščanju primerov v razrede. Iz tabele je razvidno, da je bila večina razredov pravilno napovedana. V primeru uvrščanja v razred center (C) je bilo pravilno uvrščenih 79 primerov, 3 so bila uvrščeni v razred obrambe (D), 29 v razred levo-krilnih igralcev (LW), itd…

Slika 18: Matrika napak uvrščanja v razrede

Natančnost celotnega modela (A) je premosorazmerna z vsoto vseh pravilno uvrščenih primerov in skupnim številom primerov:

Rezultat nam pove kako pogosto je primer uvrščen v pravi razred. V našem primeru je pravilno uvrščenih 62% primerov, zato ocenjujemo, da je model dober. Vizualizacija in predstavitev novega znanja Izdelali smo razsevne diagrame za posamezne atribute glede na igralne pozicije igralcev. Na abcisnih oseh so prikazane igralne pozicije (Pos), centri (C) so označeni z modro, branilci (B) z rdečo, leva krila (LW) z zeleno in desna krila (RW) z oranžno barvo. Ordinatne osi pa prikazujejo različne kriterijie. Slika 19 prikazuje število doseženih točk (PTS) glede na igralne pozicije. Ugotavljamo, da v

Page 39: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 33

povprečju največje število točk dosegajo igralci na poziciji centra (C), igralci na krilnih položajih (LW, RW), tako na levi kot desni strani, dosegajo približno enako število točk in najman obrambni igralci (D).

Slika 19: Razsevni diagram števila doseženih točk glede na igralno pozicijo

Obrambni igralci (D) prebijejo na tekmi največ časa na ledu (TOI/G), medtem ko napadalci (C, LW, RW) prebijejo povprečno manj časa. Verjetno so zaradi več drsanja hitreje utrujeni in hitreje prihajajo na menjavo (Slika 20).

Slika 20: Razsevni diagram časa igre na tekmi glede na igralno pozicijo

Page 40: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 34

Pri številu podaj (Passes) so si igralci dokaj podobni. V povprečju največ podaj opazimo pri centrih (C) in najmanj pri obrambnih igralcih (D), kar je razvidno iz Slike 21.

Slika 21: Razsevni diagram števila podaj glede na igralno pozicijo

Prav tako opažamo, da so napadalci – centri (C) največkrat udeleženi pri sodniških metih (FO), obrambni igralci (D) pa skoraj nikoli ne gredo na sodniški met (Slika 22). Odgovor je trivialen, za to bi v skladu z CRISP metodologijo, v nadaljevanju raziskovali koliko in v katerih situacijah trenerji pošiljajo na sodniške mete krilne igralce oziroma branilce.

Slika 22: Razsevni diagram števila sodniških metov glede na igralno pozicijo

Page 41: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 35

Pri številu blokiranih strelov (BkS) je slika skoraj obratna. Največje število blokiranih strelov imajo obrambni igralci (D). Centri (C) imajo manjše število blokiranih strelov, še vedno pa večje kot napadalci na krilih (LW, RW), saj bolj sodelujejo tudi v obrambnih nalogah (Slika 23).

Slika 23: Razsevni diagram števila blokiranih strelov glede na igralno pozicijo

Navedeni podatki so predvidljivi. Nadaljna analiza z linearno projekcijo nam prikaže bolj realno sliko o dogajanju na ledu. Na Sliki 24 je prikazana večdimenzionalna linerna projekcija atributov glede na število doseženih točk (PTS), podaj (Passes), sodniških metov (FO), časa v igri na tekmo (TOI/G) in števila blokad (Bks).

Slika 24: Linearna projekcija

Page 42: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 36

Na podlagi diagrama lahko sklepamo, da:

igralci na krilnih pozicijah (LW, RW) dosegajo več točk (PTS) in so bolj aktivni pri podajah (Passes) – zelene in oranžne točke,

so centri (C) najbolj pogosto udeleženi pri sodniškem metu (FO) – večina jih je na modrem področju diagrama,

obrambni igralci (D) prebijejo največ časa na ledu (TOI/G) in večkrat blokirajo strele nasprotnika (BkS) – večina jih je na rdečem področju diagrama,

napadalci (C, LW, RW) prebijejo manj časa na ledu (TOI/G) in imajo manjše število blokiranih strelov (BkS) – večina je nasproti rdečega področja diagrama.

Izdelali smo linearno projekcijo (Slika 25) za vrste strelov glede na igralna mesta. Upoštevali smo strele iz katerih je bil dosežen gol. Uporabili smo atribute: strel z zamahom (Slap G), strel s potegom (Slap G) in strel iz zapestja (Wrist G).

Slika 25: Linearna projekcija - streli

Že na prvi pogled je razvidno, da je diagram razdeljen na rdeče in modro področje, nadalje pa je razvidno naslednje:

branilci (D) dosegajo največ golov s strelom iz zamaha (Slap G), večina jih je na rdečem področju diagrama,

centri (C) dosegajo največ golov s strelom potega (Snap G) in zapestja (Wrist G), večina jih je na modrem področje diagrama,

igralci na krilnih položajih (LW, RW) uporabljajo vse tehnike strelov, razporejeni so po celem diagramu.

Page 43: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 37

Na podlagi navedenega lahko zaključimo, da so doseženi zadetki odvisni od igralne pozicije glede na razdaljo. Branilci streljajo na gol iz razdalje, mesto centra je pred golom, krilni igralci pa se gibljejo po robu napadalne tretjine. Preizkus modela Za preizkus modela smo naključno izbrali igralca iz nižje lige AHL (American Hockey League), ki je v sezoni 2014/2015 igral na mestu branilca in je dosegel 24 točk, 48 podaj, 2 sodniška meta, povprečno je bil v igri 19 minut in 66 krat blokiral strele nasprotnikov. Slika 26 prikazuje uvrstitev igralca na igralno mesto (križec). Model ga je uvrstil na mesto branilca, kar potrjuje pravilno delovanje modela.

Slika 26: Uvrstitev novega igralca na igralno mesto

5.3. RAZVRSTITEV EKIP IN IGRALCEV V SKUPINE

5. 3. 1 ANALIZA RAZVRŠČANJA EKIP V SKUPINE

Razumevanje problema Ekipe so po odigranem rednem delu sezone uvrščene glede na število doseženih točk. Raziskujemo ali obstaja med skupinami jasna razmejitev oziroma kaj loči boljša moštva od povprečnih oziroma slabših. Na podlagi uvrstitve jih želimo

Page 44: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 38

razvrstiti v skupine in ugotoviti v čem se razlikujejo oziroma katere so značilnosti boljših, povprečnih in slabših ekip. Izhajamo iz naslednjih predpostavk:

Za razvrstitev ekip v skupine je pomemben dejavnik odstotek sodniških metov v napadalni in obrambni tretjini, kar nam pove ali je ekipa usmerjena bolj napadalno ali se več posveča obrambnim nalogam.

Uspešnost ekipe se odraža v igri z igralcem več ali manj na ledu, kar je povezano tudi s številom izključitev (kazenskih minut).

Zelo pomemben je vpliv vratarja in njegov odstotek obranjenih strelov.

Število izgubljenih oziroma ukradenih ploščic ima odločilen vpliv na število protinapadov, s tem pa se poveča možnost za doseganje zadetkov.

Priprava podatkov Podatke smo pridobili na spletnih straneh nhl.com. Izbrali smo podatke rednega dela sezone vseh 30. ekip za zadnjih pet sezon (od sezone 2010-2011 do 2014-2015) in jih prenesli v Excel. Izbrali smo nasledje atribute:

Team ekipa

PP% odstotek igre z igralcem več na ledu, ang. Power Play

PK% odstotek igre z igralcem manj na ledu, ang. Penalty Killing

PIM kazenske minute ekipe, ang. Penalty Minutes

GVA število izgubljenih ploščic, ang. Giveaways

TKA število ukradenih ploščic, ang. Takeaways

OZ FO število sodniških metov v napadalni tretjini, ang. Ofenzive Zone Face Offs

DZ FO število sodniških metov v obrambni tretjini, ang. Defenzive Zone Face Offs

FOW% odstotek dobljenih sodniških metov, ang. Face Offs Won

Wins Sc 1st število dobljenih tekem, ko je ekipa prva dosegla zadetek, ang. Wins Score 1st

Loss Sc 1st število izgubljenih tekem, ko je ekipa prva dosegla zadetek, ang. Loss Score 1st

GSA% odstotek obranjenih strelov vratarja, ang. Goalie Podatke za vsak posamezen atribut smo združili in izračunali povprečne vrednosti v navedenem časovnem obdobju. Vsi navedeni atributi vsebujejo zvezne spremenljivke. Za razvrstitev ekip smo uvedli atribut z diskretnimi spremenljivkami, ki smo jih dobili na podlagi izračuna:

Rank uvrstitev

Page 45: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 39

Prvim osmim ekipam sezone smo dodelili 3 točke, zadnjim osmim ekipam 0 točk in ostalim 1 točko, za vsako sezono posebej. Nekatere podatke smo morali zaradi selitev ekip združiti. Po izračunu povprečnih vrednosti smo jih razvrstili v tri skupine: boljše - B (ekipe od 1. do 8.), povprečne - P (od 9. do 22.) in slabše – S (od 23. do 30. mesta) ter podatke o uvrstitvi zapisali v atribut Rank.

Podatke smo uvozili in jih pregledali z gradnikom ‘Data table’. Baza podatkov vsebuje 30 primerov, 11 atributov, 1 meta atribut in diskretni razred s 3 vrednostmi. Podatki nimajo mankajočih vrednosti (Slika 27). Atribut Rank predstavlja razred.

Slika 27: Preglednica atributov in podatkov modela za hierarhično razvrščanje ekip v skupine

Izgradnja modela Za analizo smo uporabili metodo za hierarhično razvrščanje (ang. Hierarchical Clustering), ki je najbolj primerna za podatkovne baze z manjšim številom primerov. Model je prikazan na Sliki 28.

Page 46: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 40

Slika 28: Model za hierarhično razvrščanje ekip v skupine

Podatke smo uvozili s pomočjo gradnika ‘File’ in jih normalizirali glede na razpon vrednosti od 0 do 1, s pomočjo gradnika ‘Continuize’ (Slika 29) ter jih ponovno pregledali z gradnikom ‘Data Table (1)’.

Slika 29: Normalizacija podatkov

Page 47: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 41

Z gradnikom ‘Distances’ (Slika 30) smo izračunali matriko razdalj med naborom primerov na podlagi Evklidske razdalje, ki izračuna pričakovane razdalje ob predpostavki Gaussove porazdelitve vrednosti atributov.

Slika 30: Izračun matrike razdalj med naborom primerov

Rezultate izračuna smo prikazali v dendogramu s pomočjo gradnika ‘Hierarchical Clustering’ (Slika 31). Dendogram razdeli ekipe na dve skupini glede na uvrstitev: boljše so označene z modro ter povprečne in slabše, ki so označene z rdečo.

Slika 31: Dendogram ekip lige NHL – osnovna delitev

Page 48: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 42

Podrobnejšo analizo smo izvedli s premikanjem črte za rezanje, ang. Cuttoff line in z izborom attributa (ang. Annotation). Izbirali smo glede na posamezne skupine oziroma z izborom posameznega ali več sektorjev. Za pregled atributov smo uporabili gradnika ‘Distributions’ in ‘Attribut Statistics’, za prikaz rezultatov pa ‘Scatter Plot’ in ‘Linear Projection’. Vrednotenje modela Gradnik ‘Linear Projection’ omogoča poleg vizualizacije tudi vrednotenje modela. Na gradniku se nahaja čarovnik za ocenjevanje projekcije ‘WizRank Dialog’ (Slika 32), s katerim smo izvedli oceno vseh projekcij glede na izbrano število atributov. Najbolj zanimive projekcije so sortirane glede na oceno.

Slika 32: Vrednotenje modela za hierarhično razvrščanje ekip v skupine

Izdelali smo projekcije za 3 do 8 atributov, ki so prikazane v tabeli v Tabeli 5. Povprečne verjetnosti pravilne klasifikacije so več kot 80 %, zato lahko ocenimo model kot dober oziroma primeren. Preverili smo tudi klasifikacijsko točnost (93,33 %) in Brier Score (0,09), ki potrjujeta oceno modela.

Page 49: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 43

Št. Atributov Povprečna verjetnost pravilne klasifikacije

3 89,17 %

4 92,42 %

5 99,10 %

6 98,02 %

7 98,90 %

8 98,91 %

Povprečje 96,08 %

Tabela 5: Tabela povprečne verjetnosti pravilne klasifikacije glede na število atributov

S histogramom atributov ‘Attribute Histogram’ smo preverili število nastopov oziroma pomembnost posameznega atributa v najboljših projekcijah. Slika 33 prikazuje razvrstitev posameznih atributov v stotih najboljših projekcijah glede na število in pripadajoči razred. Iz slike je razvidno, da sta v stotih najboljših projekcijah najbolj zastopan atribut število sodniških metov v obrambni tretjini (DZFO) in pripada razredu slabših ekip (S), najmanj pa odstotek obranjenih strelov vratarja (GSA%), ki pripada razredu povprečnih ekip (P).

Slika 33: Histogram razvrstitve atributov v najboljših projekcijah

Analizo medsebojnega vpliva za posamezne pare atributov smo izdelali s pomočjo čarovnika ‘WizRank Interaction Analysis’ (Slika 34). Temnejša polja predstavljajo večjo povezanost med posameznima atributoma, s padanjem kvalitete projekcije pa postajajo polja vse bolj siva. Iz analize je razvidno, da imata atributa procent dobljenih sodniških metov v obrambni (DZFO) in napadalni tretjini (OZFO) največji

Page 50: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 44

vpliv eden na drugega, najmanjši pa število ukradenih ploščic (TKA) in kazenske minute (PIM).

Slika 34: Analza medsebojnega vpliva za posamezne pare atributov

Vizualizacija in predstavitev novega znanja Dendogram je najpomembnejši rezultat analize razvrščanja v skupine. Posamezne primere združuje v vse večje skupine in prikazuje na kateri stopnji podobnosti se gruči združita. Razvrstitev ekip predstavlja osnovo za podrobnejše analize, s katerimi v nadaljevanju ugotavljamo značilnosti boljših, povprečnih in slabših ekip. Rezultati podajajo informacijo katere kriterije morajo povprečne in slabše ekipe izboljšati, za dvig kakovosti igre, da se približajo boljšim. Dendogram omogoča izbor posameznih ekip in pregled ter primerjavo posameznih kriterijev. Uporabni pa so tudi za primerjavo z drugimi oziroma za ocenjevanje posameznih lig. Za analizo razvrščanja v skupine smo na gradniku ‘Distances’ izbrali razdaljo med vrsticami na podlagi Evklidske razdalje. Preverili smo vse vrste povezav in ugotovili, da je v našem primeru najprimernejša popolna povezava, saj vizuelno poda najboljši dendogram. Dolžina horizontalne linije predstavlja koliko sta si primera podobna. Krajša je linija, bolj sta si podobna in obratno. S premikanjem vertikalne linije za rezanje (ang. Cutoff Line) smo preverili vse vrste povezav gruč. Iz dendograma, ki je prikazan na Sliki 35 je razvidno, da med ekipama Boston Bruins in San Jose Sharks obstaja največja podobnost, saj je med njima najmanjša razdalja na skali. Nadaljna analiza pokaže, da je v našem primeru optimalno število gruč šest, ker je na tej razdalji opaziti prvi občutnejši preskok na skali.

Page 51: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 45

Slika 35: Dendogram analize razvrščanja v skupine

Preverili smo razdalje med atributi, ki pokažejo kateri so si najbolj podobni oziroma med katerimi je največja povezanost. Na gradniku ‘Distances’ smo izbrali razdaljo med stolpci na podlagi Evklidske razdalje. Slika 36 prikazuje podobnosti med atributi na podlagi popolne povezave. Najbolj povezana sta atributa Wins_Sc 1st in FOW% (označeno z rumeno), zelo pa sta povezana tudi atributa PP% in G SA%. Ocenjujemo, da je med njimi močna pozitivna koleracija. Visok procent dobljenih sodniških metov, doseči prvi zadetek na tekmi, dober izkoristek igre z igralcem več in visok odstotek obramb vratarja predstavljajo najpomembnejše kriterije pri razvrščanju ekip.

Slika 36: Dendogram povezave atributov (Evklidska razdalja)

Page 52: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 46

Moč povezave med atributi kaže Pearsonov koeficient korelacije. Dendogram na Sliki 37 prikazuje, da obstaja največja korelacija med atributoma N_W Sc 1st in N_FOW% (označeno z zeleno). Ob premiku linije za rezanje ugotavljamo, da se jima pridružujejo še G SA%, OZ FO, PP%, kar kaže podobne rezultate kot pri diagramu na podlagi Evklidske razdalje.

Slika 37: Dendogram povezave atributov (Pearsonov koeficient)

Porazdelitev ekip glede na gručo smo pregledali z gradnikom ‘Distributions’ na Sliki 38. Ugotavljamo, kako so izdelane skupine zastopane v posamezni gruči. V treh gručah (0, 4 in 5) so zastopani samo predstavniki enega razreda, medtem ko so v ostalih (1, 2 in 3) predstavniki dveh razredov.

Slika 38: Histogram porazdelitve vrednosti atributov glede na razred

Page 53: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 47

Z uporabo gradnika ‘Attribute Statistics’, smo pregledali statistike posameznih zveznih in diskretnih atributov. Slika 39 prikazuje uvrstitev primerov v posamezne gruče (sortirano padajoče po številu primerov v gruči). Največ primerov je uvrščenih v gruči 5 in 0, v gručo 1 pa samo 2 primera. To so statistični podatki, ki jih lahko uporabimo pri primerjavi z drugimi ligami.

Slika 39: Palični graf števila primerov v gručah

Izdelali smo razsevne diagrame za vse atribute glede na uvrstitev. Boljše ekipe (B) so označene z modro, povprečne (P) z rdečo in slabše (S) z zeleno barvo. Izbrali smo šest najbolj zanimivih diagramov (Slika 40), pri katerih so najbolj opazne izstopajoče vrednosti posameznih atributov in ugotovili, da so glavne značilnosti:

boljših ekip: o da dosežejo večje število zmag, ko ekipa prva zadane (W SC

1st), o imajo visok odstotek dobljenih sodniških metov (FOW%), o visok odstotek obranjenih strelov vratarja (G SA%), o manjše število odvzetih ploščic (TkA),

povprečnih ekip: o večje število kazenskih minut (PIM),

slabših ekip: o imajo manj sodniških metov v napadalni tretjini (OZ FO).

Page 54: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 48

Slika 40: Razsevni diagrami analize razvrščanja v skupine glede na uvrstitev

Izvedli smo medsebojno primerjavo atributov. Zanimive vzorce smo odkrili v štirih diagramih, ki jih prikazuje Slika 41. Opažamo podobne značilnosti kot pri pregledu atributov glede na uvrstitev. Izstopajo iste značilnosti ekip. Boljše ekipe (označene z modro) dosegajo večje število zmag, kadar prve dosežejo gol, imajo višji procent dobljenih sodniških metov in obranjenih strelov vratarja. Zanimivo pa je, da tudi pri tej primerjavi opažamo, da imajo boljše ekipe manjše število odvzetih ploščic.

Page 55: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 49

Slika 41: Razsevni diagrami analize razvrščanja v skupine – medsebojna primerjava atributov

Page 56: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 50

V nadaljevanju smo izvedli analizo ekip po sektorjih. Izbrali smo gruče, ki vsebujejo samo boljše, povprečne ali slabše ekipe, na podlagi popolne povezave (Slika 42).

Slika 42: Dendogram analize razvrščanja v skupine – izbor sektorjev

Uporabili smo čarovnika ‘WizRank’, ki izvede vse projekcije večdimenzionalnih razsevnih diagramov in jih sortira glede na najbolj zanimive projekcije. Za najbolj zanimive so se izkazali diagrami z upoštevanjem 8 atributov, izmed katerih smo izbrali 6 projekcij (Slika 43). Na diagramih predstavljajo boljše ekipe (B) modra, povprečne (P) rdeča in slabše (S) zelena območja. Ekipe so v diagramu prikazane glede na uvrstitev in vrednost posameznega atributa. Tako iz prvega diagrama naprimer razvidno, da imajo boljše (B) ekipe (označene z modro) večji odstotek dobljenih sodniških metov (FOW%) in večje število dobljenih tekem, kadar ekipa prvič zadene (Wins SC 1st), slabše (S) ekipe (označene z zeleno) pa imajo boljši odstotek obramb vratarja (GSA%).

Page 57: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 51

Slika 43: Večdimenzionalni razsevni diagrami analize razvrščanja v skupine

Page 58: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 52

S pomočjo čarovnika ‘FreeViz’ smo izdelali večdimenzionalni razsevni diagram, ki prikazuje katere spremenljivke (atributi) so tipične oziroma pomembnejše za boljše, povprečne in slabše ekipe (Slika 44). Razdalja od centra diagrama kaže pomembnost atributa.

Slika 44: Večdimenzionalni razsevni diagram značilnosti ekip

Značilnosti ekip glede na uvrstitev so prikazane v Tabeli 6.

Boljše ekipe Povprečne ekipe Slabše ekipe

Win Sc 1st

FOW%

G SA%

PP%

PIM

PK%

DZ FO

Loss Score 1st

Tabela 6: Značilnosti ekip – večdimenzionalni razsevni diagram

Cilj vsake ekipe je dvig kakovosti igre in s tem doseči več zmag. Ugotavljamo, da je za uspeh ekipe najbolj pomembno, da prva zadene nasprotnikov gol, dobi večje število sodniških metov, uspešno igra z igralcem več, pomemben pa je tudi odstotek obranjenih strelov vratarja in napadalna igra. Pričakovali bi, da imajo boljše ekipe tudi večje število odvzetih ploščic. V resnici je ravno obratno, kar lahko pripisujemo temu, da igrajo bolj napadalno in imajo ploščico več v posesti. Glede na analizo boljše ekipe izstopajo v več elementih igre, medtem ko so si povprečne in slabše dokaj podobne in ne moremo potegniti ostre ločnice med

Page 59: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 53

njimi. Lahko postanejo boljše, če bi izboljšale npr. igro z igralcem več. Treninge je potrebno prilagoditi in večjo pozornost nameniti navedenim ugotovitvam. Slabše ekipe imajo večje število sodniških metov v svoji obrambni tretjini, kar pomeni, da se bolj branijo. Rešitev je v izboljšanju igre v obrambi oziroma nakup kvalitetnejših branilcev. Tudi boljše ekipe pa lahko svojo igro dvignejo na višji nivo, s tem, da zmanjšajo število izgubljenih ploščic.

5. 3. 2 ANALIZA RAZVRŠČANJA IGRALCEV V SKUPINE

Razumevanje problema Z razporeditvijo igralcev v skupine želimo igralce razporediti v skupine in ugotoviti kateri so si najbolj podobni oziroma kateri imajo najbolj podobne lastnosti. S tem omogočimo trenerjem, managerjem in skavtom, podporo pri odločanju izbire igralcev v primeru zamenjave (npr. zaradi poškodbe, odhoda v drug klub...). Peterke so postavljene vnaprej, lahko pa se spremenijo med pripravo na tekmo z določenim nasprotnikom oziroma se jih spreminja glede na taktiko in potek igre med samo tekmo. Kot navaja Leslie (onemillionskates.com), skavti pri izboru igralce uvrščajo in ocenjujejo na podlagi petih glavnih karakteristik: drsalne tehnike, fizičnih lastnosti, občutka za igro, karakterja in spretnosti. Poleg tega naj bi igralci:

dosegali čim več golov,

nesebično podajali,

streljali na gol iz vseh položajev,

podajali igralcu v boljši poziciji,

zmanjševali možnosti za protinapade,

prestrezali podaje,

blokirali strele,

ustvarjali priložnosti za zadetke in

igrali na telo nasprotnika... Za posamezna igralna mesta pa so značine še dodatne karakteristike:

za krilne igralce: napadalna in agresivna igra (povečati možnost, da nasprotnik nad njim naredi prekršek),

za centre: dobivati sodniške mete,

za obrambne igralce: napadati nasprotnikove napadalce, disciplinirana igra v obrambi s čim manj prekrški za izključitev.

Priprava podatkov Na podlagi zgoraj navedenih karakteristik smo oblikovali bazo podatkov. Podatke smo pridobili z združitvijo podatkov na spletnih straneh hockeyabstract.com in behindthenet.ca. Izbrali smo vse igralce, ki so igrali v sezoni 2014-2015. Za posamezne karakteristike igralcev smo izbrali ustrezen atribut:

First Name ime, ang. First Name

Page 60: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 54

Last Name priimek, ang. Last Name

Team ekipa, ang. Team

Ht višina, ang. Height

Wt teža, ang. Weight

Age starost, ang. Age

GP št. odigranih tekem, ang. Games Played

POS igralno mesto, ang. Position

G goli, ang. Goals

A podaje za gol, ang. Assist

Sh streli, ang. Shots

Passes podaje, ang. Passes

GvA izgubljene ploščice, ang. Give Away

TkA dobljene ploščice, ang. Take Away

BkS blokirani streli, ang. Blocked Shots

Off Zone Finish prekinitve igre v napadalni tretjini, ang. Off Zone Finish

HitA igra na telo nasprotnika – dobljeni naleti, ang. Hits

Received

Pens Drawn izsiljeni prekrški, ang. Penalties Drawn

Pens Taken neizsiljeni prekrški, ang. Penalties Taken

OIT čas v napadu, ang. Ofensive Ice Time

FO% procent dobljenih sodniških metov, ang. Faceoff Winning Percentage

PIM kazenske minute, ang. Penalties in Minutes

HitF igra na telo nasprotnika – dani naleti, ang. Hits Thrown

Podatke smo prenesli v Excel in jih pripravili za prenos v program Orange (vrsta datoteke: besedilo ločeno s tabulatorji). Uvožene podatke smo pregledali z gradnikom ‘Data table’. Baza podatkov vsebuje 882 primerov, 20 atributov in 2 meta atributa. Podatki nimajo mankajočih vrednosti (Slika 45).

Slika 45: Preglednica atributov in podatkov modela za razvrščanje igralcev v skupine

Page 61: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 55

Izgradnja modela Zgradili smo model za razvrščanje v skupine, ki ga prikazuje Slika 46.

Slika 46: Model za analizo razvrščanja igralcev v skupine

Z gradnikom ‘File’ smo uvozili podatke. Gradnik ‘Select Data’ omogoča izbor podatkov. Vpisali smo pogoje za posamezne primere. Slika 47 prikazuje primer v katerem so izbrani igralci na poziciji branilca in so v sezoni odigrali 40 ali več tekem. Izberemo lahko še primera za izbor krilnih igralcev ali centrov. Povezali smo ga z gradnikom ‘Data Table’ s katerim lahko pregledujemo podatke trenutnega izbora.

Page 62: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 56

Slika 47: Gradnik za izbor podatkov

Zaradi različnih atributov na posameznih igralnih mestih smo v model vstavili gradnik za izbor atributov ‘Select attributes’ (Slika 48). Povezan je z gradnikom za izbor podatkov in šele na podlagi kombinacije obeh, so podatki pripravljeni za nadaljno obdelavo.

Slika 48: Gradnik za izbor atributov

V nadaljevanju smo modelu dodali gradnik ‘k-Means Clustering’, ki na podlagi algoritma razvrsti igralce v gruče (Slika 49). Ekipe so sestavljene iz štirih napadov, zato smo izbrali točno štiri gruče na podlagi Evklidske razdalje.

Page 63: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 57

Slika 49: Razvrščanje igralcev v gruče

Dodali smo gradnike za pregled rezultatov ‘Attribute Statistics’, ‘Data Table’ in ‘Scatter Plot’. Centroidi imajo bistven pomen pri k-means algoritmu. So naključno generirani in se primerjajo z vsemi ostalimi primerki v gruči, dokler ni dosežena konvergenca. Vrednost centroida predstavlja tipičnega predstavnika posamezne gruče. Uporabili smo jih za prikaz tipičnih predstavnikov atributov (Slika 50) in jih predstavili v tabeli in razsevnem diagramu, ki omogoča lažjo vizualizacijo podatkov.

Slika 50: Izbor prikaza podatkov na podlagi centroidov

Modelu smo dodali še gradnik za izbor igralca (Slika 51) in ga povezali s tabelo, ki omogoča pregled izbranih podatkov.

Page 64: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 58

Slika 51: Gradnik za izbor igralca

Vrednotenje modela Vrednotenja modela nismo izvedli, saj je naloga metode voditeljev, da podatke enostavno razdeli na določeno število razredov. Vizualizacija in predstavitev novega znanja Model omogoča analizo razvrščanja igralcev v skupine, na podlagi katere s k-means algoritmom vsakega igralca razvrstimo v skupino oziroma gručo. Izbiramo lahko podatke za posamezne igralne pozicije (centre, krila ali branilce) in različne atribute. Lahko pregledujemo statistične podatke atributov, rezultate analize pa v tabelah (Slika 52) in dvodimenzionalnih razsevnih diagramih. Omogočena je k-means analiza razvrščanja v skupine na bazi podatkov in na podlagi centroidov. Z izborom posameznega igralca lahko pogledamo v katero gručo je uvrščen in pregledamo njegove podatke.

Slika 52: Analiza razvrščanja igralcev v skupine

Page 65: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 59

Izdelali smo analizo razvrščanja krilnih napadalcev, centrov in branilcev v skupine. Pregledali smo vse tabele s podatki, statistike atributov in razsevne diagrame za vse kategorije igralnih mest posebej. Vsak gradnik ima možnost izpisa poročila (Slika 53).

Slika 53: Poročilo analize razvrščanja igralcev v skupine

Med izvajanjem analize smo sproti shranjevali pomembne ugotovitve, ki se shranjujejo v poročilu (Priloga 2). Statistični podatki kažejo, da je v sezoni 2014-2015 v ligi NHL igralo 882 igralcev. Baza vsebuje 24 atributov in 2 meta atributa. Upoštevali smo vse podatke igralcev, ki so v sezoni odigrali vsaj 40 tekem. Igralce z manjšim številom tekem smo izločili, saj se na malo podatkov težko zanesemo pri zaključnih ugotovitvah. Tako smo z izborom podatkov dobili 183 igralcev na poziciji centra, 198 krilnih igralcev in 197 branilcev. Z analizo razvrščanja v skupine smo igralce posameznih igralnih pozicij razdelili v štiri gruče. Kot smo že omenili smo določili točno število gruč, ker so v moštvu štirje napadi. Poročilo prikazuje izbor podatkov in atributov za vse tri kategorije. Palični grafikoni na podlagi gradnika ‘Attribute Statistics’ prikazujejo število in procent razporejenih igralcev v gruče. Centri (C) so v gruče razporejeni dokaj enakomerno. Pri krilih (LW, RW) opažamo, da je v eni gruči izrazito manj igralcev kot v ostalih, branilcev (D) pa je v dveh gručah več v drugih dveh pa manj. Razsevni diagrami omogočajo dobro vizualizacijo. Iz njih je razvidno kateri so boljši oziroma slabši atributi gruče. Igralci gruče C1 so prikazani z modro, gruče C2 z rdečo, gruče C3 z zeleno in gruče C4 z oranžno barvo.

Page 66: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 60

Iz diagramov so razvidne naslednje značilnosti:

Centri (C) Igralci gruče C3 dajejo več golov (G), boljši pa so tudi pri asistencah (A), strelih (Sh) ter podajah (Passes). Igrajo bolj napadalno (OIT) in večkrat zaključujejo napade v napadalni tretjini (Off Zone Finish). Med gručama C1 in C2 ni večjih razlik, so pa nasprotje gruče C3, saj dajejo manj golov (G), asistenc (A), manj streljajo (Sh) in podajajo (Passes) ter igrajo bolj obrambno (OIT). Igralci gruče C4 dosegajo srednje vrednosti. Pri ostalih atributih (GvA, TkA, BkS, HitA, Pens Drawn, FO%) ni zaznati bistvenih razlik.

Krilni napadalci (LW, RW) Pri krilnih napadalcih opažamo, da izrazito izstopa gruča C2, ostali pa so si zelo podobni. Igralci gruče C2 dajejo več golov (G) in asistenc (A), večkrat streljajo na gol (Sh) in več podajajo (Passes). Boljši so tudi pri odvzetih ploščicah (TkA), čeprav jih tudi večkrat izgubijo (GvA). Več časa se zadržujejo v napadalni tretjini (OIT) kjer tudi večkrat zaključujejo napade (Off Zone Finish), kar je posledica bolj napadalne igre. Napadalci gruče C1 so bolj obrambno usmerjeni, saj so najman časa v napadalni tretjini (OIT) medtem, ko igralci gruč C3 in C4, dosegajo srednje vrednosti. Pri atributih BkS, HitA, in Pens Drawn ni opaziti bistvenih razlik med gručami.

Branilci (D) Analiza igralcev pokaže, da so razlike najmanjše pri igralcih na branilskih mestih. Malenkost izstopa le gruča C1, katerega igralci dosegajo večje vrednosti pri podobnih atributih kot v prejšnjih primerih. Dosegajo večje število golov (G), asistenc (A), strelov (Sh) in podaj (Passes), imajo pa tudi večje število odvzetih (TkA) in izgubljenih (GvA) ploščic. Razen tega, da igrajo bolj napadalno (Off Zone Finish), pri ostalih atributih (BkS, HitA, HitF) ni opaziti bistvenih razlik. Igralci gruče C4 naredijo le nekoliko več prekrškov za izključitev (PIM, Pens Taken). Klasificiranje igralcev na boljše in slabše je nehvaležno delo, saj vsak posameznik prispeva svoj delež k uspehu ekipe, vplivajo pa tudi eden na drugega. Kljub temu na podlagi analize igralce lahko razvrstimo v napade. Boljši igralci imajo v vseh treh kategorijah višje vrednosti atributov G, A, Sh, Passes, Off Zone Finish in OIT, zato so ti igralci primernejši za 1. napad. Njihova igra je bolj napadalno usmerjena in jih v igro vključujemo, ko želimo doseči prednost oziroma, ko je ekipa v rezultatskem zaostanku. Igralce s srednjimi vrednostmi atributov razporedimo v 2. in 3. napad, ki ju uporabljamo glede nasprotnika in na razvoj tekme. V primeru, da je ekipa minuto pred koncem tekme v rezultatski prednosti, je potrebno ploščico zadržati in pri tem ne narediti prerkrška, izberemo branilce z nižjimi vrednostmi Pens Drawn in PIM. Igralce 4. kakovostnega razreda vključujemo v igro po potrebi, ko želimo zadržati rezultat, spočiti ostale igralce… Poročilo vsebuje tudi tabele z vrednostmi atributov na podlagi centroidov za posamezna igralna mesta. Na podlagi podatkov iz tabele se lažje odločamo, kadar iščemo zamenjavo za igralca iz določene gruče. V primeru, da iščemo igralca na

Page 67: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 61

poziciji centra za 1. napad, bomo iskali igralca s karakteristikami gruče C3. Model pa omogoča tudi izbor posameznega igralca in prikaz njegovih podatkov v tabeli. Žal ne moremo dodajati podatkov novega igralca, saj se s tem spremenijo tudi gruče. Uvrstimo ga na podlagi primerjave podatkov z vrednosmi centroidov ali igralca izbranega gruče. Analiza razvrščanja v skupine se lahko uporablja tudi za analiziranje nasprotnikov, ko ugotavljamo njihove slabe in dobre lasnosti.

5.4. VPLIV IGRALCA NA USPEH EKIPE

Razumevanje problema Vsaka ekipa gre v dvoboj z željo po zmagi, ugoden rezultat pa pričakujejo tudi trenerji, managerji, sponzorji, gledalci… V večini primerov se že pred samo tekmo razpravlja o prednostih, slabostih, priložnostih in ostalih lastnostih ekipe. Izvajajo se razne analize, s ciljem čim bolje spoznati svoje in nasprotnikove prednosti ter slabosti in prilagoditi način igre za končni uspeh. V bistvu gre za napovedovanje oziroma predvidevanja na podlagi do sedaj znanih podatkov. Ali bo ekipa tekmo zmagala ali izgubila, je seveda odvisno od številnih dejavnikov, zato je napoved rezultata vnaprej zelo težka naloga. Realno pa lahko predvidevamo in napovedujemo na katerih področjih je lahko ekipa boljša ali slabša od konkurence in obratno. Kot smo že omenili, je ugoden rezultat odvisen od celotne ekipe, kljub temu pa ne moremo zanemariti prispevka posameznika. Ena izmed metod strojnega učenja je napovedno modeliranje (ang. Predictive Modeling), ki se uporablja za napovedi na podlagi znanih podatkov. V našem primeru je cilj naloge izgradnja napovednega modela, za vpogled v podatke igralca, z uporabo ustreznih algoritmov, na podlagi katerih je možno napovedati njegov prispevek k končnemu uspehu ekipe. Priprava podatkov Osnovne podatke za podatkovno bazo smo pridobili na spletni strani hockey-reference.com. Iz seznama tekem rednega dela 2014-2015 smo izbrali vse tekme ekipe Los Angeles Kings in podatke zapisali v atribute:

Date datum tekme, ang. Date

Visitors gostujoča ekipa, ang. Visitors

GV doseženi goli gostujoče ekipe, ang. Goals Visitors

Home domača ekipa, ang. Home

GH doseženi goli domače ekipe, ang. Goals Home Podatke v atribut:

Score rezultat, ang. Score smo vpisali na podlagi rezultata, ki ga je na posamezni tekmi ekipa dosegla. V primeru zmage smo v atribut zapisali W (ang. Won) ali L (ang. Lost), če je tekmo izgubila.

Page 68: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 62

V nadaljevanju smo združili podatke s podatki igralca (Anže Kopitar) na posamezni tekmi, ki smo jih pridobili na spletnih straneh nhl.com. Izbrali smo atribute:

G goli, ang. Goals

A assistence, ang. Assists

P točke, ang. Points

+/- plus/minus – razlika med danimi in prejetimi goli, ko je bil igralec na ledu, ang. Plus/Minus

PIM kazenske minute, ang. Penalty Minutes

PPG goli z igralcem več na ledu, ang. Power Play Goals

SHG goli z igralcem manj na ledu, ang. Short Handed Goals

S streli, ang. Shots

S% procent danih golov glede na strele, ang. Shot Percentage

SHIFTS število izmen, ang. Shifts

FO% procent dobljenih sodniških metov, ang. Face Off Percentage

TOI število minut igre, ang. Total Time on Ice Kakovost igralca se ocenjuje tudi na podlagi kriterijev, kolikokrat ga trener pošlje v igro, ko ima ekipa sodniški met v napadalni tretjini (ang. Off Zone Starts,) v kombinaciji s splošno oceno kakovosti igralca (ang. Quality of Competition) na posamezni tekmi. Z drugimi besedami povedano gre za oceno igre na podlagi dnevne forme igralca. Podatke smo pridobili iz poročil tekem na straneh nhl.com in jih po lastni oceni, kako je igralec odigral tekmo (bolje ali slabše), vpisali v atribut:

DFI dnevna forma igralca Tudi v tem primeru smo podatke prenesli v Excel in jih pripravili za prenos v program Orange (vrsta datoteke: besedilo ločeno s tabulatorji). Podatke smo pregledali z gradnikom ‘Data table’. Baza podatkov vsebuje 79 primerov, 13 atributov in 4 meta atribute. Podatki nimajo mankajočih vrednosti (Slika 54).

Slika 54: Preglednica atributov in podatkov modela vpliva igralca na upeh ekipe

Page 69: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 63

Izgradnja modela Slika 55 prikazuje klasifikacijski model, ki z uporabo različnih klasifikatorjev omogoča analizo vpliva igre posameznega igralca na rezultat ekipe.

Slika 55: Napovedni model za analizo vpliva igralca na uspeh ekipe

Kot v prejšnjih primerih smo v model najprej uvozili atribute s podatki in jih pregledali. Uporabili smo gradnike ‘File’, ‘Data Table’ in ‘Atributte Statistics’. Nato smo z gradnikom ‘Select Attributes’ (Slika 56) izbrali ustrezne atribute, razred in meta podatke ter jih pregledali z gradnikom ‘Parallel Coordinates’, ki omogoča dobro vizualizacijo in analizo multivariatnih podatkov.

Page 70: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 64

Slika 56: Izbor atributov

Z gradnikom ‘Data Sampler’ (Slika 57) smo podatke na podlagi naključnega vzorčenja razdelili na testno in učno množico v razmerju 30% : 70%.

Slika 57: Razdelitev podatkov na testno in učno množico

Page 71: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 65

V nadaljevanju smo podatke poslali v obdelavo algoritmom za napovedno modeliranje. V model smo vključili grafične vmesnike, ki jih predstavljajo gradniki ‘Naive Bayes’, ‘Classification Tree’, ‘CN2’ in ‘Neural Network’. Povezali smo jih z gradnikom ‘Predictions’, ki prikaže podatke in napovedi modela glede na izbrane algoritme. Glavni cilj napovednih modelov je zmožnost, da pojasnijo svoje napovedi, na podlagi katerih lahko predstavimo novo znanje. V model smo zato vključili gradnike, ki ne ponujajo le izhodnih podatkov, temveč konkretne modele za razlago napovedi. V primeru Naive Bayesovega klasifikatorja je to ‘Nomogram’, za klasifikator CN2 smo uporabili ‘CN2 Rule Viewer’, za odločitvena drevesa pa ‘Classification Tree Viewer’ ter ‘Classification Tree Graph’. V model pa smo dodali še gradnik ‘Test Learners’, ki podaja ocene posameznih modelov in jih grafično prikazali v gradniku ‘ROC Analysis’ Vrednotenje modela Vrednotenje algoritmov klasifikacijskega modela smo izvedli s pomočjo gradnika ‘Test Learners’ (Slika 58), ki na podlagi testiranja na podatkih, poda ocene algoritmov. Tako lahko med algoritmi izberemo najboljšega oziroma nam ocena pomaga pri odločitvi ali je model dovolj dober za praktično uporabo.

Slika 58: Vrednotenje algoritmov klasifikacijskega modela

Page 72: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 66

Na gradniku smo za ciljni razred (ang. Target Class) izbrali zmago ekipe (vrednost W) iz atributa Score, ki smo ga pri izgradnji modela definirali kot razred. Za prikaz rezultatov vrednotenja smo izbrali:

CA - klasifikacijsko točnost (ang. Classification accuracy), delež pravilnih odgovorov,

AUC – področje pod ROC krivuljo (ang. Area Under Receiver-Operating Characteristic curve), področje pod krivuljo razmerja med specifičnostjo in občutljivostjo in

Brier - Brierova ocena za natančnost verjetnostnih napovedi oceno (ang. Brier score).

Model je sprejemljiv, če sta vrednosti CA in AUC nad 0.8, Brierova ocena pa čim bližje 0. Vzorčenje smo izvedli po treh metodah:

Cross-validation – navzkrižno vrednotenje,

Leave-one-out - testiranje na enem primeru,

Random sampling – naključno vzorčenje. Metodo testiranja na testnih podatkih smo izločili, ker pogosto daje preveč optimistične ocene. Za navzkrižno vrednotenje smo določili 10 podmnožic, za naključno vzorčenje pa 10 vzorčenj. Rezultati so prikazani v Tabeli 7.

Method: Cross-validation Method: Leave-one-out Method: Random sampling

CA AUC Brier

Classification Tree 0.8533 0.9111 0.2600

Naive Bayes 0.7367 0.8056 0.3835

CN2 rules 0.7800 0.8750 0.2946

Neural Network 0.8900 0.9778 0.1993

CA AUC Brier

Classification Tree 0.9455 0.9164 0.2102

Naive Bayes 0.7636 0.8090 0.3516

CN2 rules 0.8545 0.9324 0.1700

Neural Network 0.8545 0.9324 0.2102

CA AUC Brier

Classification Tree 0.8647 0.8792 0.2440

Naive Bayes 0.7118 0.7417 0.5021

CN2 rules 0.8118 0.8847 0.2783

Neural Network 0.8294 0.9333 0.2362

Tabela 7: Rezultati vzorčenja algoritmov

Rezultati kažejo, da sta pri vseh metodah najboljše ocene prejela algoritma odločitvenega drevesa in nevronske mreže. Imata najvišji CA in AUC (več kot 0.8, kar je zelo dobro), njihova Brierova ocena pa je najmanjša oziroma najbližje ničli. Sprejemljive rezultate kažejo tudi ocene algoritma CN2 (več kot 0.8 pri dveh metodah) medtem, ko Naive Bayes dosega najslabše rezultate. Rezultati so razvidni tudi iz grafa gradnika ‘ROC Analisys’ (Slika 59), kjer je najvišjo oceno prejel algoritem odločitveno drevo.

Page 73: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 67

Slika 59: Graf ocen uporabljenih algoritmov modela

Ugotavljamo, da model na podlagi rezultatov vzorčenja lahko ocenimo kot sprejemljiv, zato lahko podatke odločitvenega drevesa, klasifikacijskih pravil in nomograma uporabimo v praksi. Vizualizacija in predstavitev novega znanja Na podlagi pregleda podatkov in statistike atributov smo ugotovili, da učna baza podatkov vsebuje 79 primerov, brez mankajočih vrednosti, 15 atributov, 3 meta atribute in diskretni razred z dvema vrednostima. Pri pregledu statističnih podatkov posebnosti nismo opazili. Slika 60 prikazuje vizualizacijo na podlagi vzporednih koordinat. Rdeče črte prikazujejo podatke v primeru zmage (W), modre pa podatke v primeru poraza (L). Glavne značilnosti, ki jih opažamo so boljša statistika plus/minus (+/-), manjši procent izkoriščenih strelov (S%) in boljša ocena dnevne forme (DFI), v primeru zmage ekipe. Pri navedenih atributih so rdeče črte najbolj zgoščene. V primerih, ko ekipa tekmo izgubi, pa je najbolj opazno, da igralec doseže manj golov (G) in asistenc (A), slabša, pa je tudi njegova statistika plus/minus (+/-). V the primerih pa so bolj zgoščene modre črte. Kadar je igralec v boljši dnevni formi, ekipa doseže več zmag in obratno, torej je eden izmed ključnih igralcev za uspeh ekipe.

Page 74: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 68

Slika 60: Vizualizacija na podlagi grafa vzporednih koordinat

Z gradnikom ‘Predictions’ (Slika 61) smo pregledali napovedi na podlagi posameznih algoritmov. Ugotavljamo, da se rezultati klasifikacije v večini primerov ujemajo. Pri razmerju napovednih verjetnostih za posamezne primere pa prihaja do razlik, saj vsak algoritem za te primere poda drugačno razmerje.

Slika 61: Prikaz podatkov in napovedi modela

Nomogram je učinkovito orodje za prikaz verjetnostnih napovedi. Rezultate napovedujemo na podlagi izbire ciljnega razreda. V našem primeru smo za ciljni razred izbrali zmago ekipe (W). Nomogram na Sliki 62, prikazuje, da je verjetnost, da bo ekipa zmagala ob ničelnem vplivu igralca 53%. Dolžine črt atributov

Page 75: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 69

predstavljajo razpon in pomembnost atributa. Najbolj pomemben atribut je plus/minus (+/-), saj ima največji razpon, atribut doseženi goli z igralcem več (PPG) pa praktično nima vpliva na napoved.

Slika 62: Nomogram na podlagi ničelnih vrednosti

Zvezne spremenljivke lahko prikažemo tudi dvodimenzionalno. Modre pike predstavljajo vrednosti atributov. Z vlečenjem v levo ali desno, jih lahko spreminjamo. Slika 63 prikazuje primer, ko se je ob spremembi vrednosti atributov S, S%, SHIFTS, FO in TOI napoved zmage povečala na 73%. Gradnik omogoča dobro vizuelno predstavitev atributov, z njim pa lahko izdelujemo tudi temeljite analize pod kakšnimi kriteriji igralca je večja verjetnost, da bo ekipa zmagala.

Slika 63: Nomogram na podlagi spremenjenih vrednosti atributov

Page 76: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 70

Gradnik ‘Classification Tree Graph’ (Slika 64) prikazuje rezultat algoritma odločitvenega drevesa vizuelno, gradnik ‘Classification Tree Viewer’ (Slika 65) pa v hierarhični tekstovni obliki s podatki o razredu, verjetnosti…

Slika 64: Odločitveno drevo

Odločitveno drevo ima 13 vozlišč in 7 listov oziroma nivojev. Najbolj pomemben je kriterij plus/minus (+/-), na katerem se drevo začne deliti. V primeru, da je igralčeva statistika +/- manjša ali enaka -0.5, ekipa tekmo izgubi, kadar pa je večja od -0.5 tekmo zmaga. Naslednja je delitev kriterija dnevne forme (DFI). Boljša dnevna forma igralca pomeni zmago, slabša pa poraz ekipe. V primeru slabše dnevne forme je pomembno koliko časa je igralec v igri (TOI), če je enako ali manj kot 20.567 minut, je verjetno, da bo ekipa zmagala. V nasprotnem primeru pa je zelo verjetno, da bo ekipa izgubila. V primeru, ko je igralec manj časa v igri je pomembno koliko dobi sodniških metov (FO%). Enako ali manj od 35% pomeni poraz, več pa zmago. V nadaljevanju se drevo deli na podlagi števila izmen na tekmi (SHIFTS). Manj ali enako kot 22.500 pomeni zmago, več pa poraz. Nazadnje se drevo deli glede na število strelov (S), 2 strela pomenita zmago, manj ali več pa poraz.

Page 77: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 71

Slika 65: Hierarhični pregled klasifikacijskega drevesa

Razlago podatkov iz modela gradnika ‘Classification Tree Vewer’ ponazarjamo na primeru: igralec je v 19 minutah igre, 24 krat šel v izmeno, dobil 52 % sodniških metov, 2 krat streljal na gol, njegova dnevna forma pa je bila ocenjena kot slabša. Verjetnost razberemo iz modela in zaključimo, da je verjetnost za zmago ekipe 66,7%. Na Sliki 66 je prikazana še možnost za napovedno modeliranje na podlagi klasifikacijskih pravil ‘CN2 Rules Viewer’, ki ponuja seznam opisnih pogojev na podlagi napovedanega razreda.

Slika 66: Seznam klasifikacijskih pravil

Page 78: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 72

Iz modela je razvidno, da ponuja 5 pravil za primer zmage (W) in 5 za poraz ekipe (L). Zmaga ali poraz sta odvisna od podatkov o igri igralca. V primeru zmage ima navišjo oceno pravilo pri katerem je igralec v boljši dnevni formi (DFI), ima statistiko plus/minus (+/-) večjo ali enako -1.00 in procent sodniških metov(FO%) večji ali enak 63%. Največjo verjetnost za poraz ima ekipa, ko je igralec v slabši dnevni formi (DFI), ima več kot 22 izmen (SHIFTS) in je v igri več kot 18 minut (TOI). V obeh primerih sta kakovost pravila (ang. Rule Quality) in pokritost (ang. Coverage) oziroma število primerov najvišja. Po pregledu napovednih modelov ugotavljamo, da so si vsi trije podobni v pomembnosti kriterijev in napovedi glede na prispevek igralca za končni uspeh ekipe. Na podlagi nomograma so najpomembnejši kriteriji: statistika plus/minus (+/-), streli na gol (S) in asistence (A), goli doseženi z igralcem manj (SHG), pa praktično nimajo vpliva na rezultat. Odločitveno drevo kaže podobne rezultate glede pomembnosti kriterijev. Rezultat je zelo odvisen od dnevne forme igralca (DFI), kar pomeni, da je igralec za ekipo ključnega pomena. Zanimivo je, da je verjetnost za zmago ekipe (W) večja, kadar je malo manj v igri (TOI), posledično pa ima tudi manjše število izmen (SHIFTS). Več kot je igralec v igri, bolj je utrujen, zato na podlagi te ugotovitve lahko zaključimo, da ga je za ugoden rezultat potrebno tudi spočiti, saj o kondicijski pripravi na tej ravni ne dvomimo. Ugotovitve potrjujejo tudi klasifikacijska pravila. Igralec mora imeti čim boljšo statistiko plus/minus (+/-), dosegati čim več golov (G) in imeti dober odstotek dobljenih sodniških metov (FO%). Ugotavljamo, da v teh dejavnikih ni nič nenavadnega, saj so to osnovne vrline igralcev hokeja. Na podlagi nadaljnega raziskovanja, zakaj prihaja do porazov, pa podobno kot v prejšnem primeru ugotavljamo, da ima ključni pomen kriterij, koliko časa je igralec v igri (TOI). Iz ugotovitev izhaja naloga za trenerja, da prilagaja minutažo igralca glede na razvoj igre.

Page 79: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 73

6. DISKUSIJA

Po pregledu literature in spletnih strani ugotavljamo, da se v zadnjem času pojavlja vse več raziskav s področja podatkovnega rudarjenja v športu. Primerov uporabe pa je kljub temu razmeroma malo. Predvidevamo, da se analize izdelujejo za lastne potrebe in niso dostopne širši javnosti. Glede hokeja na ledu, je slika podobna. Večinoma so dostopne analize, ki se gradijo zgolj na statističnih podatkih, za razlago pa se uporablja vizualizacija. Izdelava lastnih analiz je težka naloga. Nekatere druge športe je veliko lažje analizirati, saj se v igri zgodi več dogodkov. Drugo omejitev pa predstavljajo zelo majhne razlike med vrednostmi atributov posameznih primerov. Kljub temu pa tudi v hokeju boljša igra prinese boljše rezultate, ti pa več gledalcev ter večje zanimanje in vložke sponzorjev. Ugotavljamo, da je podatkovno rudarjenje še dokaj neizkoriščen potencial, ki lahko precej pripomore k dvigu kvalitete igre in razvoju klubov.

6.1. SWOT ANALIZA

Slika 67 prikazuje analizo prednosti, slabosti, priložnosti in nevarnosti uporabe podatkovnega rudarjenja v športu, na podlagi notranjih in zunanjih dejavnikov.

S – prednosti W – slabosti

- pridobivanje novega znanja - pridobivanje podatkov z video

analizo - obstajajo dobra orodja za

vizualizacijo - dostopnost programov - zmanjševanje stroškov

- napačni podatki - ogromne količine podatkov - razhajanja pri interpretaciji

rezultatov - trivialna vprašanja - ustreznost modela

O – priložnosti T – nevarnosti

- modeli omogočajo ponavljanje

simulacij - napovedovanje trendov v

prihodnosti - povečanje prihodkov

- izguba podatkov - prirejanje in potvarjanje podatkov - zloraba informacij/znanja

Slika 67: SWOT analiza uporabe podatkovnega rudarjenja v športu

Uporaba podatkovnega rudarjenja v športu prispeva k pridobivanju novega znanja, ki ga lahko koristijo vsi v ekipi (vodstvo, trenerji, igralci, tehnično osebje…) in prispeva k izboljšanju igre ter razvoju kluba. V zadnjih letih se podatki ne zbirajo več samo ročno. Pridobivajo se na podlagi video analiz, ki povečujejo njihovo kvaliteto in kvantiteto. Vse več je odprtokodnih programov, ki so enostavni za

Page 80: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 74

uporabo, interaktivni, imajo dobra orodja za vizualizacijo in s tem omogočajo tudi lažje poročanje in predstavitve, ki so v podporo pri odločanju. Šport je velik posel in vsak klub si lahko s pomočjo podatkovnega rudarjenja zmanjša stroške pri nakupu in prodaji igralcev, športne opreme… Glavni problem predstavlja zbiranje in priprava podatkov. Kljub video analizam je nekatere podatke še vedno potrebno zbirati ročno. Pri tem ima odločilni pomen človeški faktor, saj človek ni nezmotljiv. Podatke lahko napačno zberemo, pretvorimo ali zapišemo. Kot navajajo števili avtorji, tudi sami ugotavljamo, da je faza priprave podatkov najbolj dolgotrajna in mučna faza podatkovnega rudarjenja. Pri interpretaciji rezultatov lahko prihaja do razhajanj. Čeprav vemo kaj nam rezultat pomeni, je to težko razložiti drugim, saj imajo ljudje različne poglede na isto zadevo. Pogosto se sprašujemo tudi o ustreznosti modela. V določenih primerih nam model ustreza, s spremenjenimi podatki za isti primer pa je model manj ali celo neuporaben. Modeli za podatkovno rudarjenje omogočajo ponavljanje simulacij. V skladu z CRISP metodologijo tako nudijo priložnost za izbor drugih, atributov oziroma izboljšave na osnovnem modelu. Na podlagi novih spoznanj lahko napovedujemo trende v prihodnosti. Učinkovita uporaba podatkovnega rudarjenja v klube prinese dodano vrednost, ki se izraža tudi z ekonomskega vidika. Največjo nevarnost predstavlja izguba podatkov. Učinkoviti modeli nam nič ne koristijo, če nimamo pravih podatkov. Podatke se lahko tudi priredi in s tem zavajamo sami sebe in druge. Zelo pomembna je varna hramba podatkov. Pri tem ne gre zgolj za varovanje osebnih podatkov, temveč lahko pride tudi do zlorabe informacij oziroma znanja. Z dostopom do nekaterih podatkov, lahko pride celo do prirejanja izidov tekem, kar dokazuje vse več afer v vrhunskem športu.

6.2. POGOJI ZA UVEDBO

Predpogoj za uporabo podatkovnega rudarjenja v hokeju je kvalitetno zbiranje podatkov in vodenje statistike. Zavedamo se, da imajo naši klubi zaradi omejenih finančnih sredstev malo možnosti, da bi lahko imeli svoje klubske zapisnikarje statističnih podatkov. Zaradi majhnega števila klubov in manjšega geografskega področja, pa vidimo priložnost v skupini zapisnikarjev, pod okriljem HZS, ki bi bili delegirani za posamezne tekme. Hkrati bi bilo potrebno uvesti tudi primeren računalniško podprt sistem za zbiranje in obdelavo podatkov ter pripravo poročil in obdelavo statističnih podatkov. Ugotavljamo, da bi v slovenskem hokeju, za resnejše analize morali nujno uvesti naslednje statistike: za ekipe:

GVA število izgubljenih ploščic,

TKA število ukradenih ploščic,

OZ FO število sodniških metov v napadalni tretjini,

DZ FO število sodniških metov v obrambni tretjini,

FOW% odstotek dobljenih sodniških metov,

Page 81: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 75

Wins Sc 1st število dobljenih tekem, ko je ekipa prva dosegla zadetek,

Loss Sc 1st število izgubljenih tekem, ko je ekipa prva dosegla zadetek

in za igralce:

TOI število minut igre,

Sh streli,

S% procent danih golov glede na strele,

Slap G doseženi goli s strelom z zamahom,

Snap G doseženi goli s strelom iz potega,

Wrist G doseženi goli s strelom iz zapestja,

+/- razlika med danimi in prejetimi goli,

Passes podaje,

GvA izgubljene ploščice,

TkA dobljene ploščice,

BkS blokirani streli,

Off Zone Finish prekinitve igre v napadalni tretjini,

HitF igra na telo nasprotnika – dani naleti, HitA igra na telo nasprotnika – dobljeni naleti, Pens Drawn izsiljeni prekrški, Pens Taken neizsiljeni prekrški, OIT čas v napadu,

SHIFTS število izmen,

FO% procent dobljenih sodniških metov. Za analize bi bilo nujno združiti znanje strokovnjakov s področja hokeja in informatike. V proces odkrivanja znanja iz podatkov, bi se tako vključili predstavniki klubov in strokovnjaki s področja podatkovnega rudarjenja. Tudi v tem primeru bi lahko skupina delovala pod okriljem HZS. Za napredek slovenskega športa pa bi bilo najboljše, če bi skupina delovala v sklopu Olimpijskega komiteja Slovenije in bi podatkovno rudarjenje izvajala tudi na področju drugih športnih panog. Priložnost pa se ponuja tudi podjetjem, ki se že ukvarjajo s podatkovnim rudarjenjem, da svoje izkušnje in znanje razširijo na področje športa.

Page 82: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 76

7. ZAKLJUČEK

V magistrski nalogi smo obravnavali problem analize igre hokeja na ledu in predstavili uporabnost podatkovnega rudarjenja v športu. Na praktičnih primerih smo prikazali postavitev najbolj homogenih napadalnih trojk, uvrščanje igralcev na igralne pozicije, razvrščanje ekip in igralcev v skupine ter vpliv posameznega igralca na uspeh ekipe. Problema smo se lotili po korakih procesa odkrivanja znanja v podatkih. Modele smo izdelali s pomočjo programa Orange in pri tem uporabili CRISP-DM tehnologijo ter algoritme k-najbližjega soseda, hierarhično razvrščanje, metodo voditeljev, Naive Bayesov klasifikator, odločitvena drevesa in nevronske mreže. Izdelani modeli bodo pripomogli k strokovnemu ter učinkovitemu pristopu k hokejski igri in bodo z modifikacijami uporabni tudi za druge športe. Uporabni so za trenerje pri analizi igre, moštva in nasprotnikov, managerjem ter vodstvu klubov pri nakupu in menjavi igralcev, iskalcem talentov, sponzorjem, novinarjem… Zbiranje statističnih podatkov je podlaga za podatkovno rudarjenje. Analiza obstoječega stanja vodenja statistike v slovenski hokejski ligi je pokazala, da se podatki zbirajo, vendar ne v taki meri, da bi lahko učinkovito izvajali podrobnejše analize. Praktične primere izgradnje modelov za prikaz uporabe podatkovnega rudarjenja smo zato zgradili in izvedli na podatkih iz lige NHL, za katere navajamo najpomembnejše ugotovitve. S prikazom primera za iskanje podobnosti med primeri smo sestavili najbolj homogene napadalne trojke. Njihova sestava se na podlagi Evklidske razdalje ni bistveno spremenila. Na podlagi Pearsonovega koeficienta korelacije, pa je prišlo do korenitih sprememb. Sestava se je povsem spremenila, hkrati pa smo ugotovili, da so preoblikovani napadi tudi bolj homogeni glede na število doseženih točk (goli + podaje). Preureditev napadov je potrebno preveriti še v praksi, saj se zavedamo, da ima na homogenost napadov vpliv še mnogo drugih dejavnikov. Na podlagi primera modela za uvrščanje igralcev na igralne pozicije, ugotavljamo, da model omogoča razvrščanje igralcev na igralne pozicije glede na izbrane atribute. Med igralci na posameznih pozicijah obstajajo razlike, katere dobro ponazarja vizualizacija z dvo in večdimenzionalnimi projekcijami. Ocene vrednotenja modela so sprejemljive, uspešno pa smo izvedli tudi preizkus modela z uvrstitvijo naključnega igralca na igralno mesto. Model za analizo razvrščanja ekip v skupine, je pokazala razlike med boljšimi, povprečnimi in slabšimi ekipami. Rezultati vrednotenja v tem primeru so zelo dobri. Na podlagi pregleda statistike izbranih atributov in podrobne analize z dendogramom ter razsevnimi diagrami, smo ugotovili, da boljše ekipe izstopajo v večih elementih igre, med povprečnimi in slabšimi, pa ne moremo potegniti ostre ločnice. Hokejska ekipa ima štiri napade, zato smo z modelom za analizo razvrščanja v skupine, igralce razvrstili v štiri gruče. Rezultat analize je poročilo, iz katerega je razvidno, da imajo nekateri igralci boljše vrednosti pri večini atributov. Ugotavljamo, da je igralce smiselno uvrščati v napade na podlagi, gruče v katero

Page 83: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 77

so razvrščeni. Pri tem nam je v veliko pomoč analiza na podlagi centroidov, ki pokaže značilne vrednosti za izbrano igralno mesto. Model omogoča tudi izbor posameznega igralca, kar je uporabno pri menjavi oziroma iskanju novih igralcev. V napovednem modelu smo uporabili različne algoritme. Rezultati vzorčenja na testnih podatkih so pokazali, da so vsi dobili visoke ocene, kar pomeni, da je model dovolj dober za uporabo v praksi. Med vsemi pa je najboljšo oceno prejel algoritem za odločitveno drevo. Ugotavljamo, da pri vseh algoritmih prihajamo do podobnih ugotovitev glede pomembnosti kriterijev, ki so pomembni za prispevek igralca h končnemu uspehu ekipe. Ocenjujemo, da so prikazani modeli za podatkovno rudarjenje učinkoviti in primerni za uporabo v praksi. Omeniti pa velja, da je hokej kompleksna igra, zato je za analize in napovedi, smiselno uporabiti kombinacijo večih modelov. Modele je možno nadgrajevati, spreminjati, prilagajati oziroma izdelati povsem nove. Priložnost vidimo v izdelavi univerzalnih modelov, ki bi bili izdelani na podlagi testiranj (npr. na podlagi atributov ITT, HR, VO2max...) in bi bili primerni za vse športe. Po drugi strani pa obstaja možnost izgradnje specifičnih modelov za posamezne športe, za košarko uporaba atributa odriv, za kolesarstvo moč pedaliranja... Zaključujemo z mislijo, da so možnosti uporabe podatkovnega rudarjenja v športu praktično neomejene. S svojimi metodami in tehnikami ter vizualizacijo, nudi tudi dobro podporo pri procesu odločanja, vendar pa je še vedno človek tisti, ki je odgovoren za sprejemanje končnih odločitev.

Page 84: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 78

LITERATURA IN VIRI

Bohanec, M., Kljajić Borštnar, M., Robnik Šikonja, M. (2015), Integration of machine learning insights into organizational learning: a case of B2B sales forecasting, Kranj: Moderna organizacija, stran 338-352 Clark, P., Niblett, T. (1989), Machine Learning, Volume 3, Issue 4, March 1989, stran 261-283 Collier, K., Carey, B., Grusy, E., Marjaniemi, C., Sautter, D. (1998). A Perspective on Data Mining, Northern Arizona University, Flagstaff CRISP DM methodology: http://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html (23. 3. 2015) De Marchi, L. (2011), Data mining of sports performance data, Erasmus Computing 2010/2011 Demšar, J., Curk, T., Erjavec, A. (2013). Orange: Data Mining Toolbox in Python; Journal of Machine Learning Research 14(Aug):2349−2353, 2013. Demšar, J., Zupan, B. (2013). Orange: Data Mining Fruitful and Fun – A Historical perspective; Special issue: 100 Years af Alan Turing and 20 Years of SLAIS Guest Editors, Vol 37(1), strani 55-60 Duhon, B. (1998), It's All in our Heads, Inform, 12/8, stran 8-13 Guid, N., Strnad, D. (2007). Umetna inteligenca, Fakulteta za elektrotehniko, računalništvo in informatiko, Maribor Han, J., Kamber, M. (2006). Data Mining, Concepts and Techniques, Second Edition, Morgan Kaufmann Publishers, San Francisco Hipp, A., Mazlack, J. L. (2011), Mining Ice Hockey: Continuous Data flow Analysis, IMMM 2011: The First International Conference on Advances in Information Mining and Management Ice Hockey: http://icehockey.isport.com/icehockey-guides/ice-hockey-rules-regulations (23. 6. 2015) Hockey history: http://www.sihrhockey.org/__a/public/horg_2002_report.cfm (8. 6. 2015) Hokejska zveza Slovenije (2013). Pravilnik o tekmovanju hokeja na ledu Hokejske zveze Slovenije, 2013 Hokejska zveza Slovenije (2015). Statut Hokejske zveze Slovenije, 2015

Page 85: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 79

Ice hockey abstract: http://www.hockeyabstract.com (26. 5. 2015) IIHF: http://www.iihf.com/ (8. 6. 2015) Kdnuggets: http://www.kdnuggets.com/software/suites.html (8. 4. 2015) Kononenko, I. (1997). Strojno učenje, Fakulteta za računalništvo in informatiko, Ljubljana Korelič, I., Mirchevska, V., Rajkovič, V., Kljajić Borštnar, M., Gams, M. (2015), Multiple-Criteria Approach to Optimization of multidimensional Data Models, Informatica, Vol. 26, No. 2, stran 283-312 LA Kings lineup: http://www2.dailyfaceoff.com/teams/lines/36/pittsburg-penguins (8. 6. 2015) Larose, D. T. (2005), Discovering Knowledge in Data – An Introduction to Data Mining, John Wiley & Sons, Hoboken, New Jersey Lee, S. J., Siau, K. (2001), A review of data mining techniques, Industrial Management & Data Systems, Vol. 101 Iss 1, stran 41-46 Mohorič, T. (1999). O podatku in informaciji, Organizacija, leto99, letnik32, številka 8-9 NHL rulebook: http://www.nhl.com/nhl/en/v3/ext/rules/2014-2015-Interactive-rulebook.pdf (14. 7. 2015) Nhl rules: http://www.nhl.com/nhl/en/v3/ext/rules/2014-2015-rulebook.pdf (9. 6. 2015) NHL statistics: http://www.hockeyabstract.com/testimonials/nhl2014-15playerdata (16. 8. 2015) NHL stats: http://www.behindthenet.ca/nhl_statistics (15. 8. 2015) NHL 2014-2015 results: http://www.hockey-reference.com/leagues/NHL_2015_games.html (8. 8. 2016) Orange: http://docs.orange.biolab.si/ 11. 4. 2015

Page 86: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 80

Padhy, N., Mishra, P., Panighari, R. (2012), The Survey of Data Mining Applications and Feature Scops, Industrial Journal of Computer Science, Engineering and information Technology, Vol. 2, No. 3 Pujari, A. K. (2001). Data Mining Techniques, Universities Press (India) Private Limited, Hyderabad Schumaker, R. P., Solieman, O. K., Chen, H. (2010) Sports Data mining, Springer, New York Tufte, E. R. (1983), The Visual Display of Quantitative Information, Graphic Press, Cheshire Tuomi, I. (2000), Data is More than Knowledge: Implications of the Rewersed Knowledge Hierarchy for Knowledge Management and Organizational Memory, Journal of Management Information Systems, 16/3, strani 103-117 Two Crows Corporation (2005). Introduction to Data Mining and Knowledge Discovery, Two Crows Corporation, Potomac What do hockey scouts look for: http://onemillionskates.com/inside-edge/so-what-do-hockey-scouts-really-look-for/ (16. 9. 2015) Witten, F., Frank, E., Hall, M. A. (2011). Data Mining, Practical Machine Learning Tools and Techniques, Third Edition, Morgan Kaufmann Publishers, Burlington Zacharski, R. (2011). A Programmer's Guide to Data Mining, www.guidetodatamining.com

Page 87: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 81

PRILOGE

Priloga 1 – Uradni zapisnik Hokejske zveze Slovenije

Page 88: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 82

Priloga 2 – Poročilo analize razvrščanja igralcev v skupine FileTue Dec 08 15, 20:33:43

File

File name: C:/Users/Matjaž OGRINC/Desktop/Magistrsko delo/Baze podatkov/MAG Orange/04 k-Means/04 Kmeans/04 K-Means.txt Format: Tab-delimited simplified

Data

Examples: 882 Attributes: 21 (Team, Ht, Wt, Age, GP, POS, G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, Pens Taken, OIT, FO%, PIM, HitF)

Meta attributes: 2 (Last Name, First Name) Class:

Izbor podatkovTue Dec 08 15, 20:34:23

Output

Remove unused values/attributes: False Remove unused classes: False

Conditions

Active Condition

'GP' >= 40.0

'POS' equals C

Izbor atributovTue Dec 08 15, 20:34:37

Input data

Examples: 183 Attributes: 20 (Team, Ht, Wt, Age, GP, POS, G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%, PIM, HitF) Meta attributes: 2 (Last Name, First Name) Class: Pens Taken

Output data

Examples: 183

Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%) Meta attributes: 2 (Last Name, First Name) Class:

Removed: 9 (Team, PIM, POS, Ht, HitF, Wt, GP, Age, Pens Taken)

k-Means ClusteringTue Dec 08 15, 20:34:48

Settings

Distance measure: Euclidean Initialization: Random

Restarts: 1 Number of clusters (K): 4

Data

Examples: 183 Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%)

Meta attributes: 2 (Last Name, First Name) Class:

Attribute Statistics [Cluster]Tue Dec 08 15, 20:35:02

Scatter Plot [Cluster - G]Tue Dec 08 15, 20:40:35

Visualized attributes

X: Cluster Y: G Color: Cluster

Settings

Symbol size: 8

Transparency: 255 Jittering: 10.0 Jitter continuous attributes: No

Graph

Scatter Plot [Cluster - A]Tue Dec 08 15, 20:40:46

Visualized attributes

X: Cluster Y: A

Color: Cluster

Page 89: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 83

Settings

Symbol size: 8 Transparency: 255

Jittering: 10.0 Jitter continuous attributes: No

Graph

Scatter Plot [Cluster - Sh]Tue Dec 08 15, 20:40:52

Visualized attributes

X: Cluster Y: Sh

Color: Cluster

Settings

Symbol size: 8 Transparency: 255 Jittering: 10.0 Jitter continuous attributes: No

Graph

Scatter Plot [Cluster - Off Zone Finish]Tue Dec 08 15, 20:41:13

Visualized attributes

X: Cluster

Y: Off Zone Finish Color: Cluster

Settings

Symbol size: 8 Transparency: 255

Jittering: 10.0 Jitter continuous attributes: No

Graph

Scatter Plot [Cluster - OIT]Tue Dec 08 15, 20:41:29

Visualized attributes

X: Cluster Y: OIT

Color: Cluster

Page 90: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 84

Settings

Symbol size: 8 Transparency: 255

Jittering: 10.0 Jitter continuous attributes: No

Graph

Scatter Plot [Cluster - FO%]Tue Dec 08 15, 20:41:33

Visualized attributes

X: Cluster Y: FO%

Color: Cluster

Settings

Symbol size: 8 Transparency: 255 Jittering: 10.0 Jitter continuous attributes: No

Graph

Izbor atributov za centroideTue Dec 08 15, 20:42:07

Input data

Examples: 4

Attributes: 13 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%, Cluster) Meta attributes: 2 (Last Name, First Name) Class:

Output data

Examples: 4 Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%) Class: Cluster

Removed: 2 (First Name, Last Name)

Podatki klastrovTue Dec 08 15, 20:42:21

Data

Examples: 4 Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%) Class: Cluster

G A Sh Passes GvA TkA BkS Off Zone Finish HitA Pens Drawn OIT FO% Cluster

1 7 11 77 74 17 21 24 234 60 0.7 14.3 49.6 C1

2 9 12 99 89 18 30 51 296 98 0.7 18.0 47.6 C2

3 23 40 197 219 46 48 40 447 94 0.8 36.3 49.3 C3

4 17 23 159 144 33 37 33 386 98 0.8 28.1 48.1 C4

Scatter Plot (1) [Cluster - Sh]Tue Dec 08 15, 20:42:42

Visualized attributes

X: Cluster Y: Sh

Color: Cluster

Settings

Symbol size: 20 Transparency: 255 Jittering: 10.0

Jitter continuous attributes: No

Graph

Page 91: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 85

Scatter Plot (1) [Cluster - FO%]Tue Dec 08 15, 20:43:19

Visualized attributes

X: Cluster Y: FO%

Color: Cluster

Settings

Symbol size: 20 Transparency: 255 Jittering: 10.0

Jitter continuous attributes: No

Graph

Izbor igralcaTue Dec 08 15, 20:43:52

Output

Remove unused values/attributes: False Remove unused classes: False

Conditions

Active Condition

'Last Name' = 'Kopitar'

Podatki igralcaTue Dec 08 15, 20:44:01

Data

Examples: 1 Attributes: 13 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%, Cluster) Meta attributes: 2 (Last Name, First Name)

Class:

G A Sh Passes GvA TkA BkS Off Zone Finish HitA Pens Drawn OIT FO% Cluster Last Name First Name

1 16 48 134 264 48 29 46 408 111 0.9 36.4 52.6 C3 Kopitar Anze

Izbor podatkovTue Dec 08 15, 20:46:57

Output

Remove unused values/attributes: False Remove unused classes: False

Conditions

Active Condition

'GP' >= 40.0

'POS' in [LW, RW]

Izbor atributovTue Dec 08 15, 20:47:23

Input data

Examples: 198 Attributes: 20 (Team, Ht, Wt, Age, GP, POS, G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%, PIM, HitF) Meta attributes: 2 (Last Name, First Name)

Class: Pens Taken

Output data

Examples: 198 Attributes: 11 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT) Meta attributes: 2 (Last Name, First Name)

Class: Removed: 10 (Team, PIM, POS, Ht, FO%, HitF, Wt, GP, Age, Pens Taken)

Attribute Statistics [Cluster]Tue Dec 08 15, 20:47:30

Page 92: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 86

Izbor atributov za centroideTue Dec 08 15, 20:48:30

Input data

Examples: 4

Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, Cluster) Meta attributes: 2 (Last Name, First Name) Class:

Output data

Examples: 4 Attributes: 11 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT) Class: Cluster

Removed: 2 (First Name, Last Name)

Podatki klastrovTue Dec 08 15, 20:48:47

Data

Examples: 4 Attributes: 11 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT) Class: Cluster

G A Sh Passes GvA TkA BkS Off Zone Finish HitA Pens Drawn OIT Cluster

1 6 8 71 62 13 17 21 214 71 0.8 13.0 C1

2 23 31 203 185 37 41 33 419 94 0.7 32.9 C2

3 14 17 132 107 23 27 30 331 108 0.9 22.5 C3

4 9 16 100 100 29 29 59 324 113 0.5 20.3 C4

Izbor podatkovTue Dec 08 15, 20:49:15

Output

Remove unused values/attributes: False Remove unused classes: False

Conditions

Active Condition

'GP' >= 40.0

'POS' equals D

Izbor atributovTue Dec 08 15, 20:49:36

Input data

Examples: 197 Attributes: 20 (Team, Ht, Wt, Age, GP, POS, G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, Pens Drawn, OIT, FO%, PIM, HitF) Meta attributes: 2 (Last Name, First Name)

Class: Pens Taken

Output data

Examples: 197 Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, HitF, PIM, Pens Taken) Meta attributes: 2 (Last Name, First Name)

Class: Removed: 9 (Team, OIT, POS, Ht, FO%, Pens Drawn, Wt, GP, Age)

Attribute Statistics [Cluster]Tue Dec 08 15, 20:49:43

Izbor atributov za centroideTue Dec 08 15, 20:50:19

Input data

Examples: 4 Attributes: 13 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, HitF, PIM, Pens Taken, Cluster) Meta attributes: 2 (Last Name, First Name)

Class:

Output data

Examples: 4 Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, HitF, PIM, Pens Taken)

Class: Cluster Removed: 2 (First Name, Last Name)

Podatki klastrovTue Dec 08 15, 20:50:26

Data

Examples: 4 Attributes: 12 (G, A, Sh, Passes, GvA, TkA, BkS, Off Zone Finish, HitA, HitF, PIM, Pens Taken)

Class: Cluster

G A Sh Passes GvA TkA BkS Off Zone Finish HitA HitF PIM Pens Taken Cluster

1 9 29 150 132 58 33 121 507 123 93 32 0.5 C1

2 3 9 65 44 29 13 82 315 91 60 22 0.5 C2

3 3 9 64 42 30 11 107 367 126 163 52 0.8 C3

4 5 17 104 81 40 21 102 444 115 123 60 0.9 C4

Page 93: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 87

KAZALO SLIK

Slika 1: Igrišče za hokej na ledu ............................................................ 3 Slika 2: Proces odkrivanja znanja v podatkih (vir: Han in Kamber (2006)) ........... 7 Slika 3: Univezalni inteligentni sistem (vir: Guid in Strnad (2007)) ................... 9 Slika 4: Namizje programa Orange ........................................................ 12 Slika 5: Primerjava uporabe metodologij za podatkovno rudarjenje za leto 2014 in 2007 (vir: http://www.kdnuggets.com) .................................................. 13 Slika 6: Model CRISP-DM (vir: www.crisp-dm.org CRISP-DM 1.0 (2000)) ............ 14 Slika 7: Primer metode k-NN (vir: lasten) ................................................ 16 Slika 8: Postava Pittsburg Penguins – napadalci ......................................... 22 Slika 9: Postavitev napadov – april 2015.................................................. 25 Slika 10: Postavitev napadov na podlagi Evklidske razdalje ........................... 25 Slika 11: Postavitev napadov na podlagi Pearsonovega koeficienta korelacije ..... 26 Slika 12: Preglednica atributov in podatkov modela za uvrščanje igralcev na igralne pozicije .............................................................................. 28 Slika 13: Model za razporejanje igralcev na igralna mesta ............................ 29 Slika 14: Izbor podatkov za vzorčenje .................................................... 30 Slika 15: Izračun optimalnega števila razredov ......................................... 30 Slika 16: Izvedbo algoritma k-najbližjega soseda ....................................... 31 Slika 17: Vrednotenje modela za uvrščanje igralcev na igralne pozicije ............ 31 Slika 18: Matrika napak uvrščanja v razrede ............................................. 32 Slika 19: Razsevni diagram števila doseženih točk glede na igralno pozicijo ....... 33 Slika 20: Razsevni diagram časa igre na tekmi glede na igralno pozicijo ............ 33 Slika 21: Razsevni diagram števila podaj glede na igralno pozicijo .................. 34 Slika 22: Razsevni diagram števila sodniških metov glede na igralno pozicijo ...... 34 Slika 23: Razsevni diagram števila blokiranih strelov glede na igralno pozicijo .... 35 Slika 24: Linearna projekcija............................................................... 35 Slika 25: Linearna projekcija - streli ...................................................... 36 Slika 26: Uvrstitev novega igralca na igralno mesto .................................... 37 Slika 27: Preglednica atributov in podatkov modela za hierarhično razvrščanje ekip v skupine ...................................................................................... 39 Slika 28: Model za hierarhično razvrščanje ekip v skupine ............................ 40 Slika 29: Normalizacija podatkov .......................................................... 40 Slika 30: Izračun matrike razdalj med naborom primerov ............................. 41 Slika 31: Dendogram ekip lige NHL – osnovna delitev .................................. 41 Slika 32: Vrednotenje modela za hierarhično razvrščanje ekip v skupine ........... 42 Slika 33: Histogram razvrstitve atributov v najboljših projekcijah ................... 43 Slika 34: Analza medsebojnega vpliva za posamezne pare atributov ................ 44 Slika 35: Dendogram analize razvrščanja v skupine .................................... 45 Slika 36: Dendogram povezave atributov (Evklidska razdalja) ........................ 45 Slika 37: Dendogram povezave atributov (Pearsonov koeficient) ..................... 46 Slika 38: Histogram porazdelitve vrednosti atributov glede na razred .............. 46 Slika 39: Palični graf števila primerov v gručah ......................................... 47 Slika 40: Razsevni diagrami analize razvrščanja v skupine glede na uvrstitev ...... 48 Slika 41: Razsevni diagrami analize razvrščanja v skupine – medsebojna primerjava atributov ...................................................................................... 49 Slika 42: Dendogram analize razvrščanja v skupine – izbor sektorjev ................ 50 Slika 43: Večdimenzionalni razsevni diagrami analize razvrščanja v skupine ....... 51 Slika 44: Večdimenzionalni razsevni diagram značilnosti ekip ........................ 52

Page 94: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 88

Slika 45: Preglednica atributov in podatkov modela za razvrščanje igralcev v skupine ........................................................................................ 54 Slika 46: Model za analizo razvrščanja igralcev v skupine ............................. 55 Slika 47: Gradnik za izbor podatkov ...................................................... 56 Slika 48: Gradnik za izbor atributov ...................................................... 56 Slika 49: Razvrščanje igralcev v gruče .................................................... 57 Slika 50: Izbor prikaza podatkov na podlagi centroidov ................................ 57 Slika 51: Gradnik za izbor igralca ......................................................... 58 Slika 52: Analiza razvrščanja igralcev v skupine ........................................ 58 Slika 53: Poročilo analize razvrščanja igralcev v skupine .............................. 59 Slika 54: Preglednica atributov in podatkov modela vpliva igralca na upeh ekipe . 62 Slika 55: Napovedni model za analizo vpliva igralca na uspeh ekipe................. 63 Slika 56: Izbor atributov .................................................................... 64 Slika 57: Razdelitev podatkov na testno in učno množico ............................. 64 Slika 58: Vrednotenje algoritmov klasifikacijskega modela ........................... 65 Slika 59: Graf ocen uporabljenih algoritmov modela ................................... 67 Slika 60: Vizualizacija na podlagi grafa vzporednih koordinat ........................ 68 Slika 61: Prikaz podatkov in napovedi modela .......................................... 68 Slika 62: Nomogram na podlagi ničelnih vrednosti...................................... 69 Slika 63: Nomogram na podlagi spremenjenih vrednosti atributov ................... 69 Slika 64: Odločitveno drevo ................................................................ 70 Slika 65: Hierarhični pregled klasifikacijskega drevesa ................................ 71 Slika 66: Seznam klasifikacijskih pravil ................................................... 71 Slika 67: SWOT analiza uporabe podatkovnega rudarjenja v športu ................. 73

KAZALO TABEL

Tabela 1: Orodja za podatkovno rudarjenje (vir: www.kdnuggets.com) ............ 11 Tabela 2: Pittsburg Penguins – statistika napadalcev................................... 23 Tabela 3: Izračun Evklidske razdalje in Pearsonovega koeficienta korelacije ...... 24 Tabela 4: Izračun števila doseženih točk ................................................. 26 Tabela 5: Tabela povprečne verjetnosti pravilne klasifikacije glede na število atributov ...................................................................................... 43 Tabela 6: Značilnosti ekip – večdimenzionalni razsevni diagram ..................... 52 Tabela 7: Rezultati vzorčenja algoritmov ................................................ 66

POJMOVNIK

Gruča: skupina med seboj podobnih primerov (grozd) Widget: gradnik v programu Orange

KRATICE IN AKRONIMI

AHL: Ameriška hokejska liga (ang. American Hockey League) AUC: natančnost testa (ang. Area Under Receiver-Operating

Characteristic Curve) B2B: medpodjetniško sodelovanje (ang. Business to Business)

Page 95: UPORABA PODATKOVNEGA RUDARJENJA V ŠPORTUizdelali SWOT analizo in predstavili statistike, ki bi jih bilo potrebno uvesti za resnejše analize v slovenskem hokeju. Izdelani modeli so

Univerza v Mariboru – Fakulteta za organizacijske vede Magistrsko delo

Matjaž Ogrinc: Uporaba podatkovnega rudarjenja v športu stran 89

CA: klasifikacijska točnost (ang. Classification Accuracy) CN2: algoritem za učenje indukcijskih pravil CRISP: Metodologija za podatkovno rudarjenje (ang. Cross Industry Standard Protocol) DM: podatkovno rudarjenje (ang. Data Mining) EBEL: Razširjena avstrijska hokejska liga (nem. Erste Bank Eishockey Liga) GUI: uporabniški vmesnik (ang. Graphical User Interface) HITS: programska oprema za zbiranje podatkov na hokejski tekmi (ang. Hockey Information Tracking System) HZS: Hokejska zveza Slovenije IIHF: Mednarodna hokejska zveza (ang. International ice Hockey Federation) INL: Mednarodna liga (ang. Inter National Liga) KDD: odkrivanje znanja iz podatkov (ang. Knowledge Discovery Data) k-NN metoda k-najbližjega soseda (ang. k-Nearest Neighbour) NHL: Severno-ameriška profesionalna hokejska liga (ang. National Hockey

League) ROC: krivulja natančnosti testa (ang. Under Receiver-Operating

Characteristic curve) SIHR: Društvo za mednarodne hokejske raziskave (ang. Society for

International Hockey research) SWOT: analiza prednosti, slabosti, priložnosti ter nevarnosti (ang. Strengths, Weaknesses, Opportunities, Threats)