UNIVERZAVLJUBLJANI! SARAFERLIN! …pefprints.pef.uni-lj.si/3879/1/Diplomsko_Delo_Sara_Ferlin.pdfuniverzavljubljani! pedagoŠkafakulteta!!! saraferlin!! modeliranjevplivalastnosti ŠtudentovnauspeŠno!reŠevanje

UN IVERZA V L JUBL JANI PEDAGOŠKA FAKULTETA

SARA FERL IN

MODEL IRANJE VPL IVA LASTNOST I ŠTUDENTOV NA USPEŠNO REŠEVANJE

ALGORITMIČNO USMERJEN IH PROBLEMSKIH NALOG

D IPLOMSKO DELO

L JUBL JANA , 2016

UN IVERZA V L JUBL JANI PEDAGOŠKA FAKULTETA

UN I VERZ I TETN I Š TUD I J S K I P ROGRAM PRVE S TOPN J E

DVOPREDMETN I U Č I T E L J MATEMAT IKA -‐RAČUNALN I Š TVO

S ARA F ERL IN

M ENTOR I C A : D O C . D R . I R E N A N AN ČOV S K A Š E R B E C

S OMENTOR : R E D . P R O F . D R . L J U P Č O T ODOROV S K I

MODEL IRANJE VPL IVA LASTNOST I ŠTUDENTOV NA USPEŠNO REŠEVANJE

ALGORITMIČNO USMERJENIH PROBLEMSKIH NALOG

D I P LOMSKO DELO

L JUBL JANA , 2016

ZAHVALA

Zahvaljujem se mentorici dr. Ireni Nančovski Šerbec ter somentorju dr. Ljupču

Todorovskem za strokovno vodstvo, pomoč in motivacijo pri nastajanju

diplomskega dela.

Prav tako gre zahvala družini in prijateljem za podporo in potrpežljivost v času

študija ter med pisanjem diplomskega dela.

POVZETEK

Diplomsko delo je motiviralo stereotipno prepričanje, da so nekateri posamezniki

»bolj nadarjeni za programiranje«. Zanima nas, koliko je posamezniku prirojeno in

pridobljeno v splošnem ali bolj natančno – ali je sposobnost reševanja problemov

oziroma algoritmično usmerjenih problemskih nalog, ki je v literaturi navedena kot

veščina, potrebna za uspešno učenje programiranja, prirojena ali pridobljena z

učenjem. V ta namen v prve delu teoretičnega dela opišemo in primerjamo različna

mnenja stroke.

V drugem delu teoretičnega dela diplomske naloge se osredotočimo na rudarjenje

podatkov, predvsem na metodo gradnje napovednega drevesa, ki ga kot napovedni

model kasneje uporabimo v empiričnem delu.

V empiričnem delu opišemo postopek pridobivanja podatkov preko pripravljenega

dvodelnega vprašalnika, s katerim smo ocenili uspešnost posameznikov na testu

reševanja algoritmično usmerjenih problemskih nalog ter pridobili demografske

podatke o anketirancih ter podatke o njihovih lastnostih, ki bi po naši domnevi

lahko vplivale na uspešnost posameznika pri reševanju algoritmično usmerjenih

nalog. Opišemo tudi modeliranje podatkov s pomočjo metod podatkovnega

rudarjenja in strojnega učenja ter povzamemo izsledke, ki nakazujejo, da obstaja

povezava med določenimi lastnostmi posameznikov, kot so uspešnost na maturi iz

matematike, izbira maturitetnih predmetov, pogostost reševanja logičnih ugank idr.,

in uspešnostjo na testu reševanja algoritmično usmerjenih problemskih nalog.

Ključne besede: prirojene in pridobljene sposobnosti, učenje programiranja,

podatkovno rudarjenje, odločitvena drevesa, algoritmično razmišljanje

ACM KLASIFIKACIJA:

K.3 Računalništvo in izobraževanje

K.3.1 Uporaba računalnikov v izobraževanju

K.3.2 Poučevanje računalništva in informatike

ABSTRACT

The inspiration for this diploma thesis is a stereotype that some individuals are

more talented to program than others. We investigate the innate and acquired

origin of abilities in general and in a more specific domain -‐ whether is the ability of

solving algorithmically based exercises, stated in literature as a necessary skill for

successful learning how to program, innate or acquired by learning. The first part of

the theoretical part of diploma thesis is therefore a summary and comparison of

read literature on the subject.

In the second part of the theoretical part of this diploma thesis we focus on the field

of data mining, especially on decision tree induction, being the model later used in

the empirical part.

In the empirical part of this diploma thesis we then describe the method of

acquiring needed data through designing a two-‐part questionnaire, one part of

which was used to evaluate the successfulness of individuals at solving

algorithmically based exercises. The other part was used to acquire the data about

student characteristics, which we believed could be linked to individuals’ success at

solving algorithmically based exercises. We also describe the process of data

modeling, with the use of machine learning and data mining methods, and then

discuss the findings, which indicate the connection between certain characteristics

of individuals (for example: success at mathematics matura exam, the selection of

matura exam subjects, the frequency of solving logical puzzles) and the success at a

algorithmically based exercises solving test.

Keywords: innate and acquired abilities, learning to program, data mining, decision

tree, algorithmic thinking

ACM COMPUTING CLASSIFICATION SYSTEM:

K.3 Computers in Education

K.3.1 Computer Uses in Education

K.3.2 Computer and Information Science Education

KAZALO VSEBINE

UVOD 1

1 TEORETIČNE OSNOVE 3

1.1 ZAKAJ JE PROGRAMIRANJE TEŽKO? 3 1.2 ALGORITMIČNO RAZMIŠLJANJE 7 1.3 REŠEVANJE PROBLEMOV IN PROBLEMSKO UČENJE 8 1.4 PROSTORSKO-‐VIZUALNA PREDSTAVA 9

2 RUDARJENJE PODATKOV 11

2.1 NAPOVEDNO MODELIRANJE KOT DEL RUDARJENJA PODATKOV 11 2.1.1 RUDARJENJE PODATKOV IN NAPOVEDNO MODELIRANJE 11 2.1.2 VHODNI PODATKI 12 2.1.3 NADZOROVANO IN NENADZOROVANO UČENJE 13 2.1.4 KLASIFIKACIJA IN REGRESIJA 13 2.1.5 REPREZENTACIJA ZNANJA NAPOVEDNIH MODELOV 14 2.2 NAPOVEDNI MODELI IN METODE 15 2.2.1 SPLOŠNI PRISTOP K NAPOVEDNEM MODELIRANJU 15 2.2.2 NAPOVEDNI MODELI IN PRIPADAJOČI ALGORITMI UČENJA 17 2.2.3 KREDIBILNOST DOBLJENIH MODELOV 22

3 EMPIRIČNA RAZISKAVA 26

3.1 NAMEN RAZISKAVE, RAZISKOVALNA METODA IN VZOREC 26 3.2 VPRAŠALNIK 27 3.3 PRIPRAVA PODATKOV 28 3.3.1 ČIŠČENJE PODATKOV 28 3.3.2 TRANSFORMACIJA PODATKOV 29 3.3.3 PRIDOBLJENI PODATKI 32 3.4 RUDARJENJE PODATKOV 34 3.4.1 NAPOVEDNI MODEL 34 3.4.2 SKLEP 41

ZAKLJUČEK 42

LITERATURA 44

PRILOGA 1: VPRAŠALNIK

1

UVOD

Sposobnosti reševanja problemov niso nujne le za uspešnost pri programiranju,

temveč so široko uporabne tudi v računalništvu, umetni inteligenci, inženirstvu,

matematiki, medicini, fiziki in nam navsezadnje olajšajo življenje. Skupaj s

sposobnostjo algoritmičnega razmišljanja in ostalimi koncepti računalniškega

razmišljanja le-‐te predstavljajo na številna področja prenosljive spretnosti in

njihovo poučevanje se vedno bolj pogosto pojavlja v osnovnošolskih, srednješolskih

in univerzitetnih kurikulih po vsem svetu. Poučevanje in učenje poteka preko

številnih aktivnih oblik učenja, a z različnimi ravnmi težav in uspešnosti pri učencih

(študentih).

Med učenci1 in študenti prevladuje prepričanje, da so nekateri posamezniki »bolj

nadarjeni za programiranje« oziroma »bolj nagnjeni k tovrstnem razmišljanju«. V

diplomski nalogi se na podlagi tega prepričanja ukvarjamo z vprašanjem, koliko je

posamezniku prirojeno in pridobljeno, bolj natančno -‐ ali je sposobnost reševanja

problemov oziroma algoritmično usmerjenih problemskih nalog, ki je v literaturi

navedena kot veščina, potrebna za uspešno učenje programiranja, prirojena ali je

pridobljena z učenjem (preko ciljno usmerjenega poučevanja računalništva). Zanima

nas, ali lastnosti posameznikov (če kakšne) nakazujejo večjo sposobnost reševanja

algoritmično usmerjenih problemskih nalog. Naš namen dela je nadaljnja analiza ter

iskanje ustreznih didaktičnih modelov oziroma informacij za ustrezno izbiro le-‐teh

pri uvodnem poučevanju programiranja.

Diplomsko delo je sestavljeno iz dveh delov. Prvi del predstavlja teoretične osnove

in zajema povzetek prebrane literature. V njem opisujemo veščine, ki jih raziskovalci

navajajo kot potrebne za uspešno učenje programiranja, premišljujemo in navajamo

različne poglede o tem, kaj je človeku pridobljenega in kaj prirojenega. V

teoretičnem delu opisujemo tudi metode napovednega modeliranja s pomočjo

1 V diplomskem delu bomo z besedo učenci poimenovali osnovnošolske učence, dijake in študente.

2

strojnega učenja. V drugem, empiričnem delu pa opisujemo potek raziskave in

analiziramo rezultate.

3

1 TEORETIČNE OSNOVE

1.1 ZAKAJ JE PROGRAMIRANJE TEŽKO?

Zelo malo je učencev oziroma študentov na osnovnošolski, srednješolski in

visokošolski ravni, ki pravijo, da jim je učenje programiranja lahko. Splošno

prepričanje je, da je programiranje zahtevno in seveda je, saj zahteva uporabo

številnih veščin in kar zajetno količino vaje. Jenkins veščine, potrebne za

programiranje, razdeli v tiste, ki jih je lahko identificirati -‐ torej očitne, kot so

sposobnost reševanja problemov, razumevanje matematičnih konceptov in

nenazadnje sposobnost dela z računalnikom. Manj očitne veščine pa označi kot

»življenjske veščine« (angl. »life skills«), ki se neposredno nanašajo na

posameznikov stil učenja, motivacijo, zanimanje itd. (Jenkins, 2002).

Podobno kot Jenkins tudi Gomesova in Mendes indentificirata veščine, ki se

nanašajo na učenčeve sposobnosti programiranja – med drugimi razumevanje in

reševanje problemov, matematično in logično znanje ter zmožnost abstrakcije

(Gomes & Mendes, 2007). Ambrosio idr. opozarjajo na povezavo med uspehom na

področju programiranja ter dobro prostorsko-‐vizualno predstavo in splošno

inteligenco (Ambrosio, Almeida, Macedo, & Franco, 2014). Wingova pa kot esenco

navaja abstrakcijo in automatizacijo, pri čemer abstrakcije definira kot mentalna

orodja pri programiranju. Slednje pa je automatizacija abstrakcij (npr. s strani

računalnika, stroja) (Wing, 2008).

Dehnadi in Bornat (Bornat, Dehnadi & Barton v Teague, Lister & Ahadi 2014) v

svojem delu opozarjata na pomembnost, da učenec konsistentno uporablja svoj

mentalni model delovanja računalniškega programa oz. računalniškega koncepta –

že v obdobju pred formalno predstavitvijo determinističnega delovanja programov.

Če učenec svoj mentalni model oziroma svoje razumevanje delovanja programa (ki

je lahko pravilno ali napačno) uporablja konsistentno, še preden je deležen

formalnega izobraževanja o delovanju računalniških programov, potem ima -‐ po

izsledkih nekaterih njunih raziskav -‐ boljše možnosti pri učenju programiranja

4

preko formalnega izobraževanja. Dona Teague pa na podlagi njunega dela nadaljuje

s prepričanjem, da uspešnost pri programiranju zahteva sposobnost abstraktnega

razmišljanja in sklepanja, pri čemer je učenje programiranja sekvenčen in

akumulativen razvoj teh potrebnih sposobnosti (torej abstraktnega razmišljanja in

sklepanja) na neznanem področju (v neznani domeni) (Teague, Lister, & Ahadi,

Falling Behind Early and Staying Behind When Learning to Program, 2014), (Teague

2015).

Velikokrat se pri naštevanju veščin, povezanih s sposobnostjo programiranja,

sprašuje tudi o vplivu lastnosti, ki naj bi bile posameznikom prirojene, oziroma o

nadarjenosti.

Dona Teague v svoji disertaciji izrazi prepričanje, da se programiranja lahko nauči

vsakdo. Pri nekaterih je to le dolgotrajnejši proces skozi stopnje razvoja po

neopiagetovi teoriji, ki jo je povezala v procesu učenja programiranja s

pridobljenimi kompetencami. Stopnje razvoja si sledijo v točno določenem

zaporedju in vsaka je pogojena z osvojitvijo kompetenc prejšnjih – nekateri učenci

pač potrebujejo več časa oziroma daljšo izpostavitev ter več izkušenj, da

napredujejo v višje stopnje, ki od njih zahtevajo vedno težji nivo abstraktnega

sklepanja in razumevanja.

Poglejmo si še v splošnem mnenja, koliko je ljudem pravzaprav prirojenega in

koliko pridobljenega skozi razvoj in v interakciji z okoljem.

KAJ JE PRIROJENO IN KAJ PRIDOBLJENO?

»Kar ni vnaprej določeno, se moramo naučiti.« (Bresjanac & Repovš, 2007)

Bresjanacova in Repovš pravita, da se dozdevno neomejena prilagodljivost človeških

možganov in njihova naprednost ne skriva v zapletenosti genetsko določenih

programov, temveč v sposobnosti odkrivanja novih načinov procesiranja in učenju

kompleksnih vzorcev vedenja. Interakcija z okoljem, raziskovanje okolja,

5

preverjanje teorij in zakonitosti, ki okolje določajo, so faktorji, ki dajo končno obliko

miselnim sposobnostim človeškega uma. Genetska zasnova pa naj bi bila bistvena le

za razvoj možganov, da so le-‐ti sposobni percepcije in interakcije z okoljem

(Bresjanac & Repovš, 2007).

Med učenci in študenti, pa tudi med učitelji in starši prevladujejo prepričanja, ki

namigujejo in predpostavljajo o determiniranosti in sposobnostih posameznikov, ki

se povezujejo z izkazanimi sposobnostmi ter odrazu le-‐teh na prevladujočih

kazalcih, kot so ocene in inteligenčni testi. Velikokrat v istem kontekstu govorimo

tudi o talentiranosti oziroma nadarjenosti za določeno dejavnost. Nadarjenost je po

definiciji »sposobnost hitro, brez večjega napora pridobiti si potrebno znanje,

spretnost za dobro opravljanje kake dejavnosti« (Slovar slovenskega knjižnega jezika,

2008). Podobno tudi Bobenčeva nadarjenost definira kot nadarjene učence kot tiste,

ki »so pokazali visoke dosežke ali potenciale na intelektualnem, ustvarjalnem,

specifično akademskem (učnem), voditeljskem, umetniškem in psihomotoričnem

področju« (Juriševič & Stritih, Posvet: Vloga psihologa v vzgoji in izobraževanju

nadarjenih, 2012, str. 59). Juriševičeva pa nadarjenost opiše kot »kompleksen,

razvojno dinamičen in kontekstno pogojen fenomen, ki je rezultat interaktivnega

delovanja bioloških, psiholoških, pedagoških in psiho-‐socialnih dejavnikov ter v

najširšem pomenu predstavlja izjemne človeške potenciale oziroma dosežke«

(Juriševič, Nadarjeni učenci v slovenski šoli, 2012, str. 31). Meyersova idr. pa v

pregledu literature odkrivajo, da med stroko ni zedinjenega mišljenja o prirojeni

oziroma pridobljeni naravi sposobnosti. Argumente o naravi izvora sposobnosti so

razdelile v tri kategorije, kjer avtorji argumentov podpirajo eno izmed stališč -‐ da je

talent izključno prirojen, izključno pridobljen ali pa je rezultat spoja naravnih

danosti in vzgoje (Slika 1) (Meyers, van Woerkom, & Dries, 2013). Na

posameznikovo akademsko uspešnost, uspešnost na delovnem mestu ter uspešnost

pri reševanju problemov pa glede na Bresjanacovo in Repovša bolj kot prirojene

sposobnosti vplivajo še marsikateri drugi dejavniki, kot so razvitost posameznih

oblik mišljenja, emocionalna inteligentnost ter socialna inteligentnost. Potrebno se

je zavedati, da selekcija, ki naj bi pripomogla k učinkovitejšem delovanju družbe in

6

vse predpostavke, opredeljevanja in sklepanja o razlogih za uspešnost ali pa

neuspešnost, zelo hitro postanejo samoizpolnjujoča se prerokba (Bresjanac &

Repovš, 2007).

Slika 1: Argumenti avtorjev glede na zastopano stališče (Meyers, van Woerkom & Dries, 2013).

PRIROJENA NADARJENOST

PRIDOBLJENA NADARJENOST SPOJ NARAVNIH

DANOSTI IN VZGOJE

Nadarjenost pomeni visoko

inteligenco, ki je dokazano genetsko določena.

Obstajajo otroci, ki kažejo izredne sposobnosti na

določenih področjih v zelo

mladih letih.

Izredno sposobnih

posameznikov je zelo malo.

Četudi so vsi posamezniki deležni

enake količine vadbe, bodo nekateri vedno

prekašali druge.

Prirojene značilnosti so nujno potrebne,

ampak ne zadoščajo kot edini pogoj za

prihodnje dosežke.

Dejavniki iz okolja imajo vpliv, amapak se ta kaže različno pri različnih ljudeh.

Talenti izhajajo iz večih povezanih in

posameznih dejavnikov.

Nadarjenost na nekem področju se

lahko preko posebne vadbe

prenese na druga področja.

Skoraj vsakdo lahko postane čudežni

otrok.

Nadarjenost se razvije iz zgodnjih

izkušenj.

Namenska vadba je edini

najpomembnejši pokazatelj

učinkovitosti izvedbe.

7

Vidimo lahko, da so mnenja različna, podobno kot pri specifičnem vprašanju

nadarjenosti za programiranje. Navkljub določenim strogim prepričanjem, da je

sposobnost programiranja oziroma ne-‐težavnega učenja programiranja izključno

vprašanje nadarjenosti, rezultati raziskav niso prepričljivi. Nekateri izsledki pravijo,

da obstaja povezava med sposobnostjo programiranja ter sposobnostjo reševanja

problemov ter matematičnimi izkušnjami, drugi pa, da korelacije med dvema ni.

Jenkins pa vseeno opozarja na možnost povezave med uspešnostjo pri učenju

programiranja in stilom učenja ter motivacijo učenca (Jenkins, 2002).

V duhu zgoraj povzete prebrane literature v empiričnem delu diplomske naloge tako

raziskujemo, ali pri posameznikih brez računalniškega predznanja obstajajo

povezave med izkazano stopnjo razvitosti veščin, ki so bile naštete kot potrebne za

uspešno učenje programiranja (sposobnost reševanja problemov in razumevanje

matematičnih konceptov, abstrakcija, prostorsko-‐vizualna predstava, splošna

inteligenca) in naborom lastnosti posameznikov, kot so izbira maturitetnih

predmetov, stil učenja, navade pri učenju, pa tudi motivacija in ostali demografski

podatki. Namen le-‐tega je raziskati smiselnost nadaljnjih analiz z željo po razvoju,

iskanju in informirani izbiri učnih metod pri začetnem poučevanju programiranja.

Najprej pa si poglejmo, kaj te veščine pravzaprav so. Seveda pa tukaj ne moremo

mimo sposobnosti algoritmičnega razmišljanja, ki je jedrna sposobnost oziroma

znanje, potrebno za uspešno programiranje.

1.2 ALGORITMIČNO RAZMIŠLJANJE

Algoritmično razmišljanje je po Curzonu idr. način, kako pridemo do rešitve preko

jasno definiranih korakov. Slednji, če sledimo natančno, do rešitve podobnih

problemov pripeljejo bodisi osebo bodisi računalnik (Curzon, Dorling, Ng, Selby, &

Woollard, 2014). Wingova algoritmično razmišljanje definira kot način pristopa k

reševanju problemov, po Futscheku pa je algoritem metoda za rešitev problema, sestavljena iz natančno definiranih navodil (Futschek, 2006). Algoritmično

8

razmišljanje je tudi izraz za skupino veščin, ki se povezujejo z grajenjem in

razumevanjem algoritmov, poleg tega pa ima močan kreativni aspekt – samo

konstrukcijo novega algoritma, ki reši dani problem.

Veščine, ki se povezujejo z grajenjem in razumevanjem algoritmov, so sledeče: (1)

zmožnost analize danih problemov, (2) zmožnost natančne določitve problema, (3)

zmožnost identifikacije osnovnih prijemov, primernih za reševanje problema, (4)

zmožnost konstrukcije pravilnega algoritma za dani problem z uporabo osnovnih

prijemov, (5) zmožnost identifikacije splošnih in posebnih primerov znotraj nekega

problema, (6) zmožnost nadgradnje učinkovitosti algoritma (Futschek, 2006).

1.3 REŠEVANJE PROBLEMOV IN PROBLEMSKO UČENJE

Že kar nekaj let v izobraževalnem raziskavanju v ospredje sili tudi sposobnost

reševanja problemov kot ena izmed bistvenih sposobnosti, potrebnih za uspešno

udejstvovanje na računalniškem in drugih matematično-‐tehniških področjih. V

zadnjem času pa se poudarja tudi pomembnost uvajanja poučevanja in razvijanja

sposobnosti reševanja problemov že v zgodnjih letih preko tako imenovanega

problemskega učenja, saj je reševanje problemov široko uporabna veščina, še

posebej v tako hitro tehnološko razvijajočem svetu, kot ga izkušamo trenutno. Poleg

razvijanja različnih sposobnosti se s problemskim učenjem fokusira na učenčevo

samostojnost in aktivnost pri učenju in raziskovanju, na samostojno in individualno

postavljanje in doseganje učnih ciljev in s tem tudi na povečanje učenčeve

motiviranosti za delo ter večje prenosljivosti pridobljenega znanja na realne,

življenjske situacije (Nuutila, Törmä, & Malmi, 2005). Zato ni presenetljivo, da se

PBL (angl. problem based learning) pojavlja v kurikulih institucij vseh stopenj, vedno

več pa je tudi predstavljenih prijemov in metod, ki zagovarjajo uvodno učenje

programiranja, bazirano na problemskem učenju (Barg, in drugi, 2000), (Nuutila,

Törmä, & Malmi, 2005).

9

Ogrodje za razumevanje reševanja problemov, ki naj bi predstavljal povezavo med

učenjem in uporabo, sta že leta 1972 predstavila Newell in Simon v knjigi z

naslovom Human Problem Solving, njuna analiza pa pravzaprav predstavlja splošen

opis strukture človeške kognicije. Reševanje problemov opišeta s koncepti prostor

problema (angl. problem space), stanje (angl. state) in operator (angl. operator),

saj je reševanje problema po Newellu in Simonu posameznikovo prehajanje med

stanji, ki se začne v začetnem stanju problema, nadaljuje s potovanjem preko

vmesnih stanj in konča v stanju, ki zadovolji namen oziroma v stanju rešitve. Z

operatorjem pa označita vse ukrepe, ki transformirajo eno stanje v drugega. Vsa

stanja in možni operatorji določenega problema torej skupaj tvorijo prostor

problema (Anderson, 1993). Tako tudi Lovett definira reševanje problemov kot

kognitivni proces, namenjen transformiranju danega stanja v ciljno stanje, pri čemer

ni na voljo nobene očitne metode reševanja (Lovett, v Greiff & Neubert, 2014).

1.4 PROSTORSKO-‐VIZUALNA PREDSTAVA

Prostorsko-‐vizualna predstava je ena izmed sposobnosti, ki se tesno povezuje z

nadarjenostjo in v najbolj preprostem opisu pomeni sposobnost za mentalno

(notranjo) vizualizacijo in manipulacijo dvo-‐ ali tri-‐dimenzionalnih objektov. Po

Lehmanu je to sposobnost tvoriti, ohranjati, priklicati in transformirati dobro

strukturirane vizualne predstave oziroma slike (Wai, Lubinski, & Benbow, 2009).

Van Garderenova razlikuje kar med petimi različnimi aspekti prostorsko-‐vizualne

predstave, med katerimi sta glavni »vizualna podoba« (angl. visual imagery) kot

reprezentacija izgleda objekta, npr. oblika, barva, in »prostorska predstava« (angl.

spatial imagery) kot reprezentacija prostorskih zvez med deli objekta in lokacijo

objekta v prostoru ali pri premikanju. Vredno je omeniti tudi aspekt »shematske

slike / predstave« (angl. schematic images), ki predstavlja zmožnost predstave in

manipulacije zvez med objekti, opisanih v problemu. Vsak, ki se je kdaj srečal s

programiranjem se namreč zaveda, kako pomembno je dobro razumevanje in

notranja predstava objektov, ki se pojavijo ob reševanju problema. Tipične

problemsko-‐algoritmične naloge, ki zahtevajo dobro prostorsko-‐vizualno predstavo,

10

so labirinti, premikanje objektov s striktnimi pravili premikanja in štetju opravljenih

korakov itd.

Omenimo še, da je bila prostorsko-‐vizualna predstava v delu Supera in Bachracha

že leta 1957 prepoznana kot individualna sposobnost s posebno povezavo do učenja

naprednih matematično-‐tehničnih znanj, potrebnih za karierni razvoj izjemnih

posameznikov na področju STEM (znanost (angl. science), tehnologija (angl.

technology), inženirstvo (angl. engineering), matematika (angl. mathematics)), kar

so potrdili tudi Wai idr. v zadnji raziskavi, ko so povezali zmožnosti prostorsko-‐

vizualne predstave posameznikov s pridobljenimi stopnjami izobrazbe in

zaposlenost na področju STEM (Wai, Lubinski, & Benbow, 2009) , (Grattoni, 2007),

(Van Garderen, 2006).

11

2 RUDARJENJE PODATKOV

2.1 NAPOVEDNO MODELIRANJE KOT DEL RUDARJENJA PODATKOV

Ker se empirični del diplomskega dela opira na napovedno modeliranje, je le to

posebno v ospredju tudi v okviru obravnave / predstavitve teorije rudarjenja

podatkov.

2.1.1 RUDARJENJE PODATKOV IN NAPOVEDNO MODELIRANJE

Tan, Steinbach in Kumar naloge rudarjenja podatkov v grobem razdelijo na tiste,

katerih cilj je napoved (angl. predictive tasks), in tiste, katerih cilj je izpeljava

vzorcev (angl. descriptive tasks), še bolj natančno pa na štiri področja. Prva je

analiza skupin (angl. cluster analysis), ki išče skupine med sabo tesno povezanih

podatkov. Sledi analiza asociacij (angl. association analysis), ki išče vzorce, ki

pojasnjujejo tesno povezane značilnosti podakov. Tretje področje je odkrivanje

anomalij (angl. anomaly detection), kjer se v celotnem naboru podatkov išče

dogodke oziroma karakteristike, ki se občutno razlikujejo od celostnih karakteristik

nabora podatkov. Zadnje in za nas najbolj zanimivo pa je napovedno modeliranje.

Le-‐tega lahko opišemo kot proces rudarjenja podatkov – avtomatiziranega (ali pol-‐

avtomatiziranega) odkrivanja uporabnih informacij in vzorcev v velikih naborih

podatkov – katerega cilj je zgraditi model (odvisne) spremenljivke (angl. dependent

variable) glede na vrednosti ostalih (neodvisnih) spremenljivk (angl. independent

variable) v naboru podatkov (Tan, Steinbach, & Kumar, 2006), (Witten, Eibe, & Hall,

2011).

Sam proces rudarjenja podatkov je bistven del celotnega procesa pridobivanja

informacij iz velikih količin surovih podatkov, ki ga imenujemo odkrivanje znanja

iz podatkovnih baz (angl. knowledge discovery in databases, krajše KDD) (Slika 2).

12

V čem pa se pravzaprav razlikuje rudarjenje podatkov od podatkovne analize? Cilj

podatkovne analize je najti ustrezne, že obstoječe modele, ki se prilegajo podatkom,

ki so v procesu analize. Rudarjenje podatkov pa se ukvarja z odkritjem popolnoma

novih vzorcev oziroma modelov s pomočjo metodologije, ki jo poznamo iz statistike

(vzorčenje, ocenjevanje, testiranje hipotez ...) v kombinaciji s strojnim učenjem -‐

iskalnimi algoritmi, odkrivanjem vzorcev, ekspertnimi sistemi in teorijami

modeliranja in učenja, ki jih poznamo iz umetne inteligence (Alag, 2009).

2.1.2 VHODNI PODATKI

Podatke oziroma obliko podatkov, brez katerih rudarjenja podatkov v resnici ne

moremo opravljati, po Wittnu, Franku in Hallu v namen razlikovanja označimo kot

koncepte (angl. concepts), dogodke (angl. instances) in atribute (angl. attributes).

Za koncept označimo »tisto, kar se je za naučiti«. Na primer, če bi tabelirali, popisali

in označili karakteristike vseh rumeno cvetočih rož, ki jih najdemo na nekem

travniku, bi bilo smiselno »se naučiti« določiti vrsto rože. Informacije, ki jih prejme

učeči, so dane v obliki nabora atributov -‐ dogodkov. En nabor atributov predstavlja

en dogodek in je hkrati individualna, neodvisna predstavitev koncepta, ki se ga

želimo naučiti. Če uporabimo primer od prej, bi en dogodek predstavljal popis

PREDPROCESIRANJE OZIROMA PRIPRAVA

PODATKOV

RUDARJENJE PODATKOV

PO-‐PROCESIRANJE OZIROMA

VIZUALIZACIJA IN INTERPRETACIJA INFORMACIJ

VHODNI PODATKI

INFORMACIJE

Slika 2: Proces pridobivanja znanja iz podatkovnih baz (Tan, Steinbach & Kumar, 2006).

13

karakteristik ene utrgane rumeno cvetoče rože iz travnika. Naslednji dogodek bi bil

popis karakteristik naslednje utrgane rumeno cvetoče rože in tako naprej. Kaj pa so

atributi? Atributi so posamezne vrednosti karakteristik, ki merijo določene lastnosti

in sestavljajo posamezen dogodek. Primer: za posamezno rumeno cvetočo rožo na

travniku lahko ovrednotimo naslednje karakteristike: število cvetov (npr. 5),

premer enega cveta (npr. 2 cm), število cvetnih listov (npr. 7), višina rože (npr. 20

cm), barvna niansa cvetov (npr. svetlo rumena) itd. Atribute glede na tip delimo na

nominalne (oz. opisne) in numerične (oz. številske) atribute (Witten, Eibe, & Hall,

2011), (Tan, Steinbach, & Kumar, 2006).

2.1.3 NADZOROVANO IN NENADZOROVANO UČENJE

Podatkovno bazo oziroma množico dogodkov, na kateri izvajamo rudarjenje

podatkov, navadno razdelimo na testno množico in množico za učenje. Množico za

učenje uporabljamo pri procesu učenja, testno množico pa za namen preverjanja,

kako »dobro« smo se naučili. V kolikor množica za učenje oziroma vsak dogodek v

tej množici vsebuje atribut z napovedno vrednostjo, potem rudarjenju podatkov na

taki podatkovni bazi pravimo nadzorovano učenje. Atributu z napovedno

vrednostjo pravimo tudi ciljni atribut. Še dodatno, kadar govorimo o ciljnem

atributu pri modeliranju klasifikacijskega problema, ta atribut oziroma rezultat

označimo kot razred (angl. class label). Napovedno modeliranje je torej grajenje

matematičnih modelov za napovedovanje vrednosti ciljnega atributa. Če ciljnega

atributa v podatkovni bazi ni, potem govorimo o nenadzorovanem učenju. Pri

nenadzorovanem učenju posameznih vrednosti atributov ne moremo napovedovati,

lahko pa med podatki iščemo skupine, kjer so dogodki glede na določene atribute

tesno povezani (Alag, 2009).

2.1.4 KLASIFIKACIJA IN REGRESIJA

Zanima nas še nadzorovano učenje. Kadar je ciljni atribut kategoričen, to pomeni

diskreten, takrat govorimo o klasifikacijskem problemu. Taki atributi navadno

spadajo v kategorijo nominalnih atributov. O regresijskem problemu pa govorimo,

14

kadar je ciljni atribut numeričen. Obstajata dve vrsti regresije: linearna regresija, ki

je najenostavnejša in pri kateri podatke modeliramo tako, da se čim bolj prilegajo

linearni premici oziroma ravni črti, ter nelinearna regresija (Tan, Steinbach, &

Kumar, 2006), (Alag, 2009).

2.1.5 REPREZENTACIJA ZNANJA NAPOVEDNIH MODELOV

V razdelku na strani 12 so bili opisani vhodni podatki, sedaj pa si poglejmo še

izhodne podatke oziroma reprezentacije pridobljenega znanja (angl. knowledge

representation).

2.1.5.1 TABELE Najbolj preprosta in osnovna predstavitev izhodnih podatkov strojnega učenja je

tabela. Glede na tip ciljnega atributa ločujemo med klasifikacijskimi in regresijskimi

tabelami.

2.1.5.2 ODLOČITVENA DREVESA Odločitvena drevesa, ki predstavljajo »deli in vladaj«, način gradnje modelov

proizvedejo isto imensko reprezentacijo odločitveno drevo (angl. decision tree). V

vsakem vozlišču drevesa testiramo določeno vrednost atributa, navadno s

primerjavo vrednosti s konstanto, določeno med strojnim učenjem. To pa ni edini

način – v vozliščih lahko tudi primerjamo atribute med sabo ali pa uporabimo

funkcijo, ki povezuje vrednosti več atributov. Pri klasificiranju posameznega

dogodka tako z njegovimi atributnimi vrednostmi začnemo v korenu drevesa

(vozlišču brez vhodnih vej in nič ali več izhodnimi vejami) in nato glede na vrednosti

atributov in primerjavami potujemo po notranjih vozliščih (vozliščih drevesa z

natanko eno vhodno vejo in dvema ali več izhodnih vej) do listov (vozlišč z natanko

eno vhodno vejo in brez izhodnih vej), kjer je dogodek klasificiran glede na razred,

ki ga zastopa list, v katerega smo prispeli.

15

2.2 NAPOVEDNI MODELI IN METODE

Napovedne modele si lahko razlagamo tudi kot sistematičen pristop k učenju na

veliki bazi podatkov. Vsaka metoda vsebuje svoj algoritem učenja, ki identificira

oziroma zgradi model, ki najbolje ustreza povezavi med ciljnim ter ostalimi atributi.

2.2.1 SPLOŠNI PRISTOP K NAPOVEDNEM MODELIRANJU

Slika 3 prikazuje shemo splošnega pristopa k nadzorovanemu napovednemu

modeliranju. Kot smo že omenili, pri napovednem modeliranju bazo podatkov, na

kateri izvajamo rudarjenje podatkov, razdelimo na dve podmnožici – množico za

učenje (angl. training set) in testno množico (angl. test set). Prvo uporabimo za

učenje oziroma grajenje modela, drugo pa za testiranje njegove učinkovitosti.

Preverjanje učinkovitosti je bazirano na zapisu, koliko dogodkov je bilo

klasificiranih pravilno ter koliko narobe, in tabelirano. Navadno tabela pravilnih in

nepravilnih klasifikacij ni najboljša predstavitev za hitro ocenjevanje učinkovitosti

modela, zato v ta namen uporabimo metriko učinkovitosti (angl. performance

metric), kjer po formuli v sliki 4 izračunamo stopnjo pravilnosti (angl. accuracy) in

pogostost napak (angl. error rate) (Tan, Steinbach, & Kumar, 2006).

16

MNOŽICA PODATKOV ZA

UČENJE

TESTNA MNOŽICA

GRAJENJE MODELA / UČENJE

UPORABA DOBLJENEGA MODELA

ALGORITEM UČENJA

NAPOVEDNIMODEL

indukcija

dedukcija

𝑠𝑡𝑜𝑝𝑛𝑗𝑎 𝑝𝑟𝑎𝑣𝑖𝑙𝑛𝑜𝑠𝑡𝑖 = š𝑡𝑒𝑣𝑖𝑙𝑜 𝑝𝑟𝑎𝑣𝑖𝑙𝑛𝑖ℎ 𝑛𝑎𝑝𝑜𝑣𝑒𝑑𝑖š𝑡𝑒𝑣𝑖𝑙𝑜 𝑣𝑠𝑒ℎ 𝑛𝑎𝑝𝑜𝑣𝑒𝑑𝑖

𝑝𝑜𝑔𝑜𝑠𝑡𝑜𝑠𝑡 𝑛𝑎𝑝𝑎𝑘 = š𝑡𝑒𝑣𝑖𝑙𝑜 𝑛𝑎𝑝𝑎č𝑛𝑖ℎ 𝑛𝑎𝑝𝑜𝑣𝑒𝑑𝑖š𝑡𝑒𝑣𝑖𝑙𝑜 𝑣𝑠𝑒ℎ 𝑛𝑎𝑝𝑜𝑣𝑒𝑑𝑖

Slika 3: Splošni pristop h grajenju napovednega modela (Tan, Steinbach & Kumar, 2006).

Slika 4: Formuli za izračun stopnje pravilnosti in pogostosti napak (Tan, Steinbach & Kumar, 2006).

17

2.2.2 NAPOVEDNI MODELI IN PRIPADAJOČI ALGORITMI UČENJA

V tem razdelku pa si bomo pobližje pogledali, kako oziroma s kakšnimi algoritmi

učenja pridemo do posameznih izbranih modelov.

2.2.2.1 ODLOČITVENA DREVESA

ALGORITEM ODLOČITVENEGA DREVESA

Konstrukcija odločitvenega drevesa poteka rekurzivno. Najprej izberemo atribut za

koren drevesa in ga razvejimo tako, da vsaki različni vrednosti korenskega atributa

priredimo vejo. To razdeli množico dogodkov v posamezne podmnožice – glede na

vrednosti izbranega atributa. Nato proces ponovimo rekurzivno, po vsaki izmed vej,

ki poteka iz korena drevesa. Ko potujemo po vejah, nova vozlišča, ki jih dodajamo,

niso več koreni, temveč notranja vozlišča drevesa. Vsakemu vozlišču dodelimo

atribut in ga razvejimo, pri tem pa za razvejitev uporabljamo le tiste dogodke, ki

dosežejo posamezna vozlišča. Le-‐ti zadostujejo izbranim vrednostim atributom

prirejenim posameznim vejam. V kolikor se v vozlišču zgodi, da ga ne moremo

razvejiti, to pomeni, da imajo vsi dogodki, ki so prispeli do tega vozlišča isto

klasifikacijo. Takrat zaključimo z razvojem tega dela drevesa. Zapišimo to sedaj še v

krajši psevdokodni obliki (Witten, Frank, & Hall, 2011).

18

Opisani algoritem (slika 5) je pravzaprav Huntov algoritem in je osnova številnih

algoritmov za gradnjo odločitvenih dreves, kot so ID3, C4.5 in CART. Oba algoritma,

ID3 in C4.5 je razvil Quinlan Ross, prvega leta 1986, drugega pa leta 1993. C4.5 je

pravzaprav nadgraditev algoritma ID3. Med ostalimi razlikami in izboljšavami je

mogoče najočitnejša ta, da ID3 sprejme le diskretne atribute, medtem ko C4.5

sprejme tudi zvezne. CART pa razvil Breiman, leta 1984. Od drugih algoritmov, ki

temeljijo na Huntovem se razlikuje po tem, da se ga lahko uporabi tako za gradnjo

klasifikacijskih, kot tudi regresijskih dreves (tako seveda mora sprejeti diskretne in

zvezne atribute), med drugim pa vsebuje tudi način za odpravljanje težav z

manjkajočimi vrednosti atributov (Anyanwu & Shiva, 2009) (Tan, Steinbach, &

Kumar, 2006).

METODE ZA IZRAŽANJE POGOJEV RAZDELITVE

Poglejmo si sedaj dva izmed problemov, ki jih srečujemo pri grajenju odločitvenih

dreves.

• Kako naj dogodke, ki jih pripeljemo do posameznega vozlišča razdelimo v

manjše podmnožice – kako določimo pogoje?

𝐷! ~ 𝑚𝑛𝑜ž𝑖𝑐𝑎 𝑑𝑜𝑔𝑜𝑑𝑘𝑜𝑣 𝑖𝑧 𝑚𝑛𝑜ž𝑖𝑐𝑒 𝑧𝑎 𝑢č𝑒𝑛𝑗𝑒 𝑣 𝑛𝑒𝑘𝑒𝑚 𝑣𝑜𝑧𝑙𝑖šč𝑢 𝑡 𝑦 = 𝑦!, 𝑦!,… , 𝑦! ~ 𝑜𝑧𝑛𝑎𝑘𝑒 𝑟𝑎𝑧𝑟𝑒𝑑𝑜𝑣

𝑲𝑶𝑹𝑨𝑲 𝟏: č𝑒 𝑣𝑠𝑖 𝑑𝑜𝑔𝑜𝑑𝑘𝑖 𝑣 𝐷! 𝑝𝑟𝑖𝑝𝑎𝑑𝑎𝑗𝑜 𝑖𝑠𝑡𝑒𝑚𝑢 𝑟𝑎𝑧𝑟𝑒𝑑𝑢 𝑦! ,

𝑝𝑜𝑡𝑒𝑚 𝑗𝑒 𝑡 𝐿𝐼𝑆𝑇 𝑜𝑧𝑛𝑎č𝑒𝑛 𝑘𝑜𝑡 𝑦!

𝑲𝑶𝑹𝑨𝑲 𝟐: č𝑒 𝐷! 𝑣𝑠𝑒𝑏𝑢𝑗𝑒 𝑑𝑜𝑔𝑜𝑑𝑘𝑒, 𝑘𝑖 𝑝𝑟𝑖𝑝𝑎𝑑𝑎𝑗𝑜 𝑣𝑒č 𝑘𝑜𝑡 𝑒𝑛𝑒𝑚𝑢 𝑟𝑎𝑧𝑟𝑒𝑑𝑢 ,

𝑝𝑜𝑡𝑒𝑚 𝑠𝑒 𝑝𝑜𝑖šč𝑒 𝑝𝑜𝑔𝑜𝑗𝑒 𝑧𝑎 𝑡𝑒𝑠𝑡𝑖𝑟𝑎𝑛𝑗𝑒 𝑣𝑟𝑒𝑑𝑛𝑜𝑠𝑡𝑖 𝑎𝑡𝑟𝑖𝑏𝑢𝑡𝑜𝑣, 𝑘𝑖 𝑑𝑜𝑔𝑜𝑑𝑘𝑒

𝑟𝑎𝑧𝑝𝑑𝑒𝑙𝑖 𝑣 𝑝𝑜𝑠𝑎𝑚𝑒𝑧𝑛𝑒 𝑝𝑜𝑑𝑚𝑛𝑜ž𝑖𝑐𝑒;

𝑢𝑠𝑡𝑣𝑎𝑟𝑖 𝑠𝑒 𝑛𝑜𝑣𝑜 𝑣𝑜𝑧𝑙𝑖šč𝑒 𝑧𝑎 𝑣𝑠𝑎𝑘𝑒𝑔𝑎 𝑖𝑧𝑚𝑒𝑑 𝑝𝑜𝑔𝑜𝑗𝑒𝑣;

𝑑𝑜𝑔𝑜𝑑𝑘𝑒 𝐷! 𝑠𝑒 𝑟𝑎𝑧𝑑𝑒𝑙𝑖 𝑝𝑜 𝑣𝑜𝑧𝑙𝑖šč𝑖ℎ 𝑔𝑙𝑒𝑑𝑒 𝑛𝑎 𝑝𝑟𝑎𝑣𝑖𝑙𝑎;

𝒂𝒍𝒈𝒐𝒓𝒊𝒕𝒆𝒎 𝒋𝒆 𝒏𝒂𝒕𝒐 𝒖𝒑𝒐𝒓𝒂𝒃𝒍𝒋𝒆𝒏 𝒓𝒆𝒌𝒖𝒓𝒛𝒊𝒗𝒏𝒐.

Slika 5: Huntov algoritem (Tan, Steinbach & Kumar, 2006).

19

• Kdaj naj se postopek razdelitve ustavi? (Tan, Steinbach, & Kumar, 2006)

Kot smo videli, je v vsakem vozlišču drevesa razen v listu potrebno dogodke

razdeliti na manjše podmnožice, da lahko vozlišče razvejimo. Kaj pa se zgodi, kadar

z razdelitvijo nastane toliko podmnožic, da je drevo preveliko, nepregledno in ne

proizvede dobrih klasifikacijskih rezultatov?

Poglejmo si štiri preproste metode za izražanje pogojev razdelitve vrednosti

atributov glede na tip atributov.

o Pogoji pri binarnih atributih tvorijo le dva možna izida. Recimo: atribut del

dneva razdelimo na dan in noč.

o Pri nominalnih atributih, ki imajo lahko več možnih vrednosti, lahko pogoj

povzroči več možnih razdelitev. Ena je večdelna (angl. multiway), kjer atribut

razdelimo na vsako izmed možnih vrednosti posebej. Recimo, atribut del

dneva sedaj razdelimo na jutro, dopoldne, popoldne in večer. Lahko pa jih

ponovno razdelimo binarno z grupiranjem vrednosti. Na primer, del dneva

razdelimo tako, da vrednosti združimo na jutro in večer ter dopoldne in

popoldne.

o Pri ordinalnih atributih lahko ponovno delimo binarno ali večdelno. Paziti

moramo le, da grupiranje ne krši urejenosti zaporedja. Namreč, če bi imeli

atribut velikost majice, ki zajema vrednosti S, M, L, XL, potem bi jih binarno

lahko razdelili na S, M ter L, XL, ne pa na S, L ter M, XL, ker bi slednje kršilo

pravilo zaporedja.

o Pri zveznih atributih pa pogoj lahko predstavimo kot primerjalni test. Za

neko število A (atribut) namreč lahko povemo ali velja 𝐴 = 𝑣,𝐴 < 𝑣,𝐴 > 𝑣,…

Ponovno lahko delimo binarno ali večdelno – pri binarnem preverjamo le en

pogoj, na primer 𝐴 > 𝑣 (velja ali ne velja), pri večpotnem pa delimo glede na

več pogojev, na primer: 𝐴 < 𝑣!, 𝑣! ≤ 𝐴 ≤ 𝑣!, 𝑣! < 𝐴 itd. (Tan, Steinbach, &

Kumar, 2006).

20

MERE ZA IZBIRO NAJBOLJŠE RAZDELITVE

Poleg metod za razdelitev poznamo tudi različne mere na podlagi katerih izberemo

najboljšo razdelitev. Le-‐te so definirane glede na to kakšno porazdelitev razredov

dobimo po razdelitvi, kar imenujemo stopnja nečistosti vozlišča. Meritve nečistoče

vozlišč so na primer entropija, gini in klasifikacijska napaka. Najšriše

uporabljena med njimi je entropija, vendar kot sestavni del drugih formul za izbiro

najboljše razdelitve.

Uporaba informacijske pridobitve je eden izmed načinov kako lahko že med

grajenjem modela skrbimo za to, da bo model dobro napovedoval in posredno tudi

način preprečevanja prevelike razrastitve drevesa, oziroma razdeljevanja vozlišč na

preveliko število naslednikov. Prevelika drevo namreč povroči nezanesljivo

napovedovanje, ker do vsakega lista drevesa pride premajhno število dogodkov

kateri niso nujno dobri predstavniki klasificiranega razreda. Ena možnost je, da se

omejimo na binarne razdelitve. Ta prijem je uporabljen pri algoritmu CART. Druga

možnost pa je uporaba informacijske pridobitve.

Z ∆!"#$ označimo razliko v stopnji nečistosti vozlišča predhodnika (pred

razdelitvijo) in njegovih naslednikov (pridobljenih z razdelitvijo) in jo imenujemo

informacijska pridobitev oziroma na kratko samo pridobitev (angl. information

gain). Pridobitev (∆) je kriterij, ki nam pove kako »dobra« je potencialna razdelitev,

izračunamo pa jo po naslednji formuli.

∆ = 𝐼 𝑝𝑟𝑒𝑑ℎ𝑜𝑑𝑛𝑜 𝑣𝑜𝑧𝑙𝑖šč𝑒 − 𝑁 𝑣!𝑁

!

!!!

𝐼(𝑣!)

Slika 6: Formula za izračun informacijske pridobitve (Tan, Steinbach & Kumar, 2006).

21

Pri tem je 𝐼(𝑥) stopnja nečistosti oziroma entropija vozlišča 𝑥, 𝑘 je število različnih

vrednosti atributa (na podlagi katerega izvjajo razdelitev), 𝑁 je celotno število

dogodkov predhodnega vozlišča, 𝑁(𝑣!) pa je število dogodkov, ki bodo po razdelitvi

pripadali vozlišču nasledniku 𝑣! . Ker je predhodno vozlišče eno samo je njegovo

stopnjo nečistosti preprosto izračunati in je enaka za vse možne razdeltive, ki jih

preverjamo. Naslednikov predhodnega vozlišča pa je po razdelitvi seveda več, zato

moramo informacijsko pridobitev izračunati za vsako posamezno vozlišče 𝑣! (𝐼(𝑣!)),

jo pomnožiti z utežjo, ki določi »koliko« nečistosti prispeva vsako posamezno

vozlišče, ter le-‐to sešteti. Ker računamo razliko dveh tako pridobljenih vrednosti, je

seveda logično, da želimo, da je razlika – informacijska pridobitev seveda največja

možna.

Prijem uporabljen pri algoritmu C4.5 pa je še izboljšana različica informacijske

pridobitve. Informacijska pridobitev namreč preferira atribute, pri katerih je število

različnih vrednosti veliko. V namen odpravljanja te težave se potem uporablja mera

imenovana razmerje informacijskega prispevka (angl. gain ratio), kjer se v

povezavi z informacijsko pridobitvijo upošteva še število in velikost vozlišč

naslednikov (Tan, Steinbach, & Kumar, 2006), (Witten, Frank, & Hall, 2011).

PRENAUČENOST MODELA IN REZANJE DREVES

Če so bile mere za določitev najboljše razdelitve ukrepi za grajenje efektivnega

napovednega modela in zmanjšanje razraščenosti drevesa take, ki jih lahko

uporabljamo izključno med grajenjem samega drevesa, potem je rezanje dreves

(angl. prunning) ukrep, ki se ga sicer lahko poslužimo že med gradnjo drevesa,

največkrat pa šele potem, ko je napovedno drevo že do konca zgrajeno. Polno

razraščena drevesa namreč velikokrat vsebujejo nenujne in nepomembne strukture,

zato je priporočljivo, da se jih pred uporabo poenostavi. Poleg zadnjega, pa se med

gradjo pojavlja fenomen, ki mu pravimo prenaučenost modela (angl. model

overfitting).

22

Značilnost dobrega klasifikacijskega modela ni zgolj, da se dobro prilega podatkom

na podlagi katerega smo ga zgradili, zahtevamo tudi dobro posploševanje. Namreč

če se klasifikacijski model preveč prilega podatkom iz učenja, se bo potem slabo

obnesel pri klasifikaciji novih dogodkov, česar si seveda ne želimo. Taki situaciji

pravimo prenaučenost modela.

Vrnimo se sedaj k rezanju. V kolikor se rezanja drevesa lotimo že med samo gradnjo,

potem temu procesu rečemo vnaprejšnje rezanje (angl. forward prunning ali

preprunning). Pri vnaprejšnjem rezanju se med grajenjem drevesa odločamo na

kateri točki oziroma kdaj bomo prenehali z razvojem poddreves, kar je zelo

mikavno. Namreč, zakaj bi se trudili z razvojem poddreves, če jih bomo na koncu

zavrgli. Vendar ima tudi končno rezanje (angl. postprunning ali backward

prunning) svoje prednosti. Včasih se namreč zgodi, da dva posamezna atributa k

napovedi ne prispevata ničesar, ko pa sta združena pa imata skupaj veliko

napovedno moč. Posledično se v veliki večini uporablja izključno končno rezanje,

vnaprejšnega rezanja pa se poslužuje le ko je čas grajenja modela velikega pomena

(Tan, Steinbach, & Kumar, 2006), (Witten, Frank, & Hall, 2011).

2.2.3 KREDIBILNOST DOBLJENIH MODELOV

V prejšnjih poglavnjih smo spoznali kar nekaj načinov, kako iz podatkov pridobimo

stukture oziroma modele, v dani situaciji pa se je potrebno odločiti katerega od

načinov pravzaprav uporabiti. V celotni sliki napovednega modeliranja si namreč

želimo model s čim boljšo zmožnostjo posplošitve, torej, model, ki nam bo dal čim

bolj natančne in zanesljive rezultate, ko ga bomo uporabili na sveži množici

podatkov.

Kadar imamo veliko zalogo podatkov s katerimi lahko operiramo s posplošitvijo

načeloma nimamo težav, saj lahko veliko množico podatkov razdelimo na dovolj

veliko množico podatkov za učenje in dovolj veliko množico podatkov namenjenih

testiranju. Vendar temu ni vedno tako, še posebej ko imamo na voljo manjše količine

podatkov, pa tudi pri velikih količinah podatkov ni nujo, da so vsi dani podatki

23

dovolj kvalitetni. V nadaljevanju si bomo ogledali nekaj metod, uporabljenih v

namen povečevanja generalizacije pri majhnih bazah podatkov.

Med drugim, pa bi nas lahko zanimalo tudi kako uspešni so posamezni modeli pri

napovedovanju, če njihove rezultate primerjamo med sabo. Vendar se ponovno

pojavi problem – ne moremo namreč biti prepričani, da so dobljene razlike res

posledica različnih zmogljivosti modelov in ne naključne, zato se pri preveranju

poslužimo statističnih testov.

2.2.3.1 UČENJE IN TESTIRANJE Kot smo že videli v poglavju 2.2 uspešnost napovednega modela merimo preko

vrednosti, ki jo imenujemo stopnja napake (ali obrata, pogostosti pravilnosti). V

kolikor bi upoštevali stopnjo napake uspešnosti modela, ki smo ga uporabili na

množici za učenje, le-‐ta ne bi bila preveč zanesljiva, saj bi bila vrednost stopnje

napake preveč optimistična – dobili bi namreč preveč pravilno klasificiranih

dogodkov, saj je bil model zgrajen ravno na njih. Poglejmo torej metode s katerimi

se preveč optimističnim napovedim izogibamo.

METODA HOLDOUT

Metodo holdout smo pravzaprav že spoznali saj je najbolj neposredna izmed vseh.

Celotno bazo podatkov namreč razdelimo na dve množici – množico za učenje in

množico za testiranje. Množico za učenje uporabimo za grajenje modela, množico za

testiranje pa uporabimo za izračun stopnje nepravilnosti modela, ki smo ga zgradili.

Seveda, pa ima metoda holdout svoje pomanjkljivosti. Prvo smo omenili že v uvodu,

namreč, majhno bazo podatkov težko razdelimo še na dva ločena dela, saj s tem

zmanjšamo zmožnost posplošitve modela, ker smo ga zgradili na zelo omejenem

številu podatkov. Če pa že imamo dovolj veliko bazo podatkov, pa se nam pri

deljenju na dve množici lahko zgodi, da se množici razdelita neprimerno – torej, da v

vsaki množici ni zadostno število reprezentantov določenega razreda. Paziti

moramo tudi po kakšnem merilu razdelimo podatkovno bazo, torej kolikšen delež

podatkov namenimo učni množici in kolikšen testni (Tan, Steinbach, & Kumar,

2006) (Witten, Frank, & Hall, 2011).

24

METODA NAKLJUČNEGA PODVZORČENJA (ANGL. RANDOM SUBSAMPLING)

Da se izognemo možnosti neprimernih delitev množic pri metodi holdout, se

poslužimo metode naključnega podvzorčenja, ki je pravzaprav številna ponovitev

medote holdout, vsakič z drugačno razdelitvijo baze podatkov na dve podmnožici.

Za končno vrednosti stopnje napake tako vzamemo povprečje stopenj napak

posamezno izvedenih holdout metod.

METODA PREČNE VALIDACIJE (ANGL. CROSS-‐VALIDATION)

Metoda prečne validacije je alternativa metodi naključnega podvzorčenja,

uporabljena predvsem pri manjših podatkovnih bazah. Vsak dogodek v bazi

podatkov je namreč uporabljen večkrat pri procesu učenja in natanko enkrat pri

procesu testiranja. Število, kolikrat je posamezen dogodek uporabljen pri procesu

učenja je odvisno od vrste metode prečne validacije, ki jo uporabimo. Na primer, če

uporabimo 𝑘-‐prepognjeno prečno validacijo (angl. k-‐fold cross validation), potem

bazo podatkov razdelimo na 𝑘 enako močnih podmnožic, pri čemer 𝑘 − 1

podmnožic uporabimo za učenje in eno preostalo za testiranje. Nato ponovno

vzamemo eno izmed podmnožic, ki jih nismo še uporabili za testiranje in jo

namenimo testiranju, preostalih 𝑘 − 1 pa uporabimo za učenje in tako naprej, dokler

nismo vsake izmed 𝑘 podmnožic izbrali za testiranje natanko enkrat in natanko

𝑘 − 1 krat za učenje, kar skupaj znese 𝑘 iteracij. Stopnja napake je ponovno

izračunana kot povprečje stopenj napak pri posamezni iteraciji.

Omenimo še posebni primer k-‐krat prepognjene prečne validacije, tako imenovano

leave-‐one-‐out metodo, kjer je število 𝑘 nastavljeno tako, da je 𝑘 kar število vseh

dogodkov v bazi podatkov. Ta metoda ima dobro lastnost, da je pri učenju

uporabljena največja možna količina podatkov, slaba lastnost pa je, da je precej

počasna metoda, saj zahteva veliko iteracij. Poleg tega pa vsaka testna množica

vsebuje le en dogodek, torej tudi zmožnost posplošitve lahko variira (Tan,

Steinbach, & Kumar, 2006) (Witten, Frank, & Hall, 2011).

25

METODA BOOTSTRAP

Metoda bootstrap se razlikuje od preostalih metod po tem, da posamezen dogodek

potem, ko smo ga že izbrali za učenje vrnemo nazaj v bazo podatkov. Tako se zgodi,

da so v testni in učni množici naenkrat isti dogodki, kar se pri ostalih metodah ne

more zgoditi.

Če originalna podatkovna baza vsebuje 𝑁 dogodkov, potem v povprečju velja, da

podmnožica dogodkov namenjena učenju in pridobljena z metodo bootstrap vsebuje

63.2 % dogodkov iz originalne baze podatkov. Dogodke, ki niso vključeni v učno

množico pa dodamo v množico za testiranje. Par tako pridobljenih učne in testne

množice imenujnemo bootstrap vzorec in ga označimo z 𝜖! . Metodo pridobivanja

bootstrap vzorcev nato ponovimo b-‐krat in dobimo b 𝜖! vzorcev, za vsakega izmed

katerih je izračunana stopnja napake (seveda stopnja napake testne množice vzorca

𝜖!) (Tan, Steinbach, & Kumar, 2006) (Witten, Frank, & Hall, 2011).

Za izračun skupne stopnje napake obstaja več metod, ena izmed najbolj široko

uporabljenih je metoda .632 bootstrap (Tan, Steinbach, & Kumar, 2006) (Witten,

Frank, & Hall, 2011).

26

3 EMPIRIČNA RAZISKAVA

3.1 NAMEN RAZISKAVE, RAZISKOVALNA METODA IN VZOREC

V diplomskem delu skušamo ugotoviti ali lahko preko modeliranja lastnosti učencev

odkrijemo morebitne povezave med lastnostmi in uspešnostjo pri reševanju

algoritmično usmerjenih problemskih nalog. V ta namen smo sestavili vprašalnik

sestavljen iz dveh delov. Prvi del vsebuje algoritmično usmerjene problemske

naloge. Drugi del vprašalnika vsebuje vprašanja o demografskih podatkih, učnem

uspehu in učnih navadah posameznikov. Skušali smo ugotoviti, ali lahko preko

modeliranja lastnosti učencev oziroma ankteriancev odkrijemo morebitne povezave

med lastnostmi in uspešnostjo na testu reševanja algoritmično usmerjenih

problemskih nalog, kar bi nakazovalo na boljše preddispozicije za kasnejše učenje

programiranja (če kot Donna Teague privzamemo mnenje, da se lahko programirati

nauči vsakdo, le da nekateri potrebujejo več časa).

V raziskavi smo uporabili modeliranje podatkov s pomočjo metod podatkovnega

rudarjenja in strojnega učenja. Z vprašalnikom pridobljene podatke smo obdelali v

paketu za podatkovno rudarjenje WEKA, prosto dostopnem na spletni strani

univerze Waikato.

V vzorec je bilo zajetih 247 posameznikov, med njimi študenti Pedagoške fakultete,

Univerze v Ljubljani, smer razredni pouk, dijaki Bežigrajske gimnazije in Srednje

šole Josipa Jurčiča Ivančna Gorica ter ostali priložnosti anketiranci. Predpogoj za

reševanje vprašalnika je bil, da posameznik nima nikakršnega računalniškega

oziroma programerskega predznanja (večjega od povprečnega uporabnika).

Vprašalnik smo oblikovali v spletni aplikaciji Google Forms, kjer so se beležili tudi

odgovori. Razširili smo ga elektronsko, preko družabnega omrežja ter s pomočjo

kontaktnih oseb – dijaka na Srednji Šoli Josipa Jurčiča Ivančna Gorica, dijakinje na

Bežigrajski gimnaziji, ter profesorice na Pedagoški fakulteti.

27

3.2 VPRAŠALNIK

Na podlagi prebrane literature in s pomočjo testa sposobnosti algoritmičnega

razmišljanja in reševanja problemov s portala www.nclab.com smo sestavili prvi del

vprašalnika. NcLab je ameriški spletni portal, ki ponuja on-‐line tečaje programiranja

(Karel, Python) in 3D modeliranja za otroke v sklopu šolskega programa K-‐12 in

študente, ter gradiva namenjena učenju programiranja za učitelje v osnovnih šolah.

Ta del vprašalnika prestavlja test reševanja algoritmično usmerjenih problemskih

nalog, ki sestoji iz 14 vprašanj zaprtega tipa – 12 izbirnih vprašanj in 2 vprašanji z

vnosnim poljem.

Posamezna vprašanja oziroma naloge na testu reševanja algoritmično usmerjenih

problemskih nalog preverjajo eno ali kombinacijo sposobnosti: zmožnost

prostorske predstave, sledenje navodilom (opisanim algoritmom) in upoštevanje

pravila iteracij, logično sklepanje, upravljanje z mentalnimi modeli ter splošno

zmožnost razumevanja in reševanja problemskih nalog. Le te so navajane kot

potrebne sposobnosti za uspešno programiranje / učenje programiranja

( (Ambrosio, Almeida, Macedo, & Franco, 2014), (Gomes & Mendes, 2007), (Teague,

Neo-‐Piagetian Theory and the Novice Programmer, 2015), (Wing, 2008)).

V testu (Priloga 1) so vključene naloge različnih težavnosti – načeloma lažja

vprašanja (z izjemo vprašanj, ki vsebujejo Cardanovo rešetko) so tista, ki preverjajo

le eno izmed zgoraj naštetih sposobnosti. Vprašanji 1 in 2 na primer preverjata le

prostorsko predstavo, medtem, ko sta vprašanji 3 in 4 nadagradnji vprašanja 2, ki

poleg prostorske predstave zahtevata še nivo logičnega sklepanja. Za lažjega se je

izkazalo tudi vprašanje 5, ki je bilo reševano slabše kot vprašanje 6, čeprav oba

preverjata sposobnost mentalnega upravljanja z objekti. Vprašanja 7, 8 in 10

preverjajo sposobnost sledenja opisanim algoritmom, vprašanji 9 in 11 pa

sposobnost logičnega sklepanja, pri čemer se je vprašanje 11 pričakovano izkazalo

za bistveno težje, kot vprašanje 9. Preostala vprašanja 12, 13 in 14, ki preverjajo

prostorsko predstavo na primerih Cardanovih rešetk so bila po pričakovanih

reševana najslabše v celotnem testu, saj so le-‐ta znana po svoji zahtevnosti.

28

Drugi del vprašalnika (Priloga 1) pa sestoji iz 16 splošnih vprašanj, od katerih je 5

izbirnih vprašanj zaprtega tipa, 8 vprašanj zaprtega tipa z vnosnim poljem in 3

vprašanja v obliki odgovornih matrik, pri katerih se mora anketiranec o trditvah

odločati na podlagi 4-‐stopenjske oziroma 5-‐stopenjske ocenjevalne lestvice (1-‐

nikakor ne velja; 4-‐popolnoma velja, oziroma 1-‐vsakodnevno; 5-‐nikoli).

3.3 PRIPRAVA PODATKOV

3.3.1 ČIŠČENJE PODATKOV

Med procesom čiščenja podatkov (odstranjevanja šumov in neželjenih vrednosti)

smo odstranili pet instanc, ker anketiranci niso ustrezali izbranemu vzorcu. V dveh

primerih sta bila ankteriranca premlada, da bi relevantno odgovarjala na vprašanja,

ki so se nanašala na maturitetno preverjanje znanja. V treh primerih pa se je na

podlagi posredovanega podatka o obiskovani fakulteti izkazalo, da so anketiranci

imeli (za izbrani vzorec) neustrezno raven predznanja računalništva. Odstranili smo

tudi 13 instanc, kjer so ankteriranci nepravilno ali nepopolno odgovorili na splošna

vprašanja (manjkajoči podatki o šolanju).

Med preostalimi 227 instancami ni bilo manjkajočih vrednostmi zaradi uporabe

vprašanj zaprtega tipa, kjer je bila pri odgovorih ponujena tudi opcija ne vem. Le-‐to

smo (razen pri zadnjem vprašanju vprašalnika) smatrali kot odgovor z relevantno

vrednostjo, saj izbira tega odgovora nakazuje k prezahtevnosti vprašanja oziroma k

nezmožnosti ali nemotiviranosti posameznika, da odgovori oziroma poskusi

odgovoriti na vprašanje.

Zaradi majhnega števila anketirancev, ki so se odločili izpolniti dodatni vprašalnik o

stilu učenja in razmišljanja smo se odločili, da ta atribut v procesu strojnega učenja

ne bomo uporabili.

29

3.3.2 TRANSFORMACIJA PODATKOV

Vse odgovore iz prvega dela vprašalnika, torej testa reševanja algoritmično

usmerjenih problemskih nalog smo diskretizirali in jih z izjemo vprašanja 14, kjer je

bilo možno doseči 2 točki (pravilni odgovor je bil sestavljen iz dveh ustreznih izbir)

ocenili z eno točko (pravilen odgovor) ali nič točkami (nepravilen odgovor oziroma

odgovor ne vem). Nato smo sešteli dobljene točke vprašanj in dobili oceno

uspešnosti na testu oziroma iskano oceno sposobnosti posameznika za reševanje

algoritmično usmerjenih problemskih nalog. Na testu je bilo torej možno doseči

maksimalno 15 točk, spodnja tabela pa prikazuje porazdelitev ankterirancev glede

na doseženo število točk.

Tabela 1: Tabela prikazuje porazdelitev uspešnosti anketirancev na testu reševanja algoritmično usmerjenih problemskih nalog.

Na podlagi porazdelitve v tabeli 1 ter smiselnosti glede na zastavljeni test (točke 13,

14 in 15 vse pokrivajo uspešnost pri reševanju naloge Cardanova rešetka) smo se

odločili, da točkovno uspešnost kategoriziramo v 3 razrede – slabši, dobri in odlični

razred. Slabši razred zajema učence, ki so na testu pridobili med 0 in 9 točk, dobri

0

5

10

15

20

25

30

35

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

število ankteriancev

dosežene točke

30

razred zajema tiste z 10, 11 ali 12 pridobljenih točk, odlični razred pa skupino

študentov, ki je doseglo vsaj 13 točk. Spodnja figura sedaj prikazuje porazdelitev

anketirancev v tako dobljene kategorije.

Tabela 2: Porazdelitev anketirancev v kategorije slabši, dobri in odlični glede na število točk pridobljenih na testu.

Ker so vprašalnik izpolnjevali tako študenti kot dijaki, je bilo potrebno poenotiti

odgovore na vprašanje o trenutni povprečni oceni, zaradi različnih sistemov

ocenjevanja. Odločili smo se, da vnešene ocene posameznikov pretvorimo v

odstotke ter le-‐te nato zaradi velikega števila posameznikov s povprečjem nad 80%

diskretizirali v 7 stopenjsko lestvico (vrednosti pod 50% niso bile zabeležene):

50% – 59%: 1 60% -‐ 69%: 2 70% -‐ 79%: 3 80% -‐ 84%: 4 85% -‐ 89%: 5 90% -‐ 94%: 6 95% -‐ 100%: 7.

0 10 20 30 40 50 60 70 80 90 100

slabši dobri odlični

število anketirancev

kategorija uspešnosti

31

Transformacija podatkov pri ostalih 3 vprašanjih, ki so se nanašala na ocene pri

maturi ni bila potrebna (ocenjevalna lestvica 1-‐ 8, kjer pa se vrednost 1 ni nikoli

pojavila.)

Transformirali smo tudi atribute, ki predstavljajo odgovor na vprašanje o smeri

študija ter o 1. in 2. izbirnem predmetu na maturi. Atributu smer študija smo glede

na zabeležene odgovore priredili eno izmed vrednosti: pedagoška usmeritev,

naravoslovje, družboslovje ter srednja šola (tisti, ki si usmeritve še niso izbrali). Ker

smo s tem že določili interesno področje posameznega anketiranca, smo se zato

odločili, da pri strojnem učenju ne potrebujemo podatka o izbrani fakulteti/srednji

šoli. Atributoma 1. in 2. izbirni predmet na maturi pa smo glede na zabeležene

odgovore priredili vrednosti: naravoslovje, družboslovje, jezik in umetnost, pri

čemer smo pri atributu 2. izbirni predmet kot vrednost dovolili tudi odgovor »/« saj

je le-‐ta nakazoval opravljanje poklicne mature.

Vse spremenljivke, razen uspeha na testu reševanja algoritmično usmerjenih

problemskih nalog, spola, smeri studija in izbiranih izbirnih predmetov na maturi,

smo zaradi njihove urejenosti lahko transformirali v numerične. Spremenljivkam, ki

se nanašajo na preference pri učenju smo tako glede na odgovore priredili vrednosti

0 za odgovor »nikakor ne velja,« 1, za odgovor »ne velja«, 2 za odgovor »velja« in 3

za odgovor »popolnoma velja«. Podobno smo spremenljivkam, ki se nanašajo na

igranje iger priredili vrednosti 0 za odgovor »nikoli«, 1 za odgovor »enkrat

mesečno«, 2 za odgovor »enkrat tedensko«, 3 za odgovor »nekajkrat tedensko« in 4

za odgovor »vsakodnevno«.

32

3.3.3 PRIDOBLJENI PODATKI

Tako smo pridobili 20 neodvisnih spremenljivk:

NAZIV ATRIBUTA:

OPIS ATRIBUTA: VREDNOSTI ATRIBUTA:

spol Spol anketiranca, nominalni atribut. moski, zenski

leto rojstva Leto rojstva anketiranca, numerični atribut. 1980-‐ 1999

smer studija Podatek o smeri študija oziroma obiskovanju srednje šole, nominalni atribut.

naravoslovna, družboslovna ali pedagoška smer, srednja šola

letnik studija

Podatek o letniku študija (1-‐5), numerični atribut. /

uspeh studija

Podatek o uspešnosti na študiju oziroma v srednji šoli (lestvica 1-‐7), numerični atribut.

/

uspeh matura mat

Podatek o uspehu na maturi, za tiste, ki so maturo že opravili do reševanja vprašalnika, oziroma povprečnem uspehu pri imatematika za srednješolce (lestvica 1-‐8), numerični atribut.

/

predmet matura izb1

Podatek o prvem izbirnem predmetu na maturi, umeščen v enega izmed 4 kategorij – druzboslovje, umetnost, naravoslovje, jezik, nominalni atribut.

4

uspeh matura izb1

Podatek o uspehu na maturi pri prvem izbirnem predmetu za tiste, ki so maturo že opravili do reševanja vprašalnika, oziroma povprečnem uspehu pri tem predmetu za srednješolce (lestvica 1-‐8), numerični atribut.

/

predmet matura izb2

Podatek o drugem izbirnem predmetu na maturi, umeščen v enega izmed 4 kategorij – druzboslovje, umetnost, naravoslovje, jezik, ter dodatno vrednostjo »/«, saj maturanti poklicne mature nimajo nujno drigega izbirnega predmeta, nominalni atribut.

5

uspeh matura izb2

Podatek o uspehu na maturi pri drugem izbirnem predmetu za tiste, ki so maturo že opravili do reševanja vprašalnika, oziroma povprečnem uspehu pri tem predmetu za srednješolce (lestvica 0-‐8), numerični atribut.

/

ucenje zjutraj

Ocenitev anketirancev, ali se najlažje učijo zjutraj (lestvica 0 (nikakor ne velja)-‐3 (popolnoma

/

33

velja)), numerični atribut.

ucenje popoldne

Ocenitev anketirancev, ali se najlažje učijo popoldan (lestvica 0 (nikakor ne velja)-‐3 (popolnoma velja)), numerični atribut.

/

ucenje zvecer

Ocenitev anketirancev, ali se najlažje učijo zvečer (lestvica 0 (nikakor ne velja)-‐3 (popolnoma velja)), numerični atribut.

/

ucenje sproti

Ocenitev anketirancev, ali se najlažje učijo sproti (lestvica 0 (nikakor ne velja)-‐3 (popolnoma velja)), numerični atribut.

/

ucenje kampanjsko

Ocenitev anketirancev, ali se najlažje učijo kampanjsko (lestvica 0 (nikakor ne velja)-‐3 (popolnoma velja)), numerični atribut.

/

igre sah Podatek, kako pogosto anketiranec igra šah (lestvica 0 (nikoli) – 4 (vsakodnevno)), numerični atribut.

/

igre logicne Podatek, kako pogosto anketiranec igra logične igre (lestvica 0 (nikoli) – 4 (vsakodnevno)), numerični atribut.

/

igre rac logicne

Podatek, kako pogosto anketiranec igra računalniške logične igre (lestvica 0 (nikoli) – 4 (vsakodnevno)), numerični atribut.

/

igre logicne ugranke

Podatek, kako pogosto anketiranec rešuje logične uganke (lestvica 0 (nikoli) – 4 (vsakodnevno)), numerični atribut.

/

uspeh test Kategorizacija uspešnosti anketiranca na testu algoritmično usmerjeneg reševanja problemskih nalog (slabši, dobri, odlični).

3

Tabela 3: Tabela končnih atribtov z opisom in številom razredov pri nominalnih atributih.

34

3.4 RUDARJENJE PODATKOV

Pridobljene podatke smo obdelali v programu Weka – prostodostopni zbirki

algoritmov strojnega učenja namenjenih podatkovnem rudarjenju in strojnemu

učenju. Z uporabo zgoraj naštetih spremenljivk in metode klasifikacije z algoritmom

odločitvenega drevesa J48 smo skušali ugotoviti ali obstaja povezava med naborom

lastnosti ankteriancev ter njihovo kategorizacijo uspešnosti na testu reševanja

algoritmično usmerjenih problemskih nalog. Oziroma, ali lahko na podlagi podatkov

o lastnostih učencev razmeroma uspešno napovemo njihov rezultat na testu

reševanja algoritmično usmerjenih problemskih nalog.

3.4.1 NAPOVEDNI MODEL

Pri snovanju drevesa smo uporabili vse spremenljivke razvidne v Figuri 20. Za

spremenljivko ki jo napovedujemo pa smo seveda izbrali nominalen atribut »uspeh

test«.

Spodnjo mejo uspešnosti modela smo določili s pomočjo Wekinega »ZeroR«

klasifikatorja. Le ta vsem primerom zgolj dodeli najbolj pogosti razred atributa, ki ga

model napoveduje. Tako je bila v našem primeru spodnja vrednost 41,4% (torej,

41,4% pravilno klasificiranih primerov), kar pomeni, da nam vsaka uspešnost, ki je

višja od spodnje meje poda neko informacijo o povezavi med naborom preverjanih

lastnosti in uspešnostjo anketirancev na testu.

Napovedni model oziroma odločitveno drevno po algoritmu J48 smo nato zgradili

večkrat s kombinacijo različnih nastavitev parametrov algoritma. Spreminjali smo

parametre »BinarySplits« (določa ali ima vsako notranje vozlišče drevesa le dve

izhodni veji), »confidenceFactor« (določa stopnjo naknadnega rezanja: manjše

vrednosti povzročajo več naknadnega rezanja) in »minNumObj« (določa stopnjo

sprotnega rezanja: večje vrednosti povzročajo več sprotnega rezanja). Kombinacije

vrednosti nastavitev in uspešnosti tako zgrajenega modela so razvidne v spodnjih

dveh tabelah.

35

BinarySplits: FALSE minNumObj\confidence factor: 0,01 0,1 0,2 0,25 0,5 0,9

1 46,7 44,9 43,6 46,3 44,1 44,1 2 46,3 47,6 45,4 48,5 47,6 47,1 4 47,6 48,0 48,0 47,1 47,6 48,9 8 48,0 45,4 47,1 47,6 48,5 48,5 16 48,9 44,5 45,4 46,7 45,8 44,5

Tabela 4: Kombinacije vrednosti nastavitev in uspešnosti zgrajenega modela po J48 z nastavljenim parametrom BinarySplits: "FALSE".

BinarySplits: TRUE minNumObj\confidence factor: 0,01 0,1 0,2 0,25 0,5 0,9

1 52,4 48,9 46,7 46,3 46,3 44,9 2 50,7 46,7 48,0 45,8 45,8 49,3 4 52,4 49,3 49,3 48,5 49,8 49,3 8 51,1 54,2 53,7 53,3 51,5 51,1 16 51,1 51,5 52,4 51,1 49,8 50,2

Tabela 5: Kombinacije vrednosti nastavitev in uspešnosti zgrajenega modela po J48 z nastavljenim parametrom BinarySplits: "TRUE".

Takoj se lahko opazi, da so za vse kombinacije parametrov uspešnosti napovednega

modela višje od spodnje meje. Očitno je tudi napovedni model z nastavljenim

parametrom BinarySplits na »TRUE« bolj uspešen pri klasifikaciji od tistega z istim

parametrom nastavljenim na »FALSE«. Pri obeh je bila uporabljena testna metoda

prečne validacije.

Vidimo tudi, da tri kombinacije parametrov v tabeli 5 zelo izstopajo po točnosti

dobljenih modelov. Napovedna drevesa s paramteri BinarySplits: »TRUE«,

minNumObj: 8 ter confidence factor: 0,1, 0,2 ter 0,25 so si med sabo zelo podobna,

razlike se pojavijo le v atributih uporabljenih v notranjih listih.

Glede na zgornje rezultate ter na podlagi prečenga preverjanja napovednih modelov,

ki so dosegli visoke uspešnosti (nad 50% pravilno klasificiranih instanc) smo se

odločili, da uporabimo napovedno drevo dobljeno s spodnjimi parametri, saj je le to

prineslo najvišjo točnost.

36

funkcija vrednosti

BinarySplits TRUE

confidenceFactor 0,1

minNumObj 8

Tabela 6: Izbrane vrednosti parametrov gradnje napovednega modela.

Pri teh parametrih Weka torej zgradi klasifikacijsko drevo s 54,158% pravilno

klasificiranih primerov in 45,815% napačno klasificiranih primerov, kar je kar

12,758% večja točnost od spodnje meje uspešnosti.

Slika 7: Izpis zgrajenega napovednega drevesa v Weki.

37

Iz izpisa zgrajenega odločitvena drevesa (Slika 2) razberemo, da je bil za

klasifikacijo uporabjen algoritem J48 (drevo). Zgrajeno odločitveno drevo je

razmeroma kompaktno in ima 17 vozlišč, od katerega je 9 listov (torej 9-‐krat nas

pripelje do ene izmed ciljnih kategorij slabo, dobro in odlično). Preostalih 8

notranjih vozlišč pa predstavlja odločitvene vejitve, ki nas še posebej zanimajo.

Slika 8: Wekin izpis podatkov o zgrajenem modelu.

Iz izpisa podatkov o zgrajenem modelu (Slika 8), dobimo podatke o točnosti in

napaki napovednega modela. Razberemo lahko tudi koliko znašata preciznost in

priklic pri posamezni kategoriji. Opazimo, da je model najbolj precizen pri kategoriji

»slabo«, kar pomeni, da je največkrat pravilno napovedal pripadnost tej kategoriji,

najmanjkrat pa kategoriji »dobro«, pri kateri je najmanj precizen. Priklic pa nam

pove koliko izmed primerov, ki v resnici pripadajo neki kategoriji model pravilno

klasificira. Opazimo lahko, da je priklic pri kategorijama »slabo« in »dobro« skoraj

enak. Znatno pa je manjši pri kategoriji »odlično«, le približno 25% vseh primerov,

ki spadajo v kategorijo odličnih jih je tja uvrstil tudi model.

38

Iz izpisa matrike »confusion matrix« lahko razberemo posamezno število pravilno in

napačno klasificiranih primerov za posamezno kategorijo. Pri napakah (vseh številih

izven glavne diagonale) na primer opazimo, da je le en primer, ki pripada kategoriji

»slabo« napačno razvrstil kot »odličnega«, medtem, ko je kar 33 primerov, ki prav

tako pripadajo kategoriji »slabo« napačno razvrstil kot »dobre«.

39

Slika 9: Dobljeno odločitveno drevo.

40

Odločitveno drevo (Slika 9) je za klasifikacijo anketirancev v skupine slabših, dobrih

in odličnih največkrat uporabilo podatke o uspešnostih (na maturi, ter splošno

uspešnost v šoli ali na fakulteti). Vlogo pri klasifikaciji igrajo še izbira maturitetnih

predmetov, čas učenja ter pogostost reševanja logičnih ugank.

Ker je v korenu grafa izbran atribut »uspeh_matura_mat«, torej uspešnost na maturi

pri predmetu matematika, vemo, da ima le-‐ta zelo dobro informacijsko pridobitev.

Vidimo, da za uspeh pri maturi iz matematike manjši ali enak stopnji 3 ne dobimo

nobenega »odlično« klasificiranega primera, kar pomeni, da slabša uspešnost pri

matematiki nakazuje na manjšo oziroma kvečjemu dobro uspešnost pri reševanju

algoritmično usmerjenih problemskih nalog. Le to sovpada s trditvami nekaterih v

teoretičnem delu omenjenih avtorjev, ki so matematično in logično znanje označili

kot veščine, ki se nanašajo na učenčeve sposobnosti za algoritmično razmišljanje in

programiranje (Ambrosio, Almeida, Macedo, & Franco, 2014), (Gomes & Mendes,

2007),(Teague, 2015), (Wing, 2008).

Lastnosti, ki nakazujejo učnca, ki je uspešnejši pri reševanju algoritmično

usmerjenih problemskih nalog so glede na odločitveno drevo boljša stopnja

uspešnosti na maturi iz matematike, poleg tega pa ne izbira jezika kot prvi izbirni

maturitetni predmet in ne izbira družboslovnega predmeta, kot drugi izbirni

predmet, kar bi lahko posplošili na izbiro naravoslovnih ali umetniških izbirnih

predmetov na maturi oziroma še bolj na zanimanje za naravoslovne oziroma

umetniške vsebine. Nazadnje nas do »odlično« uspešnih na testu pripelje še vsaj

nekajkrat tedensko reševanje logičnih ugank. Tu se postavi vprašanje, ali je

uspešnost na testu posledica rednega reševanja logičnih ugank (čeprav logične

naloge niso prevladujoče v podanem testu) ali pa je interes za reševanje sam

posledica večje sposobnosti, posledičnega interesa, in seveda znanja.

Še ena vejitev ki nas pripelje do »odlično« uspešnih, pa je ponovno boljša stopnja

uspešnosti na maturi iz matematike in ne izbira jezika kot prvi izbirni predmet na

maturi. Nato nas naprej pripelje izbira družboslovnega predmeta kot drugega

izbirnega predmeta, ter ne družboslovnega predmeta kot prvega izbirnega

41

predmeta na maturi. Čeprav sta ti dve vejitvi na prvi pogled kontradiktorni nam to

pove, da imajo uspešni učenci širša interesna področja, poleg tega, pa včasih na

izbiro maturitetnih predmetov vpliva tudi izvajanje le-‐teh in ne le interes učencev.

Nato nas k »odličnim« usmeri še učenje zjutraj oziroma zvečer ter uspeh študija

manjši od stopnje 5. Zadnje je presenetljivo in postavlja vprašanje ali je taka vejitev

posledica anomalije oziroma vzorca ankteriancev ali bi se vejitev izkazala za

pravilno tudi na še večjem vzorcu anktetirancev.

3.4.2 SKLEP

V splošnem bi torej lahko zaključili, da nekatere izmed preverjanih lastnosti glede

na rezulate in izbojšano pravilnostjo klasifikatorja v primerjavi z izračunano

spodnjo mejo nakazujejo na boljšo uspešnost pri testu reševanja algoritmično

usmerjenih problemskih nalog, oziroma na boljšo uspešnost pri učenju

programiranja. Le-‐to namreč pričakujemo glede na izbrane naloge testa, ki v veliki

meri preverja tudi zmožnost abstrakcije in prostorsko-‐vizualno predstavo

posameznika. Te pa mnogo avtorjev, kot na primer Gomes & Mendes, Wingova,

Ambrosio idr., ter Teague ((Ambrosio, Almeida, Macedo, & Franco, 2014), (Gomes &

Mendes, 2007), (Teague, 2015), (Wing, 2008)), navajajo kot pomembno za uspešno

učenje programiranja.

42

ZAKLJUČEK

»Programming isn’t a passion or a talent, but a collection of acquired skills.«

(Jacob Kaplan-‐Moss)

Za razliko od zgornje trditve soustvarjalca ogrodja za razvoj spletnih aplikacij

Django, Jacoba Kaplan-‐Mossa je večina manj uspešnih študentov ob prvem srečanju

s programiranjem prepričana, da za programiranje niso nadarjeni in se ga ne bodo

zmožni priučiti. Tako le-‐ti že v samem začetku izgubijo motivacijo, kar negativno

vpliva na njihov trud in posledično zavira napredek. V diplomskem delu smo se tako

posvetili perečemu vprašanju nadarjenosti za programiranje in identifikaciji za

uspešno programiranje potrebnih veščin.

Kot smo ugotovili v teoretičnem delu diplomske naloge so mnenja stroke različna.

Da so mnenja o naravi izvora sposobnosti med sabo zelo različna smo preverili v

splošnem in nato odkrili, da je tako tudi pri specifičnem vprašanju izvora

sposobnosti pri programiranju. Nekateri zagovarjajo prepričanje, da so za uspešno

programiranje potrebne točno specifične sposobnosti, kot sta sposobnost

abstraktnega in logičnega razmišljanja, avtomatizacija, dobra prostorska predstava

in reševanje problemov, medtem ko drugi zagovarjajo stališče, da se je

programiranja zmožen naučiti vsako, zgolj v svojem lastnem tempu.

V empiričnem delu diplomske naloge smo se tako skušali ugotoviti, ali lahko

najdemo morebitno povezavo med lastnostmi učencev in predvideno uspešnostjo

pri učenju programiranja. Izkazalo se je, da nekatere lastnosti učencev, ki smo jih

identificirali preko vprašalnika in metode napovednega modeliranja nakazujejo

boljšo sposobnost reševanja algoritmično usmerjenih nalog. Le to smo na podlagi

prebrane literaturi povezali z nakazano uspešnostjo pri programiranju.

Rezultati naše raziskave veljajo zgolj za izbrani vzorec anketirancev. Vzorec je

premajhen in premalo reprezentativen, da bi sklepali o lastnostih celotne populacije,

43

vendar upamo, da bodo izsledki služili kot uvod za nadaljne raziskovanje ali kot

informacija učiteljem programiranja za primerno izbiro učnih metod in pristopov.

44

LITERATURA

Bresjanac, M., & Repovš, G. (2007). Prirojeno in pridobljeno v delovanju možganov.

GENIalna prihodnost: genetika, determinizem in svoboda. Ljubljana: Biološka znanost

in družba.

Slovar slovenskega knjižnega jezika. (2008). Ljubljana: DZS.

Juriševič, M. (2012). Nadarjeni učenci v slovenski šoli. Pedagoška fakulteta Univerze v

Ljubljani.

Juriševič, M., & Stritih, B. (2012). Posvet: Vloga psihologa v vzgoji in izobraževanju

nadarjenih. Ljubljana: Pedagoška fakulteta Univerze v Ljubljani.

Wai, J., Lubinski, D., & Benbow, C. P. (2009). Spatial Ability for STEM Domains:

Aligning Over 50 Years of Cumulative Psychological Knowledge Solidifies Its

Importance. Journal of Educational Psychology , 101 (4), 817-‐835.

Wing, J. M. (2008). Computational thinking and thinking about computing.

Philosophical Transactions of the Royal Society (366).

Witten, I. H., Frank, E., & Hall, M. A. (2011). Data mining: practical machine learning

tools and techniques (3rd izd.). Morgan Kaufman.

Van Garderen, D. (2006). Spatial visualization, visual imagery, and mathematical

problem solving of students with varying abilities. Journal of Learning Disabilities ,

39 (6), 496-‐506.

Alag, S. (2009). Collective Intelligence in Action. Manning Publications.

Anyanwu, M. N., & Shiva, S. G. (2009). Comparative Analysis of Serial Decision Tree

Classification Algorithms. International Journal of Computer Science and Security , 3

(3).

Anderson, J. R. (1993). Problem Solving and Learning. American Psychologist , 48 (1),

35-‐44.

45

Ambrosio, A. P., Almeida, L. d., Macedo, J., & Franco, A. (2014). Exploring Cognitive

Skills of Computational Thinking. Psychology of Programming Interest Group -‐ PPIG .

Basheer, I., & Hajmeer, M. (2000). Artificial neural networks: Fundamentals,

computing, design, and application. Journal of Microbiological Methods (43), 3-‐31.

Barg, M., Fekete, A., Greening, T., Hollans, O., Kay, J., Kingston, J., in drugi. (2000).

Problem-‐Based Learning for Fundation Computer Science Courses. Computer

Science Education , 10 (2), 109-‐128.

Curzon, P., Dorling, M., Ng, T., Selby, C., & Woollard, J. (2014). Developing

Computational thinking in the classroom: a framework. Prevzeto 10. 8 2015 iz

Computing at School Community:

https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&

uact=8&ved=0CCkQFjABahUKEwjgyNba6Z7HAhUBiSwKHTWqBXw&url=http%3A

%2F%2Fcommunity.computingatschool.org.uk%2Ffiles%2F3517%2Foriginal.pdf&

ei=mcLIVaCYCoGSsgG11JbgBw&usg=AFQjCNGf0g64b9CMVf6h59tMPNqDqKuPwg&

sig2=KrX8YZykGmjcUOlnEqrjzg&bvm=bv.99804247,d.bGg

Futschek, G. (2006). Algorithmic Thinking: The Key for Understanding Computer

Science. Informatics Education -‐ The Vridge between Using and Understanding

Computers Lecture Notes in Computer Science , 4226, 159-‐168.

Gomes, A., & Mendes, A. J. (2007). Learning to program -‐ difficulties and solutions.

International Conference on Engineering Education -‐ ICEE.

Grattoni, C. (2007). Spatial Skills and Mathematical Problem Solving Ability in High

School Students. Northwestern University.

Greiff, S., & Neubert, J. C. (2014). On the relation of complex problem solving,

personality, fluid intelligence and academic achievement. Learning and Individual

Differences , 36, 37-‐48.

Hand, D., Mannila, H., & Smyth, P. (2001). Principles of Data Mining. The MIT Press.

46

Jenkins, T. (2002). On the Difficulty of Learning to Program. Prevzeto 10. 8 2015 iz

http://www.psy.gla.ac.uk/~steve/localed/jenkins.html

Nuutila, E., Törmä, S., & Malmi, L. (2005). PBL nad Computer Programming -‐ The

Seven Steps Method with Adaptations. Computer Science Education , 15 (2), 123-‐142.

Meyers, M. C., van Woerkom, M., & Dries, N. (2013). Talent -‐ Innate or acquired?

Theoretical considerations and their implications for talent management. Human

Resource Management Review (23).

Stergiou, C., & Siganos, D. (brez datuma). Neural Networks. Prevzeto 10. 8 2015 iz

http://www.doc.ic.ac.uk/~nd/surprise_96/journal/vol4/cs11/report.html

Tan, P.-‐N., Steinbach, M., & Kumar, V. (2006). Introduction to data mining. Addison

Wesley.

Teague, D. (2015). Neo-‐Piagetian Theory and the Novice Programmer. Prevzeto 20.8.

2106 iz http://eprints.qut.edu.au/86690/1/Donna_Teague_Thesis.pdf

Teague, D., Lister, R., & Ahadi, A. (2014). Falling Behind Early and Staying Behind

When Learning to Program. PPIG 2014 -‐ 25th Annual Workshop.

PRILOGA 1: VPRAŠALNIK

Reševanje algoritmično usmerjenih problemskihnalogPozdravljen/a in hvala, ker si se odločil/a rešiti vprašalnik. :) Čas reševanja je neomejen. Lahko rešuješ na pamet, ali pa si pomagaš z risanjem oz. pisanjem. Po želji si lahko svoje odgovore dodatno zapišeš, in ob koncu vprašalnika preveriš pravilnost svojih odgovorov z rešitvami, ki bodo takrat podane. Prvi del vprašalnika sestavljajo problemske naloge, v drugem delu pa boš odgovoril/a na nekaj splošnih vprašanj.

*Required

DEL 1 Test reševanja problemovPrvi del vprašalnika je sestavljen iz 14 problemskih nalog. Če na vprašanje ne znaš odgovoriti, izberi možnost ne vem. Prosim če odgovora ne izbiraš z ugibanjem, saj bi to prineslo neveljavne rezultate ankete.

1. Vprašanje 1 smeri neba *

Magnetni kompas je bil prvič uporabljen na Kitajskem približno 200 let pr. n. št. Dokaži, da ga2000 let kasneje tudi ti še znaš uporabljati! Če si sprva obrnjen proti jugu in se zasučeš 90 stopinjv levo, potem gledaš na…?Mark only one oval.

jug

vzhod

zahod

sever

ne vem

2. Vprašanje 2 pot avtomobila od A do B *

Na spodnjem zemljevidu mesta je vrisana pot avtomobila. Kolikokrat je avto na poti od točke A dotočke B zavil desno?Mark only one oval.

3

4

5

6

ne vem

3. Vprašanje 3 pot avtomobila med C in D *

V istem mestu kot pri vprašanju 2, je avto na potovanju od točke C do točke D zavil 4 krat desnoin 6 krat levo. Potem se je obrnil in vrnil nazaj po isti poti od točke D do točke C. Kolikokrat je napotovanju od točke D do točke C zavil desno, če ne šteješ obračanja na mestu v točki D?Mark only one oval.

3

4

5

6

ne vem

6. Vprašanje 6 od najmanjše do največje *

Tri živali stojijo ena zdraven druge, od največje do najmanjše. (Glej sliko spodaj.) Dovoljeno je, dazamenjaš le dve sosednji živali na primer slona s povodnim konjem in povodnega konja spando. Ena taka zamenjava šteje kot ena operacija. Slona in pande ne moreš zamenjati, kernista soseda. Koliko operacij je potrebnih, da obrneš vrstni red živali?Mark only one oval.

2

3

4

5

ne vem

7. Vprašanje 7 zaporedje vsot *Zaporedje števil se začne s številoma 1 in 1. Vsako naslednje število v zaporednju je seštevekzadnjih dveh števil. Katero število je na šestem mestu zaporedja?Mark only one oval.

1

3

5

8

ne vem

4. Vprašanje 4 krožna vožnja *V istem mestu, kot pri vprašanju 2 in 3 je avto naredil krožno vožnjo in se vrnil na pozicijo izkatere je začel, obrnjen v isto smer kot pred začetkom vožnje. Ali to pomeni, da je avto naredilenako število levih in desnih zavojev?Mark only one oval.

ja, število zavojev v levo in število zavojev v desno je vedno enako

ni nujno

ja, vendar samo takrat, ko avto potuje v smeri urinega kazalca

ja, vendar samo takrat, ko avto potuje v nasprotni smeri urinega kazalca

ne vem

5. Vprašanje 5 napravimo snežaka *

S postavljanjem snežnih krogel A, B in C eno na drugo želiš napraviti snežaka. Dvigneš lahkosamo eno kroglo naenkrat (dveh hkrati, na primer eno na drugi, ne moreš nesti!). Kako boš tostoril?Mark only one oval.

postaviš C na B in nato B na A

postaviš B na A in nato C na B

postaviš A na B in nato B na C

postaviš A na C in nato C na B

ne vem

8. Vprašanje 8 vrtnar zombi *

Na zombijevem vrtu raste 16 sončnic. Vsak teden se polovica sončnic posuši zaradi vročine,zombi pa posadi 4 nove. Koliko sončnic raste na zombijevem vrtu po 3 tednih?Mark only one oval.

5

6

8

9

ne vem

9. Vprašanje 9 _ _ / _ _ _ / ._. / ... / . / ._ _ _ / . / ..._ / ._ / / _._ / _ _ _ / _.. / ._ *Spodnje zaporedje znakov predstavlja besedo CRYPTOGRAPHY zapisano v Morsejevi kodi.Kako v Morsejevi kodi zapišeš besedo PARAGRAPH?Mark only one oval.

.. / . / .. / . / .. / . / .. / ....

.. / . / .. / . / . / .. / . / .. / .... / ...

.. / . / .. / . / . / .. / . / .. / ....

.. / . / .. / . / . / . / .. / .. / ....

ne vem

10. Vprašanje 10 na skrivaj skozi labirint *Preprosta skrivna koda, ki ti pove pot skozi labirint je sestavljena iz treh črk: A, B in C, kipomenijo naslednje: A premakni se en kvadrat naprej, B obrni se 90 stopinj v levo, C obrni se90 stopinj v desno. Katero zaporedje črk te bo pripeljajo skozi spodnji labirint?Mark only one oval.

ACAABAABACAA

ACAABBABACAA

ABACAAACAABA

ABACAAABAACA

ne vem

11. Vprašanje 11 zapis malo drugače *

Poljski zapis s predponami je bil izumljen leta 1924 in izjemna lastnost tega zapisa je, da nepotrebuje nobenih oklepajev. Dandanes je uporabljen v številnih programskih jezikih in meddrugim tudi v žepnih kalkulatorjih. Pri tem zapisu, so aritmetične operacije +, , /(deljeno), *(krat)zapisane tako, da je operacija zapisana pred operandi. Na primer, namesto “5 + 6” zapišemo “ +5 6” in namesto “10 / 5” zapišemo “/ 10 5”. Izraz “7 * (9 + 4)” je zapisan kot “* 7 + 9 4. V poljskemzapisu s predponami se torej spodnji račun zapiše kot?Mark only one oval.

/ + 3 5 * 2 9

/ * 2 9 + 3 5

+ 3 5 / * 2 9

* 9 2 / + 5 3

ne vem

12. Vprašanje 12 tajno sporočilo po Cardanovo*

Ena izmed najstarejših tajnih kod Cardanovorešeto (izumitelj: Girolamo Cardano okoli leta1550) je opisana tako: Imamo 6x6 velikokvadratno mrežo (rešeto), narejeno iz usnja alitrdega papirja, pri čemer je nekaj kvadratovodstranjenih. Ko postaviš rešeto na 6x6 velikomatriko črk, se prikaže pomemben tekst. Naprimer, pri uporabi rešeta na desni in matrike nalevi (na spodnji sliki), se prikaže besedaCOMPUTING. Kateri tekst se pokaže, če to istorešeto zavrtiš za 90 stopinj v nasprotni smeriurinega kazalca? (če odgovora ne poznaš vpiši"ne vem")

Powered by

26. Maturitetna ocena pri izbirnem predmetu, ki

si ga vnesel pri prejšnjem vprašanju *

(če nisi študent, vnesi zaključeno ocenopredmeta, ki si ga vnesel pri prejšnjemvprašanju; če pa si opravljal poklicno maturovpiši 0)

27. Najlažje se učim: *

Mark only one oval per row.

nikakor ne velja ne velja velja popolnoma velja

zjutraj/ dopoldnesredi dneva/ ko pridem izpredavanj (šole)zvečer/ ponoči

28. Učim se: *


nikakor ne velja ne velja velja popolnoma velja

sproti/ vsakodnevnopred izpitom (preizkusom znanja)/kampanjsko

29. Označi kako pogosto samoiniciativno rešuješ/ igraš naslednje igre: *


vsakodnevno nekajkrattedensko

enkrattedensko

enkratmesečno nikoli

šahlogične igre (npr. sudoku,kakuro,...)računalniške logične igre(npr. minolovec, mahjong)logične uganke

30. Ali veš kateri stil učenja in razmišljanja je značilen zate? *

(Če želiš, lahko izveš na portalu "Kdo Kaj Si?", če slediš povezavi http://hrast.pef.unilj.si/~ocepek/spletisce/login.php)Tick all that apply.

Levohemisferični stil učenja in razmišljanja (L)

Desnohemisferični stil učenja in razmišljanja (D)

Integrirani stil učenja in razmišljanja (I)

ne vem

Documents

UNIVERZAVLJUBLJANI! SARAFERLIN! …pefprints.pef.uni-lj.si/3879/1/Diplomsko_Delo_Sara_Ferlin.pdfuniverzavljubljani! pedagoŠkafakulteta!!! saraferlin!! modeliranjevplivalastnosti ŠtudentovnauspeŠno!reŠevanje