9
INOM EXAMENSARBETE TEKNIK, GRUNDNIVÅ, 15 HP , STOCKHOLM SVERIGE 2017 Identifiering av tendenser i data för prediktiv analys hos Flygresor.se LEONARD HALLING FILIP HILDEBRANDT KTH SKOLAN FÖR INFORMATIONS- OCH KOMMUNIKATIONSTEKNIK

Identifiering av tendenser i data för prediktiv analys hos ...1113293/FULLTEXT02.pdf · regressionsanalys är att hitta en rät linje, en trend, som bäst beskriver ... När det

Embed Size (px)

Citation preview

INOM EXAMENSARBETE TEKNIK,GRUNDNIVÅ, 15 HP

, STOCKHOLM SVERIGE 2017

Identifiering av tendenser i data för prediktiv analys hos Flygresor.se

LEONARD HALLING

FILIP HILDEBRANDT

KTHSKOLAN FÖR INFORMATIONS- OCH KOMMUNIKATIONSTEKNIK

Identifiering av tendenser i data för prediktiv analys hos Flygresor.se

Leonard Halling

921118-5732 KTH, Medieteknik

[email protected]

Filip Hildebrandt 900119-4233

KTH, Medieteknik

[email protected]

SAMMANFATTNING I och med digitaliseringen förändras samhället snabbare än någonsin och det är viktigt för företag att hålla sig uppdaterade för att kunna anpassa sin verksamhet till en marknad som hela tiden utvecklas. Det existerar en uppsjö av modeller för affärsunderättelser, och prediktiv analys är en viktig sådan modell. Föreliggande studie undersöker i vilken utsträckning tre olika prediktiva analysmetoder lämpar sig för ett specifikt uppdrag gällande månadsprognoser baserat på klickdata från Flygresor.se. Målet med rapporten är att kunna redogöra för vilken av metoderna som fastställer den mest precisa prognosen för given data och vilka tendenser i datan som bidrar till detta resultat. Vi kommer att tillämpa de prediktiva analysmodellerna Holt-Winters och ARIMA, samt en utbyggd linjär approximation, på historisk klickdata och återge arbetsprocessen, samt utifrån resultatet beskriva vilka konsekvenser datan från Flygresor.se förde med sig.

Nyckelord Prediktiv analys, ARIMA, Holt-Winters, linjär approximation, PA, Maskininlärning, data, intäktsprognos.

1.! INTRODUKTION Tack vare digitaliseringen av samhället kan företag inhämta användardata och genom analys av denna utveckla sin affärsstrategi [6]. Idag arbetar de flesta stora företag med någon typ av prediktiv analys för att kunna förutse framtida händelser. För att generalisera så handlar det om att analysera stora datamängder och att tolka mönster i datan för att sedan kunna ta mer välgrundade beslut [8]. Det finns många sätt att angripa den utvunna datan på. Här betraktar vi endast så kallad prediktiv analys. Vi kommer genom en experimentell studie att undersöka hur prisjämförelsesajten Flygresor.se, genom att tillämpa redan kända prediktiva metoder på sin intäktsdata, kan precisera sina månadsprognoser.

Prediktion genom dataanalys görs oftast i flera steg, först måste datan visualiseras för att trender ska visa sig, genom att presentera datan ur olika perspektiv går det att identifiera olika trender. Dessa översätts sedan till variabler ur datan. Dessa variabler används sedan vid tillämpning av olika analytiska

metoder för att till sist utvärdera resultatet. Vanligtvis görs tillämpningarna på historisk data (“back tracking”) för att enkelt kunna avgöra om resultatet står sig mot utfallet, dvs. uppnår den precision som önskas [9]. Detta är oftast en mycket krävande resa med många förkastade hypoteser i processen.

Flygresor.se (benämns härefter som “kunden”) är en prisjämförelsetjänst som ingår i en större koncern. Deras marknadsföringsbudget bestäms utifrån deras idag linjära månadsprediktioner som inte är särskilt exakta. Vårt uppdrag är att minimera felmarginalen på dessa uppskattningar. För att uppnå detta så kommer vi att tillämpa olika prediktiva metoder på kundens historiska användardata för att ta fram en bättre algoritm för månadsprognos.

1.1 Problemformulering I vilken utsträckning kan tillämpning av de tre här använda analysmetoderna hjälpa kunden att fastställa tillförlitliga månadsprognoser?

1.2 Forskningsfråga och ambitionsnivå Vi vill ta reda på hur två kända prediktiva analysmetoder, ARIMA [3] och Holt-Winters [5], presterar, jämförda med en mer primitiv linjär approximation i detta sammanhang. I nuläget så används en linjär approximation som ger en felmarginal på ca 2-4% varje månad. Vår målsättning är att halvera denna felmarginal.

1.3 Avgränsningar Projektet innefattar endast en framtagning av en algoritm baserad på historiska data, ämnad att förbättra kundens intäktsprediktioner.

Då den erhållna datamängden från kunden endast består av klick och vi ej har tillgång till konverteringsgraden mellan klick och intäkter, så kommer denna studie att baseras på klickdatan. Detta medför att vanliga konsumtionsmönster så som ökad försäljning efter löningsdagar inte kommer att framträda lika tydligt som vi hoppats på.

Vi kommer inte att studera hur kundens marknadsföring påverkar konsumtionsbeteendet hos användarna. Vi kommer heller inte att undersöka hur insamlingen av datan går till då kunden redan har verktyg framtagna för detta ändamål.

2.! TEORI OCH RELATERAD FORSKNING Vi inledde med en litteratursökning som resulterade i flera avancerade artiklar inom ämnet. Efter ett försök att begripa innehållet i litteraturen insåg vi att vi saknade de rätta förkunskaperna. Därefter började vi om från början och skaffade oss mer grundläggande kunskaper om ämnet för att kunna avgränsa vår litteratursökning till relevantare och mer användbar litteratur. Genom att skumma igenom bredare litteratur i form av “Predictive Analytics” [9] och “Super Forecasting - The art and science of prediction” [10] så har vi skaffat oss ett mer ämnesrelaterat vokabulär. Detta har hjälpt oss med den fortsatta litteratursökningen.

2.1 Centrala begrepp 2.1.1 Tidsserie

En tidsserie är en serie av tidsordnade datapunkter [2]. Oftast så ordnar man tidsserien så att datapunkterna har samma avstånd till varandra. Generellt sett så består en tidsserie av tre attribut: trend, periodicitet och oregelbundenhet. 2.1.2 Seasonality (översätts här till periodicitet) Periodicitet beskriver fenomenet då variationer inträffar i specifika och regelbundna intervall i en tidsserie. Exempel på intervall kan vara veckovis, månadsvis eller kvartalsvis. Variationerna kan bero på faktorer såsom väder, helgdagar eller högtider.

2.1.3 Trend En trend definieras som en rät linje som bäst beskriver en samling datapunkter i en tidsserie.

2.1.4 Nivå Nivå är det förväntade nästa värde efter en serie av data, det finns flera olika tillvägagångssätt för att ta ta fram detta värde. Den naiva metoden säger att nästa värde är lika med det tidigare kända värde. En lite mer avancerad metod är att ta medelvärdet av tidigare data. Vidare går det att addera glidande medelvärde (moving average) eller viktat snitt.

2.1.5 Regressionsanalys

En regressionsanalys går ut på att identifiera en funktion som bäst passar in på observerad data. Ett exempel på en enklare regressionsanalys är att hitta en rät linje, en trend, som bäst beskriver en samling datapunkter i en tidsserie.

2.1.6 Exponential smoothing (översätts här till exponentiell utjämning)

Som namnet antyder så används exponentiell utjämning på tidsserier för att jämna ut data och avlägsna brus. Detta görs genom att applicera upp till tre stycken lågpassfilter. (Double/ triple exponential smoothing)

2.1.7 Linjär approximation

Med en linjär approximation menas att bestämma ett närmevärde för en funktion med hjälp av funktionens derivata. I kundens fall så fastställs månadsprognoserna genom att man dividerar summan av intäkterna fram till ett specifikt datum med antalet dagar som har passerat samma månad. För att erhålla den linjära approximationen multipliceras sedan kvoten med antalet dagar som den aktuella månaden innehåller.

2.2 State of the art 2.2.1 Business Intelligence När det kommer till att analysera och tolka data så samlas de tillgängliga verktygen under rubriken Business intelligence (benämns härefter som “BI”). Det finns en uppsjö av BI-verktyg vilket kräver djup förståelse av datans omfattning och ett väl specificerat syfte med dataanalysen för att uppnå optimalt resultat. BI kan beskrivas som visualisering av data [7] med primärt två syften - först för att förstå datan och sedan för att ställa den mot sig själv för att urskilja mönster. Exempel på BI-verktyg är Microsoft Business Intelligence och Oracle Hyperion Planning som båda ger organisationer möjligheten att använda omfattande analytiska lösningar genom att transformera datan till en BI-modell som lättare kan tolkas av användaren. 2.2.2 Holt-Winters metod Holt-Winters är en prognosmetod som tar hänsyn till de tre faktorerna periodicitet, nivå och trend. På vardera faktor tillämpas sedan ett lågpassfilter för att jämna ut topparna och på så vis försöka identifiera mönster för framtida prediktion. Prognosen erhålls sedan genom ett viktat medelvärde på de observerade värdena så att de senaste observationerna ligger tyngre än de tidigare observationerna.

Metoden baseras på två enskilda metoder, Holts och Winters metod. Holts metod använder sig av exponentiell utjämning genom att vikta medelvärden efter aktualitet. Detta innebär att algoritmen tar mer hänsyn till de nyare observationerna. I Winters metod tillämpas exponentiell utjämning för att kunna identifiera periodiciteter.

2.2.3 ARIMA (Autoregressive integrated moving average) ARIMA-modellen består av tre delar. Autoregression (AR), integration (I) samt ett glidande medelvärde eller moving average (MA). I AR-delen ses ett observerat värde som en linjärkombination av föregående värden plus en godtycklig avvikelse. I MA-delen så ses ett observerat värde som en godtycklig avvikelse plus en linjärkombination av föregående godtyckliga avvikelser.

Vad gäller ARIMA och Holt-Winters metod så finns det inga stadgar som säger vilken metod som är bäst, eller när man bör använda vilken metod. När UK’s Office for National Statistics övervägde en potentiell flytt från Holt-Winters metod till ARIMA så skrev de en artikel där de jämförde de båda metoderna. Slutsatsen blev att det inte var mycket som skiljde de båda metoderna åt i just det fallet [1].

3.! METOD OCH EXPERIMENTELL STUDIE Vi har tillämpat de ovan nämnda analysmetoderna då det främst är dessa som lämpar sig för tidsserier med periodicitet. Metoderna har tillämpats på den historiska datan från kunden och resultaten har sedan jämförts för att avgöra vilken av metoderna som lämpar sig bäst för den erhållna datan.

Det första steget var att strukturera upp datan och att visualisera den i form av diagram så att vi lättare kunde upptäcka vilka periodiska trender som existerade. Nästa steg innebar att testa både Holt-Winters metod samt ARIMA. Vi undersökte också hur en påbyggnad av den linjära modellen ställde sig mot de två

mer komplexa modellerna.

Då Holt-Winters metod inte är lika komplex som ARIMA så användes ett kalkylark för att tillämpa metoden. För ARIMA använde vi oss av programmeringsspråket Python tillsammans med Pandas, ett ramverk som används för statistiska beräkningar och erbjuder inbyggda funktioner som underlättar tillämpningen av ARIMA.

3.1 Utbyggnad av linjär approximation Vår utbyggnad av den linjära approximationen gjordes i Python. Angreppssättet gick ut på att först beräkna hur förhållandena såg ut mellan veckodagarna och snittdagen. När förhållandena var fastställda kunde vi justera approximationen genom att räkna med hur många av varje veckodag som återstod i den aktuella månaden. Därtill undersökte vi hur resultatet av den linjära prognosen skilde sig mot det faktiska utfallet varje månad och gjorde manuella justeringar på algoritmen utefter denna felmarginal.

3.2 Variabeldefinitioner Då kunden tidigare har försökt att förbättra sin prognos hade de förslag på periodiciteter i datan. De variabler som vi har valt att utforska är - (1) Veckodagar, dvs. hur trafiken skiljer sig på en fredag kontra söndag. (2) Månader, hur maj månad skiljer sig från december månad. (3) Utbetalningsdag för lön, hur trafiken skiljer sig efter den 25:e.

3.2.1 Veckodagar Informationen från kunden gällande veckodagarna är att söndagar, måndagar och tisdagar är de bäst säljande dagarna. Under fredagar och lördagar är det minst aktivitet. Vi kommer att verifiera detta mönster genom att väga veckodagarnas totala antal klick mot varandra. Vi har valt att använda oss av data omfattande 106 perioder för att urskilja denna periodicitet. Vi har lagt en liten tyngd på det senaste året för att den datan är mer aktuell än äldre data.

3.2.2 Månader Då datan sträcker sig drygt två år tillbaka i tiden så har vi bara möjlighet att analysera över 2 perioder, dvs. för lite för att kunna generalisera. Här oroar vi oss för att helgdagar och andra avgörande faktorer kan komma att förvränga variabeln. T.ex. kan det vara avgörande om en helgdag inträffar på en fredag kontra en måndag, då förhållandet kommer ge ett större antal förlorade klick.

3.2.3 Utbetalningsdag för lön Denna variabel tillsammans med veckodagar är något som kunden hade identifierat som tydliga trender. Här har vi valt att väga olika perioder i en månad, som t.ex. 5- eller 7 dagars intervall. För att kunna identifiera trender efter den 25. Vi har även tagit hänsyn till de månader då den 25e har infallit på en lördag eller söndag.

3.3 Experimentell studie För att svara på vår problemformulering har vi valt att genomföra tre experimentella studier där vi vid vardera fall applicerar en av ovan nämnda metoder på den historisk datan i form av s.k. “back tracking” - det vill säga att vi förbiser det faktiska utfallet och endast ger algoritmen tillgång till så mycket data som den skulle haft om det var ett skarpt fall. Detta gör att vi snabbt och enkelt kan följa upp resultatet och utvärdera metoderna.

Det finns många olika sätt att analysera resultaten, primärt har vi valt att fokusera på absolutbeloppet (fortsatt nämnt i uppsats, diagram och tabell som “ABS”) av felet för att på så vis lyckas optimera resultatet. Felet mäts genom att ta fram ett deltavärde i form av skillnaden mellan prognosen och det faktiska utfallet.

3.4 Kalibrering av analys Då vi inte hade tillgång till ovan nämnda business intelligence-verktyg föll det sig till vår fördel att kunden hade en intern hemsida för visualisering av data. Plattformen gjorde det möjligt för oss att snabbare förkasta mindre hypoteser som vi skapat under metodvalsprocessen. Då en stor del av processen bygger på att försöka urskilja dolda och unika mönster i datan så är det viktigt att snabbt och enkelt kunna verifiera eller slopa hypoteser för metodtillämpning.

Vad gäller den erhållna tidsserien från kunden så har vi valt att bara arbeta med data från den 1 januari 2016 och framåt. Detta då vi har fått information om att data tidigare än 2016 inte representerar hur deras aktivitet ser ut idag. Det är dock väsentligt för oss att jobba med data som sträcker sig över en period som är längre än ett år då vi får en chans att ställa månader mot varandra.

4.! RESULTAT Vår största upptäckt var att datan inte visade någon kontinuitet vad gäller ökad aktivitet efter löning. Till vår förvåning visade dataanalysen att första veckan i månaden var den med mest aktivitet. Vidare gjorde vi en avgörande upptäckt i form av att den variabel som vägde tyngst var veckodagarna. De andra variablerna (månader samt utbetalningsdagar för lön) hade en betydligt minde relevans för utfallet.

4.1 Visualisering av tidsserie Diagrammen i denna sektion illustrerar hur klickdatan ser ut månadsvis under perioden januari 2016 till och med april 2017. Det var väsentligt för oss att få se datan visualiserad för att direkt kunna urskilja trender och periodiciteter.

I figur 1 ser man tydligt att datan visar prov på veckovis periodicitet med viss irregularitet. Det går också att urskilja positiva eller negativa trender i många av diagrammen. Jämför man diagrammet som beskriver aktiviteten i mars 2016 med diagrammet över mars 2017 så ser man att de två sista veckorna i mars 2016 bidrar till en negativ trend medan trendlinjen i mars 2017 är något positiv.

På kundens begäran så har alla värden som beskriver klick och intäkter förvrängts med en okänd faktor.

Figur 1. Diagrammen ovan visar .

4.2 Visualisering av prognos med Holt-Winters metod I figur 2-5 så är prognos med Holt-Winters metod visualiserad. Figur 2-4 visar hur en månadsprognos baserad på veckodagar ser ut. Figur 5 illustrerar en veckovis prognos under perioden Januari 2015 fram till Februari 2017.

Figur 2. Månadsprognos med Holt-Winters, Januari 2015.

Figur 3. Månadsprognos med Holt-Winters, Januari 2016.

Figur 4. Månadsprognos med Holt-Winters, Januari 2017.

Figur 5. Veckovis prognos med Holt-Winters, 2015-2017.

4.4 Prognos med utbyggnad av den linjära approximationen Vi inledde utbyggnaden av den linjära approximationen med att beräkna hur veckodagarna förhöll sig mot snittdagen. Resultaten baseras på 106 veckor från Januari 2016 fram till och med Februari 2017 och visas nedan i tabell 1.

Tabell 1 visar att söndagar, måndagar och tisdagar väger tyngst av veckodagarna. Fredag och lördag väger minst. Detta alltså helt i enlighet med informationen från kunden.

Tabell 1. Förhållandena mellan veckodagar och snittdagen.

Veckodag Förhållande med snittdagen

Måndag 1.128

Tisdag 1.094

Onsdag 1.039

Torsdag 0.977

Fredag 0.841

Lördag 0.837

Söndag 1.083

Samma princip tillämpades även på månaderna för att fastställa det månadsvisa förhållandet.

Tabell 2. Förhållandena mellan månader och snittmånaden.

Månad Förhållande med snittmånad

Januari 1.106

Februari 1.026

Mars 1.042

April 0.874

Maj 0.873

Juni 1.038

Juli 1.147

Augusti 1.102

September 1.016

Oktober 0.997

November 0.902

December 0.877

Följande diagram visar hur vår utbyggnad av den linjära approximationen står sig mot den ursprungliga approximationen samt det faktiska utfallet samma månad. Diagrammen i figurerna 7-9 visar hur en approximation med vardera funktion hade sett ut den 10:e, 15:e, 20:e samt den 25:e samma månad.

Figur 7. Den linjära approximationen samt utbyggnad av den linjära approximationen mot det faktiska utfallet samma månad, oktober 2016.

Figur 8. Januari 2017.

Figur 9. Mars 2017.

Tabell 3 visar det ackumulerade absolutbeloppet av avvikelserna från respektive linjära metod under ett år.

Tabell 3. Ackumulerat absolutfel från två metoder, perioden maj 2016 - april 2017.

Anropsdag i månaden [dag]

ABS-fel för linjär approx. [klick]

ABS-fel för utbyggd linjär approx. [klick]

10 81774 75571

15 66608 65006

20 47644 45727

25 29914 28302

Avsaknaden av diagram för prognos med ARIMA-metoden beror på flera anledningar. Vi kommer att gå in på dessa anledningar i diskussionsavsnittet.

5.! DISKUSSION Den mest väsentliga upptäckten, och också den upptäckten som skapade flest problem, var hur oregelbunden datan var i samma månad från år till år. I Figur 1 och 2 så ser man tydligt hur trenden i datan skiljer sig från samma månad 2016 och 2017. Detta var återkommande i flera månader och det gick därför inte att använda sig av intäktsdata från samma månad ett år tidigare för att justera den linjära prediktionen den aktuella månaden.

5.1 Holt-Winters metod En annan iakttagelse efter att ha presenterat resultatet är att periodiciteterna, särskilt de veckovisa, ställer till det för oss mer än vad de hjälper prognosen. Då Holt-Winters metod lämpar sig åt tidsserier med veckovis, månadsvis eller kvartalsvis periodicitet blir metoden väldigt svår att tillämpa på vår

tidsserie då vi försöker hitta månadsprediktioner med veckovis periodicitet. Då det inte går ett jämnt antal veckor på en månad så kan vi inte ställa upp en relevant Holt-Winters-modell. Diagrammen i figur 2-5 i resultatdelen visar hur prognoserna ser ut efter att vi har bortsett från detta problem och prognosen blir alltså mer och mer förskjuten för varje månad.

5.2 ARIMA Vad gäller ARIMA-metoden så uppstår ett problem mer specifikt för vårt uppdrag. Kunden vill ha en månadsprognos baserad på försäljning fram till ett godtyckligt datum den aktuella månaden. För att kunna dra nytta av en ARIMA-modell så kräver programmet ett minimum på 12 observationer [1]. Arbetar man dessutom med tidsserier som uppvisar hög irregularitet så behöver man kompensera för detta med ännu mer data [4]. Denna kombination är anledningen till att vi inte har lyckats framställa några relevanta resultat med ARIMA-metoden. En ARIMA-modell behöver alltså betydligt mer data än vad den aktuella månaden kan erbjuda, och datan från kunden varierar väldigt mycket från år till år. Slutsatsen blir därför att ARIMA-metoden inte lämpar sig för denna tidsserie. Ett program som tillämpar ARIMA-modellen kräver dessutom kontinuerligt underhåll och uppdateringar av datan för att kunna fortsätta fastställa precisa prognoser och eftersom detta var menat som ett engångsuppdrag så blir det ännu ett argument till att förkasta ARIMA-metoden.

5.3 Utbyggnad av den linjära approximationen Inledningsvis var det inte tänkt att algoritmen vi utvecklade skulle vara en påbyggnad av den linjära approximationen som kunden idag använder sig av. Efter att vi förkastade hypotes efter hypotes återstod endast variabeln viktade veckodagar. De viktade veckodagarna bidrog till en mer precis månadsprognos och en av de största anledningarna till detta är att en vecka är en så pass kort period att vi kunde basera vikterna på mer än 100 referenser.

5.3.1 Varför inte utbetalningsdag för lön bidrog till en positiv trend Det finns två avgörande anledningar till att denna faktor inte har större inverkan på datan och dessa anledningar hänger ihop med varandra. Till att börja med så räknar vi på klickaktivitet och inte köp. Detta måste vara den största orsaken till att denna faktor inte påverkar resultatet tydligare då man vanligtvis brukar kunna se tydliga konsumtionsmönster i samband med avlöning. Detta bekräftas genom att istället titta på kundens intäktsdata efter löning. Då är konverteringsgraden från klick till köp betydligt större än för övriga perioder i månaden vilket gör att kunden kan ta ut mer pengar för varje klick. Troligtvis var det därför kunden rekommenderade oss att fokusera på utbetalningsdagar för lön som en faktor. Vidare så är utbetalningsdag för lön en lång period vilket gör att antalet referenser reduceras avsevärt. Vi hade endast 12 datapunkter att ställa i relation till varandra.

5.3.2 Varför de viktade månaderna inte var till användning Denna period är lika lång som avlöningsperioden vilket medför liknande konsekvenser som nämnt i avsnittet ovan. För att analysera detta på en mer detaljerad nivå så hade vi behövt minst 9 stycken perioder, dvs 9 års data. Detta grundar vi på att ett år i veckodagar ger 1 (vart fjärde år 2) dagar till övers. Det här innebär att om en månad i en period får flera helgdagar (röda dagar) på veckodagar som vanligtvis brukar vara “bra dagar”, så reduceras antalet klick avsevärt mer än om detta

skulle inträffa på en “sämre dag”. Denna tillfällighet reducerar vi genom att få tillgång till minst 9 års data.

Avsaknaden av denna datamängd kan leda till att om en godtycklig månad får flera röda dagar som infaller på veckodagar som vanligtvis brukar vara ”bra dagar”, så reduceras antalet klick avsevärt mer än om de röda dagarna hade infallit på ”sämre dagar”.

6.! SLUTSATS När vi tog oss an projektet hade vi vissa idéer på hur vi skulle kunna förbättra den ursprungliga prediktionen. Som ovan nämnt blev vi tvungna att förkasta flera av våra hypoteser, i takt med detta sjönk även vårt självförtroende om att lyckas bygga en algoritm som förbättrar kundens idag linjära månadsapproximation.

Konklusionen av studien är att vi inte uppnådde vår ambitionsnivå att halvera felmarginalen på månadsprognoserna. Skillnaden mellan vår implementation och den ursprungliga linjära approximationen var försumbar, och därmed finns det ingen anledning för kunden att implementera den framtagna algoritmen. Trots detta var kunden nöjd efter att vi hade presenterat resultatet då de kunde förkasta hypotesen om att förbättra deras månadsprediktioner. Vi lyckades även motbevisa deras hypotes om ökad trafik i samband med lön, dvs. runt den 25:e varje månad. Enligt kunden var denna upptäckt vårt viktigaste bidrag.

Vi anser att anledningen till att vi inte lyckades skapa en bättre algoritm för ändamålet är att ett konsumtionsbeteende inte går att relatera till ett klickbeteende, detta då ett klickbeteende nödvändigtvis inte innebär ett åtagande.

Vi anser att det går att kartlägga denna typ av beteende men för att lyckas med detta krävs en mer omfattande data än vad vi fick tillgång till. Det vi syftar till är bredare data i form av omsättning, trafik, marknadsföring, kampanjer mm. Allt detta för att kunna identifiera och sudda ut irregulariteter i klickdatan. Detta i kombination med data över en längre period hade bidragit till en mer precis månadsprognos.

7.! REFERENSER 1. UK Centre for the Measurement of Goverment

Activity. 2008. From Holt-Winters to ARIMA Modelling: Measuring the Impact on Forecasting Errors for Components of Quarterly Estimates of Public Service Output. Retrieved from http://www.ons.gov.uk/ons/guide-method/ukcemga/publications-home/publications/archive/from-holt-winters-to-arima-modelling--measuring-the-impact-on-forecasting-errors-for-components-of-quarterly-estimates-of-public-service-output.pdf?format=contrast

2. George E P Box, Gwilym M Jenkins, Gregory C Reinsel, and Greta M Ljung. 2015. Time series analysis: forecasting and control. John Wiley & Sons.

3. Everette S Gardner. 1985. Exponential smoothing: The state of the art. Journal of forecasting 4, 1: 1–28.

4. Rob J Hyndman and Andrey V Kostenko. 2007. Minimum sample size requirements for seasonal forecasting models. Foresight 6, Spring: 12–15.

5. Prajakta S Kalekar. 2004. Time series forecasting using holt-winters exponential smoothing. Kanwal Rekhi School of Information Technology 4329008: 1–13.

6. Andrea De Mauro, Marco Greco, Michele Grimaldi, Georgios Giannakopoulos, Damianos P Sakas, and Daphne Kyriaki-Manessi. 2015. What is big data? A consensual definition and a review of key research topics. In AIP conference proceedings, 97–104.

7. Solomon Negash. 2004. Business intelligence.

8. Charles Nyce and A P I CPCU. 2007. Predictive analytics white paper. American Institute for CPCU. Insurance Institute of America: 9–10.

9. Eric Siegel. 2013. Predictive analytics: The power to predict who will click, buy, lie, or die. John Wiley &

Sons.

10. Philip E Tetlock and Dan Gardner. 2015. Superforecasting: The Art and Science of Prediction. Broadway Books.

www.kth.se