Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
Retro adatbányászat
Kovács Gyula – Andego Tanácsadó Kft.
Adattárház Fórum 2012
Magunkról
• 2010-ben alapították magánszemélyek (az alapítók több mint egy évtizedes BI tapasztalatokkal rendelkeznek)
• Andego Tanácsadó Kft. fő profilja:
• Intelligens applikációk kifejlesztése, és hozzá konzultáció eladása (CARculator, Sixtep hálózati szoftver)
• BI tanfolyamok megtartása (kiscsoportos tanfolyamok)
• CRM és BI témájú piackutatások lebonyolítása
• Partnerek
• IFUA Partners , MentorPartner, BI Consulting Kft. és SIXTEP Kft.
• Referenciák
• Lombard Lízing, MKB Euroleasing, OTP, Uniqa, Posta Biztosító, Signal Biztosító, PBA biztosítási alkusz, Vodafone, Sanofi-avensis
Tartalom
• Mi is az adatbányászat?
• Alapfogalmak
• Dara Mining és X mining kapcsolata
• Big Data és adatbányászat
• Hogyan készül egy adatbányászati modell?
• Milyen adatbázisokat építsünk?
• Egy esettanulmány
Az adatbányászat már nem trendi?
Az adatbányászat = adatfeldolgozás,
adatelemzés és gondolkodás
Bár általában adatok elemzésével kapcsolatban használják a
fogalmat, az adatbányászat a mesterséges intelligenciához hasonlóan
egy „esernyő” fogalom. Általában üzleti vagy valamilyen más
szervezeti trend(ek) azonosításának igényével kapcsolják össze.
1.„Az implicit, korábban ismeretlen és hasznos információk kinyerése
különféle adatokból” (W. Frawley and G. Piatetsky-Shapiro and C. Matheus, Knowledge
Discovery in Databases: An Overview. AI Magazine, Fall 1992, pages 213-228.)
2. „Hasznos információk hatalmas adatsorokból vagy adatbázisokból
való kiszűrésének tudománya" (D. Hand, H. Mannila, P. Smyth: Principles of Data
Mining. MIT Press, Cambridge, MA, 2001. ISBN 0-262-08290-X)
3. Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges
intelligencia kutatások eredményeit.
4. Az adatbányászat nagy mennyiségű adatok kutatása és elemzése
rejtett minták és szabályok felfedezése érdekében. (Data Mining Techniques;
By Michael J. A. Berry and Gordon S. Linoff, 2004 John Wiley & Sons)
• CRM rendszerek megjelenése. A rendszerek inbound/outbound
kampányok menedzselése egyben, és az adatbányászati modelleket ezen
kampányokhoz kezdték használni (CRM modellek) -> Modell
teljesítmények mérése éles környezetben (kampány
menedzsment)
• Web analitika. Egyre több online intelligens alkalmazás jelent meg. A
web adatok nagyon gyorsan amortizálódnak, az algoritmusokkal szembeni
elvárás az öntanulás képessége (pl. ajánló rendszerek) -> Real-time
technológia és Big Data megjelenése
• Nem strukturált adatok bányászata. A hagyományos adattárház
adatok elemzése mellett megjelent a szöveg és hangbányászat. A
szövegbányászat egyben a tartalom elemzés legfontosabb motorja ->
Digitális lábnyomok egyre intenzívebb elemzése
2005 körül számos olyan változás történt, ami
alapvetően változtatta meg az adatbányászatot
Data Mining
Óriás adatok megjelenése:
• BIG Data
• Cloud Computing
• Hálózatok (közösségi
oldalak > digitális lábnyomok)
Kampány menedzsment:
• Analítikus CRM
• Real-time decision
• Üzleti elemzés szerepe
nő – Business Analyses
Napjainkban adatbányászathoz sorolunk
lassan mindent ami adatelemzés
Nem strukturált adatok
elemzése:
• Text mining
• Voice mining
• Hálózatelemzés
Adatbányászat
demokráciája:
• Open source szoftverek
térnyerése
• „Mindenkinek van adata”
X-Mining tényleg adatbányászat?
X-Mining tényleg adatbányászat?
A szövegbányászat, hangbányászat, videóbányászat és
részben a hálózatelemzés valójában a nem strukturált adatok
strukturált formára hozását jelenti. Ennek köszönhetően az
adatbányászat új adatokat tud beépíteni a modellekbe.
Big Data Big Money?
A technologyreview-ban Peter Fader-rel (Wharton Egyetem)
készült interjúban a Big Data szerepéről beszéltek. Ennek
kivonata:
• A "More is better" elvvel kapcsolatban a kétségeit fogalmazta meg.
Emlékeztette az olvasókat arra, hogy 15 éve hasonló várakozások előzték
meg a CRM rendszereket, és a benne lévő elemzési lehetőségeket -
azonban az idő nem igazolta ezeket a várakozásokat (vagy csak ritka
esetekben)
• A legfontosabb kérdés az optimális adatmennyiség mérete. Fader szerint
az elemzés lényege az adatokban lévő korlátok feltérképezése, és nem
minden áron történő kiaknázása.
• Ugyancsak kitért arra, hogy az óriási adatok elemzése végén lehet hogy
olyan összefüggésekhez jutunk, amiket az "adattudósok" már a 60-as
években is tudtak. Az óriási adatok elemzése túlságosan technikai jellegű
lett, éppen ezért Fader szerint az adattudósok inkább
matematikusok/informatikusok, és kevésbé elemzők.
Egyáltalán hol vannak nagy adatok?
Rexer Analytics felmérése szerint az elemzők 87%-a maximum 100
változót használ az elemzéseknél
Az elemzők számára nagyobb kihívás az
adattisztítás mint az adatméret
Az elemzők többsége vállalati adattárházakon dolgozik. Itt az
adatminőség kérdése a legszignifikánsabb, az adatok mérete nem
változott az elmúlt években radikálisan
Tartalom
• Mi is az adatbányászat?
• Alapfogalmak
• Dara Mining és X mining kapcsolata
• Big Data és adatbányászat
• Hogyan készül egy adatbányászati modell?
• Milyen adatbázisokat építsünk?
• Egy esettanulmány
Adatbányászati modellezés - alapelv
Ügyfél
Az alapelv: minél több múltbeli adatot gyűjtsünk össze az adott
ügyfélről, és ez alapján jelezzük előre jövőbeli viselkedését.
Mú
ltb
eli a
dato
k • Demográfiai/firmográfiai
adatok
• Tranzakciós adatok
(kommunikáció/pénzforgalom)
• CRM adatok – ügyfél-vállalati
interakciók
• Termék használati adatok
• Stb.
Jövő
• Lemondja a
szerződését?
• Csődbe jut?
• Csalást fog elkövetni?
• Vásárolni fog az adott
termékből?
Prediktív
modell
Mit várhatunk el egy adatbányászati projekttől?
• Churn előrejelzés. Elsődlegesen mobil szektorban, ezen belül is
postpaid ügyfelekre.
• Ügyfél szegmentáció. Olyan viselkedés alapú szegmentáció, ami a
hasonló szükségletű ügyfeleket detektálja. Elsődlegesen kampány
célcsoport kijelölésnél használták.
• X-sell/upsell elemzések. „Next best” ajánlatok kiszámítása
asszociációs szabályok segítségével
• Ügyfélérték számítás. Alapvetően kontrolling feladat, de a CLV
számításnál szükséges az ügyfelek várható élettartamának kiszámítása
• Csalás detektálás. Bankkártya csalások detektálása
• Folyamat optimalizálás. Behajtási folyamatok optimalizálása (pl.
mely adósokat nem kell átadni behajtó cégeknek)
Néhány tipikus alkalmazás
Adatbányászati modell – elemzés eredménye
Hűségszerződés lejárt?
Igen: 15% Nem: 3%
Optimális díjcsomagban van
Igen: 10% Nem: 25%
Panaszkodot t az ügyfélszolgálaton?
Igen: 7% Nem: 1%
Adatbányászat legfontosabb lépései
Az adatbányászat nélkülözhetetlen része az adatbányászati szoftver.
A legjobb szoftverek támogatják:
1. Adatfeldolgozás: az eredeti forrás adatok általában alkalmatlanok
adatbányászati elemzésekre. A szoftver segítségével előállítható tanító
és teszt adatbázis
2. Hagyományos elemzés (statisztikák és grafikonok): az elemző lépésről
lépésre állítja elő a tanító adatbázist. Ehhez szükséges alapelemzések
elkészítése
3. Modellezés: minden adatbányászati szoftver tartalmaz
modellező/adatbányászati algoritmusokat. A tanító adatbázison ezek
segítségével készítjük a modelleket (adatbányászati algoritmus ≠
modell)
4. Kiértékelés: a legtöbb szoftver tartalmaz olyan eljárásokat, amelyek
segítségével könnyen eldönthető, hogy az adott modell mennyire
pontos (mennyire használható)
Esettanulmány
Prediktív modellezés – múltbeli tapasztalatok
alkalmazása az előrejelzésre
Alapelv: gyűjts össze minél több adatot a múltból, és ezt használd fel a
jövő előrejelzésére!
Jelen Múlt
• Univerzális tudás:
múltbeli adatok alapján
feltárt összefüggések
(függvényhalmaz)
• Múltbeli adatok
elátrolva
adattárházakban
(adatbázis)
Előrejelzés – jelen tudásunk
alkalmazása
• Demográfiai/firmográfiai
adatok
• Viselkedés adatok
(hívások, SMS, MMS, …)
• CRM adatok – ügyfél-
vállalati interakciók
• Termék használati
adatok
+
Ügyféladat DataMining modellek
Ügyfélszintű előrejelzés: mi annak a
valószíműsége, hogy egy adott
esemény bekoövetkezik? (pl.
Elvándorlás)
Univerzális tudás
múltbeli adatok alapján
• Demográfiai/firmográfiai
adatok
• Viselkedés adatok
(hívások, SMS, MMS, …)
• CRM adatok – ügyfél-
vállalati interakciók
• Termék használati
adatok
Friss ügyféladatok –
melyeken a modellek
futtathatók
Feladat: cégek bedőlésének előrejelzése
• Forrás: Complex céginformációs adatbázis • ~1.000 különböző tábla
• A legnagyobb táblákban 25-30M rekord
• Inkonzisztens adatbázis
• Elemzés lépései: • Létrehozunk egy tanító adatbázist
• Alapelemzéseket készítünk
• Elemzési stratégia kialakítása
• Modellezés
• Kiértékelés
Hogyan hozzunk létre elemzési adatbázist?
2011.01 2011.06 2011.012
Múltbeli események Célváltozó: történik-e
negatív esemény az adott
céggel
Az eredmény egy olyan függvény, mely
később alkalmazható előrejelzésekre.
Milyen adataink vannak?
2011.01 2011.06 2011.012
Múltbeli események Célváltozó: történik-e
negatív esemény az adott
céggel
• Cím adatok (székhely, telephely, fióktelep) – és ezek változása
• Tulajdonosi adatok
• Tisztségviselő adatok
• Bankszámla adatok
• ....
• Mérleg adatok – 2010-es vagy korábbi (évente egyszer „frissül”)
Tanító adatbázis – ami bármikor
reprodukálható
Változók Cégazonosító
Volt-e
székhely
váltás (last
6M)
Volt-e
2010-es
mérleg
adata
Fő
TEAOR
kód
Létszám
változás
(last 6M)
Cég1 1111 1 32 1 +3
...
Cég2 1112 0 78 1 -2
...
2011.06. végi állapot
Tanító adatbázis – célváltozó előállítása
Változók Cégazonosító
Volt-e
székhely
váltás (last
6M)
Volt-e
2010-es
mérleg
adata
Fő
TEAOR
kód
Létszám
változás
(last 6M)
Cég1 1111 1 32 1 +3
...
Cég2 1112 0 78 1 -2
...
2011.06. végi állapot
Felszámol
ásba kerül
(next 6M)
1
0
Alapelemzések – ismerd meg az adatokat
Nem volt Volt Ráta
Soha nem adott be mérleget 205887 3179 1,52%
Adott-be mérleget 2010-ről! 310575 840 0,27%
Adott-be mérleget, de 2010-ről már nem! 108244 3581 3,20%
Mindenki
2011. II félévben volt-e negatív
Az alapelemzések segítenek:
• Adatminőség ellenőrzésében
• Releváns adatok detektálásában
• Modellezési koncepció kialakításában
Modellezés – szakértői tudással
Teljes sokaság (1,25%)
I. Volt negatív esemény az elmúlt fél évben
(5,89%%)
Nem volt negatív esemény az elmúlt fél évben (1,05%%)
III. Adott be mérleget 2010-ben
(0,25%%)
II. Nem adott be mérleget 2010-ben
(1,98%)
Jelen esetben az elemző úgy döntött, hogy 3
modellt épít 3 különböző szegmensre (már maga a
szegmentálás egy modell)
Modellezés – szakértői tudással
Teljes sokaság (1,25%)
I. Volt negatív esemény az elmúlt fél évben
(5,89%%)
Nem volt negatív esemény az elmúlt fél évben (1,05%%)
III. Adott be mérleget 2010-ben
(0,25%%)
II. Nem adott be mérleget 2010-ben
(1,98%)
Kiértékelés – üzleti szemüvegen keresztül
SCORE Darabszám
Negatív
esemény
valószínűsége II.
Félévben
A 18348 5,9%
B 55200 4,5%
C 236061 1,5%
D 134341 0,4%
E 193627 0,1%
A kapott score-ok alapján kialakíthatók
szegmensek, melyek jól használhatók üzleti
folyamatokban
Milyen adatokon tudunk adatbányászati modelleket
építeni?
Adatleltár S
ze
rző
dé
s
kö
tés
PREDIKCIÓ
Demográfia
Termék/ szolgáltatás
Ügynök
Viselkedés adatok
Ak
tív
pe
rió
du
s
Számla fizetés
Ügyfélszolgálati kapcsolat
Kampány
Felmondás
SZEGMENTÁCIÓ
X XXX
XX (termék affinitás) XX
X -
XXX X (vagy több ?)
X (churn) X (attitűd)
XX (churn) X (attitűd)
XX (termék affinitás) X (attitűd)
XX (churn) -
Hogyan használjuk az adatokat?
DW
Adott vállalat összes
ügyfeléről egységes
információ halmaz.
Az adattárházban lévő adatokat egy
az egyben inputként adjuk az
adatbányászati eljárásnak – majd a
modellezés ezen alapadatokon
történik
Ömlesztve
Feldolgozva
Az adattárházban lévő adatokból
„attitűd” jellegű képzett változót
készítünk – és ezen változókon
történik a szegmentáció (pl. aki
minden hónap 5-én csekken fizeti
be a számlát – az „precíz”, …)
Az adatbányászati algoritmusok táblázatokat
várnak
Az összes data mining algoritmus táblázat formátumú
adatokat tud kezelni – azaz sorok és oszlopok strukturált
formában (SQL táblák)
Milyen egy jó adatbányászati tanító adatbázis?
• Ügyfél-centrikus adatbázis (vagy termék
centrikus, stb.): végső cél: 1 ügyfél 1
rekord struktúra létrehozása
• Az adatok zaj mentesek – a dm
algoritmusok egy része nem tudja kezelni a
hiányzó értékeket
• A szélsőséges értékek – deviancia mentes
adatbázis
• Kategória változók támogatása – jól
interpretálható eredmények
„Egy sor egy ügyfelet (emailt, káresetet,
szerződést, …) ír le” szabály
Ügyfél
Minden egyes
sor egy- egy
ügyfelet jelöl:
1.Egy múltbeli
időpillanatban
mit tudtunk
róla? (input
változók)
2.Mi történt vele
utána?
(célváltozó)
Az összegyűjtött adatokról miket kell tudnunk!
Nagyon fontos, hogy az összegyűjtött változókat
pozícionálni tudjuk:
• A modellezésnél mi a szerepe (input, output)
• Mit is ír le pontosan?
• Változó típusa – mennyire tudja kezelni az algoritmus (pl.
diszkrét értéket sok szegmentáló eljárás nem tud jól
kezelni)
• Elérhetőség – mennyire bonyolult előállítani (modell
később alkalmazható legyen)
• Mennyire megbízható az adat
• Információ tartalom (szórás, korreláció a célváltozóval)
Összefoglalás
• Adatbányászat szerepe továbbra is
jelentős – amennyiben megfelelően
használjuk
• Nem kell bonyolult modell – elég ha
használható
• Big Data – ne akarjunk minden elemezni!
• X-Mining – adatkinyerésre használjuk és
utána elemezzünk