Vergleich der Ansätze des „Inkrementellen Lernen“ mit den Ideen des „Online Data Mining“
Ergebnispräsentation
Steffen CiupkeJörg Hipp
Agenda
Online COBWEBOnline COBWEB
Inkrementelle Online AssoziationsregelnInkrementelle Online Assoziationsregeln
Zusammenfassende KritikZusammenfassende Kritik
RückblickRückblick
Rückblick
Vorgehen nach der Einführungspräsentation
• Vergleich der Ansätze Inkrementelles Lernen und Online Data Mining und der Anforderungen an die dabei verwendeten Algorithmen
• Erweiterung des Conceptual Clusterings um Elemente mit Online Behavior
• Prüfung der Vereinbarkeit von Online Assoziationsregeln mit Methoden des Inkrementellen Lernens
Synthese beider Ansätze in Hinblick auf große DatenmengenZiel
Agenda
Online COBWEBOnline COBWEB
Inkrementelle Online AssoziationsregelnInkrementelle Online Assoziationsregeln
Zusammenfassende KritikZusammenfassende Kritik
RückblickRückblick
Online COBWEB
Idee: Parameter (insb. Cuttoff) während der Laufzeit des Algorithmus anpassen
Fragen
• Kann ein bestehender Baum unter Verwendung der Operationen „Merge“ und „Split“ sinnvoll restrukturiert werden?
• Kann Informationsverlust durch zu geringer Clusteranzahl zu Beginn vermieden werden?
Online COBWEB
Durch inkrementelle Eigenschaft des COBWEB-Algorithmus ist Veränderung der Parameter möglich
Vorgehen:
• Mit einem Cuttoff von Null beginnen
• Nach einer best. Anzahl Instanzen Ergebnis prüfen
• Bei Overfitting Cuttoff schrittweise erhöhen
Online COBWEB
COBWEB Kontroll-Struktur
Funktion COBWEB (Objekt, Root)
1.) Update Counts in der Wuzel
2.) Finde den Sohn der Wurzel mit bester CU und mache eines der Folgenden
a) Erschaffung einer neuen Klasse
b) Mergen? COBWEB(Objekt, Merged node)
c) Splitten? COBWEB(Objekt, Root)
d) Keines der Obigen COBWEB(Objekt, Best Host)
Online COBWEB
CA B
K
C
D
K
BA
Merge Operation ohne Cuttoff
• Ca: „best fitting host“; Cb: „runner up“ • CU(C1,....Ca+b,...Ck) > CU(C1,...,Ca,...,Cb,...Ck)• Einfügen der neuen Instanz
Online COBWEB
C
K
BA
CAB
KSituation 1 Situation 2
Merge Operation mit Cuttoff
• Entscheidung (Merge) analog• CU(Situation1) – CU(Situation 2) < Cuttoff
Situation 2• Einfügen der neuen Instanz unter Berücksichtigung
des Cuttoff
Online COBWEB
Performance (COBWEB)
• Kosten des Einfügens einer Instanz: O(B2 logB
n*AV)
A: #Attibute V: durchschnittliche #Attributwerte
• COBWEB ist fähig Schlussfolgerungen zu treffen bzw. besitzt die Eigenschaft Regelmäßigkeiten zu entdecken
COBWEB ist ein inkrementelles, ökonomisches und robustes Conceptual Clustering System
Online COBWEB
Zusammenfassende Kritik
• Keine Literatur zu diesem (trivialen) Ansatz zu finden, obwohl zu COBWEB diverse Erweiterungen existieren
• Praktische Test mit WEKA-COBWEB lassen auf einen relativ geringen Einfluss der Parameter schließen Daten besitzen keine „Clusterstruktur“ „Overfitting“ trotz scharfen Cuttoffs
Hauptproblem inkrementeller Algorithmen (Reihenfolge der Instanzen) wird von diesem Ansatz keineswegs gelöst
Agenda
Online COBWEBOnline COBWEB
Inkrementelle Online AssoziationsregelnInkrementelle Online Assoziationsregeln
Zusammenfassende KritikZusammenfassende Kritik
RückblickRückblick
Inkrementelle Online Assoziationsregeln
erforderliche Leistungen des Verfahrens
inkrementelle Eigenschaft:... Wissen aus Ausgangsdaten DB (repräsentiert durch Assoziationsregeln) wird um neue Transaktion in db erweitert (ohne Zugriff auf DB)
Möglichkeiten der Inkrementierung:1. Pruning von bestehenden großen Itemsets/
Assoziationsregeln2. Aktualisierung von Support und Konfidenz 3. Hinzufügen neuer Assoziationsregeln
ProblemfallTransaktionsdaten DB nicht mehr vorhanden
Inkrementelle Online Assoziationsregeln
theoretische Ansätze für „Inkrementierung“ von CARMA
Hinzunahme neuer Assoziationsregeln:...einfache Abschätzung untere und obere Schranke Support des Itemsets
Steffen Ciupke:
evtl. Abschätzung (v.a. maxSupport) angeben
Steffen Ciupke:
evtl. Abschätzung (v.a. maxSupport) angebenlim Support(v) =
(T-1) + t(v)
N + nlim Support(v) =
t(v)
N + n
T(v) minSupport(DB)•N
T(v) : # Transaktionen mit Itemset v in DB t : # Transaktionen mit Itemset v in dbN : # Transaktionen gesamt DB n : # Transaktionen gesamt db
Inkrementelle Online Assoziationsregeln
theoretische Ansätze für „Inkrementierung“ von CARMA
Hinzunahme neuer Assoziationsregeln:
Steffen Ciupke:
evtl. Abschätzung (v.a. maxSupport) angeben
Steffen Ciupke:
evtl. Abschätzung (v.a. maxSupport) angeben
Fallunterscheidung:1. lim Support(v) > supportSequence(t):
neue Assoziationsregel2. lim Support(v) < supportSequence(t):
Regel bleibt unberücksichtigt
3. lim Support(v) < supportSequence(t) < lim Support(v)
ProblemfallNotwendigkeit Index auf DB zu erstellen
Inkrementelle Online Assoziationsregeln
Negative Border Algorithmus (S. Thomas et al.)
ermöglicht inkrementelle Anwendung von Assoziationsregeln:
•best case, average case: ohne Zugriff auf DB •worst case: maximal einmaliger Scan DB bei stark
reduzierter Anzahl zu überprüfender Transaktionen
Steffen Ciupke:
wichtig: Restriktion bzgl konstanter MinSupport-Grenzwerte !
Steffen Ciupke:
wichtig: Restriktion bzgl konstanter MinSupport-Grenzwerte !
•Algorithmus läßt sich für herkömmliche Assoziationsregelverfahren anwenden (z.B. APRIORI)
•große Performancevorteile (Faktor 20 ggü. APRIORI bereits bei 100000 Transaktionen (v.a. bei mittlerem Support))
Erweiterung von CARMA um Negative Border
Lösungsansatz existierendes, effizientes Verfahren
Ansatzpunkte in CARMA
Inkrementelle Online Assoziationsregeln
Menge der Kandidatenfür Menge der großen Itemsets
Pruning der Kandiaten mit zu geringem Support
Inkrementelle Online Assoziationsregeln
Funktion Negative Border
NBd(L) : Negative Border von LLi : Menge der großen Itemsets (Kardinalität i: Anzahl Items)Ck : Menge der Kandiaten (Kardinalität k: Anzahl Items)
äquivalent: Generierung Kandidaten Phase I CARMA
Negative Border ist Index über maximale Itemsets L (NBd(Lk) = Ck - Lk )
Inkrementelle Online Assoziationsregeln
Umsetzung inkrementeller Ablauf
Ermittlung der Menge der großen Itemsets mit Standard- CARMA
Update des count(s) Ausgangs- Itemsets aus DB
Assoziations-regeln aus DB werden beibehalten od. geprunt
Generierung von neuen Assoziations-regeln
Funktionen arbeiten ohne Scan auf DB
mathemat. Abschätzung support-Sequence auf DB notwendig
•••
Inkrementelle Online Assoziationsregeln
Umsetzung inkrementeller Ablauf
Gesamtmenge der vorgehaltenen Itemsets ist gewachsenGenerierung der Menge der neuen großen Itemsets und Negative Border(Schrittweite: jeweils um 1 vergrößerte Kardinalität der Itemsets)
Rescan DB ermittelt Support Itemsets s{s LDB+ NBd(LDB+ ) | sLdb NBd(LDB+ ) sLDB NBd(LDB )}
Inkrementelle Online Assoziationsregeln
Eigenschaftsänderung durch Kombination inkrementeller & Online Ansatz
• maximal einmaliger Scan der Datenmenge nur für konstanten MinSupport möglich
für CARMA-Verfahren mit exakten Ergebnissen für Support und Konfidenz maximal 2 Scans über Update-Datensatz (db) und 1 Scan über ursprüngliche Datensätze (DB) notwendig
dabei jedoch Reduzierung der Komplexität/Kosten • Einschränkung der auf Support zu überprüfenden Itemsets• Forwardpruning nutzt bei erstem Durchlauf gewonnene Erkenntnisse
(vorzeitiger Abbruch des Prunings möglich)
Zusammenfassende Kritik: Online Ansatz Hellerstein
Effizienz Online Ansatz auf sehr großen Datenmengen (Telekomdaten, generell Terrabyteberreich) durch strukturelle Eigenschaften (v.a. ABC-Tool , Basis-Verfahren „Online Reordering“) fragwürdig - kein Widerleg durch Performancedaten !
offensichtlich Probleme in der Umsetzung für weitere Data Mining Anwendungen - bisher nur für Assoziationsregeln verwirklicht
fruchtbarer Denkanstoß......Berücksichtigung Tradeoff: +
-
interaktive Einbindung Intuition/externes Wissen
Laufzeitoptimierung
Prinzipielle Vereinbarkeit der beiden Ansätze?
• Jedes inkrementelle Verfahren besitzt per Definition ANYTIME- Verhalten
• Vorgehen bei Erweiterung von existierenden inkrementellen Data Mining Methoden mit..:
...Problem: Repräsentation der Wissensbasis
...Shift der Kostenorientierung für große DB
Rechenzeitminimierung DB-Zugriffsminimierung
Zusammenfassende Kritik
Fragen
Online COBWEB
CABD
K
Merge Operation mit Cuttoff
• Einfügen der neuen Instanz unter Berücksichtigung des Cuttoff
C
AB
K
D
Beispielhafter Ablauf Online Associatione Rules ( CARMA )
Inkrementelle Online Association Rules
CARMA
1. Scan :
firstTrans(): Transaktion zu der Itemset in Menge der potentiell
großen Itemsets hinzugenommen wird
count(): Anzahl des Vorkommen des Itemset nach firstTrans
maxMissed:() obere Schranke für Vorkommen vor firstTrans (in Abh. von bearbeiteter Datenmenge und supportSequence)
supportSequence: dynamische Speicherung der nutzerspezifizierten
Supportgrenzwerte
Ermöglicht Angabe einer oberen und unteren Schranke für Support
Inkrementelle Online Association Rules
Backup
Untere Schranke für Abschätzung minSupport in Abhängigkeit von supportSequence
minSupport(LDB) = avgn (n) +c - 1
n
c: Kardinalität des größten Itemsets in LDB
n: # Transaktionen in LDB
Durch CARMA generierte LDB (Basis
supportSequence ) ist Menge der großen Itemsets bzgl. minSupport
n = avgn (n) +c - 1
n
CARMA (i) statt CARMA (i) gewährleistet minSupport(LDB) = n
Erweiterung: