Upload
karoline-dunker
View
109
Download
2
Embed Size (px)
Citation preview
Spree SoSe 2011
Automatisches Clustering und automatische Automatisches Clustering und automatische KlassifikationKlassifikation
Quelle: http://people.revoledu.com/kardi/tutorial/kMean/Image/kMeanClustering.jpg
http://www.ecm.irislink.com/Documents/Image/images/Illustrations/classeur.jpg
Ausgangssituationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Folgende 4 Dokumente sollen geclustert werden:
D1 Fische in Olivenöl anbraten und mit Wasser ablöschen
D2 Fische braten und mit Wasser ablöschen
D3 den Fischen nur bei abgestellter Pumpe Fischfutter in das Wasser des Aquariums geben
D4 Pumpe abstellen, bevor Sie den Fischen das Fischfutter geben
Wie würden Sie diese 4 Dokumente in 2 Cluster aufteilen?
Clusteringindexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Festlegung der Indexterme, die Dokument beschreiben
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
D1: 1 1 1 0 0 1
D2: 1 1 0 0 0 1
D3: 1 0 0 1 1 1
D4: 1 0 0 1 1 1
Paarweise Multiplikation der Vektoren (verkürzt)indexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Der Ähnlichkeitsabgleich durch paarweises Multiplizieren aller Dokumente miteinander ergibt zwei Cluster
Fische(n) Braten Olivenöl Fischfutter Pumpe Wasser
D1: 1 1 1 0 0 1
D2: 1 1 0 0 0 1
D3: 1 0 0 1 1 1
D4: 1 0 0 1 1 1
Cluster 1 (benenne ichIntellektuell Kochen)
Cluster 2 (benenne ich intellektuell Aquarium)
Clusterzentroid berechenenindexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Für die Cluster 1 und 2 lässt sich jetzt der Clusterzentroid (Mittelwert) berechnen
D1: 1 1 1 0 0 1
D2: 1 1 0 0 0 1
D3: 1 0 0 1 1 1
D4: 1 0 0 1 1 1
ZentroidvektorCluster 1: Kochen
Zentroidvektor
Cluster 2 Aquarium
1 1 0 0 0 1
1 0 0 1 1 1
Neues Dokument mit den Zentroidvektoren vergleichen
indexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Welchem Cluster wird das neue Dokument D5 zugeordnet?
Zentroidvektor Kochen
Zentroidvektor Aquarium
1 1 0 0 0 1
1 0 0 1 1 1
D5 „Fisch mit Olivenöl in Wasser braten“
Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren
1 1 1 0 0 1
Paarweise Mulitplikation mit den Zentroidvektoren der vorhandenen Cluster
1 1 0 0 0 1 = 3:6 =0,5
1 0 0 0 0 1 = 2:6 = 0,33
Neues Dokument wird Cluster Kochen zugeordnetindexvektor
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Welchem Cluster wird das neue Dokument D5 zugeordnet?
1 1 0 0 0 1
D5 „Fisch mit Olivenöl in Wasser braten“
Fische(n) Braten Olivenöl Fischfutter Pumpe WasserZuordnungVektoren
1 1 1 0 0 1
1 1 0 0 0 1 = 3:6 = 0,5
Automatische Zuordnung zu einer KlassifikationAutomatische klassifikation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
1. Merkmale eine Klassifikation werden festgelegt
• Merkmale können einer Klasse zugeordnete Wörter sein
• In einer Klassifikation für Pressartikel IPTC wird die Klasse Freizeit durch die Terme Reisen, Spiel, Hobby, Wohnen definiert
1. Das Vorkommen bestimmter Terme im Dokument wird mit dem Vorkommen dieser Terme in der Merkmals-Beschreibung der Klassen verglichen.
1. Dies kann über die Bildung von Skalarprodukten zwischen den Dokumentvektoren (bestimmt über die Deskriptoren) und den Vektoren der Klassen (bestimmt über die Klassenbeschreibungen) geschehen.
Automatische Zuordnung zu einer Klassifikationbeispiel
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
Mail a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.
Mail b
Hi,
Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again. Order now
Wie kann ein Programm automatisch erkennen, ob es sich bei diesen beiden Mails um Spam handelt?
Automatische Zuordnung zu einer Klassifikationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
04/11/23
Klasse/
Attribut
SPAM Kein Spam
Viagra Sehr geehrte
Sex Hochachtungsvoll
selling wissenschaftlich
buy Hausarbeit
pills Referat
Dok a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.
Dok b
Hi,
Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.
Bestimmung der Klassen durch Merkmale (Attribute) - Ausgangslage
Merkmale der Klassen
Automatische Zuordnung zu einer Klassifikationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
04/11/23
SPAM a b Kein SPAM a b
Viagra 1 1 Sehr geehrte 1 0
sex 0 1 Hochachtungsvoll 0 0
selling 0 1 wissenschaftliche 1 0
buy 0 0 Hausarbeit 1 0
pills 0 1 Referat 1 0
Skalarprodukt: Klasse/Dok
1/5 4/5 4/5 0
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes
Dok a
Sehr geehrte Frau Spree,
Hiermit reiche ich Ihnen meine Hausarbeit über das Referat zu wissenschaftlichen Erkenntnissen zur Wirkungsweise von Viagra nach.
Dok b
Hi,Today we announce the selling of our new Viagra pills that allow you to enjoy Sex again.
Automatische Zuordnung zu einer Klassifikationausgangssituation
Seminar I-Prax: Inhaltserschließung visueller Medien, 5.10.2004Spree SoSe 2011
SPAM a b Kein SPAM a b
Viagra 1 1 Sehr geehrte 1 0
sex 0 1 Hochachtungsvoll 0 0
selling 0 1 wissenschaftliche 1 0
buy 0 0 Hausarbeit 1 0
pills 0 1 Referat 1 0
Skalarprodukt: Klasse/Dok
1/5 4/5 4/5 0
Darstellung der Klassen und der Dokumente als Vektoren und Ermittlung der Ähnlichkeit durch Bildung des Skalarproduktes
Mail a ist :
= 20% Spam
= 80% kein Spam
Einordnung kein Spam
Mail b:
= 0% kein Spam
= 80% Spam
Einordnung Spam