24
(c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer Science University of Calgary

(c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Embed Size (px)

Citation preview

Page 1: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

(c) 2008 Prof. Dr. Michael M. RichterGöttingenDezember 2008

Der Ähnlichkeitsbegriffund

die Suche nach Information

Michael M. Richter

Department of Computer Science

University of Calgary

Page 2: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Warum sind wir an Informationen interessiert?

• Informationen haben einen Zweck ist: Handlungen – überhaupt auszuführen– besser auszuführen.

• Der Handlungsbegriff wird sehr allgemein gefasst:– Handlungen verändern etwas:– Die Umwelt– Das Bewusstsein– etc.

Es bleibt die Frage: Was heisst besser?

Page 3: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Was heisst „Besser“?

• Handlungen und Prozesse haben ein Ziel, das mehr oder weniger erreicht werden kann.

• Ökonomisch-Mathematische Theorie: Nutzentheorie.• Historische Wurzeln:

– Daniel Bernoulli (1730, erste Begriffe)– v.Neumann – Morgenstern (1944, mathematische Theorie)– Savage, Aumann (nach 1950, Formalisierung subjektiver

Sichtweisen.

• Ein Ziel heisst besser erreicht, wenn der Nutzen steigt.

• Informationen sind dazu da, Handlungen so auszuführen dass der Nutzen steigt.

Page 4: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Kontext

• Der Kontext ist im Prinzip alles das was für den Prozess relevant sein kann und ist deshalb oft subjektiv.

• Der Kontext definiert das Ziel und die Nützlichkeit einer Ressource.

• Der Kontext ist oft nur ungenau bekannt:• Man erhält also kein klares mathematisch definiertes

Problem.

Page 5: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Nutzenoptimierung

• v.Neumann-Morgenstern: Optimiere den erwarteten Nutzen!

• Voraussetzung:• Die Nutzenfunktion liegt präzise vor• Das ist ein Problem bei

– subjektiven – teilweise unbekannten– vagen Nutzenfunktionen

Page 6: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Wissen und Nutzen

• Wissen hat deshalb einen Wert, wir können es– kaufen– verkaufen

• Das ist keine Erkenntnis unserer Zeit!• Wir kennen das seit Jahrhunderten, z.B. die

britische Regierung verhielt sich zur Kolonialzeit so.

• Konsequenz: Wissensmanagement!

Page 7: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Das Retrievalproblem

• Informationen sammeln kann jeder• Aber wenige können benötigte Informationen finden.• Situation:

– Ich möchte eine Aktion ausführen– Ich frage also: Bitte helfen Sie mir mit den nötigen

Informationen! – Da machen wir uns mal auf die Suche! – Aber wie?

Page 8: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Zwei Arten von Suche

• Logik orientierte Suche: Wir suchen die home page einer bestimmten Konferenz

• Das ist ein 0-1 Problem, entweder erhalten wir die home page oder nicht. Die Antwort muss exakt sein.

• Approximation orientierte Suche: Wir suchen die Telefonnummer einer Person welche gut über das Physikstudium in der Schweiz Bescheid weis.

• Hier ist die Antwort weniger klar. Auch mag eine ideale Person gar nicht existieren.

Page 9: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Approximation, Abstand und Ähnlichkeit

• Approximation benötigt Abstandsfunktionen.• Dual dazu: Ähnlichkeitsmasse.• Traditionell:

– Numerik

• Heute auch:– Symbolische Bereiche

• Das erlaubt die Anwendung der Methode des nächsten Nachbarn

Page 10: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Was heisst “ähnlich”? (1)

• Es gibt kaum einen Begriff über den so unterschiedliche Meinungen bestehen.

• In der Umgangssprache meint man meist “ähnlich aussehen”.

• Aber der Begriff wird auch in vielen Disziplinen verwendet:– Philosophie– Kunst, Design– Machinelles Lernen– Pattern Recognition– Fallbasiertes und analoges Schließen– E- commerce

Page 11: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Was heisst “ähnlich”?(2)

• Ähnlichkeit hat mit der Gleichheit gemeinsam, dass es sich auf unterschiedliche Aspekte beziehen kann: – Größe, Form, Farbe– Herkunft, etc.

• Ähnlichkeit ist oft subjektiv:– Eine Person mag zwei Autos ähnlich finden, eine andere

nicht.– Das liegt an den unterschiedlichen Interessen und ist oft

auch durch Emotionen beeinflusst.

Page 12: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Ähnlichkeit als eine Relation

• Drei Möglichkeiten:

i) binäres Prädikat:“x und y sind ähnlich”

ii) binäres Unterschiedsprädikat:

“x und y sind unähnlich”

iii) Ordnungsrelation:

“x ist mindestens so ähnlich zu y wie zu z”

Optimalität: Wenn y am ähnlichsten zu x heisst es nächster Nachbar von x.

Notation : NN(x,y)

Page 13: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Ähnlichkeitsmaße

• Ein Ähnlichkeitsmaß bringt einen quantitativen Aspekt.

• In seiner abstrakten Form hat das Maß zwei Argumente von zwei beliebigen Mengen

• F (genannt Fragen) • A (Genannt Antworten):

• Ein Ähnlichkeitsmaß ist eine Abbildung• sim: F x A [0,1] (reelles Intervall)• .

Page 14: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Ein allgemeines Ähnlichkeitsmaß

• Gegeben: Zwei Objektbeschreibungen C1, C2 mit p Attributen A1, ..., Ap

• Intention:

• simj : Ähnlichkeit für Attribut j (lokales Maß)

j : beschreibt die Relevanz von Attribut j für das Problem

Lokal – Global Prinzip

p

1jjj (C1,C2)simSIM(C1,C2) ω

Page 15: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Beispiele

Frage

benötigte Information

Erwünschtes Produkt

Intendierte Funktionalität

Symptome

Antwort

Dokument

Erhältliches Produkt

geeignetes Produkt

Therapie, Reparatur

Page 16: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Semantik, Spezifikation, Korrektheit

• Die Semantik der Ähnlichkeit ist der Nutzen der Antwort.

• Die Nutzenfunktion dient als Spezifikation für das Maß.

• Korrektheit:

Nutzen der Antwort = Spezifizierter Nutzen

Nutzenprinzip:

Maximum des (erwarteten) Nutzens• Ähnlichkeitsprinzip:

Nächster Nachbar

Page 17: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Dokument und Inhalt Orientierung

• Dokumentorientierung : Man ist nur am Titel und Schlüsselwörtern interessiert.

• Das reicht of aus:– Lufthansafahrplan– Leipziger Veranstaltungskalender Juli 2009.

• Inhaltsorientierung: Die Nützlichkeit ergibt sich erst durch ansehen des Inhaltes:– Ein Buch über grundlegende Probleme der

Klassenkörpertheorie.

Page 18: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Wissenscontainer - Wo ist das Wissen repräsentiert?

• Das Wissen ist über die Container verteilt• Das Wissen kann zwischen den Containern verschoben werden

Fall BasisProduktbasis

Fall BasisProduktbasis

Ähnlichkeits-

Maß

Ähnlichkeits-

MaßLösungs-

Transformation

Lösungs-

Transformation

VokabularVokabular

- 17 -

Page 19: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

CBR-Works

• Wir verwenden das Werkzeug CBR-Works um einen Internetladen für den Verkaufsprozeß zu bauen.

• CBR-Works ist – Ein Modellierungswerkzeug– Ein Tool um den Verkauf durchzuführen

• Der Kunde– hat Wünsche, Präferenzen und Verhalten– sucht Informationen um das best möglichste Produkt zu finden

Page 20: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Ein Beispiel: Hauskauf

• Wir wollen ein Haus kaufen.• Vokabular: Woran sind wir interessiert, wonach

fragen wir?• Produktbasis: Was ist erhältlich?• Ähnlichkeitsmaß: Welches bevorzugen wir?• Transformation: Welche Veränderungen sind

erlaubt?

• Das ist ein dynamischer Prozeß, ein Dialog, der effizient gestaltet werden muss.

Page 21: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Wünsche ...

• Wir wollen ein traditionelles Haus!• Aber etwas modern wäre auch ganz schön!• Die Energiefrage bedenken!• Und wir wollen auch die Sommerabende

genießen!

• Wie repräsentieren wir so etwas?• Das ist direkt nicht möglich. Jede formale

Repräsentation muss sich aber daran messen.

Page 22: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Fragen und Antworten :“CBR Answers System”

• Query: On my PC entering long street names causes a Crash with the message “storage error”.

• Case1:Under Windows XP there is not enough storage allocated for the name of the street. Can possible cause that the system shuts down.

• Case2:The PC-Version does not store the street names correctly.

• Case3: On the Sun entering Umlauts causes a crash.

Page 23: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

SIMATIC Knowledge Manager

www.ad.siemens.de

CBR-Server

Structure

Information about the

Structure of the

SIMATIC Information

System

Order No.

Relation

order numbers

-productnames

Dictionary

InformationEntities

Similarities

Similarity model

Documents in the Customer SupportInformation System

SearchResults

View Document

Page 24: (c) 2008 Prof. Dr. Michael M. Richter Göttingen Dezember 2008 Der Ähnlichkeitsbegriff und die Suche nach Information Michael M. Richter Department of Computer

Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce

Vielen Dank für Ihre

Aufmerksamkeit !