25
HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner ([email protected]) Universität Basel HS 2020 Terminplan 18.09.2020 Motivation, Einführung und Übersicht 25.09.2020 Basiskonzepte im IR 2.10.2020 IR-Modelle (1) 9.10.2020 IR-Modelle (2) 16.10.2020 Evaluation von IR-Systemen Übung 1 23.10.2020 Digitale Indexierung von Text (1) 30.10.2020 Digitale Indexierung von Text (2) 6.11.2020 Suchanfragesprachen, Semantische Suche Übung 2 13.11.2020 Informationsquellen, Datenstrukturen (1) 20.11.2020 Informationsquellen, Datenstrukturen (2) 27.11.2020 Keine Vorlesung 4.12.2020 Web-Retrieval Übung 3 11.12.2020? Semesterendprüfung (14.12.2020? Ausweichdatum) Urs Hengartner © 2020 2 HS 2020

Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner ([email protected]) Universität Basel HS 2020

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

1

Angewandtes Information Retrieval

Basiskonzepte im Information Retrieval

Urs Hengartner ([email protected])

Universität Basel

HS 2020

Terminplan

18.09.2020 Motivation, Einführung und Übersicht

25.09.2020 Basiskonzepte im IR

2.10.2020 IR-Modelle (1)

9.10.2020 IR-Modelle (2) 16.10.2020 Evaluation von IR-Systemen

Übung 1

23.10.2020 Digitale Indexierung von Text (1)

30.10.2020 Digitale Indexierung

von Text (2) 6.11.2020 Suchanfragesprachen, Semantische Suche Übung 2

13.11.2020 Informationsquellen, Datenstrukturen (1)

20.11.2020 Informationsquellen,

Datenstrukturen (2)

27.11.2020 Keine Vorlesung

4.12.2020 Web-Retrieval

Übung 3

11.12.2020? Semesterendprüfung (14.12.2020? Ausweichdatum)

Urs Hengartner © 2020 2 HS 2020

Page 2: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

2

Inhalt

Einführung Historischer Exkurs

•Geschichte des IR

•Meilensteine

Typische IR Aufgaben / Szenarien

Informationssysteme Data Mining

Urs Hengartner © 2020 3 HS 2020

Einführung

Wer befasst sich damit

Informatik

Informationswissenschaft

Linguistik

Retrievalsoftware

Volltext-Suchmaschinen

Search Engines

Kommerzielle

Datenbankensysteme

Suchmaschinen im Web

...

Urs Hengartner © 2020 4 HS 2020

Page 3: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

3

Informatik und IR

• Speicherung (HD, DVD, DRAM, Flash-Memory, Cloud)

• Verarbeitung (Texte, Audio, Video, ...

• Netzwerktechnologie (Protokolle, Routing, ...)

Technologie

• DBMS

• Software Engineering

• Evaluation

• HCI (Human Computer Interaction)

• Methoden der AI

Computer Science

• formale Sprachen (XML, HTML,…), Parsing, Sprachanalyse

• Indexe, Trees, Hashing

• Filtering, Indexierung, performanter Zugriff auf Information

Daten Strukturen und

Algorithmen

Urs Hengartner © 2020 5 HS 2020

Linguistik und IR

• Strings

• Worte

• Terme

• Phrasen

Sprache

• Textsammlungen, Kollektionen (Typen, Charakteristiken, statistische Analysen, erkennen von Konkordanzen)

• Indexierung und Klassifikation

• Such-Hilfen

• Such-Prozesse

Konzepte

Urs Hengartner © 2020 6 HS 2020

Page 4: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

4

Informationswissenschaft und IR

Oberbegriff von IR ?

Systeme, Werkzeuge und Strategien des Suchens und Findens von Informationen in digitalen Umgebungen (= Information Retrieval).

Informationslinguistik und Informationsstatistik

Digitale Bibliotheken, Archive verwenden Thesauri (Bedeutung von Wörtern),

Klassifikation und Typifikation

Medienwissenschaften

Informationssoziologie

...

Urs Hengartner © 2020 7 HS 2020

Extreme IR-Situationen

•Beispiel: Katalogsuche, Telefonauskunft

• spezifischer Informationsbedarf

•genau festgelegter Handlungsablauf

•eindeutige Strukturierung des Inhaltes

Verwalteter Datenbestand

•keine festen Regeln für Inhalte und Struktur

•keine bestimmte Benutzungsart

•Verschiedene Formate(PDF, HTML, XML, …)

World Wide Web (WWW)

Urs Hengartner © 2020 8 HS 2020

Page 5: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

5

Geschichte des IR

•Informationsbedarf

•Technische Machbarkeit

•Computer waren teuer und gross

Bei der Entwicklung von Informationssystemen

spielten folgende Faktoren eine entscheidende Rolle:

Erste Systeme um den Bestand an wissenschaftlicher

Literatur zu verwalten

•Klassische Aufgabenstellung

•Inhaltliche Beschreibungen Bibliothekskontext,

Katalogsysteme

Information Retrieval (Volltextsuche)

Urs Hengartner © 2020 9 HS 2020

Geschichte des IR

Zeit

Phase Forschungs-gegenstand

Beispiele

1945-

Grand Visions Wells,Borges, V. Bush

1960-1970 Textsuche Syntax Bibliographische, Datenbanken, Zentralrechner

1980-1999 Documenten- suche

Struktur Multimedia Browsing Verteilte Technologie: Hyperlink, WWW

2000-2010

Web-Suche Computerlinguistik "Vocabulary Switching" Web 1.0

2004- Post-Web- / Semantische- Suche

Semantik Web 2.0 / Web 3.0 (Semantic Web), Linked Data, Wissensrepräsentation durch „tagging“und „folksonomies“ Neuronale Netze für IR

Urs Hengartner © 2020 10 HS 2020

Page 6: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

6

Geschichte des IR / Entwicklung

Vision von Vannevar Bush (1945): maschinelle

Bereitstellung des Wissens

Vision von Vannevar Bush (1945): maschinelle

Bereitstellung des Wissens

Memex Memex

Nicht mittels eindimensionaler Klassifikationssysteme,

sondern über assoziative Verbindungen („trails“)

Nicht mittels eindimensionaler Klassifikationssysteme,

sondern über assoziative Verbindungen („trails“)

Artikel: Bush, V. (1945): As we may think. –In: The

Atlantic Monthly 176(1), S. 101-108.

Artikel: Bush, V. (1945): As we may think. –In: The

Atlantic Monthly 176(1), S. 101-108.

Urs Hengartner © 2020 11 HS 2020

„Modern Information Retrieval“

ab 2000 Boomphase des IR im Web:

Wikipedia, E-Books

Kollaborative Dienste

„Web 2.0“ Begriff geprägt von Tim O‘Reilly

Wissensrepräsentation durch „Tagging“und „Folksonomies“

Web 2.0 Technologien (Mashups)

Semantic Web (Tim Berners Lee)

Web 3.0

Neuronale Modelle im IR

Urs Hengartner © 2020 16 HS 2020

Page 7: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

7

Typische IR Aufgabe: Literatursuche zu einem Thema

Mögliche Suchstrategien:

1. Jemanden fragen, der/die sich auskennt

2. Ein Buch suchen, das eine Einführung in das Gebiet gibt,

aus dem die Fragestellung stammt

3. Literaturverweise in Büchern und Artikeln weiterverfolgen

4. In einer nach Sachgruppen geordneten Bibliographie oder

Abstrakt-Sammlung nachsehen

5. In einer elektronischen Literaturdatenbank suchen

6. Mit Hilfe von Übersichtsseiten oder Suchmaschinen im

Web nach Material suchen.

Urs Hengartner © 2020 17 HS 2020

Möglichkeiten und Probleme (1)

1. Person finden, die sich auskennt. Sichtweise und

Kenntnisstand der befragten Person. Fragestellung im

Gespräch präzisieren.

2. Bücher sind langsam.

3. Konferenzbände sind aktueller bieten allerdings keine

systematische Darstellung eines Gebiets.

4. Mit der “Papierbibliothek” dauert das Beschaffen von

Literatur häufig lange.

Stichwortkataloge und Inhaltsklassifikationen sind

hierarchisch nach Sachgruppen aufgebaut. Setzen

Kenntnisse über Sachgruppenhierarchie voraus.

Urs Hengartner © 2020 18 HS 2020

Page 8: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

8

Möglichkeiten und Probleme (2)

5. Literaturdatenbanken sind teuer und komplex zu bedienen. Sie

liefern häufig nur die bibliographischen Angaben.

6. Übersichtsseiten im Web sind meistens von einzelnen Personen

zusammengestellt (Marketing).

Ähnliche Probleme wie die persönliche Nachfrage bei

Personen.

Suchmaschinen beschränken sich auf die Suche nach einzelnen

Wörtern. Die meisten Dokumente im Web sind nicht

systematisch strukturiert.

nur HTML-XML-Dokumente, keine animierte Seiten (Flash)

Auf Angebote in Datenbanken und speziellen

Informationsseiten können Suchmaschinen oft nicht

zugreifen.

7. Im Web ist es nur bedingt möglich, die Richtigkeit zu überprüfen.

Urs Hengartner © 2020 19 HS 2020

Beispiel einer Recherche

Suche: Literatur zum Stand der Forschung im Bereich Retrieval Systeme für textuelle Daten.

Katalog IDS Basel Bern

besteht aus Dokumenten, die Artikel und Bücher beschreiben

bibliographische Angaben

Kurzzusammenfassung

Stichwörter

Eingabe von Wortkombinationen (Stichwörter)

Urs Hengartner © 2020 20 HS 2020

Page 9: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

9

Katalogsuche

1999 -2003

2004 / 2005

2006 - 2019

Urs Hengartner © 2020 21 HS 2020

Suchplattform e-mauscripta und e-rara

Urs Hengartner © 2020 22 HS 2020

https://www.e-rara.ch/search https://www.e-manuscripta.ch/search

Page 10: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

10

Wie Suchen?

Welche Stichwörter beschreiben das Problem besonders gut?

Wörter, die spezifisch für die Fragestellung sind, aber so allgemein, dass sie in jedem “wichtigen” Artikel vorkommen.

Suchanfrage: RETRIEVAL SYSTEMS and MULTIMEDIA and IMAGES.

Interpretation: Suche alle Dokumente, in denen jede der drei Zeichenketten “RETRIEVAL SYSTEMS”, “MULTIMEDIA” und “IMAGES” mindestens einmal irgendwo im Text vorkommt.

Urs Hengartner © 2020 23 HS 2020

Resultat Katalog IDS Basel 2017 Erweiterte Suche

Urs Hengartner © 2020

25

8168

2493

0

24 HS 2020

Page 11: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

11

Informationssysteme (IS)

• Erfassung, Speicherung, Verarbeitung, Pflege, Analyse, Benutzung, Verbreitung, Disposition, Übertragung und Anzeige von Information (Daten).

In der Informatik

• Faktendatenbanken und -retrieval

• Hypertext-Informationssysteme

• Expertensysteme

• Managementinformationssystem (MIS) / Dokumentenmanagementsystemen (CMS)

• …

• Kombinationen davon

Mögliche Kategorien

von IS

Urs Hengartner © 2020 27 HS 2020

Faktendatenbanken und Retrieval (1)

Einträge in Faktendatenbanken sind stark strukturiert.

D.h. sie bestehen (logisch) aus Tupeln von Werten vorgegebener Datentypen.

Faktendatenbanken werden mit relationalen Datenbankmanagementsystemen (DBMS) verwaltet. Diese Systeme sorgen neben der Suche vor allem für

•Konsistenz

•Sicherheit (der verwalteten Daten, insbesondere bei Änderungen)

•Standardisierte Datenbanksprache SQL (Verwalten, Abfragen der Daten)

Der Konsistenz-Aspekt wird von IR Systemen in der Regel nicht berücksichtigt.

Urs Hengartner © 2020 28 HS 2020

Page 12: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

12

Faktendatenbanken und Retrieval (2)

Beispiel einer sehr einfachen Datenbank (Relationales Datenbankmodell) Relation/Tabelle

Raum- grösse

Miete Zimmer Ort Stock-werk

Heizung Balkon

64 820 3 Adresse 1 3 Zentral N

78 1200 4 Strasse y 2 Fussboden 2

86 1475 3 Adresse 2 4 Zentral Gas J

102 680 2 Adresse 3 EG Ofen J

34 640 1 Adresse EG Oel N

Selektion

Urs Hengartner © 2020 29

Attribute / Spalten Semantik der Struktur

HS 2020

Tupel/Zeile

Faktendatenbanken und Retrieval (3)

Die Strukturierung erleichtert den Zugriff und das Bearbeiten der Daten.

Die Typisierung (Integer, Char, etc.) gibt das Format vor wohldefinierte Vergleiche.

Aber: Wenn die Anfragen vager werden, müssen die Werte häufig noch interpretiert werden.

Beispiel: “Suche stadtnahe, kostengünstige Wohnung für zwei Personen”

Urs Hengartner © 2020 30 HS 2020

Page 13: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

13

Hypertext-Informationssysteme (1)

sind Informationssysteme für Organisationen wie

•Universitäten

•Verwaltungen

•Kongresse

•Unternehmen

Von einer Startseite (Homepage) aus lassen sich alle Informationen über vorgegebene “Pfade” erreichen.

Die Informationen sind so aufbereitet und gegliedert, dass Benutzer entscheiden können, unter welcher Rubrik sie die gesuchte Information finden.

Internet-Service: Web (Internet) Intranets Extranets

Urs Hengartner © 2020 31 HS 2020

Hypertext-Informationssysteme (2)

Beispiel: Homepage der Uni Basel

• Layout

• Logische Struktur Informationsstruktur

der Webseite

• Rubriken, Menüpunkte, Abschnitte:

• Suchen

• Universität

• Lehre

• …

Informationseinheiten

Urs Hengartner © 2020 32 HS 2020

Page 14: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

14

Veränderungen im Web

Uni Basel 1999 - 2018

Hypertext-Informationssysteme (3)

Urs Hengartner © 2020 33 HS 2020

Expertensysteme Wichtige Merkmale

Informationen sind nicht fest gespeichert, sondern werden für Anfragen vorhandenen Wissen hergeleitet.

Die Problemlösung ist auf spezifisches Fachgebiet beschränkt.

Leitet aus der Wissensbasis eigene Schlussfolgerungen und Handlungsempfehlungen ab.

Generiert mithilfe künstlicher Intelligenz neues Wissen und erklärt das Zustandekommen der Problemlösungen und der Handlungsempfehlungen

•Verarbeitung von Fakten durch spezifische Algorithmen

Wolfram Alpha

•Alle möglichen Verbindungen zwischen beliebigen Bahnhöfen können nicht einzeln in der Form gespeichert werden, in der sie ausgegeben werden.

•Das Systems leitet Verbindung zwischen Bahnhöfen A und B her

•Es werden möglichen Strecken generiert, z.B. die kürzeste, die schnellste oder die bequemste Verbindung

•Weitere Randbedingungen sind Zugtypen, Zeiten, etc.

Fahrplanauskunft SBB

HS 2020 Urs Hengartner © 2020 35

Page 15: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

15

Beispiel Wolfram Alpha

Suchanfrage: Wie lautet die Funktion, bei der f'(x) = 1/f(x)

HS 2020 Urs Hengartner © 2020 36

Expertensysteme Beispiele Fahrplanauskunft (2)

1999

2001 - 2005 2006 - 2010

Urs Hengartner © 2020 37 HS 2020

Page 16: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

16

Seit 2011 haben sich Webtechnologien stark verbessert

Animierte Darstellungen

Verschiedene Plattformen: Mobile,

Desktop, Apps, Responsive Web

Design, usw.

Expertensysteme Fahrplanauskunft (3)

Urs Hengartner © 2020 38 HS 2020

Managementinformationssysteme MIS (1)

• Tabellen

• Grafiken

• Text

Stellt betriebswirtschaftl. Information zur Verfügung

• Controlling

• Trends

• Kennzahlen-Cockpit

Information zur Entscheidungsfindung werden bereitgestellt

(Decision Support Systems)

• Charakterisierung durch die Inhalte, die das System anbietet, und die Art und Weise ihrer Präsentation.

• Informationsbedarf in deren Management.

Datenbasis eines MIS ist oft ein Data Warehouse

• verschiedene Handlungsalternativen unterscheiden und

• Prognosen über zu erwartende Entwicklungen anbieten.

Entscheidungsunterstütz-ungssysteme:

Urs Hengartner © 2020 39 HS 2020

Page 17: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

17

• beschreibt den kontrollierten und vereinheitlichten Zugriff auf die Dokumente und Informationen in einer Organisation.

Data Warehouse

• Informations-, Kommunikations- und Anwendungsplattform

• Firmeninterne (Web-) Kommunikation

Intranet

Managementinformationssysteme MIS (1)

Urs Hengartner © 2020 40 HS 2020

Managementinformationssysteme MIS Beispiel

http://www.fi.uzh.ch/de/mis.html

Urs Hengartner © 2020 41 HS 2020

Page 18: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

18

Knowledge Discovery / Data Mining (1)

Data Mining / Knowledge Discovery in Databases:

• In vorhandenen Datensammlungen nach nützlichen Regelmässigkeiten suchen.

• Beschreibt automatisierte Verfahren, mit denen Regelmässigkeiten in Mengen von Datensätzen gefunden und in eine für Nutzende verständliche Form gebracht werden.

• Wissensextraktion oder Regelextraktion aus Datenbanken

• In sehr grossen Datenmengen (Big Data)

Urs Hengartner © 2020 42 HS 2020

Knowledge Discovery / Data Mining (2)

• Wissensbasierte/Regelbasierte Ansätze

• Mustersuche

• Neuronale Netze

• statistische/korpus-linguistische Ansätze

Ansätze

• dienen als Grundlage von Text Mining zur Berechnung von Kollokationen und deren Visualisierung

• Typische Fragestellung: Kommt es in Texten von E-Mails öfter zu Schreibfehlern als in traditionellen Briefen?

Information Retrieval und

Korpuslinguistische Verfahren

HS 2020 Urs Hengartner © 2020 43

Page 19: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

19

Knowledge Discovery / Data Mining(3)

Prozess

Urs Hengartner © 2020

Originale Daten

Zieldaten

Input Daten

Transformierte Daten

Muster

Wissen

Selektion

Vorverarbeitung

Transformation

Data Mining

Interpretation

44 HS 2020

Data Mining Methoden

Urs Hengartner © 2020 46

Nr. Geschl. Einkommen Kreditlimite

1 M 60000 CHF 120000 CHF

2 W 100000 CHF 300000 CHF

3 W 20000 CHF 50000 CHF

4 M 35000 CHF 60000 CHF

5 M 12000 CHF 10000 CHF

Deskriptive Analyse Prediktive Analyse

Assoziationsregeln

Einkommen >100000 Kredit genehmigt Einkommen > 300000 & Wohneigentum Kredit genehmigt Einkommen < 20000 & Miete Kredit nicht genehmigt

HS 2020

Page 20: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

20

Data Mining System zur Kategorisierung

Schon Carter and Catlett (1987) beschreiben ein Machine Learning Programm, das Entscheidungen trifft, ob ein Kreditkartenantrag bewilligt werden soll oder nicht.

• Traditionell: Entscheidungen aufgrund von Erfahrungen und Richtlinien

• Scoring Tables: Für Attribute, wie z. B. Höhe des Einkommens, Höhe des Bankguthabens, Grundbesitz, etc. werden Punkte vergeben.

• Summe der Punkte übersteigt einen Schwellenwert

• Kreditkarte vergeben

• sonst nicht.

• Mit Machine Learning Verfahren Entscheidungsbaum erzeugen.

Urs Hengartner © 2020 47 HS 2020

Scoring Table

Tabelle aus Carter and Catlett (1987)

Home status

Boarder 5

Mortgage 8

Rent 15

Owner 20

Time at adress

0-1 4

1-2 7

2-3 10

3-4 15

Age of car

None 0

0-1 10

1-2 15

2-3 11

Monthly disposable income

0-$124 0

$125-249 25

$250-349 15

$350- 25

Urs Hengartner © 2020 48 HS 2020

Page 21: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

21

Entscheidungsbaum

account

Balance? Balance?

accept reject accept reject

bank other none

>$500 <$500 >$1000 <$1000

reject

Urs Hengartner © 2020 49 HS 2020

Assoziationsregeln(1)

Assoziative Regeln aus Warenkorb ableiten:

• Datensammlung Datensätze, die Teilmengen einer Grundmenge beschreiben, z. B. einzelne Einkäufe aus dem Sortiment eines Ladens.

Ziel:

• typische “Warenkörbe”: Gruppen von Artikeln, die häufig zusammen gekauft werden, für eine Menge von Waren bestimmen, welche weiteren Waren typischerweise gekauft werden.

Vorgehen:

• Für eine Teilmenge wird untersucht, in wie vielen der Datensätzen sie auftritt; und wie sich diese Zahl ändert, wenn ein Artikel weggelassen wird.

Assoziationsregel.

Urs Hengartner © 2020 50 HS 2020

Page 22: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

22

Assoziationsregeln (2)

Beispiel:

• In 400 von 1000 Einkäufen: Eier, Salz, Butter, Schmalz, Milch, Mehl und Safran

• Bei 500 Einkäufen alle Artikel ausser Safran

Assoziative Regel:

• Eier, Salz, Butter, Schmalz, Milch, Mehl Safran

• mit Basis 0,4 und Sicherheit 0,8.

Urs Hengartner © 2020 51 HS 2020

Knowledge Discovery in Texten / IR

Einige der Methoden, die im IR benutzt werden, lassen sich als Wissensextraktionsverfahren interpretieren.

• automatisiert, unterstützen diese das bessere Verstehen und Aufbereiten von Information

Z. B. einfache Beobachtungen, die man aus Anfragen an eine Websuchmaschine ableiten kann.

• Statistische Information zur Verwendung von Wortarten

• Identifizierung von Schlüsseltermen auf Basis der Schlagwörter in Titelangaben

Urs Hengartner © 2020 52 HS 2020

Page 23: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

23

Was ist nun IR ? (1)

Werkzeug

• Benutzer mit Informationen versorgen. IR System ist ein Werkzeug mit dem Informationen ausgewählt werden.

Interaktion

• Informationsbedarf des Benutzers muss dem System übermittelt werden.

• Die gefundenen Informationen bzw. eine geeignete Darstellung wird dem Benutzern präsentiert.

Zentrale Probleme:

• Umsetzung des menschlichen Informationsbedarfs in eine für die Maschine verständliche Form.

• Darstellung der maschinengerecht vorliegenden Informationen in eine für Menschen geeignete Form.

Urs Hengartner © 2020 53 HS 2020

Was ist nun IR ? (2)

Ziel und Aufgaben / Gesellschaft für Informatik (GI) Fachgruppe Information Retrieval

„Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe „Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; ... Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); ... Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte. „

Urs Hengartner © 2020 54 HS 2020

Page 24: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

24

Was ist nun IR ? (2)

Ziel und Aufgaben / Gesellschaft für Informatik (GI) Fachgruppe Information Retrieval

„Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe „Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; ... Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); ... Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte. „

Urs Hengartner © 2020 55 HS 2020

Was ist nun IR ? (3)

Universität Zürich Institut für Computerlinguistik (Glossar)

Urs Hengartner © 2020 56 HS 2020

Ursprung engl. retrieval - Suche, Wiedergewinnung

Kategorie Ebene: Theorie Feld: Informationsretrieval

Definition Information Retrieval (Informationswiedergewinnung) wird normalerweise als allgemeiner Begriff verwendet und bezieht sich auf das Fachgebiet, welches sich mit der Erforschung von Systemen zur Indizierung , Suche und Wieder-gewinnung von Information aus natürlichsprachlichen Texten und anderen unstrukturierten Daten und ihrer Lieferung mittels verschiedenster Methoden beschäftigt. Oft wird die Information in Form von vollständigen Dokumenten geliefert; deshalb wird der Begriff "Information Retrieval" oft (aber unzulässigerweise) synonym mit dem Begriff "Document Retrieval" verwendet.

Verweise Hyponym: Frage-Antwort-Systeme Hyponym: Antwortextraktionssysteme Hyponym: Antwortkompositionssysteme ...

Ursprung engl. retrieval - Suche, Wiedergewinnung

Kategorie Ebene: Theorie Feld: Informationsretrieval

Definition Information Retrieval (Informationswiedergewinnung) wird normalerweise als allgemeiner Begriff verwendet und bezieht sich auf das Fachgebiet, welches sich mit der Erforschung von Systemen zur Indizierung , Suche und Wieder-gewinnung von Information aus natürlichsprachlichen Texten und anderen unstrukturierten Daten und ihrer Lieferung mittels verschiedenster Methoden beschäftigt. Oft wird die Information in Form von vollständigen Dokumenten geliefert; deshalb wird der Begriff "Information Retrieval" oft (aber unzulässigerweise) synonym mit dem Begriff "Document Retrieval" verwendet.

Verweise Hyponym: Frage-Antwort-Systeme Hyponym: Antwortextraktionssysteme Hyponym: Antwortkompositionssysteme ...

Page 25: Angewandtes Information Retrieval · HS 2020 1 Angewandtes Information Retrieval Basiskonzepte im Information Retrieval Urs Hengartner (hengart@acm.org) Universität Basel HS 2020

HS 2020

25

Daten Retrieval Information Retrieval

Matching Exact Match Partial Match, best match

Inference Deduction Induction

Model Deterministisch Probabilistisch

Klassifikation Monothetisch Polythetisch

Anfragesprache Künstlich Natürlichprachliche

Anfrage Syntax Vollständig Unvollständig

Gesuchte Items Matching Relevant

Fehlerfall Sensitiv Nicht sensitiv

Abgrenzung von Information Retrieval

nach Van Rijsbergen (1979, siehe WWW-Version)

Urs Hengartner © 2020 57 HS 2020

Schlussfolgerungen

Wichtige Merkmale

Vagheit, Unschärfe Unsicherheit Bewertung: Nutzen für Menschen

Urs Hengartner © 2020 61 HS 2020

Begriff und Definition von Information Retrieval werden sehr allgemein gehalten.