Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
HS 2020
1
Angewandtes Information Retrieval
Basiskonzepte im Information Retrieval
Urs Hengartner ([email protected])
Universität Basel
HS 2020
Terminplan
18.09.2020 Motivation, Einführung und Übersicht
25.09.2020 Basiskonzepte im IR
2.10.2020 IR-Modelle (1)
9.10.2020 IR-Modelle (2) 16.10.2020 Evaluation von IR-Systemen
Übung 1
23.10.2020 Digitale Indexierung von Text (1)
30.10.2020 Digitale Indexierung
von Text (2) 6.11.2020 Suchanfragesprachen, Semantische Suche Übung 2
13.11.2020 Informationsquellen, Datenstrukturen (1)
20.11.2020 Informationsquellen,
Datenstrukturen (2)
27.11.2020 Keine Vorlesung
4.12.2020 Web-Retrieval
Übung 3
11.12.2020? Semesterendprüfung (14.12.2020? Ausweichdatum)
Urs Hengartner © 2020 2 HS 2020
HS 2020
2
Inhalt
Einführung Historischer Exkurs
•Geschichte des IR
•Meilensteine
Typische IR Aufgaben / Szenarien
Informationssysteme Data Mining
Urs Hengartner © 2020 3 HS 2020
Einführung
Wer befasst sich damit
Informatik
Informationswissenschaft
Linguistik
Retrievalsoftware
Volltext-Suchmaschinen
Search Engines
Kommerzielle
Datenbankensysteme
Suchmaschinen im Web
...
Urs Hengartner © 2020 4 HS 2020
HS 2020
3
Informatik und IR
• Speicherung (HD, DVD, DRAM, Flash-Memory, Cloud)
• Verarbeitung (Texte, Audio, Video, ...
• Netzwerktechnologie (Protokolle, Routing, ...)
Technologie
• DBMS
• Software Engineering
• Evaluation
• HCI (Human Computer Interaction)
• Methoden der AI
Computer Science
• formale Sprachen (XML, HTML,…), Parsing, Sprachanalyse
• Indexe, Trees, Hashing
• Filtering, Indexierung, performanter Zugriff auf Information
Daten Strukturen und
Algorithmen
Urs Hengartner © 2020 5 HS 2020
Linguistik und IR
• Strings
• Worte
• Terme
• Phrasen
Sprache
• Textsammlungen, Kollektionen (Typen, Charakteristiken, statistische Analysen, erkennen von Konkordanzen)
• Indexierung und Klassifikation
• Such-Hilfen
• Such-Prozesse
Konzepte
Urs Hengartner © 2020 6 HS 2020
HS 2020
4
Informationswissenschaft und IR
Oberbegriff von IR ?
Systeme, Werkzeuge und Strategien des Suchens und Findens von Informationen in digitalen Umgebungen (= Information Retrieval).
Informationslinguistik und Informationsstatistik
Digitale Bibliotheken, Archive verwenden Thesauri (Bedeutung von Wörtern),
Klassifikation und Typifikation
Medienwissenschaften
Informationssoziologie
...
Urs Hengartner © 2020 7 HS 2020
Extreme IR-Situationen
•Beispiel: Katalogsuche, Telefonauskunft
• spezifischer Informationsbedarf
•genau festgelegter Handlungsablauf
•eindeutige Strukturierung des Inhaltes
Verwalteter Datenbestand
•keine festen Regeln für Inhalte und Struktur
•keine bestimmte Benutzungsart
•Verschiedene Formate(PDF, HTML, XML, …)
World Wide Web (WWW)
Urs Hengartner © 2020 8 HS 2020
HS 2020
5
Geschichte des IR
•Informationsbedarf
•Technische Machbarkeit
•Computer waren teuer und gross
Bei der Entwicklung von Informationssystemen
spielten folgende Faktoren eine entscheidende Rolle:
Erste Systeme um den Bestand an wissenschaftlicher
Literatur zu verwalten
•Klassische Aufgabenstellung
•Inhaltliche Beschreibungen Bibliothekskontext,
Katalogsysteme
Information Retrieval (Volltextsuche)
Urs Hengartner © 2020 9 HS 2020
Geschichte des IR
Zeit
Phase Forschungs-gegenstand
Beispiele
1945-
Grand Visions Wells,Borges, V. Bush
1960-1970 Textsuche Syntax Bibliographische, Datenbanken, Zentralrechner
1980-1999 Documenten- suche
Struktur Multimedia Browsing Verteilte Technologie: Hyperlink, WWW
2000-2010
Web-Suche Computerlinguistik "Vocabulary Switching" Web 1.0
2004- Post-Web- / Semantische- Suche
Semantik Web 2.0 / Web 3.0 (Semantic Web), Linked Data, Wissensrepräsentation durch „tagging“und „folksonomies“ Neuronale Netze für IR
Urs Hengartner © 2020 10 HS 2020
HS 2020
6
Geschichte des IR / Entwicklung
Vision von Vannevar Bush (1945): maschinelle
Bereitstellung des Wissens
Vision von Vannevar Bush (1945): maschinelle
Bereitstellung des Wissens
Memex Memex
Nicht mittels eindimensionaler Klassifikationssysteme,
sondern über assoziative Verbindungen („trails“)
Nicht mittels eindimensionaler Klassifikationssysteme,
sondern über assoziative Verbindungen („trails“)
Artikel: Bush, V. (1945): As we may think. –In: The
Atlantic Monthly 176(1), S. 101-108.
Artikel: Bush, V. (1945): As we may think. –In: The
Atlantic Monthly 176(1), S. 101-108.
Urs Hengartner © 2020 11 HS 2020
„Modern Information Retrieval“
ab 2000 Boomphase des IR im Web:
Wikipedia, E-Books
Kollaborative Dienste
„Web 2.0“ Begriff geprägt von Tim O‘Reilly
Wissensrepräsentation durch „Tagging“und „Folksonomies“
Web 2.0 Technologien (Mashups)
Semantic Web (Tim Berners Lee)
Web 3.0
Neuronale Modelle im IR
Urs Hengartner © 2020 16 HS 2020
HS 2020
7
Typische IR Aufgabe: Literatursuche zu einem Thema
Mögliche Suchstrategien:
1. Jemanden fragen, der/die sich auskennt
2. Ein Buch suchen, das eine Einführung in das Gebiet gibt,
aus dem die Fragestellung stammt
3. Literaturverweise in Büchern und Artikeln weiterverfolgen
4. In einer nach Sachgruppen geordneten Bibliographie oder
Abstrakt-Sammlung nachsehen
5. In einer elektronischen Literaturdatenbank suchen
6. Mit Hilfe von Übersichtsseiten oder Suchmaschinen im
Web nach Material suchen.
Urs Hengartner © 2020 17 HS 2020
Möglichkeiten und Probleme (1)
1. Person finden, die sich auskennt. Sichtweise und
Kenntnisstand der befragten Person. Fragestellung im
Gespräch präzisieren.
2. Bücher sind langsam.
3. Konferenzbände sind aktueller bieten allerdings keine
systematische Darstellung eines Gebiets.
4. Mit der “Papierbibliothek” dauert das Beschaffen von
Literatur häufig lange.
Stichwortkataloge und Inhaltsklassifikationen sind
hierarchisch nach Sachgruppen aufgebaut. Setzen
Kenntnisse über Sachgruppenhierarchie voraus.
Urs Hengartner © 2020 18 HS 2020
HS 2020
8
Möglichkeiten und Probleme (2)
5. Literaturdatenbanken sind teuer und komplex zu bedienen. Sie
liefern häufig nur die bibliographischen Angaben.
6. Übersichtsseiten im Web sind meistens von einzelnen Personen
zusammengestellt (Marketing).
Ähnliche Probleme wie die persönliche Nachfrage bei
Personen.
Suchmaschinen beschränken sich auf die Suche nach einzelnen
Wörtern. Die meisten Dokumente im Web sind nicht
systematisch strukturiert.
nur HTML-XML-Dokumente, keine animierte Seiten (Flash)
Auf Angebote in Datenbanken und speziellen
Informationsseiten können Suchmaschinen oft nicht
zugreifen.
7. Im Web ist es nur bedingt möglich, die Richtigkeit zu überprüfen.
Urs Hengartner © 2020 19 HS 2020
Beispiel einer Recherche
Suche: Literatur zum Stand der Forschung im Bereich Retrieval Systeme für textuelle Daten.
Katalog IDS Basel Bern
besteht aus Dokumenten, die Artikel und Bücher beschreiben
bibliographische Angaben
Kurzzusammenfassung
Stichwörter
Eingabe von Wortkombinationen (Stichwörter)
Urs Hengartner © 2020 20 HS 2020
HS 2020
9
Katalogsuche
1999 -2003
2004 / 2005
2006 - 2019
Urs Hengartner © 2020 21 HS 2020
Suchplattform e-mauscripta und e-rara
Urs Hengartner © 2020 22 HS 2020
https://www.e-rara.ch/search https://www.e-manuscripta.ch/search
HS 2020
10
Wie Suchen?
Welche Stichwörter beschreiben das Problem besonders gut?
Wörter, die spezifisch für die Fragestellung sind, aber so allgemein, dass sie in jedem “wichtigen” Artikel vorkommen.
Suchanfrage: RETRIEVAL SYSTEMS and MULTIMEDIA and IMAGES.
Interpretation: Suche alle Dokumente, in denen jede der drei Zeichenketten “RETRIEVAL SYSTEMS”, “MULTIMEDIA” und “IMAGES” mindestens einmal irgendwo im Text vorkommt.
Urs Hengartner © 2020 23 HS 2020
Resultat Katalog IDS Basel 2017 Erweiterte Suche
Urs Hengartner © 2020
25
8168
2493
0
24 HS 2020
HS 2020
11
Informationssysteme (IS)
• Erfassung, Speicherung, Verarbeitung, Pflege, Analyse, Benutzung, Verbreitung, Disposition, Übertragung und Anzeige von Information (Daten).
In der Informatik
• Faktendatenbanken und -retrieval
• Hypertext-Informationssysteme
• Expertensysteme
• Managementinformationssystem (MIS) / Dokumentenmanagementsystemen (CMS)
• …
• Kombinationen davon
Mögliche Kategorien
von IS
Urs Hengartner © 2020 27 HS 2020
Faktendatenbanken und Retrieval (1)
Einträge in Faktendatenbanken sind stark strukturiert.
D.h. sie bestehen (logisch) aus Tupeln von Werten vorgegebener Datentypen.
Faktendatenbanken werden mit relationalen Datenbankmanagementsystemen (DBMS) verwaltet. Diese Systeme sorgen neben der Suche vor allem für
•Konsistenz
•Sicherheit (der verwalteten Daten, insbesondere bei Änderungen)
•Standardisierte Datenbanksprache SQL (Verwalten, Abfragen der Daten)
Der Konsistenz-Aspekt wird von IR Systemen in der Regel nicht berücksichtigt.
Urs Hengartner © 2020 28 HS 2020
HS 2020
12
Faktendatenbanken und Retrieval (2)
Beispiel einer sehr einfachen Datenbank (Relationales Datenbankmodell) Relation/Tabelle
Raum- grösse
Miete Zimmer Ort Stock-werk
Heizung Balkon
64 820 3 Adresse 1 3 Zentral N
78 1200 4 Strasse y 2 Fussboden 2
86 1475 3 Adresse 2 4 Zentral Gas J
102 680 2 Adresse 3 EG Ofen J
34 640 1 Adresse EG Oel N
Selektion
Urs Hengartner © 2020 29
Attribute / Spalten Semantik der Struktur
HS 2020
Tupel/Zeile
Faktendatenbanken und Retrieval (3)
Die Strukturierung erleichtert den Zugriff und das Bearbeiten der Daten.
Die Typisierung (Integer, Char, etc.) gibt das Format vor wohldefinierte Vergleiche.
Aber: Wenn die Anfragen vager werden, müssen die Werte häufig noch interpretiert werden.
Beispiel: “Suche stadtnahe, kostengünstige Wohnung für zwei Personen”
Urs Hengartner © 2020 30 HS 2020
HS 2020
13
Hypertext-Informationssysteme (1)
sind Informationssysteme für Organisationen wie
•Universitäten
•Verwaltungen
•Kongresse
•Unternehmen
Von einer Startseite (Homepage) aus lassen sich alle Informationen über vorgegebene “Pfade” erreichen.
Die Informationen sind so aufbereitet und gegliedert, dass Benutzer entscheiden können, unter welcher Rubrik sie die gesuchte Information finden.
Internet-Service: Web (Internet) Intranets Extranets
Urs Hengartner © 2020 31 HS 2020
Hypertext-Informationssysteme (2)
Beispiel: Homepage der Uni Basel
• Layout
• Logische Struktur Informationsstruktur
der Webseite
• Rubriken, Menüpunkte, Abschnitte:
• Suchen
• Universität
• Lehre
• …
Informationseinheiten
Urs Hengartner © 2020 32 HS 2020
HS 2020
14
Veränderungen im Web
Uni Basel 1999 - 2018
Hypertext-Informationssysteme (3)
Urs Hengartner © 2020 33 HS 2020
Expertensysteme Wichtige Merkmale
Informationen sind nicht fest gespeichert, sondern werden für Anfragen vorhandenen Wissen hergeleitet.
Die Problemlösung ist auf spezifisches Fachgebiet beschränkt.
Leitet aus der Wissensbasis eigene Schlussfolgerungen und Handlungsempfehlungen ab.
Generiert mithilfe künstlicher Intelligenz neues Wissen und erklärt das Zustandekommen der Problemlösungen und der Handlungsempfehlungen
•Verarbeitung von Fakten durch spezifische Algorithmen
Wolfram Alpha
•Alle möglichen Verbindungen zwischen beliebigen Bahnhöfen können nicht einzeln in der Form gespeichert werden, in der sie ausgegeben werden.
•Das Systems leitet Verbindung zwischen Bahnhöfen A und B her
•Es werden möglichen Strecken generiert, z.B. die kürzeste, die schnellste oder die bequemste Verbindung
•Weitere Randbedingungen sind Zugtypen, Zeiten, etc.
Fahrplanauskunft SBB
HS 2020 Urs Hengartner © 2020 35
HS 2020
15
Beispiel Wolfram Alpha
Suchanfrage: Wie lautet die Funktion, bei der f'(x) = 1/f(x)
HS 2020 Urs Hengartner © 2020 36
Expertensysteme Beispiele Fahrplanauskunft (2)
1999
2001 - 2005 2006 - 2010
Urs Hengartner © 2020 37 HS 2020
HS 2020
16
Seit 2011 haben sich Webtechnologien stark verbessert
Animierte Darstellungen
Verschiedene Plattformen: Mobile,
Desktop, Apps, Responsive Web
Design, usw.
Expertensysteme Fahrplanauskunft (3)
Urs Hengartner © 2020 38 HS 2020
Managementinformationssysteme MIS (1)
• Tabellen
• Grafiken
• Text
Stellt betriebswirtschaftl. Information zur Verfügung
• Controlling
• Trends
• Kennzahlen-Cockpit
Information zur Entscheidungsfindung werden bereitgestellt
(Decision Support Systems)
• Charakterisierung durch die Inhalte, die das System anbietet, und die Art und Weise ihrer Präsentation.
• Informationsbedarf in deren Management.
Datenbasis eines MIS ist oft ein Data Warehouse
• verschiedene Handlungsalternativen unterscheiden und
• Prognosen über zu erwartende Entwicklungen anbieten.
Entscheidungsunterstütz-ungssysteme:
Urs Hengartner © 2020 39 HS 2020
HS 2020
17
• beschreibt den kontrollierten und vereinheitlichten Zugriff auf die Dokumente und Informationen in einer Organisation.
Data Warehouse
• Informations-, Kommunikations- und Anwendungsplattform
• Firmeninterne (Web-) Kommunikation
Intranet
Managementinformationssysteme MIS (1)
Urs Hengartner © 2020 40 HS 2020
Managementinformationssysteme MIS Beispiel
http://www.fi.uzh.ch/de/mis.html
Urs Hengartner © 2020 41 HS 2020
HS 2020
18
Knowledge Discovery / Data Mining (1)
Data Mining / Knowledge Discovery in Databases:
• In vorhandenen Datensammlungen nach nützlichen Regelmässigkeiten suchen.
• Beschreibt automatisierte Verfahren, mit denen Regelmässigkeiten in Mengen von Datensätzen gefunden und in eine für Nutzende verständliche Form gebracht werden.
• Wissensextraktion oder Regelextraktion aus Datenbanken
• In sehr grossen Datenmengen (Big Data)
Urs Hengartner © 2020 42 HS 2020
Knowledge Discovery / Data Mining (2)
• Wissensbasierte/Regelbasierte Ansätze
• Mustersuche
• Neuronale Netze
• statistische/korpus-linguistische Ansätze
Ansätze
• dienen als Grundlage von Text Mining zur Berechnung von Kollokationen und deren Visualisierung
• Typische Fragestellung: Kommt es in Texten von E-Mails öfter zu Schreibfehlern als in traditionellen Briefen?
Information Retrieval und
Korpuslinguistische Verfahren
HS 2020 Urs Hengartner © 2020 43
HS 2020
19
Knowledge Discovery / Data Mining(3)
Prozess
Urs Hengartner © 2020
Originale Daten
Zieldaten
Input Daten
Transformierte Daten
Muster
Wissen
Selektion
Vorverarbeitung
Transformation
Data Mining
Interpretation
44 HS 2020
Data Mining Methoden
Urs Hengartner © 2020 46
Nr. Geschl. Einkommen Kreditlimite
1 M 60000 CHF 120000 CHF
2 W 100000 CHF 300000 CHF
3 W 20000 CHF 50000 CHF
4 M 35000 CHF 60000 CHF
5 M 12000 CHF 10000 CHF
Deskriptive Analyse Prediktive Analyse
Assoziationsregeln
Einkommen >100000 Kredit genehmigt Einkommen > 300000 & Wohneigentum Kredit genehmigt Einkommen < 20000 & Miete Kredit nicht genehmigt
HS 2020
HS 2020
20
Data Mining System zur Kategorisierung
Schon Carter and Catlett (1987) beschreiben ein Machine Learning Programm, das Entscheidungen trifft, ob ein Kreditkartenantrag bewilligt werden soll oder nicht.
• Traditionell: Entscheidungen aufgrund von Erfahrungen und Richtlinien
• Scoring Tables: Für Attribute, wie z. B. Höhe des Einkommens, Höhe des Bankguthabens, Grundbesitz, etc. werden Punkte vergeben.
• Summe der Punkte übersteigt einen Schwellenwert
• Kreditkarte vergeben
• sonst nicht.
• Mit Machine Learning Verfahren Entscheidungsbaum erzeugen.
Urs Hengartner © 2020 47 HS 2020
Scoring Table
Tabelle aus Carter and Catlett (1987)
Home status
Boarder 5
Mortgage 8
Rent 15
Owner 20
Time at adress
0-1 4
1-2 7
2-3 10
3-4 15
Age of car
None 0
0-1 10
1-2 15
2-3 11
Monthly disposable income
0-$124 0
$125-249 25
$250-349 15
$350- 25
Urs Hengartner © 2020 48 HS 2020
HS 2020
21
Entscheidungsbaum
account
Balance? Balance?
accept reject accept reject
bank other none
>$500 <$500 >$1000 <$1000
reject
Urs Hengartner © 2020 49 HS 2020
Assoziationsregeln(1)
Assoziative Regeln aus Warenkorb ableiten:
• Datensammlung Datensätze, die Teilmengen einer Grundmenge beschreiben, z. B. einzelne Einkäufe aus dem Sortiment eines Ladens.
Ziel:
• typische “Warenkörbe”: Gruppen von Artikeln, die häufig zusammen gekauft werden, für eine Menge von Waren bestimmen, welche weiteren Waren typischerweise gekauft werden.
Vorgehen:
• Für eine Teilmenge wird untersucht, in wie vielen der Datensätzen sie auftritt; und wie sich diese Zahl ändert, wenn ein Artikel weggelassen wird.
Assoziationsregel.
Urs Hengartner © 2020 50 HS 2020
HS 2020
22
Assoziationsregeln (2)
Beispiel:
• In 400 von 1000 Einkäufen: Eier, Salz, Butter, Schmalz, Milch, Mehl und Safran
• Bei 500 Einkäufen alle Artikel ausser Safran
Assoziative Regel:
• Eier, Salz, Butter, Schmalz, Milch, Mehl Safran
• mit Basis 0,4 und Sicherheit 0,8.
Urs Hengartner © 2020 51 HS 2020
Knowledge Discovery in Texten / IR
Einige der Methoden, die im IR benutzt werden, lassen sich als Wissensextraktionsverfahren interpretieren.
• automatisiert, unterstützen diese das bessere Verstehen und Aufbereiten von Information
Z. B. einfache Beobachtungen, die man aus Anfragen an eine Websuchmaschine ableiten kann.
• Statistische Information zur Verwendung von Wortarten
• Identifizierung von Schlüsseltermen auf Basis der Schlagwörter in Titelangaben
Urs Hengartner © 2020 52 HS 2020
HS 2020
23
Was ist nun IR ? (1)
Werkzeug
• Benutzer mit Informationen versorgen. IR System ist ein Werkzeug mit dem Informationen ausgewählt werden.
Interaktion
• Informationsbedarf des Benutzers muss dem System übermittelt werden.
• Die gefundenen Informationen bzw. eine geeignete Darstellung wird dem Benutzern präsentiert.
Zentrale Probleme:
• Umsetzung des menschlichen Informationsbedarfs in eine für die Maschine verständliche Form.
• Darstellung der maschinengerecht vorliegenden Informationen in eine für Menschen geeignete Form.
Urs Hengartner © 2020 53 HS 2020
Was ist nun IR ? (2)
Ziel und Aufgaben / Gesellschaft für Informatik (GI) Fachgruppe Information Retrieval
„Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe „Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; ... Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); ... Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte. „
Urs Hengartner © 2020 54 HS 2020
HS 2020
24
Was ist nun IR ? (2)
Ziel und Aufgaben / Gesellschaft für Informatik (GI) Fachgruppe Information Retrieval
„Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozeß des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe „Information Retrieval“ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmäßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daß die Antwort a priori nicht eindeutig definiert ist. Hierzu zählen neben Fragen mit unscharfen Kriterien insbesondere auch solche, die nur im Dialog iterativ durch Reformulierung (in Abhängigkeit von den bisherigen Systemantworten) beantwortet werden können; ... Die Darstellungsform des in einem IR-System gespeicherten Wissens ist im Prinzip nicht beschränkt (z.B. Texte, multimediale Dokumente, Fakten, Regeln, semantische Netze). Die Unsicherheit (oder die Unvollständigkeit) dieses Wissens resultiert meist aus der begrenzten Repräsentation von dessen Semantik (z.B. bei Texten oder multimedialen Dokumenten); ... Aus dieser Problematik ergibt sich die Notwendigkeit zur Bewertung der Qualität der Antworten eines Informationssystems, wobei in einem weiteren Sinne die Effektivität des Systems in bezug auf die Unterstützung des Benutzers bei der Lösung seines Anwendungsproblems beurteilt werden sollte. „
Urs Hengartner © 2020 55 HS 2020
Was ist nun IR ? (3)
Universität Zürich Institut für Computerlinguistik (Glossar)
Urs Hengartner © 2020 56 HS 2020
Ursprung engl. retrieval - Suche, Wiedergewinnung
Kategorie Ebene: Theorie Feld: Informationsretrieval
Definition Information Retrieval (Informationswiedergewinnung) wird normalerweise als allgemeiner Begriff verwendet und bezieht sich auf das Fachgebiet, welches sich mit der Erforschung von Systemen zur Indizierung , Suche und Wieder-gewinnung von Information aus natürlichsprachlichen Texten und anderen unstrukturierten Daten und ihrer Lieferung mittels verschiedenster Methoden beschäftigt. Oft wird die Information in Form von vollständigen Dokumenten geliefert; deshalb wird der Begriff "Information Retrieval" oft (aber unzulässigerweise) synonym mit dem Begriff "Document Retrieval" verwendet.
Verweise Hyponym: Frage-Antwort-Systeme Hyponym: Antwortextraktionssysteme Hyponym: Antwortkompositionssysteme ...
Ursprung engl. retrieval - Suche, Wiedergewinnung
Kategorie Ebene: Theorie Feld: Informationsretrieval
Definition Information Retrieval (Informationswiedergewinnung) wird normalerweise als allgemeiner Begriff verwendet und bezieht sich auf das Fachgebiet, welches sich mit der Erforschung von Systemen zur Indizierung , Suche und Wieder-gewinnung von Information aus natürlichsprachlichen Texten und anderen unstrukturierten Daten und ihrer Lieferung mittels verschiedenster Methoden beschäftigt. Oft wird die Information in Form von vollständigen Dokumenten geliefert; deshalb wird der Begriff "Information Retrieval" oft (aber unzulässigerweise) synonym mit dem Begriff "Document Retrieval" verwendet.
Verweise Hyponym: Frage-Antwort-Systeme Hyponym: Antwortextraktionssysteme Hyponym: Antwortkompositionssysteme ...
HS 2020
25
Daten Retrieval Information Retrieval
Matching Exact Match Partial Match, best match
Inference Deduction Induction
Model Deterministisch Probabilistisch
Klassifikation Monothetisch Polythetisch
Anfragesprache Künstlich Natürlichprachliche
Anfrage Syntax Vollständig Unvollständig
Gesuchte Items Matching Relevant
Fehlerfall Sensitiv Nicht sensitiv
Abgrenzung von Information Retrieval
nach Van Rijsbergen (1979, siehe WWW-Version)
Urs Hengartner © 2020 57 HS 2020
Schlussfolgerungen
Wichtige Merkmale
Vagheit, Unschärfe Unsicherheit Bewertung: Nutzen für Menschen
Urs Hengartner © 2020 61 HS 2020
Begriff und Definition von Information Retrieval werden sehr allgemein gehalten.