26
Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen Georg Rehm [email protected] http://georg-re.hm Universität Zürich, 27. November 2006

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Embed Size (px)

DESCRIPTION

Georg Rehm. Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen. Universität Zürich, Switzerland, November 2006. November 9, 2006. Invited talk.

Citation preview

Page 1: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 1/26!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und

sprachtechnologische Anwendungen!

Georg Rehm!

!!

[email protected]!http://georg-re.hm!

Universität Zürich, 27. November 2006!

Page 2: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 2/26!

Ausgangssituation!

•  Menschen beherrschen den Umgang mit Dutzenden von Textsorten "(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!

•  In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:!

-  Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in!

!  CiteSeer (Giles et al. 1998): ! !Publikationsliste!

!  DataRover (Davulcu et al. 2003): !Produktkatalog/Produktinformationen!

-  Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.!

Page 3: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 3/26!

Wissen über!Textsorte X!

Wissen über!Textsorte Y!

Wissen über!Textsorte Z!

Profitierende Anwendungen!

Vorverarbeitung!

Algorithmen!

Visualisierung!

Output!

Input (Texte)! Textsorte Y!

Textsorte X!

Textsorte Z!

•  Tagging und Parsing!

•  Maschinelles Textzusammenfassen!

•  Informations-/Metadatenextraktion!

•  Information Retrieval!

•  Textkategorisierung!

•  Question Answering !

•  Mobile Device Adaptation!

•  Korpuslinguistische Analysen!

•  E-Learning-Tools (Essay Grading)!

•  Lernen von Ontologien!

•  ...!

Page 4: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 4/26!

Textsorten und Texttechnologie!

•  Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner "(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!

•  Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!

!Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.!

•  Repräsentation z.B. mittels XML Schema oder DTD:!

•  Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).!

<!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ...

article!

date! body!

headline! paragraph!month! day! year! time!

08! 08! 2003! 12:00! Der ...! Die ...!

Page 5: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 5/26!

Gliederung!

•  Ausgangssituation und konzeptionelle Ausrichtung!

•  Ein Hypertextsortenmodell und die Hypertextsortenontologie!

•  Exemplarische Anwendung!

•  Schlussfolgerungen – Ausblick – Perspektiven!

Page 6: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 6/26!

Ein Hypertextsortenmodell!

•  Kontext: Anwendung zur Informationsrecherche und Web as Corpus!

-  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!

-  Diskrepanz: Web as Corpus Community vs. Hypertextsorten!

•  Hypertextsorten: Stand der Forschung!

!Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).!

•  Das Hypertextsortenmodell ist Grundlage für!

-  (text)linguistische Analysen von Hypertextexemplaren,!

-  eine Systemarchitektur, die die Integration von Wissen über Text- und Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.!

Page 7: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 7/26!

Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!Hypertextsorte:!Webauftritt"einer Universität!

Eingebettete Hypertextsorten:!Webauftritt einer Fakultät!

Eingebettete Hypertextsorte:!Webauftritt eines Instituts bzw. Seminars!

Page 8: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 8/26!

Ebene der Konstituenz II: Hypertextsortenmodul!

!Publikationsliste!

Page 9: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 9/26!

Ebene der Konstituenz III: Hypertextknotensorte!

!Berufliche Homepage eines Wissenschaftlers!

Page 10: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 10/26!

Generischer Aufbau einer Hypertextsorte!

Hypertextsorte i!

Hypertextsortenmodul 1...n!Hypertextknotensorte 1...n!Hypertextsorte 0...n!

besteht aus!

Optionale Hyper-!textsortenmodule 0...n!

Obligatorische Hyper-!textsortenmodule 1...n!

Optionale Hyper-!textsorten 0...n!

Obligatorische Hyper-!textsorten 0...n!

kann fungieren als!besitzt identischen Aufbau!

umfasst konventiona-!lisierte Vorbelegung!

wird eingebettet in oder!kann fungieren als!

Merkmale:!•  Kommunikative Funktion!•  Kontextuelle Faktoren!•  Inhalt/Thema!•  Interaktion!•  Strukturierung!•  Kommunikation!•  Dekoration!

besitzt!

Merkmale:!•  Positionierung!•  Kommunikative Funktion!•  Dekoration!

besitzt!

Typen:!•  Inhalt/Thema!•  Interaktion!•  Kommunikation!•  Navigation!•  Metainformation!•  Dekoration!•  Textstrukturmuster!

prägen aus!

kann fungieren als!

Page 11: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 11/26!

Tool chain zur Sammlung eines Korpus!

!

*.unizh.ch!

Web-Crawler (Pavuk)!

Korpus:!UNIX-!

Filesystem!

DB!(MySQL)!

Webserver (Apache)!

Sprachenidentifizierer (Perl)!

PHP!

HTTP Header!(Perl)!

Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!

Page 12: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 12/26!

Repräsentation von Hypertextsorten durch Ontologien!

•  Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.!

!Alternative Vorschläge (nicht implementiert):!

-  Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!

-  Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!

•  Web as Corpus-Vorgehensweise:!

-  Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).!

-  Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!

-  Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.!

-  Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!

Page 13: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 13/26!

Die Hypertextsortenontologie!

das Hypertext-!sortenmodell!

in abstrakter Form!

das Hypertext-!sortenmodell!

als OWL-Ontologie!(Ausschnitt)!

Ontologie angefertigt mittels Protégé-OWL, Visualisierung mittels OntoViz/GraphViz!

Page 14: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 14/26!

Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!

•  Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!

•  Definitionen als Subklassen der Klasse Hypertexttyp. •  Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!

Page 15: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 15/26!

Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!

Homepage einer Person!

Page 16: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 16/26!

Gliederung!

•  Ausgangssituation und konzeptionelle Ausrichtung!

•  Ein Hypertextsortenmodell und die Hypertextsortenontologie!

•  Exemplarische Anwendung!•  Schlussfolgerungen – Ausblick – Perspektiven!

Page 17: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 17/26!

Maschinelle Identifizierung von Hypertextsorten!

•  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!

•  Es existieren mehrere ungelöste Probleme, z.B.:!

1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.!

2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 Web-Genres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!

3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!

4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!

•  Entwurf einer Architektur, um diesen Problemen zu begegnen.!

Page 18: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 18/26!

Systemarchitektur (partiell implementiert)!

Korpus: "HTML-!Dateien!

XML-!Dateien!

Textparser!

Korpusdatenbank!

Erkennung von!Hypertextknotensorten!

Erkennung von!Hypertextsorten!

externe!Ressource!

externe!Ressource!

externe!Ressource!

externe!Ressource!

externe!Ressource!

POS-Tagger!

Tokenisierer!

Visualisierung!mittels XSLT!

annotiertes!Trainings-!korpus!

Erkennung der Grenzen!eines Hypertextes!

Hypertextsortenontologie!

Page 19: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 19/26!

Textparsing zur Erkennung der Textstruktur!

•  Funktionen des Textparsers:!

-  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse), "d.h. Identifizierung der Bausteine der Textoberfläche.!

-  Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.!

-  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!

•  Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.!

•  Multi-Ebenen-Annotation.!

•  Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!

Page 20: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 20/26!

Textparser mit interaktiver Analyseoberfläche: Beispiel!

Page 21: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 21/26!

Textparser mit interaktiver Analyseoberfläche: Beispiel!

Page 22: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 22/26!

Exemplarische Anwendung: Informationsextraktion!

<Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation>

<Kontaktinformationen> <Strassenadresse> <Strasse>Endenicher ...</Strasse> <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> </Kontaktinformationen>

<DatumDerLetztenAenderung> <Tag no="29"/> <Monat no="8" name="August"/> <Jahr>2001</Jahr> </DatumDerLetztenAenderung>

<Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf>

<WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil>

Lebenslauf, biografische Angaben!

Datum der letzten Änderung! Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen!

Identifikation! Foto! Name! Affiliation!

Kontaktinformationen! Straßenadresse! Telefon! Fax! E-Mail!

WrapperL!

WrapperP!WrapperD!

WrapperI!

WrapperK!

Page 23: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 23/26!

Gliederung!

•  Ausgangssituation und konzeptionelle Ausrichtung!

•  Ein Hypertextsortenmodell und die Hypertextsortenontologie!

•  Exemplarische Anwendung!

•  Schlussfolgerungen – Ausblick – Perspektiven!

Page 24: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 24/26!

Zusammenfassung und Schlussfolgerungen!

•  Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.!

•  Es existiert kein Standard zur Repräsentation von Textsortenwissen.!

•  Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.!

-  Konstituenten von und Relationen zwischen Hypertextsorten.!

-  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!

•  Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.!

Page 25: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 25/26!

Ausblick und Perspektiven!

•  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!

•  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

•  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

•  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!

•  Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!

Page 26: Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 26/26!

Ausblick und Perspektiven!

•  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!

•  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

•  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

•  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!

•  Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!

-  „Zimt und Koriander“ in Kochrezept!

-  „Zimt und Koriander“ in Rezension!

-  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!