Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen! 1/26!

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und

sprachtechnologische Anwendungen!

Georg Rehm!

!!

[email protected]!http://georg-re.hm!

Universität Zürich, 27. November 2006!


Ausgangssituation!

•  Menschen beherrschen den Umgang mit Dutzenden von Textsorten "(z.B. Liebesbrief, Einkaufszettel, Kochrezept, Rezension, Wetterbericht).!

•  In der Sprachtechnologie spielen Textsorten bislang praktisch keine Rolle:!

-  Aspekte einer Textsorte werden implizit in den Algorithmus oder die Prozesslogik einer Anwendung integriert, z.B. in!

!  CiteSeer (Giles et al. 1998): ! !Publikationsliste!

!  DataRover (Davulcu et al. 2003): !Produktkatalog/Produktinformationen!

-  Explizites Wissen über Textsorten wird nicht zur Parametrisierung sprachtechnologischer Anwendungen eingesetzt.!


Wissen über!Textsorte X!

Wissen über!Textsorte Y!

Wissen über!Textsorte Z!

Profitierende Anwendungen!

Vorverarbeitung!

Algorithmen!

Visualisierung!

Output!

Input (Texte)! Textsorte Y!

Textsorte X!

Textsorte Z!

•  Tagging und Parsing!

•  Maschinelles Textzusammenfassen!

•  Informations-/Metadatenextraktion!

•  Information Retrieval!

•  Textkategorisierung!

•  Question Answering !

•  Mobile Device Adaptation!

•  Korpuslinguistische Analysen!

•  E-Learning-Tools (Essay Grading)!

•  Lernen von Ontologien!

•  ...!


Textsorten und Texttechnologie!

•  Textlinguistik: Textsorten besitzen Eigenschaften, z.B. kommunikative Funktion, thematische Markierung, spezifische Kommunikationspartner "(siehe die Arbeiten von Brinker, Gülich, Heinemann, Motsch, Sandig, Vater, Viehweger etc.).!

•  Merkmal Textstrukturmuster – Modellierung durch Texttechnologie:!

!Linguistisch motivierte Informationsanreicherung und Verarbeitung digitaler Texte mit standardisierten Auszeichnungssprachen.!

•  Repräsentation z.B. mittels XML Schema oder DTD:!

•  Es existieren viele flankierende W3C XML-Standards, aber auch Lücken (z.B. Verfahren zur Repräsentation von Texttypologien).!

<!ELEMENT article (date, body)> <!ELEMENT date (month, day, year, time)> <!ELEMENT body (headline, paragraph+)> ...

article!

date! body!

headline! paragraph!month! day! year! time!

08! 08! 2003! 12:00! Der ...! Die ...!


Gliederung!

•  Ausgangssituation und konzeptionelle Ausrichtung!

•  Ein Hypertextsortenmodell und die Hypertextsortenontologie!

•  Exemplarische Anwendung!

•  Schlussfolgerungen – Ausblick – Perspektiven!


Ein Hypertextsortenmodell!

•  Kontext: Anwendung zur Informationsrecherche und Web as Corpus!

-  Hypertext macht Erweiterung des Textsortenbegriffs notwendig.!

-  Diskrepanz: Web as Corpus Community vs. Hypertextsorten!

•  Hypertextsorten: Stand der Forschung!

!Weder Theoriekonsens noch präzise Erkenntnisse über die Spezifika (z.B. ihre Granularität; kanonisches Inventar).!

•  Das Hypertextsortenmodell ist Grundlage für!

-  (text)linguistische Analysen von Hypertextexemplaren,!

-  eine Systemarchitektur, die die Integration von Wissen über Text- und Hypertextsorten in sprachtechnologische Anwendungen ermöglicht.!


Ebene der Konstituenz I: (Eingebettete) Hypertextsorten!Hypertextsorte:!Webauftritt"einer Universität!

Eingebettete Hypertextsorten:!Webauftritt einer Fakultät!

Eingebettete Hypertextsorte:!Webauftritt eines Instituts bzw. Seminars!


Ebene der Konstituenz II: Hypertextsortenmodul!

!Publikationsliste!


Ebene der Konstituenz III: Hypertextknotensorte!

!Berufliche Homepage eines Wissenschaftlers!


Generischer Aufbau einer Hypertextsorte!

Hypertextsorte i!

Hypertextsortenmodul 1...n!Hypertextknotensorte 1...n!Hypertextsorte 0...n!

besteht aus!

Optionale Hyper-!textsortenmodule 0...n!

Obligatorische Hyper-!textsortenmodule 1...n!

Optionale Hyper-!textsorten 0...n!

Obligatorische Hyper-!textsorten 0...n!

kann fungieren als!besitzt identischen Aufbau!

umfasst konventiona-!lisierte Vorbelegung!

wird eingebettet in oder!kann fungieren als!

Merkmale:!•  Kommunikative Funktion!•  Kontextuelle Faktoren!•  Inhalt/Thema!•  Interaktion!•  Strukturierung!•  Kommunikation!•  Dekoration!

besitzt!

Merkmale:!•  Positionierung!•  Kommunikative Funktion!•  Dekoration!

besitzt!

Typen:!•  Inhalt/Thema!•  Interaktion!•  Kommunikation!•  Navigation!•  Metainformation!•  Dekoration!•  Textstrukturmuster!

prägen aus!

kann fungieren als!


Tool chain zur Sammlung eines Korpus!

!

*.unizh.ch!

Web-Crawler (Pavuk)!

Korpus:!UNIX-!

Filesystem!

DB!(MySQL)!

Webserver (Apache)!

Sprachenidentifizierer (Perl)!

PHP!

HTTP Header!(Perl)!

Interface der Korpusdatenbank: PHP, Perl, Shell-Scripting!


Repräsentation von Hypertextsorten durch Ontologien!

•  Ansatz: Konstruktion einer OWL-basierten Ontologie von Text- und Hypertextsorten als Ressource für sprachtechnologische Anwendungen.!

!Alternative Vorschläge (nicht implementiert):!

-  Repräsentation durch „facets“ (Crowston und Kwasnik 2004).!

-  Textlinguistisch ausgerichtete Analyse (Jakobs 2003; Sandig 2000).!

•  Web as Corpus-Vorgehensweise:!

-  Korpus: Etwa vier Mio. deutschsprachige HTML-Dokumente von 100 universitären Webauftritten (ca. 41 GB).!

-  Umfang der analysierten Stichproben: ca. 3.500 HTML-Dokumente.!

-  Basis der Ontologie: Empirisch erstellte Hypertextsortenprofile.!

-  Zusätzlich: Domänen-Ontologie und Themen-Ontologie.!


Die Hypertextsortenontologie!

das Hypertext-!sortenmodell!

in abstrakter Form!

das Hypertext-!sortenmodell!

als OWL-Ontologie!(Ausschnitt)!

Ontologie angefertigt mittels Protégé-OWL, Visualisierung mittels OntoViz/GraphViz!


Die Hypertextsortenontologie (Ausschnitt)!

Hypertexttyp Software-Dokumentation:!

•  Umfasst vier Hypertextsorten (z.B. Tutorial und Lehrwerk/Referenz).!

•  Definitionen als Subklassen der Klasse Hypertexttyp. •  Instanzen werden primär von Seminaren bzw. Instituten und Arbeitsgruppen publiziert.!


Die Hypertextsortenontologie (Ausschnitt)!

Typologie des Hypertexttyps!

Homepage einer Person!


Gliederung!



•  Exemplarische Anwendung!•  Schlussfolgerungen – Ausblick – Perspektiven!


Maschinelle Identifizierung von Hypertextsorten!

•  Die maschinelle Identifizierung von Web-Genres ist prinzipiell möglich (vgl. z.B. Shepherd et al. 2004, Meyer zu Eissen und Stein 2004, Lim et al. 2005, Santini 2005).!

•  Es existieren mehrere ungelöste Probleme, z.B.:!

1.  Auswahl und Granularität der verwendeten Web-Genres erfolgt ad hoc und ist weder textlinguistisch reflektiert noch empirisch motiviert.!

2.  Skalierbarkeit der Methoden: Aktuelle Studien arbeiten mit max. 16 Web-Genres. Können auch mehr als 150 Kategorien (Rehm 2005) verarbeitet werden?!

3.  Mangelnde theoretische Basis: Spezifika von Hypertextsorten werden ignoriert (einfache Übertragung traditioneller „bag of words“-Methoden auf das WWW).!

4.  Das einzelne HTML-Dokument als Analyseeinheit: Keine Berücksichtigung der Dokument- oder der Hypertextstruktur (Ausnahme: Mehler et al. 2006).!

•  Entwurf einer Architektur, um diesen Problemen zu begegnen.!


Systemarchitektur (partiell implementiert)!

Korpus: "HTML-!Dateien!

XML-!Dateien!

Textparser!

Korpusdatenbank!

Erkennung von!Hypertextknotensorten!

Erkennung von!Hypertextsorten!

externe!Ressource!

externe!Ressource!

externe!Ressource!

externe!Ressource!

externe!Ressource!

POS-Tagger!

Tokenisierer!

Visualisierung!mittels XSLT!

annotiertes!Trainings-!korpus!

Erkennung der Grenzen!eines Hypertextes!

Hypertextsortenontologie!


Textparsing zur Erkennung der Textstruktur!

•  Funktionen des Textparsers:!

-  Ermittlung der tatsächlichen Textstruktur (Problem: tag abuse), "d.h. Identifizierung der Bausteine der Textoberfläche.!

-  Reduktion des HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen.!

-  Ähnelt CleanEval Initiative (ACL-SIGWAC; Baroni, Kilgarriff et al.).!

•  Mehrstufige, rekursive Verarbeitung der XHTML/XML DOM-Struktur: Analyse der struktur- und layoutorientierten Elemente und Attribute.!

•  Multi-Ebenen-Annotation.!

•  Visualisierung: XSLT, CSS, dynamisch generierter JavaScript-Code (vergleichbar mit der Parmenides-Oberfläche, Rinaldi et al. 2003).!


Textparser mit interaktiver Analyseoberfläche: Beispiel!


Textparser mit interaktiver Analyseoberfläche: Beispiel!


Exemplarische Anwendung: Informationsextraktion!

<Identifikation> <Foto URI="http://www.uni-bonn.de/~ckinitz/Claudia.jpg"/> <Name> <Vorname>Claudia</Vorname> <Nachname>Kinitz</Nachname> </Name> <Affiliation>Institut für ...</Affiliation> </Identifikation>

<Kontaktinformationen> <Strassenadresse> <Strasse>Endenicher ...</Strasse> <Hausnummer>11-13</Hausnummer> <PLZ>53115</PLZ> <Stadt>Bonn</Stadt> <Land>Deutschland</Land> </Strassenadresse> <Telefon>+49 (0)228 ...</Telefon> <Fax>+49 (0)228 ...</Fax> <E-Mail>c.kinitz@...</E-Mail> </Kontaktinformationen>

<DatumDerLetztenAenderung> <Tag no="29"/> <Monat no="8" name="August"/> <Jahr>2001</Jahr> </DatumDerLetztenAenderung>

<Lebenslauf> <Eintrag>geboren am 20. Juni ...</Eintrag> <Eintrag>WS 1994 – SS 1999 ...</Eintrag> <Eintrag>November 1999 – ...</Eintrag> <Eintrag>Lebensmittelchemikerin</Eintrag> <Eintrag>seit Januar 2001 ...</Eintrag> </Lebenslauf>

<WissenschaftlichesProfil> <Forschungsinteressen> <Eintrag>Identifizierung und ...</Eintrag> <Eintrag>Betreuung von ...</Eintrag> </Forschungsinteressen> <Publikationsliste> <LitEintrag>A Mellen ...</LitEintrag> <LitEintrag>A Mellen ...</LitEintrag> </Publikationsliste> </WissenschaftlichesProfil>

Lebenslauf, biografische Angaben!

Datum der letzten Änderung! Wissenschaftliches Profil! Publikationsliste! Forschungsinteressen!

Identifikation! Foto! Name! Affiliation!

Kontaktinformationen! Straßenadresse! Telefon! Fax! E-Mail!

WrapperL!

WrapperP!WrapperD!

WrapperI!

WrapperK!


Gliederung!



•  Exemplarische Anwendung!

•  Schlussfolgerungen – Ausblick – Perspektiven!


Zusammenfassung und Schlussfolgerungen!

•  Wissen über Text- und Hypertextsorten kann gewinnbringend in sprachtechnologischen Systemen eingesetzt werden.!

•  Es existiert kein Standard zur Repräsentation von Textsortenwissen.!

•  Aber: Eine polyfunktionale, in OWL realisierte Ontologie von Text- und Hypertextsorten kann diese Aufgabe übernehmen.!

-  Konstituenten von und Relationen zwischen Hypertextsorten.!

-  Verknüpfung externer Ressourcen für maschinelle Verarbeitung.!

•  Sehr komplexe Systemarchitektur und ungelöste Probleme: Eine robuste Implementierung der Architektur scheint derzeit nicht realistisch.!


Ausblick und Perspektiven!

•  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!

•  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

•  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

•  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!

•  Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!


Ausblick und Perspektiven!

•  Einsatz des Textparsers für korpuslinguistische Analysen (z.B. von Blogs).!

•  Semiautomatische Ermittlung und Sammlung von Text-/Hypertextsorten.!

•  Konstruktion eines annotierten Testkorpus (aus mehreren Domänen).!

•  Vereinfachung der Systemarchitektur und Reduktion der Komplexität der beteiligten Komponenten (durch Konzentration auf die Wikipedia).!

•  Die entscheidende Vision: Suchmaschine mit Hypertextsorten-Filter, d.h. Suche nach Dokumenten in nutzerspezifizierten Hypertextsorten.!

-  „Zimt und Koriander“ in Kochrezept!

-  „Zimt und Koriander“ in Rezension!

-  „Texttechnologie“ in Publikationsliste und wissenschaftlicher Artikel!

Technology

Zur Integration von Wissen über Text- und Hypertextsorten in computerlinguistische und sprachtechnologische Anwendungen