37
Hypertextsorten Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen Georg Rehm [email protected] http://georg-re.hm FAST Search, München, 13. August 2008

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Embed Size (px)

DESCRIPTION

Georg Rehm. Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen. FAST Search, A Microsoft Subsidiary, Munich, Germany, August 2008. August 13, 2008. Invited talk.

Citation preview

Page 1: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 1/37!

Hypertextsorten""

Eine neuartige Ebene der Filterung und "Herausforderung für moderne Suchmaschinen!

Georg Rehm!

[email protected]!

http://georg-re.hm!

FAST Search, München, 13. August 2008!

Page 2: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 2/37!

Motivation!

Page 3: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 3/37!

Motivation!

Page 4: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 4/37!

Hypothese!

•  Die Textlinguistik untersucht und beschreibt Textsorten:!

-  Komplexe Muster sprachlicher Kommunikation !

-  Im Laufe der historisch-gesellschaftlichen Entwicklung aufgrund kommunikativer Bedürfnisse entstanden!

-  Beispiele: Liebesbrief, Kassenbon, Zeugnis, Einkaufszettel, Wörterbuch, Dissertation, Rechnung, Wetterbericht etc.!

•  Zentrale Hypothese: Im WWW existieren Hypertextsorten.!-  Ebenfalls Muster sprachlicher Kommunikation !

-  Ebenfalls entstanden aufgrund kommunikativer Bedürfnisse!

-  Grund dafür, dass Nutzer mit spezifischen Typen von Websites spezifische Erwartungshaltungen und Konventionen verbinden!

Page 5: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 5/37!

Wichtige Forschungsfragen (Auszug)!

•  Welche und wieviele Hypertextsorten existieren?!

•  Welche Spezifika weisen Hypertextsorten im Vergleich zu traditionellen Textsorten auf?!

•  Welche Konstituenten besitzen Hypertextsorten und wie können diese repräsentiert werden?!

•  Kann eine Typologie von Hypertextsorten konstruiert werden?!

•  Können Hypertextsorten maschinell identifiziert werden?!

Page 6: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Gliederung!

•  Motivation und Forschungsfragen!

•  Hypertextsorten – Beispiel!•  Das Hypertextsortenmodell!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 7: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 7/37!

Persönliche Homepage eines Wissenschaftlers!

Page 8: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 8/37!

Hypertextsorten – Bausteine!

•  Hypertextsorten sind hochgradig flexibel (und nicht monolithisch).!

•  Hypertextsorten bestehen aus Hypertextsortenmodulen!

-  Strukturell voneinander separierte Bausteine!

•  Zur Beschreibung und Erfassung von Hypertextsorten sind Stichprobenanalysen notwendig.!

Page 9: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 9/37!

Ebene! Bezeichnung des Hypertextsortenmoduls! Status! Vorkommen! Frequenz!

Atomares Modul! Explizite Begrüßung! generell! optional! 14!

Komplexes Modul! Identifikation! generell! obligatorisch! –!

Komplexes Modul! Eigenständige Affiliation! generell! obligatorisch! –!

Atomares Modul! Alternative Sprachversion! generell! optional! 75!

Komplexes Modul! Kontaktinformationen! generell! obligatorisch! –!

Komplexes Modul! Kontaktinformationen (Sekretariat)! spezifisch! optional! –!

Komplexes Modul! Kontaktinformationen (Mitarbeiter)! spezifisch! optional! –!

Komplexes Modul! Universitäres Profil! spezifisch! optional! –!

Komplexes Modul! Wissenschaftliches Profil! spezifisch! obligatorisch! –!

Atomares Modul! Lebenslauf, C.V., biographische Angaben! generell! obligatorisch! 60!

Atomares Modul! Interessante Links! generell! optional! 12!

Komplexes Modul! Relevante Links! generell! optional! –!

Atomares Modul! Angabe der letzten Änderung / Stand! universal! optional! 42!

Atomares Modul! Counter, Zugriffszähler! universal! optional! 11!

Atomares Modul! Gästebuch! universal! optional! 1!

Modellierung einer Hypertextsorte (Ausschnitt)!

Page 10: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Gliederung!

•  Motivation und Forschungsfragen!

•  Hypertextsorten – Beispiel!

•  Das Hypertextsortenmodell!•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 11: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 11/37!

Das Hypertextsortenmodell!

•  Das Hypertextsortenmodell ist Grundlage für!

-  linguistische und textlinguistische Analysen von Hypertextexemplaren,!

-  eine sprachtechnologische Architektur zur automatischen Identifizierung von Hypertextsorten.!

•  Generischer Aufbau einer Hypertextsorte:!

Hypertextsorte i!

Hypertextsortenmodul 1...n!Hypertextknotensorte 1...n! Hypertextsorte 0...n!

besteht aus!

wird eingebettet in oder!kann fungieren als! Ausschnitt des"

Hypertextsortenmodells!

Page 12: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 12/37!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!

Page 13: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 13/37!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!

Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Page 14: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 14/37!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!

Eingebettete Hypertextsorte:!Webauftritt einer Arbeitsgruppe!

Page 15: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 15/37!

Beispiel – Einbettung von Hypertextsorten!Hypertextsorte:!Webauftritt einer Universität!Eingebettete Hypertextsorte:!Webauftritt eines Fachbereichs!Eingebettete Hypertextsorte:!Webauftritt einer Arbeitsgruppe!Eingebettete Hypertextsorte:!Persönliche Homepage eines"Wissenschaftlers!

Hypertextsortenmodul:!Kontaktinformationen!

Hypertextsortenmodul:!Foto!

Page 16: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 16/37!

Zur weiteren Methodologie!

•  Korpusdatenbank (Linux, Apache, MySQL, PHP)!

•  Untersuchungsdomäne: Webauftritte von Hochschulen!

•  Manuelle und semiautomatische Analyse von Stichproben auf der Basis des Hypertextsortenmodells zur!

-  Beschreibung spezifischer Hypertextsorten!

-  Sammlung von Hypertextsorten!

•  Integration der Ergebnisse in maschinenlesbare Repräsentation!

•  Erstellung und teilweise Implementierung einer Architektur für die automatische Identifizierung von Hypertextsorten!

Page 17: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Gliederung!

•  Motivation und Forschungsfragen!

•  Hypertextsorten – Beispiel!

•  Das Hypertextsortenmodell!

•  Sammlung von Hypertextsorten!•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 18: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 18/37!

Sammlung von Hypertextsorten!

•  Frage nach der Bandbreite der Ergebnisse ist zentral für die Aufgabe der maschinellen Identifizierung von Hypertextsorten.!

•  Analyse einer Stichprobe von 750 zufällig ausgewählten Dokumenten:!

-  65 Hypertexttypen bzw. -sorten (mit Subtypen)!

-  114 Hypertextknotentypen bzw. -sorten (mit Subtypen)!

Page 19: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 19/37!

Die Hypertextsorten im Überblick!!1. Webauftritt einer Organisationseinheit (24 Subtypen; 28,4%); 2. Webangebot einer Lehrveran-staltung (4; 13,9%); 3. Vorlesungsverzeichnis (6,0%); 4. Software­Dokumentation (4; 5,3%); 5. For-schungsbericht, Jahresbericht (3,7%); 6. Skript einer Lehrveranstaltung; 7. Fotogalerie (4; 3,5%); 8. Pressemitteilungen (3,2%); 9. Publikationsorgan einer Einrichtung (8; 2,5%); 10. Persönliche Homepage eines Wissenschaftlers (2,3%); 11. Webauftritt einer Institution (9; 1,9%); 12. Private Homepage eines Studierenden (1,6%); 13. Unterrichtsmaterialien für die Schule (1,5%); 14. Studienführer (1,3%); 15. Webangebot eines Studiengangs; 16. Stud. Präsentationen/Hausarbeiten (1,2%); 17. Verzeichnis der Angehörigen einer Organisationseinheit; 18. Handbuch (1,1%); 19. Virtuelles Museum (1,1%); 20. Anleitungen, Benutzungshinweise (0,9%); 21. Bibliothekskatalog (0,8%); 22. Fachbuch/Kapitel eines Fachbuches; 23. Diplomarbeit; 24. Digitale Bibliothek (0,7%); 25. Diskussionsforum; 26. Studentische Präsentation/Vortrag/Ausarbeitung; 27. Webangebot einer Konferenz; 28. Klassifikation medizinischer Diagnoseprozeduren (0,5%); 29. Lexikon; 30. Webangebot einer Veranstaltung/eines Wettbewerbs; 31. Zugriffsstatistik; 32. Aufgabenstellungen für Haus­ oder Abschlussarbeiten (0,4%); 33. Forschungsprojekte einer Organisationseinheit; 34. Medizinische Diagnosebeispiele; 35. Regelung, Ordnung, Gesetz, juristischer Text; 36. Studieren-denstatistik; 37. Abschlussbericht (0,3%); 38. Aktuelle Informationen, Termine, Meldungen; 39. Biografie; 40. Digitale Karte; 41. Dissertation; 42. Fachinformationsportal; 43. FAQ­Dokument; 44. Grafischer Assistent zur Prozessentwicklung; 45. Internet­Zeitschrift; 46. Mailing­Listen­Archiv; 47. Bibliografie (0,1%); 48. Bibliothekssystematik; 49. Daten historischer Bauwerke; 50. Exkursionsbericht; 51. Glossar; 52. Jahrbuch: 53. Kleinanzeigen: 54. Kochbuch; 55. Kunst­ und Kulturprojekt; 56. Protokollarchiv; 57. Prüfungsordnung; 58. Richtlinien (Studien­/Hausarbeiten); 59. Semesterapparate; 60. Studienordnung; 61. Tageszeitung; 62. Tippspiel (Sportveranstaltung); 63. Transferkatalog; 64. Virtual Library; 65. Wissenschaftlicher Artikel!

!

Page 20: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 20/37!

Die Hypertextknotensorten im Überblick (Ausschnitt)!!1. Seite/Abschnitt (20 Subtypen; 15,9%); 2. Folie (6; 10,7%); 3. Organisatorische Kerndaten einer Lehrveranstaltung (4; 6,1%); 4. Abstract (6; 5,6%); 5. Foto (3,9%); 6. Einstiegsseite (3,2%); 7. Pressemitteilung; 8. Berufliche Homepage eines Hochschulangehörigen (2; 2,4%); 9. Redaktioneller Artikel eines Publikationsorgans (6; 2,1%); 10. Primäre Navigationshilfe (1,7%); 11. Kurzdarstellung eines Arbeitsgebiets (einer Organisationseinheit) (1,6%); 12. Anleitung bzw. Benutzungshinweise (1,3%); 13. Hotlist; 14. Persönliche Homepage eines Wissenschaftlers; 15. Übungsaufgaben (einer Lehrveranstaltung); 16. Vorlesungsverzeichnis (3); 17. Ablaufplan bzw. Programm (einer Lehrveranstaltung) (1,2%); 18. Publikationsliste (2); 19. Zuordnung nicht möglich; 20. Kopfzeile (1,1%); 21. Studienhinweise (3); 22. Unterrichtsmaterialien (für die Schule); 23. Ankündigung (0,9%); 24. Fotogalerie; 25. Ausstellungsobjekt (eines virtuellen Museums) (0,8%); 26. Bibliothekskatalog (Datensatz); 27. E­Mail; 28. Kontaktinformationen; 29. Kurzdar-stellung einer Organisationseinheit (Funktionen und Kontaktinformationen); 30. Kurzdarstellung eines Dienstleistungsspektrums (im Technologietransfer­Kontext) (0,7%); 31. Lexikoneintrag; 32. Lösungen von Übungsaufgaben (einer Lehrveranstaltung); 33. Mitarbeiterverzeichnis; 34. Programmcode, Quelltext; 35. Studierendenstatistik; 36. Abgeschlossene und/oder angebotene Haus­ und Abschlussarbeiten (0,5%); 37. Aktuelle Meldung/Information (keine Pressemitteilung); 38. Bibliografie; 39. Einladung; 40. Inhaltsverzeichnis (3); 41. Klausur­ und Prüfungstermine; 42. Medizinische Diagnoseprozedur; 43. Statistische Daten (maschinell generiert); 44. „Under Con-struction“­Hinweis; 45. Verteiler; 46. Index bzw. Dateiliste (vom Webserver generiert); 47. Aufga-benstellung für eine Haus­ oder Abschlussarbeit (0,4%); 48. Bericht zu einer Konferenz/Tagung-/Veranstaltung; 49. Download­Liste; 50. Kommentar einer Lehrveranstaltung !

!!

Page 21: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Gliederung!

•  Motivation und Forschungsfragen!

•  Hypertextsorten – Beispiel!

•  Das Hypertextsortenmodell!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 22: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 22/37!

Repräsentation durch Ontologien!

•  Teilziel: Konstruktion einer Ontologie von Hypertextsorten als Repräsentationsformat für sprachtechnologische Anwendungen!

•  Datengrundlage: Ergebnisse von sechs Stichprobenanalysen (insgesamt etwa 3000 HTML-Dokumente)!

•  Modellierung in der Web Ontology Language (OWL):!

-  W3C-Standard, gute Software-Unterstützung !

-  Hypertextsorten-Repräsentation als Teil des Semantic Web!

Page 23: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 23/37!

Integration von drei unterschiedlichen Ontologien!

Hypertextsortenontologie!

Domänenontologie!Ontologie wissenschaftlicher!

Themen und Fachgebiete!

Hypertexttypen und!Hypertextsorten!

Hypertextknotentypen und!Hypertextknotensorten!

Hypertextsortenmodule!

beschreibt!

UDK (Kategorienbaum!des Projekts GERHARD)!

Mehrere Datenquellen!(z.B. Hochschulgesetze)!

Hypertext-sortenmodell!

Stichproben-analysen!

referenziert!

Page 24: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 24/37!

Die Hypertextsortenontologie!

Das Hypertext-!sortenmodell!

in abstrakter und!vereinfachter Form!

(Ausschnitt)!

Das Hypertext-!sortenmodell!

als OWL-Ontologie!(Ausschnitt)!

Ontologie angefertigt mittels Protégé-OWL, Visualisierung mittels OntoViz/GraphViz!

Page 25: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 25/37!

Die Hypertextsortenontologie!

In diesen Visualisierungen fehlen u.a.:!

•  Datatype Propertys!•  Spezifikationen der Relationen!•  RDF-Annotationen!

Referenzierung aller potentiellen Emittenten,!die in der Domänenontologie repräsentiert werden!

Page 26: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 26/37!

Die Hypertextsortenontologie!

Typologie des Hypertexttyps!

Homepage einer Person!

Page 27: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 27/37!

Die Hypertextsortenontologie!

•  Aufgaben und Funktionen der Hypertextsortenontologie:!

-  Modelliert multiple Typologien von Hypertextsorten, Hypertextknotensorten und Hypertextsortenmodulen!

-  Modelliert die Konstituenten von Hypertextsorten!

-  Dient als Grundlage von Dokumentgrammatiken!

-  Enthält weiterführende Ressourcen für die maschinelle Verarbeitung (z.B. assoziierte Wrapper, DTD-Fragmente)!

-  Basis des User Interface einer Suchmaschine mit Hypertext-sortenfilter (Navigation und Exploration der Ontologie)!

Page 28: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Gliederung!

•  Motivation und Forschungsfragen!

•  Hypertextsorten – Beispiel!

•  Das Hypertextsortenmodell!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!•  Schlussfolgerungen!

Page 29: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 29/37!

Status Quo: Maschinelle Erkennung von Textsorten!

Korpus! Methoden! Genres! Präzision!

!Biber (1988)! !481 englische Texte "(u.a. LOB)!

!Statistische Verfahren; "67 linguistische Merkmale!

!23 Genres! !k.A.!

!Karlgren und Cutting (1994)!

!500 englische Texte "(Brown Corpus)!

!Statistische Verfahren; "20 Merkmale!

!1.: 2 Genres"2.: 4 Genres"3.: 15 Genres!

!1. ca. 96%"2. ca. 73%"3. ca. 52%!

!Kessler "et al. (1997)!

!499 englische Texte "(Brown Corpus)!

!Statistische Verfahren und neuronale Netze; 55 Merkmale!

!6 Genres! !Zwischen "58% und 100%!

!Stamatatos "et al. (2000)!

!160 englische Texte "(Wall Street Journal Corpus)!

!Statistische Verfahren; Wort- und Interpunktions-frequenzen!

!4 Genres! !ca. 97%!

!Stamatatos "et al. (2001)!

!250 griechische Texte "(aus dem WWW)!

!Statistische Verfahren; "22 Merkmale!

!10 Genres! !ca. 82%!

!Dewdney "et al. (2001)!

!9705 englische Texte! !Überwachte Lernverfahren auf zwei Merkmalsgruppen!

!7 Genres! !Bis zu 92,1%!

!Santini (2004)! !150 englische Txte "(British National Corpus)!

!Überwachte Lernverfahren auf POS-Trigrammen!

!10 Genres! !Zw. 78,6% "und 99,3%!

Page 30: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 30/37!

Status Quo: Maschinelle Erkennung v. Web-Genres!

Web-Genres! Methoden! Präzision!

!Matsuda und Fukushima (1999)!

!9: Product catalogue, online shop, advertisement for help, call for papers, links, FAQ, glossary, home page, bulletin board!

!Gewichtetes Pattern Matching in HTML-Elementen!

!88,9% (IR-Task), ohne die engine: 31,2%!

!Finn et al. "(2002)!

!2: Kommentare bzw. Editorials (�opinion�), Nachrichtenartikel (�fact�)!

!Überwachtes Lernverfahren!

!Zwischen "68% und 72%!

!Lee und Myaeng (2002, 2004)!

!7: Reportage, editorial, research articles, reviews, homepage, Q&A, spec!

!Überwachtes Lernverfahren "(kNN-ähnlich)!

!87% (engl. Texte), "90% (kor. Texte)!

!Shepherd et al. (2004)!

!3: Personal home page, corporate home page, organization home page!

!Überwachtes Lernverfahren (NN)!

!Durchschnittliches "F-Maß: 70,6%!

!Meyer zu Eissen und Stein (2004)!

!8: Help, article, discussion, shop, portrayal (non-private), portrayal (private), link collection, download!

!Überwachtes Lernverfahren "(SVM, NN)!

!70%!

!Lim et al. (2005a,b)!

!16: Personal homepages, public homepages, commercial homepages, bulletin collections, link collections, image collections, simple tables/lists, input pages, journalistic materials, research reports, official materials, informative materials, FAQs, discussions, product specifications, others (informal texts)!

!Überwachtes Lernverfahren "(kNN-ähnlich)!

!75,9%!

Page 31: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 31/37!

Status Quo: Kritische Anmerkungen!

•  Identifizierung von Textsorten/Web-Genres prinzipiell möglich!

•  Methoden basieren auf strukturellen bzw. linguistischen Merkmalen, die einfach erhoben werden können!

•  Mehrere Problemfelder:!

1.  Auswahl und Granularität der verwendeten Web-Genres ad hoc und weder textlinguistisch noch empirisch motiviert.!

2.  Mangelnde theoretische Fundierung – Spezifika von Hypertextsorten wer-den ignoriert (simple Übertragung traditioneller Verfahren auf das WWW).!

3.  Das einzelne HTML-Dokument als atomare Analyseeinheit. !

4.  Verwendete Methoden und ihre Skalierbarkeit – Verarbeitung von "150+ Hypertextknotensorten mehr als fraglich.!

Page 32: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Systemarchitektur!(partiell implementiert)!

Page 33: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 33/37!

Der Textparser für generische HTML-Dokumente!

•  Konvertierung von HTML nach XHTML (d.h. XML)!

•  Textparser basiert auf einer mehrstufigen, rekursiven Verarbeitung der DOM-Struktur eines Dokuments (Problem: tag abuse).!

•  Zentrale Komponente innerhalb der Architektur!

•  Ergebnisse werden innerhalb des Dokuments abgelegt (eigener Namensraum, vergrößert ein Dokument um den Faktor 25)!

•  Ziele:!

-  Ermittlung der Bausteine der Textoberfläche!

-  Reduktion des meist sehr komplexen HTML-Markups auf ein überschaubares Inventar von Makrostrukturbausteinen!

-  Abbildung dieser Bausteine auf Hypertextsortenmodule!

Page 34: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 34/37!

Ausblick – HTS-getriebene Informationsextraktion!

Page 35: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Gliederung!

•  Motivation und Forschungsfragen!

•  Hypertextsorten – Beispiel!

•  Das Hypertextsortenmodell!

•  Sammlung von Hypertextsorten!

•  Die Hypertextsortenontologie!

•  Zur maschinellen Erkennung von Hypertextsorten!

•  Schlussfolgerungen!

Page 36: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 36/37!

Schlussfolgerungen!

•  Maschinelle Erkennung von Text- und Hypertextsorten ist prinzipiell möglich.!

•  Langfristiges Ziel: Suchmaschine mit Hypertextsorten-Filter!

•  Übergreifende Probleme verhindern dies noch. Hierzu zählen:!

-  Problematik eines Inventars von Hypertextsorten:!

! Bestimmung nur manuell und empirisch möglich.!

! Ermittlung aller Hypertextsorten im WWW ist unrealistisch (es existieren beliebige traditionelle Textsorten, kulturelle Besonderheiten etc.)!

-  Maschinelle Bestimmung der Grenzen von Hypertexten!

Page 37: Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen

Hypertextsorten: Eine neuartige Ebene der Filterung und Herausforderung für moderne Suchmaschinen! 37/37!

Lösungsansatz!

•  Einsatz der maschinellen Erkennung von Text- und Hypertextsorten im Bereich Enterprise Search. Vorteile:!

-  Geschlossenes und kontrolliertes System (mehr oder weniger).!

-  Anzahl der Text- und Hypertextsorten ist begrenzt.!

-  Text- und Hypertextsorten können in Kooperation mit Domänenexperten erfasst, benannt und modelliert werden.!

!Georg Rehm (2007): Hypertextsorten: Definition – Struktur – Klassifikation. "Norderstedt: Books on Demand.!

!Georg Rehm und Marina Santini (Hrsg.) (2007): Proceedings of the International Workshop „Towards Genre-Enabled Search Engines“ (held in conjunction with "RANLP 2007 on September 30). Shoumen, Bulgaria: Incoma. !