12
Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert, Gerhard Heyer Universität Leipzig

Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

Embed Size (px)

Citation preview

Page 1: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

Institut für Informatik

eAQUA

Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft

Charlotte Schubert, Gerhard HeyerUniversität Leipzig

Page 2: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

2 C. Schubert, G. Heyer eAQUA

eAQUA

Textorientierte Altertumswissenschaften und sprachverarbeitende Informatik: Eine interdisziplinäre Kooperation

„Die ... Wissenschaft um das Altertum hat natürlich keine ewige

Dauer, ihr Stoff ist zu erschöpfen. Nicht zu erschöpfen ist die

immer neue Akkomodation jeder Zeit an das Altertum, das Sich-

daran-Messen.“

(F. Nietzsche, Unzeitgemäße Betrachtungen, Gedanken und Entwürfe zu

der unzeitgemäßen Betrachtung: Wir Philologen, Nr.7, München 1964, 391)

Page 3: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

3 C. Schubert, G. Heyer eAQUA

eAQUA

Der Projektverbund: Geistes- und NaturwissenschaftlerInnen

H.-Schmidt-Universität Hamburg

Prof. Dr. Burkhard Meißner

Projekt CAMENA,

Universität Heidelberg

Prof. Dr. Wilhelm Kühlmann

Universität Leipzig

Prof. Dr. Charlotte Schubert / Prof. Dr. Reinhold Scholl

Prof. Dr. Marcus Deufert / Prof. Dr. Kurt Sier

Prof. Dr. Gerhard Heyer

Wissenschaftlicher Beirat

Prof. G. Crane (Tufts University, USA), Dr. J. Garcés (British Library, UK),

Prof. E.Gaussier (Grenoble, FRA)

Page 4: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

4 C. Schubert, G. Heyer eAQUA

eAQUA

• Bereits erfolgreich laufende Kooperationen:

– Leipzig/Altertumswissenschaften: Etablierung eines gemeinsamen

Masterstudiengangs Classical Studies (akkreditiert)

– Leipzig/Alte Geschichte und Informatik (ASV): Aufbau einer TLG-

basierten Kookkurrenz- und Satz-Datenbank (http://wortschatz.

uni-leipzig.de/eaqua/)

– Leipzig/ Alte Geschichte und Universitätsbibliothek:

Digitalisierungsprojekte (Deutsches Papyrus-Portal, Codex Sinaiticus

mit British Library)

Page 5: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

5 C. Schubert, G. Heyer eAQUA

eAQUA

Die Wissensbasis

• Die digitalen Bibliotheken antiker Texte: (fast) vollständige Korpora:

– Perseus, Thesaurus Linguae Graecae (TLG), Bibliotheca Teubneriana Latina (BTL), Library of Latin Text, PHI (Inschriften, Papyri)

• Anwendung und Weiternutzung:

– Kooperation mit folgenden Partnern und freie Nutzung des zu entwickelnden Tools:

• Perseus, USA (2,1 Mio Zugriffe/Monat)

• British Library, UK (2 Mio Zugriffe/Monat)

• Camena/ Termini, Heidelberg (200.000 Zugriffe/Monat)

• Wortschatz-Portal der ASV, Leipzig ( Webseite: ca. 1 Mio Zugriffe/Monat, Webservice: 5 Mio/Monat)

– Publikation der Einzelprojekte

Page 6: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

6 C. Schubert, G. Heyer eAQUA

eAQUA

Das Ziel: Vom Wissensrohstoff zu strukturiertem Wissen

Von der Überlieferungsgeschichte zur Wissenschaftsgeschichte: Transferstufen, Weiterverwendungen, Umwertungen, Neubildungen

I. Neue inhaltliche Zusammenhänge:– Gewinnung von neuen und inhaltlich relevanten Zusammenhängen

• Teilprojekte Atthidographen, Platon

– Ergänzung von fragmentarischen Texten • Teilprojekte Inschriften/ Papyri

– Neue metrische Zusammenhänge

• Teilprojekt Plautinische Metrik

II. Wissensnetze– Bestimmung bzw. Überprüfung von Autorenschaften, Referenzen,

Abhängigkeiten und Zitaten• Teilprojekt Camena

Page 7: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

7 C. Schubert, G. Heyer eAQUA

eAQUA

Beispiel: Gewinnung von neuen und inhaltlich relevanten

Zusammenhängen

Page 8: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

8 C. Schubert, G. Heyer eAQUA

eAQUA

Architektur der Plattform

Page 9: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

9 C. Schubert, G. Heyer eAQUA

eAQUA

Warum ist die ASV für diese Aufgaben qualifiziert?

• Erfahrungen mit großen und kleinen Textkorpora– Leipzig Corpus Collection (LCC): 18 fertige

Normgrößenkorpora (http://corpora.uni-leipzig.de/)– Mitglied in D-SPIN/CLARIN

• Erfahrungen mit Text Mining

– Kookurrenzanalyse– Überwachtes und unüberwachtes POS-Tagging– Differenzanalyse– Semantische Wortähnlichkeiten– Morphologische Analyse– Rechtschreibkorrektur (Aufbereitung von verrauschten

Korpora)

Page 10: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

10 C. Schubert, G. Heyer eAQUA

eAQUA

Wechselwirkung zwischen Geistes- und Naturwissenschaften

Altertumswissenschaften Informatik

•Ergänzung fachspezifischer Arbeits-methoden durch Texttechnologien

•Erweiterung der Fragestellungen (Von der Überlieferungs- zur Wissenschaftsgeschichte)

•Codierungsprobleme (Griechisch, Latein, Textkommentare)

•Die Texte umfassen einen großen Zeit-raum, daher Probleme mit konsistenten Bezeichnern und semantischem Wandel

•Möglichkeit der Einflussnahme auf die

Entwicklung fachspezifischer

Textanalyse-Werkzeuge

•Vorreiter einer neuen Generation

traditioneller Geisteswissenschaft

•Verallgemeinerung der entwickelten Verfahren zu einer allgemeinen Stilometrie

•Übertragung dieser Verfahren auf andere Anwendungen (Identifikation und Verifikation von Autorenschaften)

Her

ausf

ord

eru

ng

e

n

Ch

ance

n

Page 11: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

11 C. Schubert, G. Heyer eAQUA

eAQUA

Zeitplan eAQUA

Entwicklungsphase

AP 1 AP 2-3

Probephase

AP 4.7

Anwendungsphase

Auswertung

AP 4.1.- 6.

Bereitstellungs-phase/Publikation

AP 5

6 Monate 4/2008-9/2008

6 Monate 10/2008-3/2009

3 Monate 4/2009-6/2009

3 Monate 7/2009-9/2009

12 Monate 7/2009-6/2010

9 Monate 7/2010-3/2011

4/2008- 3/2009

4/2009- 3/2010

4/2010 – 3/2011

Page 12: Institut für Informatik eAQUA Extraktion von strukturiertem Wissen aus antiken und frühneuzeitlichen Quellen für die Altertumswissenschaft Charlotte Schubert,

12 C. Schubert, G. Heyer eAQUA

eAQUA

eAQUA

Extraktion von strukturiertem Wissen aus Antiken Quellen für die Altertumswissenschaft

Charlotte Schubert, Gerhard HeyerUniversität Leipzig