Upload
ledung
View
228
Download
0
Embed Size (px)
Citation preview
Wie kann man Unterschiede zwischen zwei Mengen von Texten modellieren?
EinleitungFaktorenenanalyseMulti-dimensional analysis (D. Biber 1998)Forschungsprojekt
Marlon BerlinKapka BorisovaStephan Klinger
Cornelius LejeuneBjörn Piltz
Anne SauerSebastian Thiebes
Einleitung: Was sind Register?
Texte verschiedener Register unterscheiden sich funktional voneinander (Zeitungstexte, Romane, Liebesbriefe, Steuererklärungen).Auch das Auftreten verschiedener formaler Elemente unterscheidet Register voneinander.
Beispiel: Texte zum Thema Schule - Text 1
Das Bundesministerium für Wirtschaft und Technologie kann im Einvernehmen mit dem Bundesministerium für Bildung und Forschung nach Anhören des ständigen Ausschusses des Bundesinstituts für Berufsbildung durch Rechtsverordnung bestimmen, daß der Besuch einer berufsbildenden Schule oder die Berufsausbildung in einer sonstigen Einrichtung ganz oder teilweise auf die Ausbildungszeit anzurechnen ist.
Beispiel: Texte zum Thema Schule - Text 2
Saarland will ja jetzt als erstes Bundesland gutes Benehmen als eigenes Fach in der Schule einführen. Ich will nicht behaupten, daß diese Bemühung an und für sich schlecht ist, aber Benimm ist doch im Grunde keine Frage des Wissens sondern des Wollens. Grundsätzlich sind die meisten Menschen, und nicht nur die Schüler, doch einfach zu faul, “Danke” und “Bitte” zu sagen, die Tür aufzuhalten und zu grüßen. Ist ja nicht so, daß sie sich das nicht denken können. Und selbst wenn nicht, bei einer Wochenstunde sind das an die 40 Einheiten zum guten Benehmen. Was soll man da denn alles durchnehmen? Wie man Bananen mit dem Besteck ißt?
Beispiel: Satzlänge
Text 1 besteht aus nur einem Satz mit 49 Wörtern.Text 2 besteht aus sieben Sätzen mit einer durchschnittlichen Länge von 15,4 Wörtern.
Beispiel: Fragen und Abtönungspartikel
Text 2 enthält Fragen, Text 1 nicht. Beispiele:Was soll man da denn alles durchnehmen?Wie man Bananen mit dem Besteck ißt?
Häufig in Text 2 gebrauchte Partikel (wie “ja”, “doch”) fehlen in Text 1.
Beispiel: Nominalisierungen
Text 1 beinhaltet mehr Nominalisierungen als Text 2, zum Beispiel “Anhören”, “Einvernehmen”, “Besuch”.
Einleitung: Aufgabe der Korpuslingustik
Aufgaben:Extraktion statistischer Daten aus einer großen Menge von Texten.Vergleich der Texte miteinander.Verwendung einer großen Menge von Merkmalen.
Diese Vorgänge sind nicht mehr von Hand zu bewältigen.
Faktorenanalyse: Schweizer Dörfer
20,2012,1128,0026,0019,4055,70Lausanne
20,003,308,0017,0034,0071,70Grandson
21,2024,202,0018,0072,6068,30Echallens
18,702,825,0022,0069,3061,70Cossonay
22,704,4312,0019,0060,7068,90Avenches
19,102,277,0014,0067,5066,90Aubonne
16,508,5212,0021,0062,0064,10Aigle
24,5098,616,0014,0064,5087,10Veveyse
24,4091,3813,0016,0045,2082,90Sarine
21,0097,677,0012,0053,3082,40Gruyere
24,9097,168,0014,0067,8092,40Glane
23,6092,857,0016,0070,2083,80Broye
26,6090,577,009,0035,3076,10Porrentruy
20,605,1615,0017,0043,5076,90Neuveville
20,3033,777,0012,0036,5085,80Moutier
20,2093,405,005,0039,7092,50Franches-Mnt
22,2084,849,006,0045,1083,10Delemont
22,209,9612,0015,0017,0080,20Courtelary
Infant Mort.CatholicEducationExaminationAgricultureFertility
Faktorenanalyse: Korrelation
Inwiefern korrelieren diese Variablen miteinander?
…
5,00
6,00
15,00
Examination
…39,7092,50Franches-Mnt
…………
…45,1083,10Delemont
…17,0080,20Courtelary
…AgricultureFertility
Fertility Agriculture Examination Education Catholic
Examination
Agriculture
Education
Catholic
Infant Mort.
Fertility Agriculture Examination Education Catholic
Examination
Agriculture
Education
Catholic
Infant Mort.
Fertility Agriculture Examination Education Catholic
Examination
Agriculture
Education
Catholic
Infant Mort.
Faktorenanalyse: Resultat
0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
160,00
180,00
-100,00 -50,00 0,00 50,00 100,00 150,00
Factor 1
Fact
or 2
Reihe1
Faktorenanalyse: Rotation (PROMAX)
0,00
20,00
40,00
60,00
80,00
100,00
120,00
140,00
160,00
-100,00
-80,00 -60,00 -40,00 -20,00 0,00 20,00 40,00 60,00 80,00 100,00
Factor 1
Fact
or 2
Reihe1
Das multidimensionale Verfahren ist eine Methode zur Analyse von Variationen der Register.Anwendungsgebiete sind:
Analyse der Sprache von wissenschaftlichen ArtikelnUntersuchung der geschriebenen und gesprochenen Sprache von GrundschülernUntersuchung der historischen Entwicklung in der Sprache von Männern und FrauenVergleiche von ähnlichen Registern in verschiedenen Sprachen
Multi-dimensional analysis (Biber, 1998)
Multi-dimensional analysis (Biber, 1998)
Vorgehensweise:
Aufbereiten des KorpusDas Korpus soll möglichst repräsentativ sein.
Bestimmen linguistischer Merkmale, die funktional interpretierbar sind.Ziel ist das Aufnehmen von möglichst vielen Merkmalen, die eine funktionale Assoziation haben.Zum Beispiel hat Biber für das Englische 16 Hauptkategorien von linguistischen Merkmalen identifiziert (siehe Tabelle 5.7, Biber,1995).
Multi-dimensional analysis (Biber, 1998)
Vorgehensweise:
Zählen und Normalisieren der Merkmalez.B. pro 1000 Wörter(20 Modalverben / 750 Wörter) x 1000 = 27,5 Modalverben
Analyse der gemeinsam auftretenden MerkmaleMuster im Auftreten der linguistischen Merkmale werden durch die Faktorenanalyse erkannt.
Multi-dimensional analysis (Biber, 1998)
Vorgehensweise:
Interpretation der FaktorenDie „Faktoren“ der Faktorenanalyse werden funktional als Dimensionen interpretiert (siehe Tabelle 6.2, Biber, 1998).z.B. „negative“ versus „positive“ Gruppe in Dimension 1.
Berechnen der DimensionspunkteDie Dimensionspunkte (dimension scores) für jeden Text und jedes Register werden ausgerechnet. (siehe Tabelle 6.1, Biber, 1998)
Multi-dimensional analysis (Biber, 1998)
Vorgehensweise:
Forschungsprojekt: Überblick
Motivation: Übertragung der Biber-Untersuchung aufs DeutscheAuswahl zu untersuchender MerkmaleAuswahl des KorpusQuantitative AuswertungQualitative AuswertungProbleme
Forschungsprojekt: Auswahl der Merkmale
Orientierung am Beispiel Biber 1998 (mit englischen Korpora)eigene Liste von Merkmalen für das Deutsche
Satzlänge, WortlängeVerben ( z. B. Modalverben, Kopula), Tempus (Präsens vs. Präteritum, Imperativ, Konjunktiv)Substantive (z. B. Häufungen, Attribute)Fremdwörterusw.
Forschungsprojekt: Auswahl des Korpus
AnsprücheAbdeckung vieler RegisterGröße als Grundlage der quantitativen Untersuchungmöglichst weitreichende Annotationen
Akademie-Korpus (www.dwds.de)ausgewogen100 Mio. laufende Wörterausführliche Header-Daten
Forschungsprojekt: Quantitative Auswertung
Verwendung des frei zugänglichen Statistikpaketes GNU R für die Faktorenanalyse (www.r-project.org)
Forschungsprojekt: Probleme - Merkmale
Es gibt keine Theorie, aus der eine Liste von Merkmalen gewonnen werden kann. Die zu verwendende Merkmalsliste ist somit intuitiv erstellt. Dies wirft die Frage nach der Aussagekraft und Vollständigkeit der Ergebnisse auf.
Forschungsprojekt: Probleme - Korpus
Zwar ist das Akademie-Korpus groß; erbringen unsere sehr speziellen Suchanfragen aber Datenmengen, die für die statistische Analyse ausreichend sind?Können wir alle Merkmale vermittels der Annotationen des Korpus abfragen?Wie wird der Kontext definiert?
Forschungsprojekt: Probleme - Quantitative Auswertung
Welche Parameter der statistischen Faktorenanalyse müssen wie spezifiziert werden?
Literaturliste
Biber, Douglas; Corpus Linguistics: Investigating Language Structure and Use , 1998Biber, Douglas; Dimensions of Register Variation: A Cross-linguistic Comparison , 1995Biber, Douglas; Using Register-Diversified Corpora for General Language studies, 1993 Ghadessy, Mohsen; Register Analysis: Theory and Practice, 1993Leonhart, Rainer; Statistik für Psychologinnen und Psychologen, www.psychologie.uni-freiburg.de/signatures/leonhart/skript