Upload
tielo-whelchel
View
105
Download
1
Embed Size (px)
Citation preview
Multivariate Verfahren der Statistik bei der quantitativen
Textanalyse
Ernst Stadlober und Mario DjuzelicInstitut für Statistik
Technische Universität Graz
21. Juni 2002
2
Sechs statistische Kenngrößen zur Charakterisierung von Texten aus dem Slowenischen
– TLS: Textlänge gegeben durch Anzahl der
Silben
– m1: mittlere Wortlänge aus
Anzahl der Silben (Silbenanzahl pro
Wort);
– m2: empirische Varianz
der Wortlänge
– log(TLS): logarithmierte Textlänge
– I: das erste Ord´sche Kriterium
I = m2 / m1
– S: das zweite Ord´sche Kriterium
S= m3 / m2
3
Je zwei slowenische Texte der drei Texttypenmit sechs Kenngrößen (Variablen)
Anzahl der Texte, Mittelwertvektoren
Texttyp TLS m1 m2 log(TLS) I S1 liter. Prosa 4943 1.89 1.02 8.51 0.54 0.952 liter. Prosa 2791 1.93 1.06 7.93 0.55 0.86
0.900.52,8.05,0.96,1.84,4000,,52 11 xn
Texttyp TLS m1 m2 log(TLS) I S1 journ. Prosa 1537 2.21 1.75 7.34 0.79 1.092 journ. Prosa 1200 2.31 1.62 7.09 0.70 0.74
0.850.71,6.78,1.59,2.25,1084,,50 22 xn
Texttyp TLS m1 m2 log(TLS) I S1 Poesie 312 1.81 0.72 5.74 0.40 0.502 Poesie 402 1.75 0.91 6.00 0.52 1.27
0.690.39,5.41,0.68,1.74,270,,51 33 xn
4
Literarische Prosa Abhängigkeitsstruktur der sechs Variablen Kovarianzmatrix S1, Korrelationsmatrix R1
0.007376 0.0011930.002700 0.000984 0.005252 27.43391 S
0.001193 0.001291 0.003362 0.0019610.003593 18.00747 I
0.002700 0.003362 0.009193 0.005908 0.016770 75.17015 2m
0.000984 0.0019610.005908 0.0044700.019240 80.34962 1m
0.005252 0.0035930.016770 0.0192400.5040001961.689 log(TLS)
27.43391 18.0074775.17016 80.349621961.6898664007.55TLS
SI2m1mlog(TLS)TLS
1S
1 0.390.33 0.17 0.09 0.11 S
0.39 1 0.98 0.820.14 0.17 I
0.33 0.98 1 0.92 0.25 0.27 2
m
0.17 0.820.92 10.41 0.41 1
m
0.09 0.140.25 0.4110.94 log(TLS)
0.11 0.170.27 0.410.941TLS
SI2
m1
mlog(TLS)TLS
1R
5
Gepoolte Kovarianzmatrix aus Gruppenkovarianzen S i und Sj
jjiiji
ij SnSnnn
S
112
1
Berechnung der multivariaten statistischen Distanzzwischen je zwei sechs-dimensionalen Mittelwertvektoren
5.4022
4.7661
5.5167
)()(,
)()(,
)()(,
321
233232
311
133131
211
122121
xxSxxxxD
xxSxxxxD
xxSxxxxD
t
t
t
6
Literarische Prosa | Journalistische ProsaUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen
V a r i a b l e T e x t t y p e n )2()1(kj xx )2()1(
kj ss ),( )2()1(kj xxD
T L S l i t e r . P r o s aj o u r n . P r o s a
3 9 9 9 . 9 8 11 0 8 4 . 1 6 0
2 9 4 3 . 4 7 07 8 4 . 4 6 9 1
1 . 3 4 2 0 8 8
l o g ( T L S ) l i t e r . P r o s aj o u r n . P r o s a
8 . 0 4 8 4 5 66 . 7 7 9 7 0 8
0 . 7 0 9 9 2 90 . 6 4 4 8 5 8
1 . 8 6 9 0 3 8
m 1 l i t e r . P r o s aj o u r n . P r o s a
1 . 8 3 5 2 9 62 . 2 4 5 3 9 4
0 . 0 6 6 8 5 50 . 1 2 9 8 8 1
3 . 9 9 3 5 3 4
m 2 l i t e r . P r o s aj o u r n . P r o s a
0 . 9 6 0 9 8 11 . 5 9 0 8 2 8
0 . 9 5 8 8 0 00 . 2 0 4 5 8 3
0 . 9 0 0 3 7 0
I l i t e r . P r o s aj o u r n . P r o s a
0 . 5 2 2 5 6 20 . 7 0 6 6 2 2
0 . 0 3 5 9 2 50 . 0 6 3 0 3 2
3 . 6 0 6 2 5 1
S l i t e r . P r o s aj o u r n . P r o s a
0 . 9 0 1 8 1 60 . 8 4 7 3 5 8
0 . 0 8 5 8 8 30 . 2 2 0 7 5 0
0 . 3 2 7 5 6 3
7
Literarische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen
V a r i a b l e T e x t t y p e n )3()1(kj xx )3()1(
kj ss ),( )3()1(kj xxD
T L S l i t e r . P r o s aP o e s i e
3 9 9 9 . 9 8 12 6 9 . 8 6 2 7
2 9 4 3 . 4 7 01 9 1 . 7 4 6 4
1 . 7 7 9 6 6 0
l o g ( T L S ) l i t e r . P r o s aP o e s i e
8 . 0 4 8 4 5 65 . 4 0 5 7 3 9
0 . 7 0 9 9 2 90 . 6 1 9 9 4 7
3 . 9 4 3 0 0 7
m 1 l i t e r . P r o s aP o e s i e
1 . 8 3 5 2 9 61 . 7 3 6 7 5 5
0 . 0 6 6 8 5 50 . 1 1 5 0 2 1
1 . 0 4 4 8 6 1
m 2 l i t e r . P r o s aP o e s i e
0 . 9 6 0 9 8 10 . 6 8 2 4 1 0
0 . 9 5 8 8 0 00 . 1 7 3 3 5 3
0 . 4 0 0 4 7 3
I l i t e r . P r o s aP o e s i e
0 . 5 2 2 5 6 20 . 3 9 0 4 7 5
0 . 0 3 5 9 2 50 . 0 7 9 0 6 2
2 . 1 4 7 3 7 0
S l i t e r . P r o s aP o e s i e
0 . 9 0 1 8 1 60 . 6 9 1 9 9 0
0 . 0 8 5 8 8 30 . 2 4 8 7 5 3
1 . 1 2 6 3 9 3
8
Journalistische Prosa | PoesieUnivariate Statistiken der sechs Charakteristika- Mittelwerte- Standardabweichungen- Univariate statistische Distanzen
V a r i a b l e T e x t t y p e n )3()2(kj xx )3()2(
kj ss ),( )3()2(kj xxD
T L S j o u r n . P r o s aP o e s i e
1 0 8 4 . 1 6 02 6 9 . 8 6 2 7
7 8 4 . 4 6 9 11 9 1 . 7 4 6 4
1 . 4 3 2 4 4 1
l o g ( T L S ) j o u r n . P r o s aP o e s i e
6 . 7 7 9 7 0 85 . 4 0 5 7 3 9
0 . 6 4 4 8 5 80 . 6 1 9 9 4 7
2 . 1 7 2 6 2 9
m 1 j o u r n . P r o s aP o e s i e
2 . 2 4 5 3 9 41 . 7 3 6 7 5 5
0 . 1 2 9 8 8 10 . 1 1 5 0 2 1
4 . 1 4 8 7 2 5
m 2 j o u r n . P r o s aP o e s i e
1 . 5 9 0 8 2 80 . 6 8 2 4 1 0
0 . 2 0 4 5 8 30 . 1 7 3 3 5 3
4 . 7 9 4 9 0 6
I j o u r n . P r o s aP o e s i e
0 . 7 0 6 6 2 00 . 3 9 0 4 7 5
0 . 0 6 3 0 3 20 . 0 7 9 0 6 2
4 . 4 1 6 7 8 6
S j o u r n . P r o s aP o e s i e
0 . 8 4 7 3 5 80 . 6 9 1 9 9 0
0 . 2 2 0 7 5 00 . 2 4 8 7 5 3
0 . 6 6 0 2 7 0
9
Auswahl guter Kombinationen von Variablenaus dem Pool von p = 6 Variablen
1.7 1.9 2.1 2.3 2.5
m1
0.4
0.5
0.6
0.7
0.8
I
literarische Prosajournalistische Prosa
3 4 5 6 7 8 9 10
log(TLS)
0.2
0.3
0.4
0.5
0.6
0.7
I
Poesieliterarische Prosa
Scatterplot des Variablenpaares (log(TLS),I)
Scatterplot des Variablenpaares (m1,I)
10
0.25 0.50 0.75 1.00 1.25 1.50 1.75 2.00
m2
0.2
0.4
0.6
0.8
I
Poesiejournalistische Prosa
Scatterplot des Variablenpaares (m2,I)
11
SImmTLSTLS ijijijijijijij aaaaaaY 654321 21)log(
Lineare Diskriminanzfunktion Yij der Texttypen i und j maximiert die statistische Distanz zwischen den Gruppenmittelwerten der Diskriminanzfunktion
Linearkombination der p=6 Variablen
ijY -W erte für alle Beobachtungen
M ittelwerte der G ruppen: )()( , jij
iij YY
M ittelpunkt: 2)()( jij
iijij YYm
Standardisierte Größe:
ijij
ij
ij mYD
Z 1
12
-4,5 -3,5 -2,5 -1,5 -0,4 0,6 1,6 2,6 3,6 4,6 5,6Diskriminante
0
4
8
12
abso
lute
Häu
fig
kei
ten
literarische Prosajournalistische Prosa
-4,8 -4,0 -3,2 -2,4 -1,5 -0,7 0,1 1,0 1,8 2,6 3,5
Diskriminante
0
2
4
6
8
10
12
abso
lute
Häu
fig
kei
ten
literarische ProsaPoesie
Histogramm der Diskriminante Z12 Multivariate statistische Distanz D12 = 5.5167
Histogramm der Diskriminante Z13
Multivariate statistische DistanzD13 = 4.7661
13
-4,9 -3,9 -3,0 -2,0 -1,0 -0,1 0,9 1,8 2,8 3,7 4,7Diskriminante
0.0
2.5
5.0
7.5
10.0
12.5
15.0
abso
lute
Häu
figk
eite
n
Poesie journalistische Prosa
Histogramm der Diskriminante Z23
Multivariate statistische DistanzD23 = 5.4022
14
Elimination redundanter Variablen in der Diskriminante Y12 mit Hilfe der t-Statistik
Trennung der
literarischen Prosatexte von den journalistischen Prosatexten
Analyse auf Grundlage aller sechs Variablen
Variable Koeffizienten
)(12kbStandardfehler
)( )(12kbsft-Statistik
)(12kt -WerteReduzierte Distanz
)(12ˆ
kD
TLS 0.0002 0.0005 0.3897 5.5130log(TLS) 4.0731 1.5774 2.5822 5.3086
m1 -117.3995 22.2230 -5.2828 4.7574m2 129.0193 32.5310 3.9660 5.0550I -314.3848 68.9248 -4.5613 4.9256S 0.6883 4.7043 0.1463 5.5163
15
Analyse ohne die Variable S
Variable Koeffizienten
)(12kbStandardfehler
)( )(12kbsft-Statistik
)(12kt -WerteReduzierte Distanz
)(12ˆ
kD
TLS 0.00016 0.00051 0.31350 5.51311log(TLS) 4.10485 1.55328 2.64270 5.30094
m1 -118.0241 21.65793 -5.44946 4.72372m2 128.8789 32.35038 3.98384 5.05529I -312.4976 67.43930 -4.63376 4.91432
Analyse ohne die Variablen S und TLS
Variable Koeffizienten
)(12kbStandardfehler
)( )(12kbsft-Statistik
)(12kt -WerteReduzierte Distanz
)(12ˆ
kD
log(TLS) 4.52910 0.77546 5.84053 4.63313m1 -116.36175 20.96482 -5.57593 4.69730m2 126.89840 31.64950 4.00949 5.05128I -308.88416 66.27222 -4.66084 4.91072
16
4,004,204,40
4,604,805,005,20
5,405,60
Distanz ohne log(TLS) Distanz ohne m1
Distanz ohne m2 Distanz ohne I
2,202,502,803,103,403,704,004,304,604,905,205,50
Distanz ohne TLS Distanz ohne log(TLS) Distanz ohne m2
4,40
4,60
4,80
5,00
5,20
5,40
5,60
Distanz ohne log(TLS) Distanz ohne m1 Distanz ohne I
Multivariate Distanzwerte nach Elimination einer redundanten bzw. nicht redundanten Variable
Literarische Prosa und journalistische Prosa
Journalistische Prosa und PoesieLiterarische Prosa und Poesie
17
Literarische Prosa und journalistische Prosa
Reduzierte lineare Diskriminanzfunktion mit 4 Variablen
ImmTLSredY *88416.3082*8984.1261*36175.116)log(*52910.412
D12(red) = 5.5131 vs. D12 = 5.5167
Literarische Prosa und Poesie
Reduzierte lineare Diskriminanzfunktion mit 3 Variablen
2*6011.13)log(*0437.9*0014.013 mTLSTLSredY
D13(red) = 4.7311 vs. D13 = 4.7661
Journalistische Prosa und Poesie
Reduzierte lineare Diskriminanzfunktion mit 3 Variablen
ImTLSredY *6065.391*9766.22)log(*0937.323
D23(red) = 5.3366 vs. D23 = 5.4022
18
-236 -231 -226 -221 -216 -211 -206 -201 -196
Y12(m1 ,m2 ,I)
5
6
7
8
9
log(
TLS)
literarische Prosajournalistische Prosa
-30 -20 -10 0 10
Y12(log(TLS),m2 ,I)
1.7
1.9
2.1
2.3
2.5
m1
literarische Prosajournalistische Prosa
Scatterplot der Veränderlichen log(TLS) und Y12(m1,m2,I)
Scatterplot der Veränderlichen m1 und Y12(log(TLS),m2,I)
19
3.5 6.0 8.5 11.0 13.5 16.0 18.5 21.0 23.5
Y13(TLS,m2)
3
5
7
9
log(
TLS)
Poesieliterarische Prosa
Scatterplot der Veränderlichen log(TLS) und Y13(TLS, m2)
20
40 50 60 70 80 90
Y23(m1 ,I)
4
5
6
7
8
log(
TLS)
Poesiejournalistische Prosa
30 40 50 60 70
Y23(log(TLS) ,I)
1.4
1.6
1.8
2.0
2.2
2.4
m1
Poesiejournalistische Prosa
Scatterplot der Veränderlichen log(TLS) und Y23(m1,I)
Scatterplot der Veränderlichen m1 und Y23(log(TLS),I)
21
Kanonische Diskriminanten Z1, Z2 ( Zi = Zi (log(TLS),m1,I))mit Gruppenmittelwerten und Konzentrationsellipsen
10 12 14 16 18 20 22
-6-4
-20
2
5.99
10 12 14 16 18 20 22
-6-4
-20
2
5.99
10 12 14 16 18 20 22
-6-4
-20
2
5.99
10 12 14 16 18 20 22
-6-4
-20
2
2
2 222 22
2
22
22
2
2222
2
2 22
2 22
22
2
2
2
2
22 2 2
2222 2
2
2
2
222
2
2
2
22
2
2
1
1
1
1
1
1
1
1 1
1
1
1
1
11
1
1
1
1
11
1
11
11
1
1
1
1
11 11
11
1
1
1
111
1
1
1
1
1
1
1
11 3
3
3
3
33
3
3
3
3
3
3
3
3
3
33
3
3
3
3
3
33
3
3
3
33 33
3
33 3
3
33
3
3
33
3
3
3
3
3
3
33
10 12 14 16 18 20 22Z1
-6-4
-20
2
Z2
10 12 14 16 18 20 22
-6-4
-20
2
10 12 14 16 18 20 22
-6-4
-20
2
10 12 14 16 18 20 22
-6-4
-20
2
1...Poesie2...literarische Prosa3...journalistische Prosa
22
Offene Fragen• Definition der Texttypologie
- Einteilung von Texten in Textkategorien?- welche Kriterien sind anzulegen?- statistische Eigenschaften (Population)?
• Definition eines VariablenpoolsBasis sind Textlänge und Wortlänge- welche abgeleiteten Merkmale soll man betrachten?- welche sind geeignet für Charakterisierung von Textgruppen?
• Diskriminanzfunktionen- welche Merkmale bestimmen gute Diskriminanzfunktionen?- lassen sich Gemeinsamkeiten in slawischen Sprachen finden? (können Textkategorien im Kroatischen durch ähnliche Merkmale
getrennt werden wie im Slowenischen?)