58
Visuelle Textanalyse Dr. Stefan Jänicke http://www.vizcovery.de 9. Mai 2019

Visuelle Textanalyse - informatik.uni-leipzig.destjaenicke/vta/4.pdf · Anekdote “My true spiritual home is Central Europe, not France, the Mediterranean countries, England, Scandinavia

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Visuelle Textanalyse

Dr. Stefan Jänickehttp://www.vizcovery.de

9. Mai 2019

Distant Reading

Distant Reading

S. Posavec (2007). Literary Organism.

Distant Reading

Eigenschaften:– abstrakte Sicht auf Text oder Korpus– Text kann nicht mehr gelesen werden– Analyse großer Textmengen → numerische Beweisführung– Auffinden von Mustern und Gesetzmäßigkeiten– Analyse historischer Entwicklungsprozesse– Analyse schließt unbekannte Werke ein– Objektivität statt Subjektivität, Überblick statt Detail

Distant Reading is ...“... a little pact with the devil: we know how to read texts,

now let’s learn how not to read them.” ---Franco Moretti, 2005

Distant Reading

Metadaten?

Distant Reading

Metadaten:– Autor– Titel– Publikationsdatum– Publikationsort– Genre– Seitenzahl– Struktur– Sprache– ...

Distant Reading

Inhalte?

Distant Reading

Inhalte:– Vokabular– Stil– Syntax– Semantik– Orte– Charakter– Zusammenhänge– Referenzen– Bilder– Tabellen– ...

Distant Reading

Tag Clouds

Distant Reading

Heat Maps

Distant Reading

Maps

Distant Reading

Timeline

Distant Reading

Timeline

Distant Reading

Graphs

Methoden:– Tag Clouds– Heat Maps– Maps– Timelines– Graphs– Miscellaneous

Visual Text Analysis Process

Tag Clouds

Stanley Milgram's Psychological Maps of Paris (218 maps)

Tag Clouds

Stanley Milgram's Psychological Maps of Paris

Tag Clouds

Stanley Milgram's Psychological Maps of Paris

Tag Clouds

Eigenschaften:– Häufigkeit bestimmt Fontgröße

– zeilenweise angeordnet– alphabetisch sortiert (nicht offensichtlich)– einfarbig– intuitiv

fs tag= fsmin+freqtag−freqmin

freqmax− freqmin

( fsmax−fsmin)

Tag Clouds

User Tasks:– Textueller Überblick– Suchen– Explorieren– Thema?

Tag Clouds

Sortierte Liste

Zufällige Anordnung

Tag Clouds

Zufällige Anordnung

Tag Clouds

Zufällige Anordnung

Tag Clouds

Wordle:– Worte können rotiert werden– ästhetisch (?)– hohes Packing

Tag Clouds

Wordle:– Worte können rotiert werden– ästhetisch– hohes Packing

Quadtree-based Collision Detection

Tag Clouds

Wordle:– Worte können rotiert werden– ästhetisch– hohes Packing

Mask-based Collision Detection

Tag Clouds

Wordle Evaluation

Aber:Farbe, Position und Rotation haben keine Bedeutung!

Visualizing the Results of Search Queries on Ancient Text Corpora with

Forschungsfrage:Wo sind die Unterschiede und

Gemeinsamkeiten in der Verwendung verschiedener historischer Terme?

Beispiel: 3 lateinische Worte mit der Bedeutung „bucklig“ bzw. „Buckel“

gibbus, gibbum, gibbosus

Jänicke et al. (2018). TagPies: Comparative Visualization of Textual Data

Visualizing the Results of Search Queries on Ancient Text Corpora with

Textkorpus:verschiedene historische Textkorpora, z.B.:

– Bibliotheca Teubneriana Latina (BTL)– Perseus Digital Library

– Thesaurus Linguae Graecae (TLG)...

Datentransformation:projektinterne digitale Bibliothek (ASV), Beispielanfragen:

– Häufigkeit eines Wortes– Kookkurrenzen eines Wortes mit Abstand X

– ...

Visualizing the Results of Search Queries on Ancient Text Corpora with

Beispiel: 286 Textstellengibbus (108 Textstellen)gibbum (90 Textstellen)gibbosus (88 Textstellen)

Übliche Arbeitsweise:1. Stichwortsuche

2. Analyse der Textstellen

Phi Latin Texts

Visualizing the Results of Search Queries on Ancient Text Corpora with

Distant Reading

Close Reading

Visualizing the Results of Search Queries on Ancient Text Corpora with

gibbus (108), gibbum (90), gibbosus (88)

+

Visualizing the Results of Search Queries on Ancient Text Corpora with

φφ φ

1

2

3

gibbus (108), gibbum (90), gibbosus (88)

Visualizing the Results of Search Queries on Ancient Text Corpora with

r

gibbus (108), gibbum (90), gibbosus (88)

Visualizing the Results of Search Queries on Ancient Text Corpora with

gibbus (108), gibbum (90), gibbosus (88)

Visualizing the Results of Search Queries on Ancient Text Corpora with

Sortierung:camelo (1)camelo (2)anno (2)anno (1)

camelo (1)foramen (1)

anno (1)regni (1)

foramen (1)lippus (19)regni (1)regni (1)

albuginem (17)

...pede (16)lippus (8)

foramen (1)manu (16)

albuginem (7)habens (15)camelus (4)

pede (7)fracto (15)terrenae (5)manu (5)dorso (2)existat (6)habens (6)

gibbus (108), gibbum (90), gibbosus (88)

Visualizing the Results of Search Queries on Ancient Text Corpora with

Designvariante:backgrounds

gibbus (108), gibbum (90), gibbosus (88)

Visualizing the Results of Search Queries on Ancient Text Corpora with

Beispiel:gibbus: Verwendung vorwiegend im medizinischen Kontextgibbum: physische Bedeutung, z.B. der Buckel von Kamelen

gibbosus: wie oben + Nutzung in moralischen Kontexten (negativ)

Ergebnisse:– schnelles Erschließen von

individuellen Kontexten– Kontextvergleich

Jänicke et al. (2015). TagPies: Comparative Visualization of Textual Data

Visualizing the Results of Search Queries on Ancient Text Corpora with

IMDb Genre Tags Wirkungsorte von Instrumentenbauern

Hierarchieebenen

Analyzing the clause functions of a term's cooccurrences dependent on their distance with

Jänicke et al. (2016). TagSpheres: Visualizing Hierarchical Relations in Tag Clouds

Hierarchieebenen

Analyzing the clause functions of a term's cooccurrences dependent on their distance with

Jänicke et al. (2016). TagSpheres: Visualizing Hierarchical Relations in Tag Clouds

Analyzing the clause functions of a term's cooccurrences dependent on their distance with

(0,0) für Tagsauf H

1

(0,0) für Tags ohne Vorgänger

Vorgängerposition für Tags mit Vorgänger

Änderung des Ursprungs der Archimedischen Spirale

Analyzing the clause functions of a term's cooccurrences dependent on their distance with

Analyzing the clause functions of a term's cooccurrences dependent on their distance with

Disaster Risks

Tag Clouds

Collins et al. (2009). Parallel Tag Clouds to Explore and Analyze Faceted Text Corpora

Tag Clouds

Lee et al. (2010). SparkClouds: Visualizing Trends in Tag Clouds

Tag Clouds

Beaven (2011). ComPair: Compare and Visualise the Usage of Language.

Heat Maps

Trefferanzeige:– Textstruktur wird schematisch in Blöcken dargestellt– farbige Blöcke zeigen relevante Passagen an, z.B. Vorkommen eines Wortes

Clement et al. (2007). ’Something that is interesting is

interesting them’: Using Text Mining and Visualizations to Aid Interpreting

Repetition in Gertrude Stein’s The Making of Americans

Heat Maps

Trefferanzeige:– Textstruktur wird schematisch in Blöcken dargestellt– farbige Blöcke zeigen relevante Passagen an, z.B. Vorkommen eines Wortes

Riehmann et al. (2015). Visual Assessment of

Alleged Plagiarism Cases

Heat Maps

Korpusvergleich:– Texte eines Korpus werden gegenübergestellt in Matrixform– Texte werden nach bestimmtem Gesichtspunkt verglichen– Zellen werden entsprechend eingefärbt → „heiße“ vs. „kalte“ Farben

Keim et al. (2007). Literature Fingerprinting:

A New Method for Visual Literary Analysis

Heat Maps

Korpusvergleich:– Texte eines Korpus werden gegenübergestellt in Matrixform– Texte werden nach bestimmtem Gesichtspunkt verglichen– Zellen werden entsprechend eingefärbt → „heiße“ vs. „kalte“ Farben

Alexander et al. (2014). Serendip: Topic

Model-Driven Visual Exploration of Text Corpora

Visualizations for Text Re-use

Beispiel: „Standing on the Shoulder of Giants“

Visualizations for Text Re-use

Beispiel: „Standing on the Shoulder of Giants“

2000

Visualizations for Text Re-use

Beispiel: „Standing on the Shoulder of Giants“

?

2000

1997

"If I can see further than anyone else, it is only because I am standing on the shoulders of giants." (Newton)

1676

1159

1120

Visualizations for Text Re-use

Forschungsziel:Analyse von Text Re-use Mustern in der Bibel

Korpus:Englische Übersetzungen der Bibel

Datentransformation:Segmentierung, paarweiser Vergleich & Scoring

http://www.etrap.eu/research/tracer/

Visualizations for Text Re-use

Systematischer Text Re-use:

Visualizations for Text Re-use

Text Re-use Grid:– Gegenüberstellung aller Bücher zweier Editionen

→ Einfärbung jeder Zelle nach Häufigkeit (Saturierung) und Relevanz (Farbton)

Anekdote

“My true spiritual home is Central Europe, not France, the Mediterranean countries, England, Scandinavia or Northern Germany, but that area which is bounded by the cities of Munich, Vienna and Prague…. I should have been born into the German-speaking Jewish community of Prague in 1922 and died in a gas chamber some 20 years later. How I came to be born in the Bronx Hospital, I’ll never quite understand.“

---Stanley Milgram

Milgram Experiment