15
Titolo: Progetto di Cognizione e Linguaggio: Analisi di due articoli accademici relativi al software Coh-Metrix Data: 29 Gennaio 2015 Studenti: Giulia Greco Enrico Mosca Professoressa : Maria Teresa Guasti

Analisi di due articoli accademici relativi al software Coh-metrix

Embed Size (px)

Citation preview

Titolo: Progetto di Cognizione e Linguaggio: Analisi di due

articoli accademici relativi al software Coh-Metrix

Data: 29 Gennaio 2015

Studenti: Giulia Greco

Enrico Mosca

Professoressa : Maria Teresa Guasti

2 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Coh-Metrix: definizione e caratteristiche

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (Graesser, McNamara, Louwerse and Cai, 2004):

Premesse dell’articolo

Come utilizzare Coh-Metrix

Le informazioni identificate e gli indici misurati da Coh-Metrix

Conclusioni e prossimi passi della ricerca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics” (Graesser, McNamara and Kulikowich, 2011):

Misure tradizionali del grado di difficoltà di un testo

Analisi sui differenti livelli di linguaggio e discorso

Corpus Analysis

Conclusioni

Agenda

3 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Focus sul software Coh-Metrix

Le analisi che questo strumento

compie riguardano il lessico, i

categorizzatori di parti del

discorso, i parser sintattici, alcuni modelli, i corpora linguistici e le

rappresentazioni statistiche della

conoscenza del mondo.

Analisi di linguistica computazionale

Coh-Metrix è uno strumento

informatico in grado di

analizzare un testo sulla base di oltre 50 tipi di rapporti di

coesione e più di 200 misure di

leggibilità.

Tutto ciò in un

UNICO STRUMENTO WEB

A differenza delle

formule di leggibilità

standard, Coh-Metrix

è sensibile ad un

ampio profilo di

caratteristiche del linguaggio e di

coesione.

Analizza inoltre

componenti che

sono ampiamente utilizzati nella

linguistica

computazionale.

Analisi Variate Analisi Variate

Strumento sensibile

Coh-Metrix: definizione e caratteristiche

4 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Coh-Metrix: definizione e caratteristiche

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (Graesser, McNamara, Louwerse and Cai, 2004):

Premesse dell’articolo

Come utilizzare Coh-Metrix

Le informazioni identificate e gli indici misurati da Coh-Metrix

Conclusioni e prossimi passi della ricerca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics” (Graesser, McNamara and Kulikowich, 2011):

Misure tradizionali del grado di difficoltà di un testo

Analisi sui differenti livelli di linguaggio e discorso

Corpus Analysis

Conclusioni

Agenda

5 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Recenti progressi nelle seguenti discipline:

• linguistica computazionale,

• information extraction,

• information retrieval,

• discourse processing,

• corpora linguistici,

hanno permesso di esplorare più a fondo i processi

computazionali del linguaggio e della comprensione

di un testo, che vanno aldilà delle sue componenti

superficiali.

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (1/4)

Premesse dell’articolo

Un particolare livello di analisi del linguaggio,

che presenta sfide computazionali

particolari, è quello riguardante la coerenza

o la coesione.

L’attenzione degli autori per questo argomento dipende da diversi fattori:

• Assunzione di coerenza come uno dei costrutti teorici centrali nella teoria costruttivista della

comprensione del discorso, proposto da Graesser, Singer e Trabasso (1994).

• Relazione tra coesione di un testo e “conoscenza del mondo” dei lettori (McNamara et al).

Fornire un aiuto concreto nella scelta dei testi scolastici.

• Interesse ad indagare l’elaborazione di elementi linguistici che collegano i costituenti nelle frasi.

• Sopravvalutazione della capacità descrittiva delle formule di leggibilità (Klare, 1974-1975).

6 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (2/4)

Come utilizzare Coh-Metrix

In seguito lo strumento è pronto per l’immissione del

testo da parte dell’utente.

Il testo è in genere immesso con lo strumento copia-

incolla da un qualsiasi file di testo. L'utente fa poi clic

sul pulsante SUBMIT e, a quel punto, vengono

elencate una serie di misure in una colonna del file di

output creato.

L’opzione Coh-Metrix DataViewer

consente all'utente di specificare

quali misure sono desiderate

nell’analisi dei dati.

Infine, un funzionalità consente di

memorizzare i risultati di questa

analisi in un file di dati (testo, Excel

o SPSS).

Coh-Metrix è molto facile da

usare. Dopo aver effettuato

l'accesso al sito, l’utente

inserisce le seguenti

informazioni di identificazione

riguardanti il testo:

• Title

• Source

• User Code

• Genre

• Latent Semantic Analysis

(LSA) Space

1

2 3

7 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (3/4)

Le informazioni identificate e gli indici misurati da Coh-Metrix Le principali misure analizzate dal

software sono le seguenti:

• Informazioni di parola (con

valori compresi fra 100 e 700)

Familiarity

Concreteness

Imageability

Colorado meaningfulness

Paivio meaningfulness Age of acquisition

• Frequenza delle parole

• Parti del discorso (POS: Part Of

Speech)

• Punteggi di densità • Operatori logici

• Connettivi

• Rapporto type:token

• Polisemia e iperonimia

• Chiarezza dei concetti • Complessità sintattica

• Leggibilità

• Coesione (globale e locale)

delle co-referenze

•Coesione causale

•Informazioni LSA

frasi-paragrafi

frasi-testo

paragrafi-paragrafi

paragrafi-testo punteggio di family

resemblance

8 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (4/4)

Conclusioni e prossimi passi dellla ricerca

Permette ai ricercatori di

raccogliere con poco sforzo una

grande quantità di informazioni su

corpora di testi, migliorando la

ricerca empirica. Inoltre, consente

ai ricercatori di indagare corpora

già esistenti, facendo emergere

nuove interpretazioni circa le

modalità di elaborazione del

linguaggio.

• Valutare la validità di queste misure

su corpora di testi e dati

provenienti da esperimenti di

psicologia. In tal modo, le

misurazioni saranno modificate ed

ottimizzate per adattarsi ai vincoli

dei risultati empirici.

• Esplorare nuovi e più sofisticati

algoritmi e pattern linguistici del

discorso che facciano emergere

nuove ipotesi nell’interpretazione

semantica, nella pragmatica e

nello studio dei modelli mentali,

della coerenza del discorso e delle

strutture retoriche.

Contributo di Coh-Metrix Prossimi passi della ricerca

9 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Coh-Metrix: definizione e caratteristiche

Analisi dell’articolo: ”Coh-Metrix: analysis of text on cohesion and language” (Graesser, McNamara, Louwerse and Cai, 2004):

Premesse dell’articolo

Come utilizzare Coh-Metrix

Le informazioni identificate e gli indici misurati da Coh-Metrix

Conclusioni e prossimi passi della ricerca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics” (Graesser, McNamara and Kulikowich, 2011):

Misure tradizionali del grado di difficoltà di un testo

Analisi sui differenti livelli di linguaggio e discorso

Corpus Analysis

Conclusioni

Agenda

10 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics”(1/4)

Misure tradizionali del grado di difficoltà di un testo

Comunque, un parametro unidimensionale della difficoltà del testo non è utile per migliorare la lettura degli studenti perché non tocca i livelli più globali del significato del discorso, la coesione e le differenze di

genere nel testo.

L’approccio tradizionale alla misurazione del testo prevede di avere un

singolo parametro di analisi della facilità/difficoltà del testo stesso.

Di seguito i 3 parametri più popolari utilizzati (altamente correlati r=0,89-

0,94):

Degrees of Reading Power

(DRP; Koslin, Zeno, & Koslin, 1987)

Lexile scores

(Stenner, 2006)

Flesch-Kincaid Grade Level or

Reading Ease

(Klare, 1974–1975)

• E’ basato sulla lunghezza delle parole e delle frasi dove per lunghezza parola si intende la media del numero di sillabe per parola (altamente correlato col numero di lettere) e per lunghezza frase si intende la media del numero di parole per frase.

• Ottimo per predire la quantità di tempo necessaria per leggere un passaggio.

• Validità supportata da spiegazioni teoriche: conoscenza pregressa e WM.

• Sono attualmente i più popolari negli USA

• Mettono in relazione le caratteristiche dei testi con le performance dei lettori in un cloze task.

• Nel cloze task il lettore riceve il testo con parole lasciate vuote e gli è chiesto di riempire i campi vuoti creandole o selezionandole da un set di opzioni disponibili.

• I risultati del cloze task si suddividono in 3 cluster: Testo alla portata del lettore se performance = 75%, facile se >75%, difficile se <75%.

11 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics”(2/4)

Analisi sui differenti livelli di linguaggio e discorso

TEXTBASE

SITUATION MODEL

IL GENERE DEL DISCORSO E LA

STRUTTURA RETORICA

SINTASSI

FRA

MEW

OR

K T

EO

RIC

O M

ULT

ILIV

ELL

O

PAROLE

Livelli Descrizione e Caratteristiche

Teorie della sintassi assegnano le parole alle categorie del POS

(e.g. sostantivi, verbi, etc.), raggruppano più parole in frasi ed

assegnano le strutture sintattiche alle frasi.

La sintassi della frase è più facile quando ci sono frasi più corte,

meno parole per frase nominale e meno parole prima del

verbo principale della proposizione principale.

Le misure di Coh-Metrix sono allineate con vari livelli di linguaggio/discorso proposti in quadri teorici

multilivello. Identificano le rappresentazioni, le strutture, le strategie ed i processi di livello. Gli autori

dell’articolo, Graesser e McNamara, propongono un framework teorico multilivello composto dai

seguenti 5 livelli:

La conoscenza del vocabolario ha un impatto notevole sul

tempo di lettura e sulla comprensione. E’ importante analizzare

le parole su diverse caratteristiche che hanno rilevanza per lo

sviluppo della lettura e per la costruzione di significato: Parts of

Speech, Frequenza delle parole, Contenuto semantico

Valutazioni psicologiche

Coh-Metrix misura le parole sulle caratteristiche

presenti in un determinato database

psicolinguistico (Coltheart, 1981), una collezione

di migliaia di valutazioni di parole su disparate

dimensioni psicologiche (età di acquisizione,

significatività, concretezza, ecc.)

Coh-Metrix calcola due misure sintattiche :

• La frequenza della forma passiva più difficile

da processare della forma attiva

• La somiglianza sintattica (ossia la somiglianza

nella struttura sintattica fra due frasi nel

paragrafo) facilita la velocità di lettura e la

comprensione

La Textbase consiste nelle idee esplicite nel testo (il significato

piuttosto che la superficie del testo e della sintassi). Essa si

compone di:

-Diversità lessicale

-Latent Semantic Analysis -Co-referenza

La Co-referenza si verifica quando un sostantivo,

un pronome o una frase nominale si riferiscono

ad un altro costituente nel testo. Coh-Metrix

traccia diversi tipi di co-referenza :

Content word overlap, Noun overlap, Argument overlap ed infine Stem overlap

E’ il mondo narrativo che sta descrivendo il testo. (e.g. nel testo

narrativo include i personaggi, gli oggetti, le azioni, gli eventi,

ecc.). Include inferenze che vengono attivate dal testo

esplicito e codificate nella rappresentazione del significato.

Zwaan e Radvansky hanno proposto cinque

dimensioni della situation model che si

applicano al testo narrativo: la causalità,

l’intenzionalità (obiettivi), il tempo, lo spazio ed i

protagonisti.

Si riferisce alla categoria del testo. Le principali categorie di genere possono essere suddivise in sottocategorie. Coh-Metrix

analizza la misura in cui un testo è classificato come narrativo

anziché informativo. I testi non possono sempre essere

classificati come uno o l'altro, alcuni hanno elementi di

entrambi.

Vi è un unico continuum, una dimensione quantitativa che varia dall’informativo al

narrativo : la narratività. Gli elementi che

contribuiscono alla dimensione della narratività

comprendono le caratteristiche delle parole,

delle frasi e le connessioni fra le frasi.

12 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics”(3/4)

Corpus Analysis (1/2)

• Analisi su 37,520 testi forniti da TASA (Touchstone

Applied Science Associates)

• Lunghezza media testi 288,6 parole (SD=25,4),

circa la lunghezza di un paragrafo. • Ogni testo ha un punteggio Degrees of Reading

Power (DRP) associato alla sua difficoltà.

• 53 misure Coh-Metrix incluse nell’analisi

raggruppate in: Words, Sentence Structure e

Connections between sentences

• Principal component analysis (PCA) per ridurre le

53 misure ad un numero inferiore di dimensioni funzionali 8 componenti principali (PC), che

rientrano, a loro volta nei 5 livelli del framework

teorico di Graesser e McNamara: 1. Genere narratività (PC1)

2. Situation model coesione causale (PC5),

verbale (PC6), logico (PC7) e temporale (PC8) 3. Textbase coesione referenziale (PC2) 4. Sintassi semplicità sintattica (PC3)

5. Parole concretezza della parola (PC4)

• I punteggi di facilità dovrebbero diminuire

all’aumentare del grade level e dovrebbero

sistematicamente differire per i testi narrativi vs testi

informativi.

• Sono stati valutate le PCAs osservando come i

punteggi Z di ciascun fattore varino in funzione del

grade level e del genere.

13 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics”(3/4)

Corpus Analysis (2/2)

Grandi diminuzioni in funzione del

grade level e differenze medio-

grandi fra i generi.

Grandi diminuzioni in funzione del

grade level e grandi differenze fra i

generi.

PC1

Piccolo decremento sul grade

level. Moderato effetto di genere.

PC2

PC3

Effetti medi di grade level e piccoli

effetti di genere.

PC4

Piccolo incremento sul grade level

e piccolo effetto di genere.

PC5

I tre restanti componenti (PC6, PC7 e

PC8) si riferiscono a differenti aspetti

della coesione della situation model

chiamati coesione verbale, coesione

logica e coesione temporale. Questi tre hanno effetti prevedibili e sensibili

sulle variazioni del testo.

14 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Analisi dell’articolo: ”Coh-Metrix : providing multilevel analyses of text characteristics”(4/4)

Conclusioni

1. Le dimensioni ortogonali della facilità del

testo mostrano significativi cambiamenti sui

grade levels e sul genere con modelli che

sono molto diversi per i punteggi ottenuti.

2. I grade levels sono principalmente correlati

con la narratività e la sintassi.

3. La coesione del testo ha una piccola

variazione sul grade level (come definito dal DRP), con un lieve calo per la coesione

referenziale all’interno della maggior parte

dei generi e un leggero aumento per la

coesione causale.

4. La sintassi e la coesione possono talvolta compensare la difficoltà dell’argomento

trattato.

5. Talvolta è presente una relazione curvilinea

fra la concretezza delle parole ed il grade

level.

• Coh-Metrix può svolgere un ruolo importante nell'assegnazione di testi che migliorano le

competenze a livello di parole, sintassi, coesione

del testo e genere; talvolta può essere usato per

guidare la selezione di testi secondo particolari

obiettivi pedagogici.

• Tipologie di testi che possono essere assegnati:

1. Testi complessi con spiegazioni associate

2. Testi alla zona di sviluppo prossimale

3. Testi facili per incrementare l’auto-efficacia

4. Una dieta equilibrata di testi di varia

difficoltà

5. Testi su misura per sviluppare particolari

componenti della lettura

Risultati delle analisi PCA Considerazioni Finali

15 Professoressa: Maria Teresa Guasti

Studenti: Giulia Greco ed Enrico Mosca

Ringraziamenti Conclusivi