25
Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia

Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Embed Size (px)

Citation preview

Page 1: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Corpus Stammerjohann

L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann

Ricerca finanziata dal “Fondo Nazionale Italiano per la Ricerca di Base (FIRB): “L’Italiano in Diacronia”

Page 2: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Corpus Stammerjohann

• N° Registrazioni: 30

• Durata Totale: circa 47 Ore

Page 3: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

L a to A L a to B

B ob ina 1

L a to A L a to B

B ob ina 2

C o rpu s S ta m m e rjoh a nn

TRACCIA 1•Scuola elementare Vitali / Perugi

•Artigiano Contini / Nencioni

•Conversazione in casa Vitali

•Conversazione Romoli

•Conversazione Braccini

TRACCIA 2•San Frediano (Bendinelli)

•Bidello Magistero (Braschi)

•Artigiano San Frediano (Braschi)

•Barbiere via Faenza

TRACCIA 1•Pinocchio (Pensione)

•Barbiere via Faenza

•Il grillo canterino

•Franco e Serena

TRACCIA 2•Lilian’ s

•Barbiere via Faenza

•Conversazione Garavini

TRACCIA 1•Conversazione in casa Vitali

•Barbiere via Faenza

TRACCIA 2•Scherzo via San Gallo

•Copie Rai (Il grillo canterino)

•Facoltà di Lettere (Braccini)

•Barbiere via Faenza

TRACCIA 1•Giardino d’ infanzia (Bendinelli)

•Amiche della Bendinelli

•Famiglia

•Studio Porcinai

•Il grillo canterino Rai

•Franco e Serena

•Giardino d’ infanzia San Frediano

TRACCIA 2•Barbiere via Faenza

Page 4: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Durata Registrazioni (Totale: 2806 minuti)

1380

300

200

105 105 98 90 85 80 75 57 50 35 30 27 20 18 15 15 15 6

0

200

400

600

800

1000

1200

1400

Barbi

ere v

ia F

aenza

(6)

Casa

Vitali

(2)

Conv.

Gar

avin

i (1)

Franco

e Se

rena

(2)

Scuo

la V

itali/

Perugi

(1)

Il G

rillo

Can

terin

o (3

)

Sudi

o Por

cina

i (1)

Conv.

Bracc

ini (

1)

Gia

rdin

o S.

Fredi

ano

(1)

Famig

lia (1

)

Conv.

Romol

i (1)

Lilian

's (1

)Arti

gian

o (1

)

Gia

rdin

o d'

infa

nzia

(1)

Faleg

nam

e (1

)

S.Fre

dian

o Ben

dine

lli (1

)

Bidel

lo M

agist

ero

(1)

Pinoc

chio

(1)

Amic

he B

endi

nelli

(1)

Scer

zo S

.Gal

lo (1

)

Durata (min)

Page 5: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Recupero del Corpus Stammerjohann

• Audio1. Digitalizzazione

2. Campionamento

• Testo1. Trascrizione in formato CHAT

2. Meta-dati

• Allineamento Testo-Audio dei testi con minore quantità di sovrapposizioni e migliore qualità acustica

Page 6: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Campionamento del corpus Campionamento del corpus rispetto ai corpora di rispetto ai corpora di

riferimento riferimento LABLITA e C-ORAL-ROMLABLITA e C-ORAL-ROM

per la comparabilità dei dati linguistici

Page 7: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

CORPUSCORPUS ITALIANO ITALIANOC-ORAL-ROMC-ORAL-ROM

FORMAL156.544

INFORMAL155.048

(311.582 parole; 460 locutori)

10 testi di 4.500 parole70 testi di 1.500 parole

testi di 3.000 parole

Page 8: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

C-ORAL-ROM ITALIANO INFORMALE

DOMINIO SOCIOLOGICO D’USODOMINIO SOCIOLOGICO D’USO

STRUTTURA DELL’EVENTOCOMUNICATIVOSTRUTTURA DELL’EVENTOCOMUNICATIVO

Familiare e privatoFamiliare e privato 128.696

PubblicoPubblico26.352

MonologueMonologuess45.21245.212

dial&conversconvers83.46483.464

MonologuesMonologues6.0506.050

dial&conversdial&convers20.24120.241

Page 9: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

C-ORAL-ROM FORMAL

•Droit•Débat politique•Religion•Enseignement•Conférence•Explications professionnelles•Affaires(testi di 3.000 parole)

30.598 –dialogical structure

•News•Météo•Interviews•Reportages•Science•Talk show(testi di 3.000 parole)

•Dialogues•Man-machine interactions

NaturalNatural context68.324

MediaMedia61.638

TéléphoneTéléphone26.582

( campionamento per genere e dominio semantico)

Trasmissione non naturaleTrasmissione non naturale 88.220

Page 10: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

M onolo gues 0D ialogu es 9384 Conve rsation s 1478 5

FAM ILY

24.169

M onolo gues 0D ialogu es 188 0 Conv ersatio n 1125 4

PRIVATEFR E E

13.134

M onolo gues 0D ialogue s 0 Con versatio ns 2841 5

PUBLICFR E E

28.415

INFO RM AL

75.718

M ono logue s 456 5D ialogues 13.198 & Conve rsations 0

PRIVATE & PUBLICR E G U LA T ED

17.763

BRO ADCASTIN GR AD IO

9.329

FO RM AL

27.092TELEPHO NE

3.738

C orpus S tam m erjohann

CAMPIONAMENTO dell’insieme di registrazioni continue in testi di dimensione tra le 1500 e le 4500 parole

•Il campionamento dialogico informale è fortemente comparabile•Il campionamento dialogico regolato/formale è comparabile, con cautela •Il parlato monologico non è comparabile •I media sono scarsamente comparabili

Page 11: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Campionamento rispetto ai Campionamento rispetto ai corpora di riferimento corpora di riferimento

LABLITA e C-ORAL-ROMLABLITA e C-ORAL-ROM

Corpus Stammerjohann 1965 : 47 h registrazioni trascritte 8h 31’ 96548 parole in 34 testi

Corpus C-ORAL-ROM ’90 – 2003 : 36 h trascritte per 311.582 parole

Page 12: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

TESTOTESTO

Meta-datiMeta-dati: Informazioni sulla sessione e sui locutori (C-ORAL-ROM format )*

Linea del testoLinea del testo: trascrizione ortografica

Linea dipendenteLinea dipendente: informazione contestuale e paralinguistica

FormatFormat: CHAT (Codes Human Analysis of Transcripts) di B. McWhinney (1994) adattamento in

(Cresti – Moneglia, 1997)

* Anche in Format IMDI (Isle Metadata Iniziative) in collaborazione con il Max Planck Institute.

Il metalinguaggio è sempre l’inglese

Page 13: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Mata-datiMata-dati@Title: Palmira@File: @Participants:

@Date:@Place:@Situation:

@Topic:@Source:@Class:@Length:@Words:@Acoustic_quality:@Transcriber:@Revisor:@Comments:

ifamcv19PAL, Palmira, (woman, D, x, retired, conversation participant, Florence) CAR, Carlota, (woman, C, 3, researcher, conversation participant, Spain) GIU, Giuseppina, (woman, D, x, retired, conversation participant, Florence)

10/10/2001

shared-memories dialogue between relatives at home, not hidden, researcher participant

events in family lifeC-ORAL-ROM

informal, family/private, conversation9’ 25’’

1518A

Sabrina SignoriniPaola Gramigni; Antonietta Scarano

text collected by Carlota Nicolas

Florence

Page 14: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Un esempio di testo trascritto

Page 15: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Unità di riferimento annotate nella trascrizione

• Turno dialogico: ogni presa di parola da parte di un parlante (identificabile con il cambiamento di voce)

• Enunciato: qualsiasi espressione interpretabile pragmaticamente, ossia ogni espressione attraverso cui viene compiuta una illocuzione (Cresti, 2000)

(identificabile con un break prosodico terminale)

• Unità d’informazione: qualsiasi espressione che svolge una funzione

informativa (Cresti, 2000). (identificabile con un break prosodico non terminale).

•Parte del discorso e lemma di ogni token (non realizzata)

Page 16: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

AnnotazioneAnnotazione

*PAL: guarda / ad aver perso i libri / io ho perso dimolto // l' era tutta + le [/] le novelle della nonna +

*CAR: mh //

*PAL: / l' <erano> //

*GIU: [<] <eh> / quelle erano belle //

*PAL: ma / l' erano belle proprio / eh // le dètti all' Elda // la venne l' Elda // la mi disse / mi dai &de [///] le novelle della nonna / dice // e &di [/] e dicano le son tanto belle //

%com: she' s laughing

Unità d’intonazione non terminaleUnità d’intonazione non terminale

Unità d’intonazioneUnità d’intonazione terminaleterminale

RetractingRetracting

InterrupzioneInterrupzione

SovrapposizioneSovrapposizione

FrammentoFrammento

LocutoreLocutore

Linea dipendenteLinea dipendente

Page 17: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Allineamento testo suonoAllineamento testo suono

Unità di allineamento: L’enunciato

Il corpus come una Base di dati di enunciati

TOOL: WinPitch Corpus, di Ph. Martin

Il file multimediale per lo sfruttamento simultaneo dell’informazione acustica e testuale

Page 18: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Un esempio di audio e testo allineati

WinPitchCorpus (P. Martin)

Page 19: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Un esempio di audio e testo allineati

WinPitch Corpus (P. Martin)

Page 20: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

MisureMisure

1 MLTw: Lunghezza media del Turno dialogico in parole

2 MLU: Lunghezza media dell’enunciato in parole

3 MLTone: Lunghezza media dell’unità tonale in parole

4 MLTu: Lunghezza media del turno dialogico in enunciati

5 MLUtone: Lunghezza media dell’enunciato in unità tonali

6 MLTtone: Lunghezza media del Turno dialogico in unità tonali

7 Speed w: Numero di parole al secondo

8 Speed u: numero di parole al minuto

9 FFE: Frequenza della frammentazione (sul totale degli enunciati)

10 FIE: Frequenza delle interruzioni (sul totale degli enunciati)

Page 21: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

•Lemmatizzazione e tagging morfosintattico

•Lessico di frequenza

•Studi sintattici di superficie: (enunciati verbali e non verbali, principali indici di coordinazione, subordinazione, focalizzazione negativa)

•Studi diacronici: Modificazione del lessico di base toscano

Ricerche future sul Corpus Stammerjohann

Page 22: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

a) Pubblicazione on demand in DVD + Volume (Firenze University Press)

b) Pubblicazione Volume + DVD (Collana degli Studi Linguistici del Dipartimento di Italianistica)

Possibilità attuali per la pubblicazione dei risultati della ricerca Possibilità attuali per la pubblicazione dei risultati della ricerca FIRB in : FIRB in :

Page 23: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Tabella corpus (Informale)

Page 24: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Tabella corpus (Formale)

Page 25: Corpus Stammerjohann L’italiano parlato a Firenze nel 1965 dalle registrazioni di Harro Stammerjohann Ricerca finanziata dal “Fondo Nazionale Italiano

Stammerjohann - C-ORAL-ROM: misure a confronto