View
34
Download
0
Category
Preview:
DESCRIPTION
Rekonstrukce standardizovaného textu z mluvené řeči. Marie Mikulová, Zdeňka Urešová Ústav formální a aplikované lingvistiky Matematicko-fyzikální fakulta Univer zita Karlova Pra ha. Pražský závislostní korpus mluvené češtiny. Pražský závislostní korpus mluvené češtiny - PowerPoint PPT Presentation
Citation preview
Rekonstrukce standardizovaného textu z mluvené řeči
Marie Mikulová, Zdeňka UrešováÚstav formální a aplikované lingvistiky
Matematicko-fyzikální fakultaUniverzita Karlova
Praha
CMK2007 mikulova@ufal.mff.cuni.cz 2
Pražský závislostní korpus mluvené češtiny
Pražský závislostní korpus mluvené češtiny
= první korpus mluvené řeči, který bude obsahovat i syntakticko-sémantickou anotaci promluv
(v českém i světovém měřítku)
Pracoviště: ÚFAL MFF UKGranty:Centrum komputační lingvistiky LC 356PIRE ME 383, GAČR 405/06/0589EU FP6 Companions IST-034434
CMK2007 mikulova@ufal.mff.cuni.cz 3
Switchboard CorpusUniversity of Pennsylvania, USA
Childes DatabaseCarnegie Mellon University, Pittsburgh, USA
Corpus Gesproken Nederlands University of Leuven, University of Ghent, BelgieUniversity of Utrecht, University of Nijmegen, Nizozemí
Tübingen Treebank of Spoken German/English/JapaneseUniverzita v Tübingen, Německo
International Corpus of EnglishUniversity College London, Velká Británie
Swedish TreebankUniverzity ve Växjö, Göteborgu, Stockholmu, Švédsko
Syntakticky anotované korpusy mluvené řeči
CMK2007 mikulova@ufal.mff.cuni.cz 4
Účel korpusuPražského závislostního korpusu mluvené češtiny
strojové učení za účelem plného porozumění mluvené řeči odpovídání na otázky, vyhledávání v mluvených
projevech strojový překlad mluvené řeči
lingvistický výzkum
Naším cílem primárně není zachytit vlastní strukturu mluvené řeči!
CMK2007 mikulova@ufal.mff.cuni.cz 5
= manuálně anotovaný korpus psaných textů na třech jazykových rovinách:
morfologická rovina rovina povrchové syntaxe rovina hloubkové syntaxe (syntakticko-sémantická
anotace) + neanotační rovina – „surový text“
Pražský závislostní korpus 2.0Východisko projektu
Jednotlivé roviny jsou mezi sebou propojeny systémem odkazů z jednotky roviny vyšší na jednotky roviny nižší.
CMK2007 mikulova@ufal.mff.cuni.cz 6
w-rovina„surový text“; tokenizace
m-rovinalema; morfologické kategorie
a-rovinapovrchová syntax (závislostní strom)
syntaktické fce (př. příslovečné určení)
t-rovinahloubková syntax (závislostní strom)
syntakticko-sémantické fce (př. místo, čas)
valence a elipsy
tzv. gramatémy
koreference, aktuální členění
Systém rovin v Pražském závislostním korpusu
Východisko projektu
CMK2007 mikulova@ufal.mff.cuni.cz 7
Syntakticko-sémanticky anotovaný korpus mluvené řeči
Jak zachytit význam mluvených segmentů? problém segmentace mluvené řeči do vět způsob zachycení specifických jevů mluvené řeči
ale kdyby náhodou tam byl nějakej ten ale mají tam zachariáš s tím radkem bejblem vole mají tam žlutý karty … aspoň desetník na kartu
Tři možnosti, jak naložit se specifickými jevy mluvené řeči (J. B. Johannessenová, F. Jørgensen; 2005):
A. zohlednit všechny jevy mluvené řečiB. zohlednit jen vybrané jevy mluvené řeči a ostatní ignorovatC. ignorovat všechny specifické jevy mluvené řeči
standardizace mluvené řeči
CMK2007 mikulova@ufal.mff.cuni.cz 8
Celosvětově nový směr výzkumu: University of Pennsylvania: „dysfluency annotation“
{D Well } what do you think about the idea of, {F uh, } kids having to dopublic service work for a year? / Do you think it's a , -/
John Hopkins University, BaltimoreYou know what there was this other show where where was it like a it was it the Joe Millionaire
→ There was this other show Joe Millionaire
Standardizace mluvené řeči
= anotace, která se vypořádává se specifickými jevy mluvené řeči v doslovně přepsané mluvené řeči
CMK2007 mikulova@ufal.mff.cuni.cz 9
Rekonstrukce standardizovaného textu z mluvené řeči
v Pražském závislostním korpusu mluvené češtiny
Osnova: Výchozí myšlenka Vymezení standardizovaného textu Základní principy Segmentace mluvené řeči do vět Úpravy segmentů mluvené řeči
CMK2007 mikulova@ufal.mff.cuni.cz 10
Výchozí myšlenkarekonstrukce standardizovaného textu z mluvené řeči
Význam
(syntakticko-sémantický zápis)
pravidla pro psaný text pravidla pro mluvenou řeč
psaný text mluvená řeč
no hledali nějakýho ubožáčka že jo Hledali nějakého ubožáčka.
hledat.PRED
#PersPron.ACT ubožáček.PAT
nějaký.RSTR
CMK2007 mikulova@ufal.mff.cuni.cz 11
Standardizovaný textRekonstrukce standardizovaného textu z mluvené řeči
neobsahuje neřečové události, všechny specifické jevy mluvené řeči jsou odstraněny, proud mluvené řeči je rozčleněn do vět, celkově srozumitelný a dobře se čte, věty mají gramatický slovosled a běžnou českou syntax, použity jsou jen spisovné tvary slov, dodržuje pravidla českého pravopisu.
Vstup anotace: „doslovná“ transkripce
Výstup anotace: standardizovaný text:
CMK2007 mikulova@ufal.mff.cuni.cz 12
Základní principyrekonstrukce standardizovaného textu z mluvené řeči
Princip zachování významu: Významy (obsahy) sdělované mluvenou řečí a významy (obsahy) obsažené ve standardizovaném textu jsou tytéž.
Princip minimálního počtu úprav: Provádí se jen tolik modifikací, kolik jich segmenty mluvené řeči nutně vyžadují, aby bylo dosaženo standardizovaného textu.
CMK2007 mikulova@ufal.mff.cuni.cz 13
Princip nejdelší možné klauze:
Klauze zahrnuje co nejvíce potenciálních větných členů za podmínky, že výsledná věta je ještě utvořena jak syntakticky, tak sémanticky správně.
Segmentace mluvené řeči do větRekonstrukce standardizovaného textu z mluvené řeči
<silence><inhale> někteří lidé mě <noise> utkvěli <inhale> velmi v paměti <silence> z toho koncentračního tábora <silence>➜ Někteří lidé z koncentračního tábora mně velmi utkvěli v paměti.
CMK2007 mikulova@ufal.mff.cuni.cz 14
Úpravy segmentů mluvené řečiRekonstrukce standardizovaného textu z mluvené řeči
Dva základní typy úprav: ortografické modifikace: pravidelné úpravy vstupní
transkripce vyplývající ze základních požadavků na standardizovaný text
vlastní modifikace: podstatný zásah do podoby vstupního textu: mazání vkládání substituce změny ve slovosledu
CMK2007 mikulova@ufal.mff.cuni.cz 15
Ortografické modifikaceRekonstrukce standardizovaného textu z mluvené řeči
Odstranění neřečových událostí:
Pravopisné úpravy: vložení interpunkce velká/malá písmena
<mouth> <inhale> tak možná že bych ještě něco řek <breath> <uh> <silence>➜ Tak možná, že bych ještě něco řekl.
on řekl byl sem tam ale nikdo mu nevěřil➜ On řekl: „Byl jsem tam,“ ale nikdo mu nevěřil.
CMK2007 mikulova@ufal.mff.cuni.cz 16
Odstranění obsahově nerelevantních slovních jednotek: výplňková slova a fráze (no tam jsme byli dva roky) nadbytečná deiktická slova (jel sem do té prahy) nadbytečné konektory (a tam to trvalo dva roky) nadbytečná a nesprávně užitá gramatická slova
(pak byl přišel) restarty (a to byli většinou to byl většinou personál) opakující se úseky textu
(my sme tam dostávali v bratislavě podporu že jo asi deset korun denně sme dostávali že )
Vlastní modifikace: mazáníRekonstrukce standardizovaného textu z mluvené řeči
CMK2007 mikulova@ufal.mff.cuni.cz 17
Vložení jednotek nezbytných pro vytvoření gramaticky i lexikálně správné věty: chybějící gramatická slova nevyjádřená plnovýznamová slova
Vlastní modifikace: vkládáníRekonstrukce standardizovaného textu z mluvené řeči
<silence> <inhale> revolverem mu takle začali před nos <inhale> a chtěli abych to odvolal <cough> jo <silence>➜ Revolverem mu takhle začali dělat před nosem a chtěli, abych to odvolal.
CMK2007 mikulova@ufal.mff.cuni.cz 18
Změny forem a lemat: změna nespisovně utvořených tvarů slov změna nesprávně utvořených tvarů slov náhrada slova zvoleného nesprávně
z hlediska vyjadřovaného významu
Vlastní modifikace: substituceRekonstrukce standardizovaného textu z mluvené řeči
architekt zelenka má velikou zálohu o tuto činnost➜ Architekt Zelenka má velikou zásluhu na této činnosti.
CMK2007 mikulova@ufal.mff.cuni.cz 19
Rekonstruované věty mají gramatický slovosled, který nenarušuje plynulost textu.
Vlastní modifikace: úpravy slovosleduRekonstrukce standardizovaného textu z mluvené řeči
prosté měření terénu sme dělali
➜ Dělali jsme prosté měření terénu.
sem jel s ním do zvolena
➜ Jel jsem s ním do Zvolena.
CMK2007 mikulova@ufal.mff.cuni.cz 20
Systém rovin v Pražském závislostním korpusu mluvené češtiny
Analogická struktura jako PDT 2.0.
Ale: nová z-rovina: automatický přepis
mluvené řeči nově definovaná w-rovina: přepis
mluvené řeči manuálně upravený anotátorem
nově definovaná m-rovina: standardizovaný text
z-la
yer
au
dio
BYL BYS ČELO LESA
CMK2007 mikulova@ufal.mff.cuni.cz 21
Propojení nejnižších rovin v Pražském závislostním korpusu mluvené češtiny
SPÍŠE <gap> MY SLÍŽE VZTAHY BYLY DOBRÝ
se spolužáky <cough> myslím že vztahy byly dobrý
Vztahy se spolužáky byly dobré . vztah s-1 spolužák být dobrý . NNIP1-----A---- RV—7---------- NNMP7-----A---- VpTP---XR-AA--- AAIP1----1A---- Z:-------------
m-rovina
w-rovina
z-rovina
audio
Děkuji za pozornost.
http:/ufal.mff.cuni.cz
Recommended