31
Síntesi de la parla amb emocions en el domini de les converses virtuals. La problemàtica del text. Yesika Laplaza.

Objectius

Embed Size (px)

DESCRIPTION

Síntesi de la parla amb emocions en el domini de les converses virtuals . La problemàtica del text . Yesika Laplaza. Objectius. Presentar les característiques generals de les converses virtuals Plantejar la problemàtica existent a l’hora de tractar amb aquests tipus de textos - PowerPoint PPT Presentation

Citation preview

Síntesi de la parla amb emocions en el domini de les converses virtuals. La

problemàtica del text.

Yesika Laplaza.

Objectius

Presentar les característiques generals de les converses virtuals

Plantejar la problemàtica existent a l’hora de tractar amb aquests tipus de textos

Proposar un mètode per normalitzar aquests textos

Converses virtuals

Són híbrids entre la oralitat i l’escriptura. Oralitat:

Col·loquial Sintaxi y morfologia simples La ortografia no segueix la norma Particularitats fonètiques Caràcter no planificat, no elaborat i no

revisat

Escriptura: Forma gràfica Permanència en el temps

Converses virtuals

Es caracteritzen per:

La rapidesa exigida a l’hora d’enviar els missatges

To informal i desig de jugar amb el llenguatge

Aproximació a la llengua oral

Rapidesa per enviar missatges

S’eliminen grafies que no representen un fonema concret

Hombre > ombre Unificació de diverses grafies

C, Q > K cuando > kuando quieres > kieres Supressió d’accents i signes de puntuació

¡Vamos! Que estoy más sola que la una > vamos q estoy mas sola q la una

Combinació de xifres i lletres

Hola morenito25 Ús de signes matemàtics

Por dios > x dios Addició de grafies en paraules concretes

Sí > sip No > nop

To informal i desig de jugar amb el llenguatge

Pèrdua de la [d] intervocàlica més enllà dels participis

Joder > Joer

Supressió d’elements per fonètica sintàcticaDe eso > deso

Supressió de síl·labesPara > pa Nada > na

Aproximació a la llengua oral

Supressió de sons inicials (Baby talk)buenas > nas

Canvi de grafiavale > fale

Substitució de grafiesbueno > weno

Monoftongaciópues > pos

Repetició de grafies per simular la prosòdiahhhhhoooolllllaaaa!!!!!

La paradójica historia del virus gripal H1N1, detectado, observado y tratado con unos recursos biomédicos e informativos sin precedente mundial, ha puesto en un compromiso a los gobiernos, a los científicos y a la Organización Mundial de la Salud (OMS), que erraron estrepitosamente al pronosticar su gravedad y actuaron como si la humanidad afrontara un mortífero peligro. A punto de cumplirse un año de la primera alerta, todos se esfuerzan ahora en exponer ante la opinión pública una cierta autocrítica que salve su credibilidad en el futuro. La OMS concluye hoy su análisis sobre lo sucedido, una reflexión que durante tres días han realizado 29 expertos que intentan justificar los errores con la «sorprendente» actuación del desconocido virus de la gripe A.

El Periódico, 14 de abril de 2010.

<"Lidia..."/> aun no has acabado examenes?<"manketú”/> no, acabo mañana<"Lidia..."/> ueueee<"manketú"/> ya te digo...mi coco esta ya muerto<"Lidia..."/> jajaja<"Lidia..."/> pobreta<"Lidia..."/> pero ya solo t keda un dia!! :D<"manketú"/> siiiii, y luego vacaciones q me voy a coger<"Lidia..."/> si?<"Lidia..."/> marxes?<"Lidia..."/> o vacaciones d semanita sabatica?<"manketú"/> jajaja, eso eso<"manketú"/> ademas viene alex, asi q estaremos x aki<"Lidia..."/> si?<"Lidia..."/> uale!<"Lidia..."/> s verdad!<"Lidia..."/> cuando venia?<"manketú"/> hoy x la noche<"Lidia..."/> uouoo<"Lidia..."/> tu crees k es bueno? xk si mñn tienes el examen... tututu... 8-)<"Lidia..."/> jajajaj<"manketú"/> jajajajajaj<"manketú"/> ya...pero bueno, q le vamos a hacer<"manketú"/> total, en un principio no me iba a presentar pq ya estoy hasta los huevos, pero me convencio pa q lo hiciera<"manketú"/> y como es el ultimo…

Normalització del text

Actualment els conversors de text a parla només tracten textos normatius i sense errors

Ampliar l’ús dels correctors a textos informals i no normatius

Normalització del text

Presa de decisions:

Quines paraules es volen normalitzar i quines es mantindran

Quines necessitats presenta el normalitzador

Què es normalitza?

Es normalitzarà tots els “errors” ortogràfics comesos pels usuaris

ske (es que) besame (bésame)

telo (te lo) b0rrax0s (borrachos)

a excepció de les paraules pertanyents a:

Registre oral col·loquial: uni, privi, cumpleañacos, insti, japos, pa’, na, to, dejao

Baby talk: nas, toy, pos

Què es normalitza?

Problemes de pragmàtica

[david19bcn] bienvenido al maricomio[m_visto_d_mujr] maricomio?[m_visto_d_mujr] eso sera por mi

[DDM] por la iglesio o por lo civil?[DDM] iglesio... jajajaj

Necessitats normalitzador

Ha de ser completament AUTOMÀTIC. L’usuari no ha d’intervenir en cap moment

La paraula ‘errònia’ ha de ser substituïda al mateix text

S’ha d’adaptar al sistema del conversor de veu Cereproc

Normalització del text

Analitzar el llenguatge que es fa servir en aquest àmbit

Avaluar el possible ús i adaptació del Corrector del GLiCom

Creació d’un normalitzador propi

Corpus

Format per 46 conversacions: 7 públiques 39 privades

Extretes durant el 2008 de: Messenger (35) Gmail (4) Inforchat (7)

Edat dels usuaris: 18-35 anys

Nombre d’intervencions: 8.782

Nombre de tokens: 40.537

Anàlisi del text

Paraules incorrectes*: 7.872 (19,4%)

ERRORS PER PARAULA

PARAULES FREQÜÈNCIA RESPECTE AL

CORPUS D’ERRORS

1 ERROR 6018 76,44%

2 ERRORS 1652 20,98%

3 ERRORS 176 2,23%

4 ERRORS 26 0,33%

* Paraules que no apareixen al diccionari de treball (959.441 paraules)

1 ‘error’ per paraula

Substitució

Substitucions sistemàtiques (71.3%)

q – que k – que k – qu 0 – o

x – ch k – c d – de w – bu

Accentuació

negativa (23.85%)

positiva (0.13%)

Dubtes ortogràfics (2.13%)

b – v (balorado / beo) g – j (deges / personage)

Errors d’escriptura (1.65%)

priciosa (preciosa) acuatoriano (ecuatoriano)

Proximitat tecles (0.93%)

i – u (rebiscar) b-n (ascebder) b – h (bablar)

Eliminació

FENÒMEN FREQÜÈNCIA APARICIÓ

PERCENTATGE

ESPAI EN BLANC 287 47.59 %

VOCALS 215 35.65 %

CONSONANTS 101 16.75 %

Eliminació

INICI FINAL INTERIOR

ERROR 58 (18.35%) 22 (7%) 226 (71.5%)

PARAULA ANTERIOR

6 (2%) - -

PARAULA SEGÜENT

- 4 (1.26%) -

Situacions d’eliminació de vocals i consonants

Eliminació

Signes de puntuació punts suspensius claro amor..yo incluida coma bueno,mañana tengo q hacer mil

cosas exclamacions crea tu propio bruto!!es gratuito

Combinació de diferents elements preposició + determinant dela alo verb + pronom metenadie preposició + pronom anadie deti

Inserció

PRIMERA GRAFIA

INTERIOR DE

PARAULA

ÚLTIMA GRAFIA

TOTAL

Error ortogràfic

8 (6.4%) 20 (16%) 11 (8.8%) 39 (331.2%)

Inici paraula següent

- - 6 (4.8%) 6 (4.8%)

Final paraula anterior

14 (11.2%) - - 14 (11.2%)

Tecles pròximes

4 (3.2%) 37 (29.6%) 13 ( 10.4%) 54 (43.2%)

Repetició de grafies

- 2 (1.6%) - 2 (1.6%)

Característiques xat

- - 10 (8%) 10 (8%)

Total 26 (20.8%) 59 (47.2%) 40 (32%) 125 (100%)

Todo se creduce a las mates

Solo ke eresp esao

Yo tengo amigo schilenos

No la vcerdad

Esto sta aburrrido hoy ee

Sip

Transposició

POSICIÓ FREQÜÈNCIA APARICIÓ

PERCENTATGE

INICIAL 23 39.65%

FINAL 21 36.20%

INTERIOR 14 24.15%

Repetició

Poden afectar a: Paraules Elements paralingüístics Emoticones

Aporten informació prosòdica i expressiva

Diferenciar quan és una repetició i quan no

Holaaa Aaroonnn

Repetició Diferents tipus de repeticions

holaaaa jajajajajaja :-))))))) :-(:-(:-(

Variació en el nombre de grafies Es miaaaaa Mmmmmeeeee aaaaabbbbuuuurrrrooo

Variació de la posició un besooooo chavaliiiita guaaaapaaaa

Normalitzador

Normalitzador basat en regles

Desambigüació mitjançant models de llenguatge

La paraula conté números, símbols o signes

Sí No

Comprovar si és:

Dígit

Dirección electrónica

Paraula amb signe

Paraula amb símbol

Emoticona

Comprovar si la paraula hi és al diccionari

No Sí

Comprovar si és:

Abreviatura

Error freqüent

Element paralingüístic

Conté caràcters repetits

Modificar la paraula:

Substitució

Eliminació

Inserció

transposició

Comprovar la paraula al diccionari, abreviatura, errors freqüents, elements paralingüístics

Comprovar la paraula al diccionari, abreviatura, errors freqüents, elements paralingüístics

La paraula és correcte

Esquema normalitzado

r

Normalitzador

Ampliació del diccionari de treball Topònims Antropònims: Noms Cognoms Hipocorístics Paraules del llenguatge col·loquial Interjeccions Emoticones

Normalitzador

Delimitar els processos de normalització Delimitar el nombre de canvis en una

mateixa paraula

Reduir el nombre de possibles correccions

Reduir el nombre de normalitzacions incorrectes

Major rapidesa

Delimitar els processos de normalització

Pero komo no sali.

Normalitzador

como domo gomohomo jomo lomomomo nomo pomo romo somotomo uomo kamokobo koko kolokono koro koto