Upload
tauyou
View
71
Download
3
Embed Size (px)
DESCRIPTION
2-hour training on machine translation for Language Service Providers.
Citation preview
© 2012 #1
traducción automática
para LSPs
Diego Bartolomé, CEO
© 2012 #2
presentaciones
© 2012 #3
¿dónde estamos?
1954 machine translation movie
© 2012 #4
¡nunca!
no funciona para lo que hacemos
salen errores muy graves
se equivoca en cosas muy sencillas
pierdo más tiempo que empezando de cero
la calidad final siempre será peor
nos va a quitar el trabajo
...
© 2012 #5
... pero ...
los precios van a la baja
los deadlines son cada vez más ajustados
la competencia es cada vez más dura
hay diferentes niveles de calidad tolerados
cada vez con más contenido para traducir
y en más idiomas
a veces, es necesario traducir en tiempo real
© 2012 #6
© 2012 #7
© 2012 #8
le podemos dar una oportunidad
incrementa la productividad
nos elimina ciertas tareas repetitivas
mejora con el tiempo
reduce los costes
permite acceder a nuevos clientes
proporciona nuevos modelos de negocio
no sirve para todo
© 2012 #9
Gartner hype cycle
© 2012 #10
en los 80/90
3 sistemas principales: Systran, Logos, Metal
interés renovado por 3 motivos principales
aumento de la capacidad computacional
reducción del coste de hardware y software
aparición de los modelos estadísticos (IBM)
métodos basados en ejemplos
principalmente en Japón
proyecto de S2S: Verbmobil
© 2012 #11
boom actual
plena efervescencia de sistemas
reglas
basados en ejemplos
estadísticos
basados en contexto
alternativas: crowdsourcing
importantes compañías involucradas
IBM, SAP, Google, Microsoft ...
© 2012 #12
© 2012 #13
modelo SMT
© 2012 #14
sobre la SMT
ventajas
rapidez de desarrollo de idiomas y dominios
superioridad en aplicaciones acotadas
alto volumen de texto multilingüe disponible
no necesita intervención lingüística
inconvenientes
metodología estadística
cómo particularizar
© 2012 #15
productividad en Autodesk
© 2012 #16
productividad según longitud
© 2012 #17
¿qué tenemos en tauyou?
demo ttext
© 2012 #18
características<idiomas _ dominios _ palabras traducidas>
ilimitadas
<glosarios>
traducciones y palabras prohibidas
<formatos de ficheros>
tmx, ttx, xliff, Déjà Vu, doc, docx, ppt, pptx,
xls, xlsx, xml, html, rtf, InDesign, ...
<y mucho más>
aprendizaje
dinos lo que necesitas y lo hacemos
© 2012 #19
creación de dominio
<LSP> <tauyou>
memorias de traducción corpus open-source
documentos previos alineación documentación
webs de clientes información pública
reglas programación de reglas
otros datos extracción de terminología
<algunas cuestiones>
mínimo número de palabras
necesidad de clasificación de datos
pares de idiomas
© 2012 #20
y más
<selección y limpieza de datos>
tablas de traducción y modelos de lenguaje
datos y parámetros para ajuste fino
medidas de test
<creación de motores>
varios + purga
<validación>
por traductores profesionales
<mejora continua>
nuevos ficheros, corpus, reglas, etc...
© 2012 #21
el proceso de producción (I)
decodificación SMT
conversiónformato
segmentartexto
tareasNLP
tokenizarreescribirorigen
minúsculas
© 2012 #22
el proceso de producción (II)
decodificación SMT
fichero traducido
reformatear detokenizar
reescribir destino
mayúsculasevaluación
© 2012 #23
minimización del riesgo
<tauyou>cálculo medidas calidad
<LSP>análisis de coste y tiempo
<LSP> + <tauyou>medir la evolución
© 2012 #24
Niveles de calidad
Nivel Traducción Contenido Calidad
1111 HumanaHumanaHumanaHumana Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con Marketing, traducciones con
certificcicertificcicertificcicertificcióóóón, documentacin, documentacin, documentacin, documentacióóóón n n n
ttttéééécnica muy especializada cnica muy especializada cnica muy especializada cnica muy especializada
para uso externo, webs de para uso externo, webs de para uso externo, webs de para uso externo, webs de
mucho trmucho trmucho trmucho trááááficoficoficofico
AltaAltaAltaAlta
2222 MT posteditadaMT posteditadaMT posteditadaMT posteditada DocumentaciDocumentaciDocumentaciDocumentacióóóón e uso interno, n e uso interno, n e uso interno, n e uso interno,
ppppááááginas web de trginas web de trginas web de trginas web de trááááfico mediofico mediofico mediofico medio
MediaMediaMediaMedia
3333 MT +terminologMT +terminologMT +terminologMT +terminologíííía, a, a, a,
TM y/o diccionariosTM y/o diccionariosTM y/o diccionariosTM y/o diccionarios
InformaciInformaciInformaciInformacióóóón bn bn bn báááásica, conocer el sica, conocer el sica, conocer el sica, conocer el
contenido del textocontenido del textocontenido del textocontenido del texto
Debajo de la Debajo de la Debajo de la Debajo de la
mediamediamediamedia
4444 MT en brutoMT en brutoMT en brutoMT en bruto Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales, Medios sociales/digitales,
informaciinformaciinformaciinformacióóóón para clienten para clienten para clienten para cliente
PobrePobrePobrePobre
© 2012 #25
postedición suficientemente buena
Se intenta obtener una traducción correcta desde el punto de vista semántico.
Se asegura que no se haya añadido ni omitido ninguna información accidentalmente.
Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.
Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.
Se aplican las reglas básicas con respecto a la ortografía.
No hay que implementar correcciones de naturaleza estilística.
No hay que reestructurar oraciones solo para mejorar el flujo natural del texto.
© 2012 #26
postedición de calidad
Se intenta obtener una traducción correcta desde el punto de vista gramatical, sintáctico y semántico.
Se asegura que la terminología clave esté correctamente traducida y que los términos no traducidos sean los que aparecen en la lista de “Términos que no se deben traducir“ del cliente.
Se asegura que no se haya añadido ni omitido ninguna información.
Se modifica todo contenido ofensivo, inadecuado o no aceptable culturalmente.
Se utiliza tanto como sea posible del resultado “en bruto” de la traducción automática.
Se aplican reglas básicas con respecto a la ortografía, puntuación y guiones.
Se asegura que el formato sea el correcto.
© 2012 #27
casos habituales
© 2012 #28
datos 1
<gran volumen de datos heterogéneos>
entrenamiento con todo
clasificación semántica por dominios
ajuste fino para cada cliente
priorización por glosarios
aprendizaje continuo
© 2012 #29
datos 2
<datos escasos>
añadir diccionarios al corpus
completar con segmentos complementarios
combinar datos del cliente con texto genérico
adaptación a dominio en base a genérico
aumentar el número de frases con reglas
© 2012 #30
datos 3
<datos sucios>
eliminar traducciones múltiples
detectar texto en otros idiomas
corregir ortografía
seleccionar frases con gramática correcta
alineación con terminología del cliente
filtrar otros segmentos indeseados
© 2012 #31
datos 4
<creación y mejora de datos>
cliente final definido
documentos traducidos sin alinear
traducciones genéricas
creacion del corpus/memorias óptimas
extensión y filtrado basado en reglas
© 2012 #32
cuestiones lingüísticas 1
<palabras no traducidas>
creación de diccionarios
<errores gramaticales>
reglas de post-proceso
<filtrado de calidad>
eliminar aquellas que no cumplan requisitos
© 2012 #33
cuestiones lingüísticas 2
<limpieza del texto original>
ortografía y gramática
simplificación de frases
homogeneización terminológica
<detección de palabras especiales>
personas, lugares, organizaciones
códigos alfanuméricos
© 2012 #34
caso de uso ...<volumen recurrentes>
traducciones frecuencues
clientes de diferentes dominios
<flujo>
conseguir cuanto más datos mejor
recibir un nuevo fichero para traducir
crear un dominio ad-hoc para ese fichero
entrenar la solución y reglas básicas
<salida>
adaptación óptima en alrededor 4 horas
© 2012 #35
algunos consejos
clientes más grandes
idiomas
con volúmenes más altos
con estructura similar
con necesidades o terminología específica
involucrar a traductores innovadores
empezar ... probar
© 2012 #36
otras soluciones<author>
mejorar la calidad del texto original
coherencia y simplificación
ortografía, gramática, semántica
<web>
traducción de páginas web
MT + postedición automática
<API>
integración en otras aplicaciones
posibilidad de tiempo real
© 2012 #37
¡Gracias!
// Diego Bartolomé, PhD
<dirección> C/ Les Planes 39 – 08201 Sabadell
<teléfono> +34 93 711 29 96
<móvil> +34 670 331 225
<email> [email protected]
<www> tauyou.com