Preedición y posedición (TA)
Las tecnologías relacionadas con la preedición y la posedición de la traducción automática (TA) se cuentan entre las líneas de investigación más novedosas del Departamento de TIM. Durante estos últimos diez años, la TA ha experimentado importantes progresos y actualmente ocupa un lugar destacado en la industria de la traducción, ya que agiliza el proceso y reduce los costes. Sin embargo, los resultados que ofrece la mayoría de los sistemas de TA aún distan de ser perfectos. Para aprovechar al máximo el potencial de la TA y obtener una traducción final de calidad, el proceso de traducción se suele complementar con otras dos etapas: la preedición y la posedición.
- La preedición
La preedición consiste en revisar los textos antes de traducirlos automáticamente; es decir, en corregir los posibles errores del texto origen (principalmente gramaticales, ortográficos y de puntuación), suprimir las ambigüedades y simplificar las estructuras. En el caso de la traducción automática estadística (TAS), a veces es necesario adaptar los textos de partida de modo que se asemejen más a los documentos que sirven para entrenar el sistema. De este modo, se pueden obtener mejores resultados.
- La posedición
La posedición es la etapa durante la cual los traductores o los lingüistas, tras haber recibido una formación profesional, releen el texto resultante de una traducción automática y lo corrigen para eliminar errores semánticos y lingüísticos. Existen dos grandes categorías de posedición: la posedición ligera/rápida y la posedición completa. La primera se centra en la transferencia correcta del sentido y no se ocupa de problemas estilísticos. La segunda, por el contrario, requiere que el texto alcance una calidad similar a la de los textos traducidos por humanos, por lo que se deben resolver todos los errores presentes.
Trabajos de investigación
Entre 2012 y 2015, centramos nuestros esfuerzos en el proyecto europeo ACCEPT. El objetivo del proyecto era mejorar la traducción automática estadística (TAS) de textos generados por el usuario (foros) mediante el desarrollo de técnicas de preedición poco intrusivas, métodos de optimización de los motores de TAS y estrategias de posedición.
El proyecto acabó a principio de 2015. En ese momento, tomamos el relevo académico y trasladamos a nuestras instalaciones las tecnologías que habíamos utilizado durante el proyecto. Esto nos permitirá continuar mejorando las herramientas y realizar estudios en el ámbito de la preedición y la posedición con nuestros estudiantes. Uno de los principales corolarios del proyecto fue la creación de una plataforma en línea que reúne todas las etapas de un proceso de TA en una misma interfaz y ha sido diseñada con fines pedagógicos y de investigación: el ACCEPT Academic Portal.
Formación de los estudiantes
Con los avances que se están produciendo en las tecnologías de TA, será necesario tener conocimientos de preedición y posedición en la industria de la traducción. Por este motivo formamos a nuestros estudiantes para que puedan mejorar sus competencias en TA. Las asignaturas de Traducción Automática 1 y Traducción Automática 2 les permiten tener una visión de conjunto del proceso de traducción automática. También les ofrecemos la oportunidad de ampliar sus conocimientos en TA a lo largo de sus estudios mediante prácticas en organizaciones o en empresas reconocidas.
Principales publicaciones
- Pre-editing by forum users: a Case Study , Bouillon P., Gaspar L., Gerlach J., Porro V., Roturier J., en: Proceedings of the 9th Edition of the Language Resources and Evaluation Conference (LREC), CNL Workshop, Reikiavik, Islandia, 2014.
- Combining pre-editing and post-editing to improve SMT of user-generated content , Gerlach J., Porro V., Bouillon P., Lehmann S., en: Proceedings of the Machine Translation Summit XIV, Niza, Francia, 2013.
- La préédition avec des règles peu coûteuses, utile pour la TA statistique des forums ? , Gerlach J., Porro V., Bouillon P., Lehmann S. , en: 20ème conférence sur le Traitement Automatique des Langues Naturelles(TALN), Sables d'Olonne, Francia, 2013.
- Two Approaches to Correcting Homophone Confusion in a Hybrid Machine Translation System , Bouillon P., Gerlach J., Germann U., Haddow B., Rayner M., en: Second ACL Workshop on Hybrid Approaches to Translation (HyTra), Sofía, Bulgaria, 2013.
- Comparing forum data post-editing performance using translation memory and machine translation output: a pilot study , Morado Vázquez L., Rodríguez Vázquez S., Bouillon P., en: Proceedings of the Machine Translation Summit XIV, Niza, Francia, 2013.
- Using Source-Language Transformations to Address Register Mismatches in SMT , Rayner M., Bouillon P., Haddow B., en: Proceedings of AMTA, San Diego, CA, EE. UU., 2012.