Estrategias de traducción automática

 

Machine translation strategies

 

Arturo Trujillo

 

El autor ofrece una visión general de las principales estrategias empleadas en la traducción automática: transferencia e interlingua. En el artículo se realiza un análisis de las principales perspectivas en este campo de las tecnologías de la lengua y remarca algunos de los principales problemas teóricos en el campo de la traducción automática.

 

The author provides an overview of the main strategies used in automatic translation: transference and interlingua. The article analyses the main perspectives of this language technology and describes some of the theoretical problems in automatic translation.

 

La traducción automática es el área del procesamiento de lenguaje natural que trata de la traducción automatizada de lenguas humanas como el inglés o el español. Es una de las aplicaciones no numéricas más antiguas en informática y su historia se remonta a los años inmediatamente posteriores a la Segunda Guerra Mundial. Desde entonces se han hecho grandes avances en informática, lingüística e inteligencia artificial; tanto es así que la traducción automática y las tecnologías relacionadas están siendo actualmente de gran ayuda en la comunicación entre diferentes pueblos.

 

Estrategias de traducción automática

 

Resulta útil describir la traducción automática en términos de sus dos estrategias básicas, conocidas como transferencia e interlingua. Obviamente, ambas estrategias persiguen el mismo objetivo, la traducción del lenguaje humano, pero parten de diferentes esquemas de organización del procesamiento de datos. La traducción automática de transferencia consiste en tres fases principales. En primer lugar, la lengua de origen, por ejemplo el inglés, se procesa para obtener una representación dependiente del lenguaje, que a su vez se convierte en el input en la segunda fase, denominada de transferencia. La transferencia por lo general implica las habituales traducciones léxicas (por ejemplo, run => correr), así como otros enlaces que requieren relaciones menos directas (por ejemplo, la traslocación de los adjetivos para que aparezcan tras el sustantivo). Después de la transferencia, la fase final es la generación, que incluye la producción del texto gramatical en la lengua de destino. La principal diferencia entre la interlingua y la transferencia es que en la traducción automática mediante interlingua no hay fase de transferencia.

En su lugar, el análisis mediante interlingua produce una representación independiente del lenguaje, la interlingua, que sirve directamente como input en la fase de generación. Los dos enfoques se pueden ilustrar con el triángulo de Vauquois, representado en la figura 1.

El diagrama muestra que con un mayor esfuerzo en el análisis y la generación se consigue reducir el esfuerzo durante la transferencia, de modo que con un máximo esfuerzo en el análisis/generación se elimina fase de transferencia y se consigue la traducción automática mediante interlingua. En la base del triángulo, tradicionalmente se indica un tercer enfoque de traducción automática , denominado traducción automática directa. Es una forma de transferencia en el sentido más general, que no obstante se distingue por la falta de análisis gramatical complejo, por confiar en gran medida en la correspondencia de secuencias de palabras y la traducción de frases completas y por usar ampliamente la reordenación de estas secuencias.

 

Transferencia vs interlingua

 

Ambas estrategias básicas tienen sus ventajas y sus inconvenientes, y ello ha provocado profundos debates sobre la conveniencia o inconveniencia de cada una de ellas. Los partidarios de la interlingua han señalado que la traducción automática por transferencia es un modo extremadamente despilfarrador y muy caro en la traducción entre más de dos lenguas, puesto que es necesario un módulo de transferencia específico para cada par de lenguas. Por el contrario, quienes están a favor de la traducción automática por transferencia argumentan que la creación y el uso consistente de la interlingua es mucho más difícil de lo que pueda parecer en un principio, y que el esfuerzo que requiere la construcción y el mantenimiento de todas las gramáticas, diccionarios, analizadores y generadores es demasiado importante en textos de naturaleza no restringida. Como ambas posturas son válidas, el desafío de los expertos en desarrollo de sistemas de traducción automática actualmente consiste en minimizar los inconvenientes y maximizar las ventajas de cada uno de los enfoques en sus propios sistemas. Es conveniente considerar algunos de los problemas específicos de cada estrategia.

 

Algunos problemas de los sistemas de transferencia tradicionales

 

Complejidad de los módulos de transferencia

 

Una importante fuente de problemas en las metodologías de transferencia tradicional, incluidas las que se basan en estructuras sintácticas y/o semánticas, es el carácter recurrente de sus representaciones. En el caso de las estructuras sintácticas, los árboles de análisis están a su vez compuestos por árboles de análisis. En el caso de las estructuras semánticas, como las que se basan en los formalismos predicado-argumento, el argumento de un predicado puede ser a su vez otra estructura predicado-argumento. Este carácter recurrente causa problemas cuando las estructuras de transferencia en la lengua de origen y la lengua de destino presentan diferencias notables. Por ejemplo, algunos elementos de la estructura en lengua de origen geométricamente distantes (quizá porque pertenecen a diferentes ramas de la estructura) pueden requerir estar muy próximos en la lengua de destino. Un ejemplo sencillo de este caso se observa cuando se traducen estructuras con la preposición separada del inglés al español. En inglés la preposición está alejada de su complemento, pero en español debe estar próxima. He aquí un ejemplo:

 

Ing: The pub I saw you in is on Gwydr Street.

Esp: El bar en donde te vi queda en la calle Gwydr.

 

Durante la transferencia tendrá que reorganizarse el árbol de análisis de la frase en la lengua de origen (inglés) para convertirlo en la estructura española correcta. Sin mecanismos adicionales que puedan controlar estas divergencias, los módulos de transferencia pierden útiles e interesantes generalizaciones interlingüísticas. Estos mecanismos tendrán efectos no locales y complejos en las estructuras transferidas, lo cual creará dificultades para mantener y comprender los módulos de transferencia.

 

Verificación y formulación de las reglas de transferencia

 

La mayoría de sistemas de transferencia expresa las relaciones de transferencia mediante las representaciones producidas por los módulos de análisis. Estas representaciones pueden no tener nada que ver con lo que pueden verificar directamente los hablantes bilingües, los diccionarios bilingües o los corpus bilingües. Por ejemplo, una regla de transferencia para la traducción de sintagmas nominales que requeriría la transposición de nombres y adjetivos entre el inglés y el español podría ser (en una representación de estilo Prolog):

 

 [np, [det, Ds], [adj, As], [n, Ns] ]

<= =>

[np, [det, Dt], [n, Nt], [adj, At] ]

:-

Ds <= => Dt,

As <= => At,

Ns <= => Nt.

(<= => se supone que es un operador de infijos definido por el usuario). Para poder verificar, o incluso formular, esta regla hay que dominar no sólo las lenguas de origen y de destino, sino también la notación, la semántica del formalismo y el tipo de algoritmos de análisis y generación usados para producir estas representaciones o para generar un resultado a partir de ellas. Ello significa, por ejemplo, que al escribir la regla el lingüista-informático debe saber que, cuando esta regla sea aplicable, la traducción del adjetivo no debe depender del nombre con el que aparece (cf. smart shoes – zapatos elegantes, smart person – persona inteligente). Para saberlo hay que tener presente el modo y el momento en que se aplican las reglas de transferencia, y a qué estructuras se aplican. Es esta una de las principales fuentes de problemas complejos en los sistemas de transferencia

 

Algunos problemas de los sistemas de interlingua

 

Formulación de la interlingua

 

Uno de los aspectos más difíciles de la traducción automática mediante interlingua es la formulación de la representación de una interlingua adecuada. Esta representación debería poder servir para expresar conceptos de cualquier idioma. En la práctica, es casi imposible, puesto que no existen teorías, sean filosóficas, matemáticas, psicolingüísticas o de cualquier otro tipo, que nos indiquen toda la gama de conceptos que son capaces de expresar los seres humanos. En otras palabras, es imposible predecir qué conceptos aparecerán codificados en frases construidas en húngaro, malayo, quechua, chino o español, sin un estudio muy detallado y extenso de cada uno de estos idiomas. Ni siquiera con lenguas como el inglés, cuya semántica ha sido objeto de estudio durante muchos años, se ha conseguido producir una interlingua bien definida.

Como sencilla ilustración de este problema consideremos los verbos ingleses like y love. Podríamos suponer inocentemente que son sólo dos significados básicos expresables para este tipo de noción, y proceder formulando dos símbolos correspondientes en la interlingua, por ejemplo los símbolos s1 y s2. Imaginemos ahora que queremos expresar el significado que tiene en español la frase te quiero. Tal como podrán confirmar la mayoría de los hablantes bilingües de inglés y español, no significa ni I love you (te amo) ni I like you (me gustas), sino algo intermedio. Por tanto, nuestra sencilla interlingua no puede expresar el significado que tiene la frase en español de un modo natural, y tendría que ampliarse incluyendo un nuevo símbolo, el s3, para el nuevo concepto. Pero está claro que es imposible (por lo menos actualmente) prever todos los significados que podría necesitar la interlingua para expresar conceptos de cualquier idioma. Ello hace que la formulación de una interlingua se convierta en un proceso constante de expansión con un número cada vez mayor de conceptos, con lo que se obtiene un repertorio de símbolos de difícil manejo.

El problema se agrava por la falta de una notación o formalismo adecuado en el que se puedan expresar los conceptos de la interlingua. Se han propuesto diversos formalismos basados en teorías lingüísticas, o en estructuras lógicas o informáticas, pero ninguno de ellos se ha demostrado completamente eficiente.

 

Equivalencia semántica

 

Un problema técnico que afecta a gran cantidad de formalismos para la expresión de significados es el de la equivalencia semántica. Dado que el output de la fase de análisis en la interlingua pasa directamente a servir de base de la fase de generación, es importante que los módulos de origen y de destino representen significados similares de modo similar. Como ejemplo, supongamos que estamos usando la lógica de primer orden (LPO) como interlingua y que la frase there is a red flag tiene la siguiente representación en interlingua:

           

$x. red(x) Ù flag(x)

 

En particular, obsérvese que el orden de los predicados refleja el orden inglés de las palabras. Dado que nuestra interlingua es la lógica de primer orden, podemos suponer que en el módulo de generación de español la interlingua correspondiente a hay una bandera roja es la fórmula siguiente:

 

            $x. flag(x) Ù red(x)

 

Ello se debe a que el operador lógico Ù (y) es conmutativo y, por tanto, ambas expresiones tienen el mismo significado. El problema es que, a menos que el generador pueda detectar la sinonimia entre ambas expresiones, no conseguirá efectuar la generación. Pero lamentablemente, por lo menos en el caso de la lógica de primer orden, determinar la equivalencia entre dos fórmulas arbitrarias es, en general, imposible. En la práctica hay algunas soluciones para este problema, como desarrollar formalismos de representación alternativos, o establecer restricciones sobre los ya existentes, o inclusive manipular el resultado del análisis para que conforme con los requerimientos de generación. Pero incluso estas soluciones prácticas plantean otro problema.

 

Coherencia intercodificadores

 

Los formalismos prácticos de la lógica de primer orden evolucionan paso a paso, a partir de un conjunto limitado de conceptos atómicos y una estructura canónica bien definida para combinarlos y luego añadir nuevos conceptos o estructuras según se haga necesario. Incluso en este tipo de entorno, enseguida se hace difícil decidir cuál debe ser la representación de cada palabra. Un lingüista-informático podría expresar el significado de la palabra destrucción como un suceso, mientras que otro, que quizá trabaje con otro idioma, puede expresar el mismo concepto como un objeto abstracto. Estas discrepancias pueden provocar que el sistema no consiga realizar la traducción y pueden hacer necesaria una amplia labor de coordinación (por ejemplo, en forma de manuales de codificación) para evitarlas.

 

Conclusión

 

De este breve análisis de algunos problemas importantes en la traducción automática no debería obtenerse la impresión de que los sistemas basados en estas estrategias son inviables. Al contrario, la traducción automática está ya en Internet y constantemente se están desarrollando sistemas experimentales, precomerciales y comerciales que utilizan diferentes versiones de estas estrategias. El objetivo de este artículo ha sido resumir algunos de los problemas teóricos de las mismas e ilustrarlos con algunos ejemplos que muestran sus implicaciones prácticas.

 

Bibliografía

 

Trujillo, A.: Translation engines: techniques for machine translation, Londres, Springer, 1999).

http://www.ccl.umist.ac.uk/staff/iat/transeng/

 

Arturo Trujillo

Estudió Computer System with Microelectronics en la Universidad de Londres, y obtuvo el Doctorado en Lingüística Computacional por la Universidad de Cambridge. Trabajó como profesor de computación en The Gordon University, en Aberdeen y como profesor de Lingüística Computacional en la UMIST, en Manchester. En la actualidad trabaja como Dialogue Researcher en Vocalis plc., Cambridge, Inglaterra. Ha publicado numerosos artículos sobre el tema y es autor de Techniques for machine translation, publicado por la editorial Springer, Londres 1999.

arturo.trujillo@vocalis.com