Google y el dominio lingüístico

El uso de traductores automáticos en Internet, entre los que se destaca el de Google, genera frases insólitas y divertidas. Pero más allá de lo anecdótico, estos procesos, que utilizan el inglés como lengua eje de todas las traducciones, imponen estructuras y modos de pensamiento al resto del mundo.

FUENTE: Le Monde Diplomatique / Por Frederic Kaplan y Dana Kianfar (Enero 2015)

El ingles como "lengua pivote"

A principios de diciembre pasado cualquiera que le pidiera al Traductor de Google el equivalente italiano de la expresión “Esta chica es bonita” obtenía una propuesta extraña: Questa ragazza è abbastanza, literalmente “Esta chica es bastante”. La belleza se había lost in translation –perdido en la traducción-. ¿Cómo es posible que uno de los mejores traductores automáticos del mundo, respaldado por un capital lingüístico único constituido de millones de frases, pueda cometer un error tan grosero? La respuesta es simple: el Traductor de Google pasa por el inglés. “Bonita” se traduce por pretty y pretty por abbastanza.

Conociendo este principio, se vuelve fácil producir frases insolitas y a menudo divertidas. “Creo que usted tiene un presidente magnífico” se convierte en Penso che tu abbia una bella sedia, es decir: “Creo que tienes una linda silla”, ya que “presidente” se traduce por chair en inglés.

A veces el uso del inglés como lengua eje lleva a contrasentidos. Hai fatto un compito terrificante, es decir “Hiciste una tarea terriblemente mala”, se traduce en Google como “Usted hizo un trabajo formidable” por la intervención del inglés terrific; la expresión idiomática “Llueve a cántaros” se transforma en un muy poético Piove cani e Gatti –llueven perros y gatos-. Esta traducción directa de It´s raining cats and dogs resulta absolutamente incomprensible para un italiano.

Una escritura ágil

Para elaborar un traductor automático hay que disponer de grandes corpus de textos idénticos traducidos de una lengua a la otra. Como es natural, Google, empresa estadounidense, construyó su herramienta sobre pares textuales utilizando casi siempre el inglés como lengua eje. De esta manera, para ir del francés al italiano, “por definición”, hay que pasar por una traducción inglesa intermedia.

Este proceso genera un desvió lingüístico importante. El francés y el italiano son lenguas relativamente cercanas. En comparación con éstas, el inglés es una lengua particular, compacta, rica en formulas idiomáticas. Una mala comprensión del contexto abre el camino a números errores. Proyectar una expresión hacia el espacio anglófono y luego hacia una lengua meta ocasiona innovaciones lingüísticas involuntarias.

Las incongruencias que producen los traductores automáticos pueden parecer anecdóticas. La traducción en general y la traducción automática en particular plantean problemas indiscutiblemente difíciles. En esas condiciones, ¿cómo sorprenderse de que las máquinas se equivoquen? Por lo demás, sus errores presentan un interés: nos hacen reflexionar sobre las especificidades de cada lengua. Y luego, a largo plazo, el desarrollo de corpus bilingües que eviten la intervención del inglés así como las correcciones que realizan los propios internautas deberían mejorar las traducciones. Tal vez las fallas mencionadas en este artículo ya estén corregidas para el momento en el que, según la expresión habitual, entremos en imprenta –una locución que Google traduce del francés al español como “Vamos a presionar”-. Entonces, ¿realmente hay que preocuparse por el fenómeno?

Para comprender los efectos reales del inglés como “lengua pivote”, hay que situar la traducción automática en el contexto más amplio de los textos que recurren a algoritmos en Internet. Esos programas informáticos no sólo generan innovaciones lingüísticas en el contexto de traducciones automáticas, sino que también son utilizados para redactar en forma automática artículos de prensa, corregir sintáctica y semánticamente el contenido de las páginas de Wikipedia, producir mensajes publicitarios orientados u optimizar el contenido de una página Web para facilitar que los motores de búsqueda la indexen.

Por consiguiente, ¿cómo distinguir los recursos lingüísticos primarios, producidos por seres humanos sin mediación algorítmica (conversaciones escritas, contenidos de libros digitales, etc.), de los recursos lingüísticos secundarios, que derivan de transformaciones algorítmicas de recursos primarios?

Con la generalización del autocompletado casi todas las interfaces de entrada de datos – el usuario teclea el comienzo de una expresión y un programa completa automáticamente la frase- , los algoritmos se convirtieron en intermediarios casi sistemáticos cuando escribimos en línea. En muchos casos, dejamos de ingresar nuestros textos letra por letra o palabra por palabra: nos contentamos con elegir entre varias continuaciones posibles propuestas por algoritmos. Esta forma de escritura une rapidez y eficacia, en particular cuando se utiliza el teclado reducido de un teléfono celular. En este nuevo marco, redactar sólo consiste en elegir agilidad un camino en la arborescencia de expresiones predecibles. De aquí a algunos años, seguramente será difícil encontrar una interfaz que no utilice esta tecnología.

Una escritura híbrida

Como los otros recursos secundarios, los textos producidos algorítmicamente por traductores automáticos no necesariamente están identificados o etiquetados como tales. Al contrario, a menudo se presentan como recursos primarios, naturales, que eventualmente los lectores pueden tomar como modelo. Un internauta cuya lengua materna no es el italiano no tiene ningún motivo para considerar errónea la expresión Piove cani e Gatti. La observación vale con más razón para los algoritmos que pasan por la criba la estructura de la lengua con el fin de producir artificialmente nuevos textos. Un algoritmo que busca una fuente primaria para optimizar sus capacidades de traducción puede utilizar por descuido un texto producido por otro algoritmo, que contiene errores de sentido y falsos cognados.

En Internet la generalización de recursos “contaminados” por los autómatas amenaza al conjunto de un edificio tecnológico que privilegia la cantidad masiva de datos sobre el control sistemático de su calidad. En la Web ya se encuentran numerosos ejemplos de expresiones extrañas. Por ejemplo, en la tienda virtual en la que Apple vende sus programas (AppStore), se leen estos comentarios acerca de una aplicación que permite escribir mensajes mientras se camina…”Intuitivo de utilizar, excelentes resultados y de nuevo de buen humor. ¡Gracias quien hizo! Es realmente cool y recomiendo”. Más lejos, otro comentario claramente comparte ciertas incongruencias de lenguaje con el primero: “Me ayuda introducir el texto horizontal y vertical, enviar mensajes sms, enviar e-mail, enviar mensajes en Twitter y Facebook…bastante divertido, ¡le agradezco!”.

Estas frases incorporan los giros extraños de los algoritmos pueden servir, en un segundo momento, de modelo a servicios de mediación textual que proponen, por ejemplo, autocompletar la expresión que se está tecleando. No es impensable que, en algún tiempo, un italiano que comience una frase con Piove… vea que se le proponga la continuación Piove cani e Gatti, una expresión que probablemente nunca fue pronunciada ni escrita en toda la historia de la lengua italiana.

Así, el inglés como eje lingüístico participa potencialmente de un fenómeno de criollización: la formación de una lengua nueva basada en la transformación por el uso de otras lenguas más viejas, fenómeno que los lingüistas conocen bien. Actualmente, las modificaciones introducidas por la mediación algorítmica constituyen una especie de sabir, lengua de contacto, potencialmente efímera, entre dos sistemas lingüísticos. Pero, en momentos en que una nueva generación se encuentra expuesta a estas expresiones transformadas, las innovaciones podrían regularizarse en forma de una lengua coherente y autónoma, una lengua criolla. Una evolución que podría acelerar la mediación de las nuevas interfaces de entrada de datos, prótesis lingüísticas intimas susceptibles de influir fuertemente las formas expresivas futuras.

El imperialismo lingüístico del inglés produce, pues, efectos mucho más sutiles de lo que hacen pensar los enfoques centrados en la “guerra de las lenguas”. El hecho de tomar como eje un solo idioma lleva a introducir en todos los otros logísticas lingüísticas propias y por lo tanto, imperceptiblemente, modos de pensamiento específicos. Este fenómeno también podría formar parte de una transformación lingüística global en la que los algoritmos tengan un rol clave. Si el inglés funciona como eje para las lenguas europeas, seguramente otras lenguas ocupan la misma posición en otras áreas lingüísticas (el hindi, por ejemplo). Así, se pone en marcha a escala mundial una red de cadenas de traducción que funcionan con referencia a varios idiomas intermedios.

En cinco años, ¿Quién seguirá produciendo recursos primarios puros, escritos sin mediación algorítmica? ¿Cuánto tiempo pasará antes de que las primeras innovaciones algorítmicas se perciban como naturales? Esta escritura híbrida exige un estudio atento. Y tal vez el desarrollo de una nueva lingüística que utilizará en forma masiva los algoritmos para comprender mejor y vigilar los efectos de los algoritmos…