La Biblia ayuda a investigadores a perfeccionar algoritmos de traducción

Un algoritmo entrenado en varias versiones de los textos sagrados puede convertir obras escritas en diferentes estilos para diferentes audiencias.

Redacción ED

Tech Xplore · 17 DE NOVIEMBRE DE 2018 · 15:35

Se utilizaron textos de 34 versiones de la Biblia en idioma inglés para ayudar a mejorar los sistemas de transferencia de estilo basados en computadora. / Chris Downer.,Biblia, Logaritmo
Se utilizaron textos de 34 versiones de la Biblia en idioma inglés para ayudar a mejorar los sistemas de transferencia de estilo basados en computadora. / Chris Downer.

En busca de inspiración para mejorar los traductores de texto basados en computadoras, los investigadores de la Universidad de Dartmouth buscaron orientación en la Biblia. El resultado es un algoritmo entrenado en varias versiones de los textos sagrados que pueden convertir obras escritas en diferentes estilos para diferentes audiencias.

Las herramientas de Internet para traducir texto entre idiomas como inglés y español están ampliamente disponibles. La creación de traductores de estilo — herramientas que mantienen el texto en el mismo idioma pero que transforman el estilo — ha sido mucho más lento. En parte, los esfuerzos para desarrollar traductores se han visto obstaculizados por la dificultad de adquirir la enorme cantidad de datos requeridos. Aquí es donde el equipo de investigación se dirigió a la Biblia.

Además de ser una fuente de guía espiritual para muchas personas en todo el mundo, el equipo liderado por la Universidad de Dartmouth vio en la Biblia "un conjunto de datos de texto paralelo alineados previamente sin explorar". Más allá de proporcionar inspiración infinita, cada versión de la Biblia contiene más de 31.000 versículos que los investigadores utilizaron para producir más de 1,5 millones de emparejamientos únicos de los versículos de origen y de destino para los conjuntos de entrenamiento de aprendizaje de la máquina.

De acuerdo con la investigación publicada en la revista Royal Society Open Science, este no es el primer conjunto de datos de texto paralelo creado para la traducción de estilo. Pero es la primera vez que usa la Biblia. Otros textos que se han utilizado en el pasado, que van desde Shakespeare hasta Wikipedia, proporcionan conjuntos de datos que son mucho más pequeños o no tan bien adaptados para la tarea del aprendizaje de la traducción de estilo. 

“La Biblia en inglés viene en muchos estilos escritos diferentes, por lo que es el texto fuente perfecto para trabajar con la traducción de estilo”, dijo Keith Carlson, estudiante de doctorado en Dartmouth y autor principal del documento de investigación sobre el estudio.

Como un beneficio adicional para el equipo de investigación, la Biblia ya está completamente indexada por el uso consistente en libros, capítulos y versículos. La organización predecible del texto en todas las versiones elimina el riesgo de errores de alineación que podrían ser causados por métodos automáticos de coincidencia en versiones diferentes del mismo texto.

“La Biblia es un conjunto de datos ‘divino’ con el cual trabajar para esta tarea”, dijo Daniel Rockmore, profesor de informática en Dartmouth y autor contribuyente en el estudio. “Los seres humanos han estado realizando la tarea de organizar los textos bíblicos durante siglos, así que no tuvimos que poner nuestra fe en algoritmos de alineación menos fiables”.

El equipo utilizó 34 versiones bíblicas distintas en su estilo que van desde la complejidad lingüística de la “versión King James” hasta la “Biblia en inglés básico”. Los textos fueron alimentados en dos algoritmos — un sistema estadístico de traducción automática bautizado con el nombre de “Moisés” y un marco de red neural comúnmente utilizado en la traducción automática, llamado “Seq2Seq”.

La Universidad de Dartmouth tiene una larga historia de innovación en informática. El término “inteligencia artificial” fue acuñado en Dartmouth durante una conferencia en 1956 que creó la disciplina de investigación de IA. Otros avances incluyen el diseño de BASIC — el primer lenguaje de programación de propósito general y accesible — y el Sistema de Intercambio de Tiempo Dartmouth que contribuyó al sistema operativo moderno.

Publicado en: EVANGÉLICO DIGITAL - CIENCIA - La Biblia ayuda a investigadores a perfeccionar algoritmos de traducción