Proyecto NTEU Traducción Neuronal para la Unión Europea
Traducción automática neuronal con calidad casi humana para las Administraciones Públicas
Proyecto NTEU: Pionero en Traducción Automática Neuronal Paneuropea y su Impacto Duradero
El proyecto Neural Translation for the European Union (NTEU), liderado con éxito por Pangeanic en consorcio con KantanMT y Tilde, marcó un hito trascendental en la superación de las barreras lingüísticas en todo el continente. Asimismo, constituyó un importante esfuerzo conjunto de recopilación de datos para aplicaciones de inteligencia artificial, cuyas bases de datos fueron utilizadas posteriormente en el entrenamiento de modelos de lenguaje a gran escala como Salamandra del Barcelona Supercomputing Center
Financiado por el programa Connecting Europe Facility (CEF) y respaldado por la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA, anteriormente SEAD) del Gobierno de España, este ambicioso proyecto logró poner en funcionamiento la mayor infraestructura de motores de traducción automática neuronal desarrollada hasta la fecha, permitiendo traducciones directas y fluidas entre todas las lenguas oficiales de la Unión Europea.
Desarrollado entre septiembre de 2019 y agosto de 2021, el proyecto cumplió con su principal objetivo: dotar a las Administraciones Públicas europeas de capacidades avanzadas de traducción automática, favoreciendo un flujo de información sin barreras lingüísticas, independientemente del idioma de origen.
Logros y Principales Hitos Alcanzados:
El proyecto NTEU cumplió exitosamente sus metas, marcando un antes y un después en la comunicación multilingüe dentro del espacio europeo:
-
Creación de una Infraestructura Completa de Motores Neuronales: El consorcio desarrolló un total de 506 motores de traducción automática neuronal (NMT) diferentes, una cifra sin precedentes. Esta hazaña permitió ofrecer traducciones directas entre todas las combinaciones lingüísticas oficiales de la UE con una calidad cercana a la humana, superando los sistemas anteriores que dependían del inglés como lengua intermedia.
-
Eliminación de la Dependencia del Idioma Puente: Uno de los logros clave fue la capacidad de traducir directamente entre pares lingüísticos como estonio-portugués o maltés-griego, sin pasar previamente por el inglés. Esta innovación supuso una mejora sustancial en la precisión, matices y velocidad de las traducciones en combinaciones de idiomas menos comunes.
-
Recopilación y Curación Masiva de Datos: Se llevó a cabo una recolección exhaustiva de datos bilingües y monolingües, incluyendo los fondos documentales de los miembros del consorcio, los propios repositorios de datos de la UE (como EURAMIS, DGT, entre otros) y recursos procedentes de otros proyectos financiados por instituciones europeas. En muchas combinaciones de idiomas se alcanzaron —e incluso superaron— los 15 millones de oraciones de alta calidad, como objetivo mínimo.
-
Soluciones Avanzadas para Lenguas con Recursos Limitados: El consorcio abordó eficazmente la escasez de datos para idiomas menos representados mediante el uso de redes neuronales de múltiples capas y técnicas de generación automática de texto, con el fin de crear o ampliar los corpus bilingües necesarios.
-
Evaluación Rigurosa y Aseguramiento de la Calidad: El proyecto estableció estrictos procesos de validación de calidad, coordinados por la Oficina Técnica del Plan de Tecnologías del Lenguaje del Gobierno de España. Los resultados fueron evaluados por distintas universidades, garantizando el cumplimiento de estándares industriales y académicos de primer nivel, como los establecidos por WMT.
-
Ampliación de Capacidades de eTranslation: NTEU reforzó y amplió significativamente el sistema eTranslation de la Comisión Europea, extendiendo su cobertura más allá del enfoque inicial en inglés y otras lenguas mayoritarias para incluir la totalidad de los idiomas oficiales de la UE.
-
Facilitación de la Integración en Administraciones Públicas: El proyecto sentó las bases para que las Administraciones Públicas europeas integraran estos avanzados servicios de traducción automática en sus infraestructuras nacionales, mejorando la prestación de servicios digitales transfronterizos y la cooperación institucional.
Impacto y Legado:
El proyecto NTEU no fue una iniciativa de duración limitada, sino un catalizador para la innovación continua en tecnologías lingüísticas dentro de Europa.
-
Fortalecimiento del Mercado Único Digital: Al facilitar la comunicación multilingüe sin fricciones, NTEU contribuyó directamente a la estrategia europea de consolidar un verdadero mercado único digital, eliminando las barreras idiomáticas en el comercio, la administración y la interacción ciudadana.
-
Impulso a Futuras Innovaciones: Los conocimientos, datos y avances tecnológicos generados por NTEU han dejado una huella perdurable. Cabe destacar que la agencia gubernamental española SEDIA, que participó activamente en NTEU, aprovechó posteriormente estos cimientos para el desarrollo de los modelos lingüísticos avanzados Salamandra y SalamandraTA, lanzados por el Barcelona Supercomputing Center (BSC-CNS) entre 2024 y 2025. Ello demuestra una línea de continuidad clara entre NTEU y las nuevas generaciones de inteligencia artificial aplicada a la traducción.
-
Potencial de Aplicación Ampliado: Aunque inicialmente concebidos para su uso por Administraciones Públicas, los motores de alta calidad desarrollados pueden servir también a otras entidades, instituciones y gobiernos en todo el mundo, consolidando el liderazgo europeo en tecnología lingüística.
-
Reconocimiento y Visibilidad: El proyecto obtuvo una amplia cobertura mediática, apareciendo en la prensa nacional y en revistas tecnológicas de renombre como Slator, Blog RuralVía, Fundación Madri+d y El Español, subrayando su carácter innovador y su relevancia estratégica.
El proyecto NTEU —ganado por el consorcio liderado por Pangeanic en el marco del programa Connecting Europe Facility de la Comisión Europea— constituye un rotundo éxito. No solo alcanzó sus ambiciosos objetivos técnicos, sino que también proporcionó una infraestructura crítica para una Europa más integrada y diversa lingüísticamente. Su legado perdura a través de proyectos nacionales como Salamandra, reafirmando la importancia estratégica y el valor a largo plazo de invertir en tecnologías lingüísticas de vanguardia.
Resultados
Escalabilidad y Reutilización: Datos de Entrenamiento
-
Publicación de Grandes Corpora Paralelos: El proyecto NTEU prevé la entrega de un corpus paralelo completo que incluya todos los segmentos de entrenamiento entre los distintos pares lingüísticos, garantizando su escalabilidad y reutilización más allá de la duración del proyecto.
-
Conjuntos de Datos Preparados para el Futuro: Los conjuntos de datos generados por esta Acción permitirán que futuras tecnologías optimicen sus algoritmos de aprendizaje automático, maximizando así el impacto de las contribuciones realizadas por NTEU.
-
Recopilación de Datos en las Lenguas Oficiales de la UE: Basándose en esfuerzos previos, NTEU recopilará datos en las 23 lenguas oficiales de la Unión Europea mediante técnicas de rastreo web (crawling), alineación, procesamiento de documentos Word y archivos PDF, así como la reutilización de recursos procedentes de iniciativas como Paracrawl, NEC-TM y materiales de la Dirección General de Traducción (DGT).
-
Generación de Material Sintético: Se generarán datos sintéticos altamente escalables para apoyar los procesos de aprendizaje automático, complementando los conjuntos de datos previamente recopilados.
-
Enfoque en CEF-AT y las Administraciones Públicas: El proyecto tiene como objetivo crear el mayor corpus paralelo entre las lenguas oficiales de la UE, con especial atención a los requerimientos del programa CEF Automated Translation (CEF-AT) y de las Administraciones Públicas europeas.
NTEU desarrollará la mayor red de motores de traducción directa entre pares lingüísticos, sin recurrir a lenguas intermedias, lo que representa un avance sin precedentes en el campo de la traducción automática neuronal.
Para más información, le invitamos a seguir leyendo.