PangeaMT ECOChat

NTEU Traduction Neurale pour l'UE

Traduction Automatique Neurale de Qualité Proche de l'Homme pour les Administrations Publiques

 

 

Projet NTEU : Une initiative pionnière dans la traduction automatique neuronale paneuropéenne et son impact durable

 

Le projet Neural Translation for the European Union (NTEU), dirigé avec succès par Pangeanic en consortium avec KantanMT et Tilde, a marqué une étape majeure dans le démantèlement des barrières linguistiques à travers le continent européen. Il s’est également distingué comme un effort significatif de collecte de données au service de l’intelligence artificielle. Les jeux de données ainsi constitués ont notamment été utilisés pour l’entraînement de grands modèles de langage, tels que Salamandra du Barcelona Supercomputing Center.

Financé par le programme Connecting Europe Facility (CEF) et soutenu par le Secrétariat d’État à l’Avancement Numérique du Gouvernement espagnol (anciennement SEAD), ce projet ambitieux a permis la mise en place de la plus vaste infrastructure de moteurs de traduction neuronale à ce jour, facilitant des traductions directes et fluides entre toutes les langues officielles de l’Union européenne.

Déployé entre septembre 2019 et août 2021, le projet a pleinement accompli sa mission principale : doter les administrations publiques européennes de capacités de traduction automatique de pointe, favorisant ainsi une circulation fluide de l’information, quel que soit l’idiome d’origine.

 

Réalisations clés du projet NTEU:

 

Le projet a engendré une transformation profonde de la communication multilingue au sein de l’UE grâce à plusieurs avancées majeures :


  1. Création d’une ferme complète de moteurs neuronaux: Le consortium a conçu avec succès 506 moteurs de traduction neuronale distincts, un exploit inédit. Ces moteurs permettent des traductions directes, de qualité quasi-humaine, entre toutes les combinaisons de langues officielles de l’UE, dépassant les limites des anciens systèmes souvent tributaires de l’anglais comme langue pivot.

  2. Suppression de la dépendance aux langues pivots: Une avancée déterminante a été la capacité à effectuer des traductions directes entre des langues comme l’estonien et le portugais ou encore le maltais et le grec, sans passer par l’anglais. Cette innovation a considérablement amélioré la précision, les nuances et la rapidité des traductions pour les combinaisons linguistiques moins fréquentes.

  3. Collecte et traitement massif de données: Le projet a permis la compilation, la sélection et l’exploitation de vastes volumes de données bilingues et monolingues. Cela inclut les ressources internes des membres du consortium, les données institutionnelles de l’UE (EURAMIS, DGT, etc.) ainsi que celles issues d’autres projets européens. Pour de nombreuses paires linguistiques, l’objectif minimal de 15 millions de phrases de haute qualité a été atteint, voire dépassé.

  4. Solutions avancées pour les langues peu dotées: Pour pallier le manque de données dans certaines combinaisons linguistiques, le consortium a eu recours à des réseaux neuronaux multicouches de dernière génération et à des techniques de génération automatique de textes, enrichissant ainsi les corpus bilingues nécessaires.

  5. Évaluation rigoureuse et assurance qualité: Des protocoles d’évaluation stricts ont été mis en œuvre, sous la coordination du Bureau Technique Général du Plan de Technologie Linguistique de l’Espagne. Les résultats ont été validés par diverses universités, garantissant ainsi le respect des normes industrielles (ex. : WMT) et académiques les plus élevées.

  6. Renforcement du service eTranslation:
    NTEU a largement étendu les capacités du système eTranslation de la Commission européenne, en dépassant sa concentration initiale sur l’anglais et quelques grandes langues pour couvrir l’ensemble des langues officielles de l’UE.

  7. Facilitation de l’intégration par les administrations
    Le projet a posé les bases permettant aux administrations publiques européennes d’intégrer ces services de traduction automatique dans leurs infrastructures nationales, favorisant ainsi la coopération numérique transfrontalière.

 

Impact et héritage:

 

Le projet NTEU ne s’est pas limité à une action ponctuelle, mais a agi comme catalyseur d’innovations durables dans le domaine des technologies linguistiques en Europe.


  1. Renforcement du Marché Unique Numérique
    En facilitant une communication multilingue fluide, NTEU a contribué de manière directe à la stratégie européenne de création d’un véritable marché numérique unifié, éliminant les barrières linguistiques dans les échanges commerciaux, administratifs et citoyens.

  2. Fondations pour des développements futurs
    Les compétences, données et avancées technologiques issues de NTEU ont laissé une empreinte durable. L’agence espagnole SEDIA (anciennement SEAD), impliquée dans le projet, a utilisé ses acquis pour élaborer les modèles linguistiques avancés Salamandra et SalamandraTA en collaboration avec le Barcelona Supercomputing Center (BSC-CNS), déployés en 2024/2025. Cela illustre un lien direct et structurant entre NTEU et les initiatives d’IA de nouvelle génération en Espagne et en Europe.

  3. Potentiel d’application élargi
    Bien que destiné initialement aux administrations publiques, les moteurs de traduction de haute qualité développés peuvent également bénéficier à des organismes privés, institutions et gouvernements du monde entier, mettant en lumière le leadership technologique européen dans le domaine linguistique.

  4. Visibilité et reconnaissance accrues
    Le projet a reçu une couverture médiatique notable, apparaissant dans la presse nationale et dans des publications technologiques reconnues telles que Slator, Blog RuralVía, Fundación Madri+d ou encore El Español, témoignant de son caractère novateur et de sa portée stratégique.

 

Le projet NTEU (remporté par le consortium Pangeanic dans le cadre du programme Connecting Europe Facility de la Commission européenne) constitue un succès retentissant. Il a non seulement atteint ses objectifs techniques ambitieux, mais a également jeté les bases d’une infrastructure essentielle pour une Europe plus intégrée et multilingue.

Son héritage perdure à travers des projets nationaux comme Salamandra, illustrant l’importance stratégique et la valeur à long terme des investissements dans les technologies linguistiques avancées.

 

Résultats

 

Scalabilité et Réutilisation : Données d’Entraînement

  1. Publication de grands corpus parallèles: Le projet NTEU procédera à la publication d’un corpus parallèle exhaustif, incluant l’ensemble des segments d’entraînement couvrant toutes les combinaisons linguistiques. Cette initiative garantit la scalabilité et la réutilisation à long terme des ressources, bien au-delà de la durée du projet.

  2. Jeux de données durables et évolutifs
    Les jeux de données produits dans le cadre de cette Action permettront aux technologies futures de faire évoluer leurs algorithmes d’apprentissage automatique, maximisant ainsi l’impact des contributions du projet NTEU.

  3. Collecte de données dans toutes les langues officielles de l’UE: En s’appuyant sur les efforts déjà engagés, NTEU collectera des données dans 23 langues officielles de l’Union européenne, en exploitant des techniques telles que le crawling, l’alignement, le traitement de documents Word et de fichiers PDF, ainsi que la réutilisation de ressources issues d’initiatives telles que Paracrawl, NEC-TM ou encore les matériaux de la Direction générale de la traduction (DGT).

  4. Création de données synthétiques
    Le projet générera également des données synthétiques hautement scalables, afin de soutenir les processus d’apprentissage automatique et compléter les corpus réels collectés.

  5. Priorité au CEF-AT et aux administrations publiques
    L’un des objectifs fondamentaux du projet est la création du plus grand corpus parallèle jamais constitué entre les langues officielles de l’UE, avec une attention particulière portée aux besoins du programme CEF-AT et des administrations publiques européennes.

Captura de pantalla 2024-11-26 a las 11.41.23

Le projet NTEU donnera ainsi naissance à la plus vaste combinaison directe de moteurs linguistiques jamais réalisée.

Pour en savoir plus, continuez votre lecture !