NTEU Traduzione Neurale per l'UE
Traduzione Automatica Neurale di Qualità Quasi-Umana per le Amministrazioni Pubbliche
Progetto NTEU: un'iniziativa pionieristica nella traduzione automatica neurale paneuropea e il suo impatto duraturo
Il progetto Neural Translation for the European Union (NTEU), guidato con successo da Pangeanic in consorzio con KantanMT e Tilde, ha rappresentato una tappa fondamentale nel superamento delle barriere linguistiche in Europa. L’iniziativa ha anche costituito un importante sforzo di raccolta dati a fini di intelligenza artificiale da parte dei partner coinvolti. I dataset ottenuti sono stati successivamente impiegati nell’addestramento di modelli linguistici avanzati, come Salamandra del Barcelona Supercomputing Center.
Finanziato dal programma Connecting Europe Facility (CEF) e sostenuto dalla Segreteria di Stato per l’Avanzamento Digitale del Governo spagnolo, questo ambizioso progetto ha portato alla realizzazione del più esteso sistema di motori di traduzione automatica neurale mai sviluppato, consentendo traduzioni dirette e fluide tra tutte le lingue ufficiali dell’Unione Europea.
Svoltosi tra settembre 2019 e agosto 2021, il progetto ha centrato pienamente il proprio obiettivo principale: dotare le Pubbliche Amministrazioni europee di soluzioni avanzate di traduzione automatica, promuovendo una comunicazione efficace e uno scambio dati senza ostacoli, indipendentemente dalla lingua di origine.
Risultati chiave e successi:
Il progetto NTEU ha raggiunto con successo i suoi ambiziosi obiettivi, segnando un cambiamento di paradigma nella comunicazione multilingue all’interno dell’Unione Europea:
-
Creazione di una rete completa di motori neurali: Il consorzio ha sviluppato con successo ben 506 distinti motori di traduzione automatica neurale (NMT), un risultato senza precedenti. Questa realizzazione ha consentito traduzioni dirette di qualità quasi umana tra tutte le combinazioni linguistiche ufficiali dell’UE, rappresentando un notevole passo avanti rispetto ai sistemi precedenti, spesso basati sull’uso dell’inglese come lingua ponte.
-
Eliminazione della dipendenza dalla lingua pivot: Uno dei traguardi fondamentali è stata la possibilità di effettuare traduzioni dirette tra coppie linguistiche come estone-portoghese o maltese-greco, senza dover passare per l’inglese. Questa innovazione ha migliorato in modo significativo la precisione, la finezza e la rapidità delle traduzioni, in particolare per le combinazioni linguistiche meno comuni.
-
Raccolta e cura di dati su larga scala: Il progetto ha raccolto, elaborato e utilizzato un’enorme quantità di dati bilingui e monolingui, sfruttando sia gli ampi archivi dei membri del consorzio sia le consistenti risorse linguistiche dell’UE (come EURAMIS, DGT, ecc.), oltre a dati provenienti da altri progetti finanziati a livello europeo. Per molte coppie linguistiche, è stato raggiunto — e spesso superato — l’obiettivo minimo di 15 milioni di frasi di alta qualità.
-
Soluzioni avanzate per le lingue meno diffuse: Il consorzio ha affrontato efficacemente il problema della scarsità di dati per le combinazioni linguistiche meno rappresentate, ricorrendo a reti neurali multilivello all’avanguardia e a tecniche di generazione automatica di testo per creare o arricchire i corpora bilingui necessari.
-
Valutazione rigorosa e garanzia della qualità: Il progetto ha previsto processi rigorosi di valutazione della qualità, coordinati dall’Ufficio Tecnico Generale del Piano per la Tecnologia Linguistica del Governo spagnolo. I risultati sono stati convalidati da diverse università, garantendo il rispetto degli elevati standard accademici e industriali (ad es. quelli promossi dalle conferenze WMT).
-
Potenziamento delle capacità del sistema eTranslation: NTEU ha ampliato significativamente la copertura e le funzionalità del sistema eTranslation della Commissione Europea, andando oltre il suo iniziale orientamento verso l’inglese e alcune lingue principali, per includere l’intero spettro delle lingue ufficiali dell’Unione.
-
Facilitazione dell’integrazione nelle Pubbliche Amministrazioni: Il progetto ha posto le basi per l’integrazione di questi potenti servizi di traduzione automatica all’interno delle infrastrutture digitali nazionali delle Pubbliche Amministrazioni europee, contribuendo al rafforzamento dei servizi digitali transfrontalieri e della cooperazione amministrativa tra Stati membri.
Impatto e Eredità:
Il progetto NTEU non è stato semplicemente un’iniziativa a termine, ma un catalizzatore per l’innovazione continua nel campo delle tecnologie linguistiche in Europa.
-
Rafforzamento del Mercato Unico Digitale: Favorendo una comunicazione multilingue fluida, NTEU ha contribuito in modo diretto alla strategia europea volta alla realizzazione di un vero mercato unico digitale, rimuovendo la lingua come ostacolo al commercio, all’amministrazione e all’interazione tra cittadini.
-
Preparare il terreno per sviluppi futuri:
Le competenze, i dati e i progressi tecnologici maturati nell’ambito di NTEU hanno lasciato un’impronta duratura. In particolare, l’agenzia governativa spagnola SEDIA (già SEAD), coinvolta nel progetto, ha successivamente valorizzato le basi e le conoscenze acquisite per lo sviluppo dei modelli linguistici avanzati Salamandra e dei modelli di traduzione SalamandraTA, realizzati dal Barcelona Supercomputing Center (BSC-CNS) nel biennio 2024–2025. Ciò dimostra una chiara e significativa continuità tra NTEU e le nuove iniziative nel campo dell’intelligenza artificiale e della traduzione automatica in Spagna e in Europa. -
Ampio potenziale di applicazione: Sebbene inizialmente concepiti per le Pubbliche Amministrazioni, i motori di alta qualità sviluppati nel progetto possono essere efficacemente impiegati anche da enti non pubblici, istituzioni e governi a livello globale, attestando la leadership europea nelle tecnologie linguistiche.
-
Maggiore visibilità e riconoscimento: Il progetto ha ottenuto un’ampia visibilità mediatica, con copertura sulla stampa nazionale e su importanti riviste tecnologiche come Slator, Blog RuralVía, Fundación Madri+d ed El Español, a testimonianza della sua rilevanza e del carattere innovativo delle soluzioni proposte.
Il progetto NTEU si conferma come un esempio emblematico di successo. Non solo ha raggiunto con piena efficacia gli obiettivi tecnici prefissati, ma ha anche fornito un’infrastruttura strategica per un’Europa più integrata e linguisticamente inclusiva. La sua eredità continua attraverso progetti nazionali successivi come Salamandra, sottolineando l’importanza strategica e il valore a lungo termine degli investimenti nelle tecnologie linguistiche avanzate.
Risultati
Scalabilità e riutilizzo: dati di addestramento
-
Pubblicazione di grandi corpora paralleli: Il progetto NTEU prevede la pubblicazione di un corpus parallelo completo, contenente tutti i segmenti di addestramento per ciascuna combinazione linguistica, garantendo così la scalabilità e il riutilizzo dei dati anche oltre la durata dell’iniziativa.
-
Dataset a prova di futuro: I dati raccolti nel corso dell’Azione saranno fondamentali per lo sviluppo di tecnologie future, consentendo il potenziamento degli algoritmi di apprendimento automatico e amplificando l’impatto dei risultati conseguiti da NTEU.
-
Raccolta dati in tutte le lingue ufficiali dell’UE: Sulla base delle attività già in corso, NTEU raccoglierà dati relativi a 23 lingue ufficiali dell’Unione Europea, attraverso tecniche avanzate di crawling, allineamento, elaborazione di documenti Word e PDF, nonché mediante il riutilizzo di risorse provenienti da iniziative esistenti come Paracrawl, NEC-TM e i materiali della Direzione Generale Traduzione (DGT).
-
Generazione di materiale sintetico: Saranno inoltre prodotti dati sintetici altamente scalabili per supportare l’addestramento dei sistemi di apprendimento automatico, integrando e completando i dataset reali raccolti.
-
Focus on CEF-AT and Public Administrations: The project aims to create the largest parallel corpus between EU official languages, prioritizing the needs of CEF-AT and European Public Administrations
NTEU realizzerà la più ampia combinazione diretta tra motori linguistici mai costruita.
Per ulteriori dettagli, continui a leggere!