NTEU Tradução Neural para a UE
Tradução Neural de Qualidade Próxima à Humana para Administrações Públicas
Projeto NTEU: Pioneirismo na Tradução Automática Neuronal Pan-Europeia e o seu Impacto Duradouro
O projeto Neural Translation for the European Union (NTEU), liderado com êxito pela Pangeanic em consórcio com a KantanMT e a Tilde, representou um marco significativo na superação das barreiras linguísticas em todo o continente europeu. Constituiu igualmente um esforço notável de recolha de dados para inteligência artificial por parte dos parceiros envolvidos. Esses conjuntos de dados foram, mais tarde, utilizados no treino de Grandes Modelos de Linguagem, como o Salamandra do Barcelona Supercomputing Center.
Financiada pelo programa Connecting Europe Facility (CEF) e com o apoio da Secretaria de Estado para o Avanço Digital do Governo de Espanha, esta iniciativa ambiciosa permitiu a implementação da maior infraestrutura de motores de tradução automática neuronal até à data, possibilitando traduções diretas e fluidas entre todas as línguas oficiais da União Europeia.
Decorrendo entre setembro de 2019 e agosto de 2021, o projeto alcançou plenamente o seu principal objetivo: dotar as Administrações Públicas europeias de capacidades avançadas de tradução automática, promovendo uma comunicação eficaz e um fluxo de dados contínuo, independentemente da língua de origem.
Principais Conquistas e Sucessos:
O projeto NTEU concretizou com êxito os seus ambiciosos objetivos, promovendo uma mudança de paradigma na comunicação multilingue no seio da União Europeia:
-
Criação de uma Infraestrutura Abrangente de Motores Neuronais: O consórcio desenvolveu com sucesso um total sem precedentes de 506 motores de tradução automática neuronal (NMT) distintos. Esta conquista proporcionou capacidades de tradução direta, com qualidade próxima da humana, entre todas as combinações de línguas oficiais da UE — um avanço significativo face a sistemas anteriores, frequentemente dependentes do inglês como língua pivot.
-
Eliminação da Dependência de Línguas Pivot: Um dos êxitos fundamentais foi a capacidade de realizar traduções diretas entre pares linguísticos como estónio-português ou maltês-grego, sem necessidade de recorrer ao inglês como intermediário. Esta inovação resultou numa melhoria substancial da precisão, subtileza e rapidez da tradução em combinações linguísticas menos comuns.
-
Recolha e Curadoria Massiva de Dados: O projeto conseguiu reunir, processar e utilizar vastas quantidades de dados bilingues e monolingues. Foram mobilizados os extensos repositórios dos membros do consórcio, os ricos recursos de dados da própria UE (como o EURAMIS, DGT, entre outros), bem como dados provenientes de outros projetos com financiamento europeu. Em muitos pares de línguas, a meta de alcançar pelo menos 15 milhões de frases de elevada qualidade foi atingida ou mesmo superada.
-
Soluções Avançadas para Línguas com Poucos Recursos: O consórcio respondeu eficazmente ao desafio da escassez de dados em pares linguísticos menos representados, através da aplicação de redes neuronais multilayer de última geração e de técnicas de geração automática de texto, com vista à criação ou reforço dos corpora bilingues necessários.
-
Avaliação Rigorosa e Garantia de Qualidade: O projeto implementou processos de avaliação de qualidade exigentes, coordenados pelo Gabinete Técnico Geral do Plano de Tecnologias da Língua do Governo de Espanha. Os resultados foram validados por diversas universidades, garantindo que os motores cumprissem elevados padrões industriais (como os definidos pelas práticas WMT) e académicos.
-
Reforço das Capacidades do Sistema eTranslation: O NTEU ampliou significativamente o alcance e as funcionalidades do sistema eTranslation da Comissão Europeia, ultrapassando a sua cobertura inicial centrada no inglês e noutras grandes línguas europeias, para passar a abranger todas as línguas oficiais da União.
-
Facilitação da Integração nas Administrações Públicas: O projeto lançou com êxito as bases para que as Administrações Públicas europeias integrem estes serviços avançados de tradução automática nas suas infraestruturas nacionais, promovendo assim serviços digitais transfronteiriços mais eficazes e uma colaboração administrativa reforçada.
Impacto e Legado:
O projeto NTEU não foi apenas uma iniciativa de duração limitada, mas um verdadeiro catalisador de inovação contínua no domínio das tecnologias linguísticas na Europa.
-
Reforço do Mercado Único Digital: Ao viabilizar uma comunicação multilingue fluida, o NTEU contribuiu diretamente para a concretização da estratégia europeia de construção de um verdadeiro mercado único digital, eliminando a língua como barreira ao comércio, à administração pública e à interação com os cidadãos.
-
Lançamento de Bases para Desenvolvimentos Futuros: A experiência adquirida, os dados recolhidos e os avanços tecnológicos alcançados no âmbito do NTEU tiveram um impacto duradouro. Destaca-se, em particular, o papel da agência governamental espanhola SEDIA (anteriormente SEAD), que participou no projeto e veio a utilizar os seus fundamentos e ensinamentos no desenvolvimento dos modelos linguísticos avançados Salamandra e dos modelos de tradução SalamandraTA, criados pelo Barcelona Supercomputing Center (BSC-CNS) nos anos de 2024/2025. Esta evolução demonstra de forma clara e impactante a continuidade entre o NTEU e as novas iniciativas de inteligência artificial e tradução de última geração em Espanha e na Europa.
-
Potencial de Aplicação Alargado: Embora inicialmente concebidos para servir as Administrações Públicas, os motores de elevada qualidade desenvolvidos no âmbito do projeto apresentam um forte potencial de utilização por entidades não públicas, instituições e governos a nível global, reafirmando a liderança europeia no setor das tecnologias linguísticas.
-
Maior Visibilidade e Reconhecimento: O projeto obteve ampla atenção mediática, tendo sido destacado na imprensa nacional e em publicações tecnológicas de referência, como Slator, Blog RuralVía, Fundación Madri+d e El Español, o que reflete a sua importância estratégica e natureza inovadora.
O projeto NTEU constitui um êxito inquestionável. Para além de ter alcançado plenamente os seus ambiciosos objetivos técnicos, proporcionou um componente crítico de infraestrutura para uma Europa mais integrada e linguisticamente diversa. O seu legado prolonga-se através de projetos nacionais subsequentes, como o Salamandra, sublinhando a importância estratégica e o valor duradouro do investimento em tecnologias linguísticas de vanguarda.
Resultados
Escalabilidade e Reutilização: Dados de Treino
-
Disponibilização de Grandes Corpora Paralelos: O NTEU prevê a publicação de um extenso corpus paralelo, contendo todos os segmentos utilizados para treino em todas as combinações linguísticas, garantindo a escalabilidade e a reutilização dos dados para além da vigência do projeto.
-
Conjuntos de Dados Preparados para o Futuro: Os conjuntos de dados gerados no âmbito da Ação permitirão que futuras tecnologias melhorem os seus algoritmos de aprendizagem automática, maximizando o impacto das contribuições do NTEU.
-
Recolha de Dados em Todas as Línguas da UE: Aproveitando os esforços em curso, o NTEU recolherá dados nas 23 línguas oficiais da União Europeia através de técnicas como web crawling, alinhamento e processamento de documentos Word e ficheiros PDF, bem como da reutilização de recursos provenientes de iniciativas como o Paracrawl, NEC-TM e materiais da DGT.
-
Criação de Material Sintético: Serão gerados dados sintéticos altamente escaláveis para apoiar os processos de aprendizagem automática, complementando os conjuntos de dados recolhidos de fontes reais.
-
Foco no CEF-AT e nas Administrações Públicas: O projeto tem como objetivo criar o maior corpus paralelo existente entre as línguas oficiais da UE, com especial atenção às necessidades do CEF-AT e das Administrações Públicas Europeias.
O projeto NTEU criará a maior combinação direta de motores de tradução entre pares linguísticos alguma vez desenvolvida.
Para mais informações, continue a ler!