PangeaMT ECOChat

INTELLIGENCE ARTIFICIELLE

Barcelona Supercomputing Center : Données pour l'IA, RLHF, tests de LLM et R&D

Espagne

Pangeanic has established a collaborative relationship with the Barcelona Supercomputing Center (BSC) primarily through its involvement in the field of Natural Language Processing (NLP) and artificial intelligence (AI). This partnership is notably facilitated by BSC's Language Technologies Unit, which focuses on advancing NLP technologies, including massive language model building and machine translation. Pangeanic contributes to this initiative by leveraging its expertise in AI-driven translation services and developing tools that enhance language processing capabilities

Vue d'ensemble

Pangeanic a établi une relation de collaboration avec le Barcelona Supercomputing Center (BSC), principalement grâce à notre implication dans le domaine du Traitement du langage naturel (TAL) et de l'intelligence artificielle (IA). Ce partenariat est notamment facilité par l'Unité des technologies du langage du BSC, qui se concentre sur l'avancement des technologies de TAL, y compris la construction de modèles de langage massifs et les projets de traduction automatique. Pangeanic contribue aux initiatives du BSC en mettant à profit son expertise dans les services de traduction basés sur l'IA et en développant des outils qui améliorent les capacités de traitement du langage.

Tâches

Annotation de données pour l'IA : Pangeanic a fourni des services d'annotation de données qui soutiennent l'entraînement de l'IA, ce qui peut impliquer une collaboration avec le BSC pour garantir la disponibilité de jeux de données de haute qualité pour les applications de TAL. Notre outil PECAT facilite le contrôle qualité avec intervention humaine (human-in-the-loop), garantissant que les données annotées répondent aux normes élevées nécessaires pour un entraînement efficace de l'IA.

Apprentissage par renforcement à partir de rétroaction humaine (RLHF) : Recueillir les retours humains et collecter des données où les humains classent ou notent les sorties générées par le modèle aide à créer un modèle de récompense.

Mécanismes de détection des biais : Travaux visant à prévenir les biais dans les modèles de langage et les applications de TAL, en développant des outils et en faisant appel à des humains pour créer des jeux de données destinés à la détection des discours haineux dans plusieurs langues. 

Projets de R&D en traduction automatique : Pangeanic a participé à diverses initiatives de recherche et développement pour améliorer les technologies de traduction automatique. Cela inclut des projets qui utilisent les ressources de supercalcul du BSC pour améliorer l'efficacité et la précision des moteurs de traduction, notamment grâce à l'intégration de techniques de traduction automatique par l'IA.

 

La solution de Pangeanic

La collaboration entre Pangeanic et le BSC implique la création de jeux de données personnalisés contenant des segments bilingues classés par domaine et par style, en se concentrant sur la collecte de données bilingues. Ce projet répond à la demande croissante de données personnalisées de haute qualité dans divers secteurs. Le processus comprend la sélection des domaines et des styles de texte, l'identification et l'obtention des sources de données, le crawling de données, le nettoyage et le traitement des données, la validation et l'étiquetage des données, ainsi que la préparation du jeu de données pour les applications de traitement du langage naturel. Le jeu de données du projet constitue une ressource précieuse, en particulier pour les langues à faibles ressources comme le catalan. En proposant des jeux de données personnalisés, le projet Pangeanic BSC établit une nouvelle norme de qualité et de pertinence des données, menant à des solutions basées sur les données plus efficaces et plus précises dans divers secteurs.

L'un des modèles LLM est disponible sur HuggingFace.

 

Résultats

    • Recherche et développement conjoints : Pangeanic collabore avec le BSC sur des projets de R&D européens pour améliorer les technologies de TAL. Cela inclut des travaux sur la traduction automatique, où les moteurs de traduction automatisée de Pangeanic complètent les ressources de calcul haute performance et les LLM du BSC en espagnol, anglais, catalan et d'autres langues.
    • Accent sur les langues à faibles ressources : Les deux organisations s'engagent à promouvoir l'inclusivité dans l'IA en développant des ressources pour les langues à faibles ressources. Leur collaboration vise à créer des outils et des jeux de données open source qui facilitent l'intégration de ces langues dans les modèles d'IA, comblant ainsi les lacunes en matière de représentation numérique.
       
    • Infrastructure technologique : Le partenariat met également l'accent sur la construction d'une infrastructure technologique robuste pour les technologies du langage. Cela inclut l'hébergement de plateformes de benchmarking qui aident à définir l'état de l'art en TAL, ce qui est crucial pour la recherche universitaire et les applications industrielles.
    • Développement éthique de l'IA : Pangeanic se consacre aux pratiques éthiques dans le développement de l'IA, en se concentrant sur la confidentialité des données et l'utilisation responsable des technologies d'IA. Cela s'aligne sur la mission du BSC de favoriser les avancées technologiques qui profitent à la société tout en maintenant des normes éthiques.

L'avenir

La collaboration entre le Barcelona Supercomputing Center (BSC) et Pangeanic représente une avancée majeure dans le développement des technologies d'intelligence artificielle et de traitement du langage naturel. En nous tournant vers l'avenir, ce partenariat est en passe d'apporter des contributions substantielles à plusieurs domaines critiques du développement de l'IA.

Faire progresser le développement des modèles de langage

Les partenariats entre Pangeanic et le BSC continueront de se développer, et l'accent mis sur la construction de modèles de langage massifs intervient à un moment crucial de l'évolution de l'IA. Avec l'émergence de modèles de langage de plus en plus sophistiqués, les capacités de supercalcul du BSC et l'expertise de Pangeanic en technologies linguistiques les positionnent idéalement pour développer des modèles de langage plus efficaces et culturellement adaptés. Leurs travaux sur l'espagnol, l'anglais, le catalan et d'autres langues contribueront à faire progresser l'état de l'art alors que le domaine de l'IA s'oriente vers des modèles présentant une plus grande diversité linguistique.

L'approche du partenariat en matière d'apprentissage par renforcement à partir de rétroaction humaine (RLHF) témoigne de notre esprit d'innovation. En recueillant soigneusement les retours humains et en élaborant des modèles de récompense sophistiqués, nous ne nous contentons pas de construire de meilleurs systèmes d'IA, mais nous créons une IA qui comprend et respecte véritablement les valeurs et les préférences humaines. Ce travail intervient à un moment crucial où l'alignement des systèmes d'IA sur les besoins humains n'a jamais été aussi important.

Nos gusta la filosofía de trabajo de Pangeanic así como su profesionalidad. Su constante trabajo de escucha activa hacia el cliente les hace mejorar cada día más y esa, bajo mi punto de vista, es una de sus grandes cualidades.
Rafael de Jorge
Director de Marketing - Onahotels
Servicio rápido y eficiente. Encontramos la creación de una base de datos de traducciones realizadas por parte de Pangeanic una herramienta muy útil para otras ocasiones y/o trabajos similares.
Chloe Wu
Hisense
La calidad es excelente, como de costumbre. El texto de origen cambió muchas veces durante el proceso de traducción. Pangeanic reaccionó rápidamente a los cambios, lo cual nos ayudó mucho.
Eisuke Seki
ES Japan

Become our next success story?

Choose a goal: saving time and money, scaling operations, or adding AI to your translation workflows: knowledge management and multilingual dissemination with ECOChat. Pangeanic will provide a solution to scale communication and distribution of your content to reach audiences worldwide.


Devenez la prochaine success story de Pangeanic