INTELIGENCIA ARTIFICIAL

Barcelona Supercomputing Center: Datos para IA, RLHF, LLM e I+D.

España

Resumen

Pangeanic ha establecido una relación de colaboración con el Barcelona Supercomputing Center (BSC), principalmente en el ámbito del Procesamiento del Lenguaje Natural (PLN) y la Inteligencia Artificial (IA). Esta asociación se encuentra facilitada, en particular, por la Unidad de Tecnologías del Lenguaje del BSC, la cual se especializa en el avance de tecnologías de PLN, incluyendo la construcción de modelos de lenguaje a gran escala y proyectos de traducción automática. Pangeanic contribuye a las iniciativas del BSC aprovechando su experiencia en servicios de traducción impulsados por IA y desarrollando herramientas que mejoran las capacidades de procesamiento del lenguaje.

Tareas

Anotación de datos para IA : Pangeanic ha proporcionado servicios de anotación de datos que respaldan el entrenamiento de sistemas de IA, colaborando con el BSC para garantizar la disponibilidad de conjuntos de datos de alta calidad para aplicaciones de Procesamiento del Lenguaje Natural. Nuestra PECAT herramienta PECAT facilita el control de calidad con intervención humana, asegurando que los datos anotados cumplan con los estándares exigentes necesarios para un entrenamiento eficaz de los modelos de IA.

Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF): La recopilación de retroalimentación humana y la generación de datos donde las personas clasifican o puntúan las salidas generadas por el modelo contribuyen a la creación de un modelo de recompensa, esencial para optimizar el aprendizaje de los sistemas de IA.

Mecanismos de detección de sesgos: Trabajamos en la prevención de sesgos en los modelos de lenguaje y aplicaciones de PLN, desarrollando herramientas y utilizando intervenciones humanas para crear conjuntos de datos diseñados para detectar discursos de odio en múltiples idiomas.

Proyectos de I+D en traducción automática:: Pangeanic ha participado en diversas iniciativas de investigación y desarrollo dirigidas a mejorar las tecnologías de traducción automática. Esto incluye proyectos que aprovechan los recursos de supercomputación del BSC para optimizar la eficiencia y precisión de los motores de traducción, en particular mediante la integración de técnicas de traducción automática basadas en IA.

Solución de Pangeanic

La colaboración entre Pangeanic y BSC implica la creación de conjuntos de datos personalizados que contienen segmentos bilingües clasificados por dominio y estilo, con un enfoque particular en la recopilación de datos bilingües. Este proyecto responde a la creciente demanda de datos personalizados de alta calidad en diversas industrias. El proceso incluye la selección de dominios y estilos de texto, la identificación y obtención de fuentes de datos, la extracción automatizada de datos, la limpieza y el procesamiento de los mismos, la validación y el etiquetado de datos, así como la preparación del conjunto de datos para aplicaciones de procesamiento del lenguaje natural.

Uno de los LLM está disponible en HuggingFace.

Resultados

- Investigación y desarrollo conjuntos:: Pangeanic colabora con el BSC en proyectos europeos de I+D para mejorar las tecnologías de procesamiento del lenguaje natural (PLN). Esto incluye trabajos en traducción automática, donde los motores de traducción automatizada de Pangeanic complementan los recursos de supercomputación y LLMs del BSC en español, inglés, catalán y otros idiomas.
- Enfoque en idiomas con recursos limitados: Ambas organizaciones están comprometidas con la promoción de la inclusividad en la inteligencia artificial mediante el desarrollo de recursos para idiomas con recursos limitados. Su colaboración busca crear herramientas y conjuntos de datos de código abierto que faciliten la integración de estos idiomas en los modelos de IA, abordando así las brechas en la representación digital.
- Infraestructura tecnológica: La asociación también pone énfasis en construir una infraestructura tecnológica sólida para las tecnologías del lenguaje. Esto incluye la creación de plataformas de evaluación comparativa que ayudan a definir el estado del arte en el PLN, un aspecto crucial tanto para la investigación académica como para las aplicaciones industriales..
- Desarrollo ético de la IA: Pangeanic está comprometido con prácticas éticas en el desarrollo de IA, centradas en la privacidad de los datos y el uso responsable de las tecnologías de inteligencia artificial. Este enfoque se alinea con la misión del BSC de fomentar avances tecnológicos que beneficien a la sociedad mientras se mantienen altos estándares éticos.

El Futuro

La colaboración entre el Barcelona Supercomputing Center (BSC) y Pangeanic representa un avance significativo en el desarrollo de tecnologías de Inteligencia Artificial y Procesamiento del Lenguaje Natural. De cara al futuro, esta asociación está preparada para realizar contribuciones sustanciales en varias áreas críticas del desarrollo de la IA.

Avances en el desarrollo de modelos de lenguaje

Las asociaciones entre Pangeanic y el BSC continuarán fortaleciéndose, y su enfoque en la construcción de modelos de lenguaje a gran escala llega en un momento crucial en la evolución de la IA. Con la aparición de modelos de lenguaje cada vez más sofisticados, las capacidades de supercomputación del BSC y la experiencia de Pangeanic en tecnologías del lenguaje los posicionan para desarrollar modelos más eficientes y culturalmente sensibles. Su trabajo en español, inglés, catalán y otros idiomas contribuirá al avance del estado del arte a medida que el campo de la IA avanza hacia modelos lingüísticamente más diversos.

El enfoque de la asociación hacia el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) es un reflejo de su espíritu innovador. Al recopilar cuidadosamente retroalimentación humana y desarrollar modelos de recompensa sofisticados, no solo están construyendo sistemas de IA más avanzados, sino también creando IA que comprende y respeta verdaderamente los valores y preferencias humanas. Este trabajo llega en un momento crucial, en el que la alineación de los sistemas de IA con las necesidades humanas nunca ha sido más importante.

Nos gusta la filosofía de trabajo de Pangeanic así como su profesionalidad. Su constante trabajo de escucha activa hacia el cliente les hace mejorar cada día más y esa, bajo mi punto de vista, es una de sus grandes cualidades.

Rafael de Jorge

Director de Marketing - Onahotels

Servicio rápido y eficiente. Encontramos la creación de una base de datos de traducciones realizadas por parte de Pangeanic una herramienta muy útil para otras ocasiones y/o trabajos similares.

Chloe Wu

Hisense

La calidad es excelente, como de costumbre. El texto de origen cambió muchas veces durante el proceso de traducción. Pangeanic reaccionó rápidamente a los cambios, lo cual nos ayudó mucho.

Eisuke Seki

ES Japan

¿Quiere convertirse en nuestra próxima historia de éxito?

Elija un objetivo: ahorrar tiempo y dinero, escalar operaciones o añadir IA a sus flujos de trabajo de traducción: gestión del conocimiento y difusión multilingüe con ECOChat. Pangeanic le ofrecerá una solución para escalar la comunicación y distribución de su contenido, alcanzando audiencias en todo el mundo.