INTELLIGENZA ARTIFICIALE

Barcelona Supercomputing Center: Dati per l'IA, RLHF, test di LLM e R&S

Spagna

Panoramica

Pangeanic ha instaurato un rapporto di collaborazione con il Barcelona Supercomputing Center (BSC) principalmente attraverso il nostro coinvolgimento nel campo dell' Elaborazione del Linguaggio Naturale (NLP) e dell'Intelligenza Artificiale (IA). Questa partnership è facilitata in particolare dall'Unità di Tecnologie Linguistiche del BSC, che si concentra sull'avanzamento delle tecnologie NLP, compresa la creazione di modelli linguistici massivi e progetti di traduzione automatica. Pangeanic contribuisce alle iniziative del BSC sfruttando la sua esperienza nei servizi di traduzione basati sull'IA e sviluppando strumenti che migliorano le capacità di elaborazione del linguaggio.

Attività

Annotazione di Dati per l'IA: Pangeanic ha fornito servizi di annotazione dati che supportano l'addestramento dell'IA, il che può implicare la collaborazione con il BSC per garantire la disponibilità di set di dati di alta qualità per le applicazioni NLP. Il nostro strumento PECAT facilita il controllo qualità human-in-the-loop, assicurando che i dati annotati soddisfino gli elevati standard necessari per un addestramento efficace dell'IA.

Apprendimento per Rinforzo basato sul Feedback Umano (RLHF): La raccolta del feedback umano e dei dati in cui gli esseri umani classificano o valutano gli output generati dal modello aiuta a creare un modello di ricompensa.

Meccanismi di rilevamento dei bias: Lavoro per prevenire i bias nei modelli linguistici e nelle applicazioni NLP, sviluppando strumenti e impiegando esseri umani per creare set di dati per il rilevamento dell'incitamento all'odio (hate speech) in più lingue.

Progetti di R&S nella Traduzione Automatica: Pangeanic è stata coinvolta in diverse iniziative di ricerca e sviluppo per migliorare le tecnologie di traduzione automatica. Ciò include progetti che utilizzano le risorse di supercalcolo del BSC per migliorare l'efficienza e l'accuratezza dei motori di traduzione, in particolare attraverso l'integrazione di tecniche di traduzione automatica basate sull'IA.

La soluzione di Pangeanic

La collaborazione tra Pangeanic e il BSC prevede la creazione di set di dati personalizzati contenenti segmenti bilingue classificati per dominio e stile, concentrandosi sulla raccolta di dati bilingue. Questo progetto risponde alla crescente domanda di dati personalizzati di alta qualità in vari settori. Il processo include la selezione di domini e stili di testo, l'identificazione e l'ottenimento di fonti di dati, il crawling dei dati, la pulizia e l'elaborazione dei dati, la validazione e l'etichettatura dei dati e la preparazione del set di dati per applicazioni di elaborazione del linguaggio naturale. Il set di dati del progetto è una risorsa preziosa, specialmente per le lingue a basse risorse (low-resource) come il catalano. Offrendo set di dati personalizzati, il progetto Pangeanic BSC stabilisce un nuovo standard di qualità e rilevanza dei dati, portando a soluzioni data-driven più efficienti e accurate in vari settori.

Uno dei modelli LLM è disponibile su HuggingFace.

Risultati

- Ricerca e Sviluppo Congiunti: Pangeanic collabora con il BSC a progetti europei di R&S per migliorare le tecnologie NLP. Ciò include il lavoro sulla traduzione automatica, dove i motori di traduzione automatica di Pangeanic integrano le risorse di calcolo ad alte prestazioni e gli LLM del BSC in spagnolo, inglese, catalano e altre lingue.
- Focus sulle Lingue a Basse Risorse (Under-Resourced): Entrambe le organizzazioni sono impegnate a promuovere l'inclusività nell'IA sviluppando risorse per le lingue a basse risorse. La loro collaborazione mira a creare strumenti e set di dati open-source che facilitino l'integrazione di queste lingue nei modelli di IA, colmando così le lacune nella rappresentazione digitale.
- Infrastruttura Tecnologica: La partnership pone l'accento anche sulla costruzione di un'infrastruttura tecnologica solida per le tecnologie linguistiche. Ciò include l'hosting di piattaforme di benchmarking che aiutano a definire lo stato dell'arte nell'NLP, cruciale per la ricerca accademica e le applicazioni industriali.
- Sviluppo Etico dell'IA: Pangeanic si dedica a pratiche etiche nello sviluppo dell'IA, concentrandosi sulla privacy dei dati e sull'uso responsabile delle tecnologie di IA. Questo si allinea con la missione del BSC di promuovere progressi tecnologici a beneficio della società, mantenendo al contempo standard etici.

Il Futuro

La collaborazione tra il Barcelona Supercomputing Center (BSC) e Pangeanic rappresenta un significativo passo avanti nel progresso delle tecnologie di Intelligenza Artificiale e di Elaborazione del Linguaggio Naturale. Guardando al futuro, questa partnership è destinata a dare un contributo sostanziale a diverse aree critiche dello sviluppo dell'IA.

Avanzamento dello Sviluppo dei Modelli Linguistici

Le partnership tra Pangeanic e il BSC continueranno a crescere e l'attenzione alla creazione di modelli linguistici massivi giunge in un momento cruciale nell'evoluzione dell'IA. Con l'emergere di modelli linguistici sempre più sofisticati, le capacità di supercalcolo del BSC e l'esperienza di Pangeanic nelle tecnologie linguistiche li posizionano per sviluppare modelli linguistici più efficienti e culturalmente consapevoli. Il loro lavoro sullo spagnolo, l'inglese, il catalano e altre lingue contribuirà all'avanzamento dello stato dell'arte, mentre il campo dell'IA si muove verso modelli linguisticamente più diversificati.

L'approccio della partnership all'Apprendimento per Rinforzo basato sul Feedback Umano (RLHF) è una testimonianza del nostro spirito innovativo. Raccogliendo attentamente il feedback umano e creando sofisticati modelli di ricompensa, non sta solo costruendo sistemi di IA migliori, ma creando un'IA che comprende e rispetta veramente i valori e le preferenze umane. Questo lavoro arriva in un momento cruciale in cui l'allineamento dei sistemi di IA con le esigenze umane non è mai stato così importante.

Nos gusta la filosofía de trabajo de Pangeanic así como su profesionalidad. Su constante trabajo de escucha activa hacia el cliente les hace mejorar cada día más y esa, bajo mi punto de vista, es una de sus grandes cualidades.

Rafael de Jorge

Director de Marketing - Onahotels

Servicio rápido y eficiente. Encontramos la creación de una base de datos de traducciones realizadas por parte de Pangeanic una herramienta muy útil para otras ocasiones y/o trabajos similares.

Chloe Wu

Hisense

La calidad es excelente, como de costumbre. El texto de origen cambió muchas veces durante el proceso de traducción. Pangeanic reaccionó rápidamente a los cambios, lo cual nos ayudó mucho.

Eisuke Seki

ES Japan

Vuoi diventare la nostra prossima storia di successo?

Scegli un obiettivo: risparmiare tempo e denaro, scalare le operazioni o aggiungere l'IA ai tuoi flussi di lavoro di traduzione: gestione della conoscenza e diffusione multilingue con ECOChat. Pangeanic fornirà una soluzione per scalare la comunicazione e la distribuzione dei tuoi contenuti per raggiungere un pubblico in tutto il mondo.