PangeaMT ECOChat
PangeaMT ECOChat

KÜNSTLICHE INTELLIGENZ

Barcelona Supercomputing Center: Data-for-AI, RLHF, LLM-Tests und F&E

Spanien

Pangeanic has established a collaborative relationship with the Barcelona Supercomputing Center (BSC) primarily through its involvement in the field of Natural Language Processing (NLP) and artificial intelligence (AI). This partnership is notably facilitated by BSC's Language Technologies Unit, which focuses on advancing NLP technologies, including massive language model building and machine translation. Pangeanic contributes to this initiative by leveraging its expertise in AI-driven translation services and developing tools that enhance language processing capabilities

Überblick

Pangeanic hat eine partnerschaftliche Zusammenarbeit mit dem Barcelona Supercomputing Center (BSC) aufgebaut, die sich primär auf unser Engagement im Bereich der Verarbeitung natürlicher Sprache (NLP) und der Künstlichen Intelligenz (KI) gründet. Diese Partnerschaft wird maßgeblich durch die Abteilung für Sprachtechnologien (Language Technologies Unit) des BSC gefördert, die sich auf die Weiterentwicklung von NLP-Technologien konzentriert, einschließlich der Erstellung massiver Sprachmodelle und Projekte zur maschinellen Übersetzung. Pangeanic trägt zu den Initiativen des BSC bei, indem es seine Expertise im Bereich KI-gesteuerter Übersetzungsdienstleistungen einbringt und Tools entwickelt, die die Sprachverarbeitungskapazitäten verbessern.

Aufgabe

Datenannotation für KI: Pangeanic hat Datenannotationsdienste zur Unterstützung des KI-Trainings bereitgestellt. Dies kann eine Zusammenarbeit mit dem BSC beinhalten, um sicherzustellen, dass hochwertige Datensätze für NLP-Anwendungen verfügbar sind. Unser PECAT-Tool ermöglicht eine Human-in-the-Loop-Qualitätskontrolle und stellt sicher, dass die annotierten Daten die hohen Standards erfüllen, die für ein effektives KI-Training erforderlich sind.

Bestärkendes Lernen durch menschliches Feedback (RLHF): Das Sammeln von menschlichem Feedback und Daten, bei denen Menschen die vom Modell generierten Ergebnisse bewerten oder einstufen, hilft bei der Erstellung eines Belohnungsmodells.

Mechanismen zur Bias-Erkennung: Arbeit an der Vermeidung von Verzerrungen (Bias) in Sprachmodellen und NLP-Anwendungen, Entwicklung von Tools und Einsatz von Menschen zur Erstellung von Datensätzen für die Erkennung von Hassrede in mehreren Sprachen. 

F&E-Projekte im Bereich Maschinelle Übersetzung: Pangeanic war an verschiedenen Forschungs- und Entwicklungsinitiativen zur Verbesserung von Technologien für die maschinelle Übersetzung beteiligt. Dazu gehören Projekte, die die Supercomputing-Ressourcen des BSC nutzen, um die Effizienz und Genauigkeit von Übersetzungsengines zu verbessern, insbesondere durch die Integration von KI-Techniken für die maschinelle Übersetzung.

 

Die Lösung von Pangeanic

Die Zusammenarbeit zwischen Pangeanic und BSC beinhaltet die Erstellung maßgeschneiderter Datensätze, die zweisprachige Segmente, klassifiziert nach Fachgebiet und Stil, enthalten, wobei der Schwerpunkt auf der Sammlung zweisprachiger Daten liegt. Dieses Projekt reagiert auf die steigende Nachfrage nach qualitativ hochwertigen, maßgeschneiderten Daten in verschiedenen Branchen. Der Prozess umfasst die Auswahl von Fachgebieten und Textstilen, die Identifizierung und Beschaffung von Datenquellen, das Crawling von Daten, die Datenbereinigung und -verarbeitung, die Datenvalidierung und -kennzeichnung sowie die Vorbereitung des Datensatzes für Anwendungen der natürlichen Sprachverarbeitung. Der Datensatz des Projekts ist eine wertvolle Ressource, insbesondere für ressourcenarme Sprachen wie Katalanisch. Durch das Angebot maßgeschneiderter Datensätze setzt das Pangeanic BSC-Projekt einen neuen Standard für Datenqualität und -relevanz, was zu effizienteren und genaueren datengesteuerten Lösungen in verschiedenen Branchen führt.

Eines der LLM-Modelle ist in HuggingFace verfügbar.

 

Ergebnisse

    • Gemeinsame Forschung und Entwicklung: Pangeanic arbeitet mit dem BSC an europäischen F&E-Projekten zusammen, um NLP-Technologien zu verbessern. Dies beinhaltet die Arbeit an der maschinellen Übersetzung, wobei die automatisierten Übersetzungs-Engines von Pangeanic die Hochleistungsrechenressourcen und LLMs des BSC in Spanisch, Englisch, Katalanisch und anderen Sprachen ergänzen.
    • Fokus auf ressourcenarme Sprachen: Beide Organisationen engagieren sich für die Förderung der Inklusivität in der KI durch die Entwicklung von Ressourcen für ressourcenarme Sprachen. Ihre Zusammenarbeit zielt darauf ab, Open-Source-Tools und Datensätze zu schaffen, die die Integration dieser Sprachen in KI-Modelle erleichtern und somit Lücken in der digitalen Repräsentation schließen.
       
    • Technologische Infrastruktur: Die Partnerschaft legt auch Wert auf den Aufbau einer robusten technologischen Infrastruktur für Sprachtechnologien. Dazu gehört das Hosten von Benchmarking-Plattformen, die zur Definition des Stands der Technik in der NLP beitragen, was für die akademische Forschung und industrielle Anwendungen von entscheidender Bedeutung ist.
    • Ethische KI-Entwicklung: Pangeanic engagiert sich für ethische Praktiken in der KI-Entwicklung, wobei der Schwerpunkt auf Datenschutz und dem verantwortungsvollen Einsatz von KI-Technologien liegt. Dies steht im Einklang mit der Mission des BSC, technologische Fortschritte zu fördern, die der Gesellschaft zugutekommen und gleichzeitig ethische Standards einhalten.

Die Zukunft

Die Zusammenarbeit zwischen dem Barcelona Supercomputing Center (BSC) und Pangeanic stellt einen bedeutenden Schritt nach vorn bei der Weiterentwicklung von Technologien der Künstlichen Intelligenz und der Natürlichen Sprachverarbeitung dar. Mit Blick auf die Zukunft wird diese Partnerschaft voraussichtlich wesentliche Beiträge zu mehreren kritischen Bereichen der KI-Entwicklung leisten.

Weiterentwicklung von Sprachmodellen

Die Partnerschaften zwischen Pangeanic und dem BSC werden weiterwachsen, und der Fokus auf den Aufbau massiver Sprachmodelle kommt zu einem entscheidenden Zeitpunkt in der Entwicklung der KI. Mit dem Aufkommen immer ausgefeilterer Sprachmodelle sind das Supercomputing-Potenzial des BSC und die Expertise von Pangeanic im Bereich der Sprachtechnologien bestens positioniert, um effizientere und kulturell bewusstere Sprachmodelle zu entwickeln. Ihre Arbeit an Spanisch, Englisch, Katalanisch und anderen Sprachen wird zur Weiterentwicklung des Standes der Technik beitragen, da sich das KI-Feld auf sprachlich vielfältigere Modelle zubewegt.

Der Ansatz der Partnerschaft beim Reinforcement Learning from Human Feedback (RLHF) zeugt von unserem Innovationsgeist. Durch das sorgfältige Sammeln von menschlichem Feedback und die Entwicklung ausgefeilter Belohnungsmodelle (Reward Models) bauen sie nicht nur bessere KI-Systeme auf, sondern schaffen KI, die menschliche Werte und Präferenzen wirklich versteht und respektiert. Diese Arbeit kommt zu einem entscheidenden Zeitpunkt, an dem die Ausrichtung von KI-Systemen auf menschliche Bedürfnisse wichtiger denn je ist.

Nos gusta la filosofía de trabajo de Pangeanic así como su profesionalidad. Su constante trabajo de escucha activa hacia el cliente les hace mejorar cada día más y esa, bajo mi punto de vista, es una de sus grandes cualidades.
Rafael de Jorge
Director de Marketing - Onahotels
Servicio rápido y eficiente. Encontramos la creación de una base de datos de traducciones realizadas por parte de Pangeanic una herramienta muy útil para otras ocasiones y/o trabajos similares.
Chloe Wu
Hisense
La calidad es excelente, como de costumbre. El texto de origen cambió muchas veces durante el proceso de traducción. Pangeanic reaccionó rápidamente a los cambios, lo cual nos ayudó mucho.
Eisuke Seki
ES Japan

Werden Sie unsere nächste Erfolgsgeschichte?

Wählen Sie ein Ziel: Zeit und Geld sparen, Abläufe skalieren oder KI in Ihre Übersetzungs-Workflows integrieren: Wissensmanagement und mehrsprachige Verbreitung mit ECOChat. Pangeanic bietet eine Lösung zur Skalierung der Kommunikation und Verbreitung Ihrer Inhalte, um Zielgruppen weltweit zu erreichen.


Werden Sie Pangeanics nächste Erfolgsgeschichte