Die meisten großen Sprachmodelle (wie GPT) basieren auf generischen, frei verfügbaren Daten von CommonCrawl, Wikipedia, Büchern, GitHub und anderen Quellen. Pangeanic hat Jahrzehnte damit verbracht, zweisprachige Datensätze für das Training statistischer und neuronaler maschineller Übersetzungssysteme sowie monolinguale Datensätze für Sprachmodelle zu sammeln. Da LLMs für eine Vielzahl von Anwendungen immer beliebter werden, wird unser domänenspezifisches Angebot zu einem wertvollen Werkzeug für die Erstellung generativer Textlösungen.
Erhöhen Sie die Sprachabdeckung und Genauigkeit generativer Systeme in mehr als 100 Sprachen
Große Sprachmodelle (LLMs) verändern die Welt. Sie haben sich als sehr mächtiges und aufregendes Werkzeug für NLP und verwandte Anwendungen erwiesen. Die verschiedenen generativen vortrainierten Transformatoren revolutionieren das Gebiet der künstlichen Intelligenz, dank ihrer Fähigkeit, natürliche Spracheingaben mit bemerkenswerter Genauigkeit zu verstehen und kontextbezogene Antworten, Zusammenfassungen oder Vergleiche auf einem Niveau zu generieren, das im Allgemeinen von dem eines Menschen nicht zu unterscheiden ist.
Bei Pangeanic verstehen wir, dass GPT-Modelle noch nicht perfekt sind und es noch viel Arbeit auf dem Weg zum endgültigen Ziel einer GAI (General Artificial Intelligence) gibt. Wie oft bei der Ausbildung von KI-Algorithmen ist die Verfügbarkeit guter Trainingsdaten eine der Hauptbeschränkungen. Zum Beispiel wurde das erste GPT-1 auf einem Datensatz von nur 4,5 GB Textdaten aus BookCorpus trainiert und 2018 veröffentlicht. Im November 2019 wurde GPT-2 mit mehr als 40 GB Textdaten trainiert, und GPT-3 ("text-davinci-003" und "code-davinci-002") wurde 2020 nach dem Training mit 570 GB mehrsprachigen Textdaten veröffentlicht. Ein Prototyp der GPT-3.5-Serie ChatGPT (GPT3.5) soll angeblich mit etwas mehr als 720 GB mehrsprachigen Textdaten trainiert worden sein.