ほとんどの大規模言語モデル(例えば、GPT)は、CommonCrawl、Wikipedia、書籍、GitHubなどの一般的で無料で利用できるデータを基に構築されています。Pangeanicは、統計的およびニューラル機械翻訳システムの訓練のために、数十年にわたってバイリンガルデータセットを蓄積してきました。また、言語モデルのための単言語データセットも同様に蓄積しています。LLMがさまざまなアプリケーションに対してますます人気が高まる中、私たちのドメイン特化型のストックは、生成テキストソリューションの創出において貴重なツールとなっています。
100以上の言語における生成システムの言語カバレッジと精度を向上させる
大規模言語モデル(LLM)は世界を変えています。これらは、NLPや関連アプリケーションにとって非常に強力で刺激的なツールであることが証明されています。さまざまな生成事前学習トランスフォーマーは、自然言語入力を驚くべき精度で理解し、文脈に応じた回答、要約、または比較を生成する能力のおかげで、人工知能の分野を革命的に変えています。これは、一般的に人間と区別がつかないレベルで実現されています。
Pangeanicでは、GPTモデルはまだ完璧ではなく、一般人工知能(GIA)という最終目標に向けて多くの作業が残っていることを理解しています。AIアルゴリズムの訓練時によく起こることですが、良質な訓練データの可用性は、主要な制約の一つです。例えば、最初のGPT-1は、BookCorpusからのわずか4.5GBのテキストデータのデータセットで訓練され、2018年にリリースされました。2019年11月には、GPT-2が40GB以上のテキストデータで訓練され、2020年には570GBの多言語テキストデータで訓練されたGPT-3(「text-davinci-003」と「code-davinci-002」)がリリースされました。GPT-3.5シリーズのChatGPT(GPT3.5)のプロトタイプは、720GBを超える多言語テキストデータで訓練されたという噂があります。