ほとんどの大規模言語モデル(GPTなど)は、CommonCrawl、Wikipedia、書籍、GitHubどの無料で利用できる一般的なデータを基に構築されています。Pangeanicは、統計的機械翻訳システムおよびニューラル機械翻訳システム訓練用に、数十年にわたってバイリンガルデータセットを蓄積してきました。また、言語モデルのためのモノリンガルデータセットも同様に蓄積しています。LLMがさまざまなアプリケーションに対してますます人気が高まる中、私たちのドメイン特化型のストックは、生成テキストソリューションの創出において貴重なツールとなっています。
100以上の言語における生成システムの言語カバレッジと精度を向上させる
大規模言語モデル(LLM)は世界を変えています。これらは、NLPや関連アプリケーションにとって非常に強力で刺激的なツールであることが証明されています。さまざまな生成的事前学習済みトランスフォーマーは、自然言語入力を驚くべき精度で理解し、文脈に応じた回答、要約、比較を人間と区別がつかないレベルで生成する能力により、人工知能の分野に革命をもたらしています。
Pangeanicでは、GPTモデルはまだ完璧ではなく、一般人工知能(GIA)という最終目標に向けて多くの作業が残っていることを理解しています。AIアルゴリズムの訓練時によく起こることですが、良質な訓練データの可用性は、主要な制約の一つです。例えば、最初のGPT-1は、BookCorpusからのわずか4.5GBのテキストデータのデータセットで訓練され、2018年にリリースされました。2019年11月には、GPT-2が40GB以上のテキストデータで訓練され、2020年には570GBの多言語テキストデータで訓練されたGPT-3(「text-davinci-003」と「code-davinci-002」)がリリースされました。GPT-3.5シリーズのChatGPT(GPT3.5)のプロトタイプは、720GBを超える多言語テキストデータで訓練されたという噂があります。