大規模言語モデルのためのモノリンガルデータセット

Pangeanicのドメイン特化型モノリンガルデータセット、大規模な言語モデルと生成的事前学習済みトランスフォーマーをファインチューニング

生成的事前学習済みトランスフォーマー（GPT）の課題の一つは、最新のドメイン特化情報の取得です。当社の数十年にわたるパラレルコーパス構築の経験は、収集からクリーニング、配信まで、倫理的AIに重点を置いて、大規模言語モデルの人間のような能力を向上させるのに役立ちます。

ほとんどの大規模言語モデル（GPTなど）は、CommonCrawl、Wikipedia、書籍、GitHubどの無料で利用できる一般的なデータを基に構築されています。Pangeanicは、統計的機械翻訳システムおよびニューラル機械翻訳システム訓練用に、数十年にわたってバイリンガルデータセットを蓄積してきました。また、言語モデルのためのモノリンガルデータセットも同様に蓄積しています。LLMがさまざまなアプリケーションに対してますます人気が高まる中、私たちのドメイン特化型のストックは、生成テキストソリューションの創出において貴重なツールとなっています。

100以上の言語における生成システムの言語カバレッジと精度を向上させる

大規模言語モデル（LLM）は世界を変えています。これらは、NLPや関連アプリケーションにとって非常に強力で刺激的なツールであることが証明されています。さまざまな生成的事前学習済みトランスフォーマーは、自然言語入力を驚くべき精度で理解し、文脈に応じた回答、要約、比較を人間と区別がつかないレベルで生成する能力により、人工知能の分野に革命をもたらしています。

Tablero

Pangeanicでは、GPTモデルはまだ完璧ではなく、一般人工知能（GIA）という最終目標に向けて多くの作業が残っていることを理解しています。AIアルゴリズムの訓練時によく起こることですが、良質な訓練データの可用性は、主要な制約の一つです。例えば、最初のGPT-1は、BookCorpusからのわずか4.5GBのテキストデータのデータセットで訓練され、2018年にリリースされました。2019年11月には、GPT-2が40GB以上のテキストデータで訓練され、2020年には570GBの多言語テキストデータで訓練されたGPT-3（「text-davinci-003」と「code-davinci-002」）がリリースされました。GPT-3.5シリーズのChatGPT（GPT3.5）のプロトタイプは、720GBを超える多言語テキストデータで訓練されたという噂があります。

	構成	パラメータ	トレーニングデータセット
GPT-1	12レベル、12ヘッドのトランスフォーマーデコーダー（エンコーダーなし）、その後に線形ソフトマックスがあります。	1.2億	BookCorpus：7000冊のさまざまなジャンルの未発表書籍から収集した4.5GBのテキスト。
GPT-2	GPT-1と同じですが、正規化が修正されています。	15億	WebText：Redditでアップボートされた4500万のウェブページから収集した40GBのテキスト、800万のドキュメント。
GPT-3	GPT-2と同じですが、より大規模なスケーリングを可能にするための修正が加えられています。	175億	570GBのプレーンテキスト、0.4兆トークン。主にCommonCrawl（4100億トークン、60%）、WebText2（4100億トークン、22%）、英語版Wikipedia（30億トークン、3%）、2つの書籍コーパス（Books1は120億トークン、Books2）。

Pangeanicの単言語データセットが特別な理由

言語モデルの訓練に関しては、使用する単言語データセットの質が非常に重要です。CommonCrawlからのペタバイトのデータすべてが、Kosmos、Bloom、ChatGPTなどのモデルの訓練に使用されたわけではありません。これらは高度にキュレーションされています。Pangeanicのチームは、最新の情報を保ち、知識のドメインカバレッジの拡張をサポートし、お客様のチームが十分なデータのマイニングや生成ができない場合のギャップを埋めます。

モノリンガルデータセットは、書籍、記事、ウェブページなど、さまざまな形式で存在します。会話、インタビュー、メール、取扱説明書などのより個人的なデータやポッドキャストは、入手が難しかったり、知的財産権（IP）で保護されています。Pangeanicのチームは、機械翻訳システム用のパラレルコーパスと同様に、IPフリーの人間品質のテキストを作成・蓄積しており、それを複数の言語で行っています。

幅広い言語の専門家チームにお任せください

Pangeanicのチームは、機械学習エンジニア、計算言語学者、翻訳の専門家で構成されています。彼らは協力して、言語モデリングのための各モノリンガルデータセットに対してデータキュレーション、選択、検証を最善の方法で行います。

大規模言語モデルを構築する際に留意すべき点はいくつかあります。Pangeanicは2009年から統計的機械翻訳システムのため、2017年からはニューラル機械翻訳システムのためにこれを構築してきました。

AIモデルを訓練する際には、データセットが正確でスケーラブルであり、お客様のユースケースに関連している必要があるため、以下の6つのポイントを考慮することをお勧めします。これにより、モデルが要件を理解し、関連情報を抽出し、情報に基づいた、正確で、対象ユーザーに受け入れられる結果を提供できるようになります。

サイズ

データセットが大きいほど言語モデリングのパフォーマンスが向上する可能性があるため、データセットのサイズは LLM モデルのトレーニングにとって重要です。理想的には、データセットは言語とテキストドメインの多様性を捉えるのに十分な大きさである必要があります。

多様性

データセットには、ニュース記事、ソーシャルメディアの投稿、科学論文など、さまざまな種類のテキストが含まれている必要があります。これにより、モデルは言語のニュアンスを学習し、さまざまなタスクのパフォーマンスを向上させることができます。

品質

データセットは高品質で、エラーがなく、適切に構造化されている必要があります。データセットの構造が不十分であったり、エラーが多かったりすると、モデルの品質が低下する可能性があります。

ドメイン固有

自動車、電気工学、法律、医療などの特定のドメインの LLM モデルをトレーニングしている場合は、そのドメインに固有のデータセットが必要です。これにより、モデルがその分野の特定の言語と用語を学習し、ドメイン固有のタスクのパフォーマンスが向上します。

連続性

長期間にわたるデータセットは、時間の経過に伴う言語の変化と進化を捉えるのに役立つため、理想的です。

バランス

優れたデータセットには、モデルがバイアスを学習したり、特定の種類のテキストに過剰適合したりするのを防ぐために、さまざまなソースやドメインからのテキストがバランスよく含まれている必要があります。

特定のプロジェクト用の完全な所有権を持つ単言語データセットを構築できます

当社は、大規模で多様、高品質でドメイン特化型、継続的でバランスの取れた単言語テキストを使用して、LLM訓練のための優れたモノリンガルデータセットの構築をお手伝いします。

Pangeanicの単言語データセットはどのように収集されるのか？

言語サービスおよびNLP企業として、私たちは20年間、ドメイン特化型の単言語データセットを蓄積してきました。私たちは、継続的にドメイン内の高品質な翻訳候補を収集・作成しています。これにより、私たちの単言語データセットはユニークなものとなっています。

当社はAI訓練のためにデータをさまざまな方法で収集します。主に、当社のECOプラットフォームとアプリを使用して、特定のトピックについて執筆する個人を募集します。

Pangeanicの言語チームは、クロール不可能なデータもキュレーションし、自由に利用可能なオープンデータをクレンジングして更新し、知的財産権（IP）フリーのバージョンを作成します。

最後に、特にリソースの少ない言語において、公開されていない既存のテキストファイルの一部を購入する契約を結びます。

固有の単言語データセットをお探しですか？

Pangeanicでは、簡単なドラッグアンドドロップのUIを使ってニーズを定義し、データセットをオンラインで簡単にリクエスト、管理、検証できるだけでなく、当社のチームやタスク担当者のパフォーマンスやデータセットの収集進捗を監視することもできます。

すべてのモノリンガルデータセットは、お客様の要件に応じて徹底的に検証、クレンジングされ、関連するメタデータ（年齢、ドメイン、ソースなど）で注釈が付けられます。これにより、お客様のアルゴリズムは、望む通りに正確かつ強力に、そして賢く成長します！

単言語データセットにおける知的財産権

Pangeanicのデータセットは、モノリンガルデータセット、収集した音声（音声データ）、ML訓練用の書き起こしのいずれに対しても、完全な所有権と著作権を提供します。Pangeanicは、倫理的AIがすべてのステップに組み込まれるようにプロセスを遵守しており、お客様の製品にその価値が確実に引き継がれます。お客様は、LLM、MT、ASRのパフォーマンスを向上させるトレーニングデータセットを提供する、信頼できるデータサービスのベンダーとのスムーズな関係を享受し、テキストや音声の生成、収集、処理の手間を省き、また、貴重なメタデータを追加することができます。

音声データセットの感情注釈

感情分析は、ビジネスの意思決定を促進する非常に貴重なインサイトを提供します。Pangeanicは、独自の感情分析ツールを構築する豊富な経験を持っています。感情を抽出するには、その言語のネイティブスピーカーであり、すべてのニュアンスや複雑さ、時には皮肉な表現を理解していなければなりません。当社の音声データは、ポジティブ、ネガティブ、ニュートラルの注釈を付けることができ、感情を理解して独自のインサイトを提供できるMLモデルを訓練するためのデータを追加します。私たちのPECATテキスト注釈ツールは、すべての感情注釈タスクを迅速に行います。

PangeanicのAI向けモノリンガルデータセットをご覧ください

当社はお客様のビジネスの成長をお手伝いしたいと考えています。AIと人間の知恵を組み合わせてカスタムサービスを提供します。テクノロジーに任せましょう。

大規模言語モデルのためのモノリンガルデータセット

単言語データセットのPangeanic

100以上の言語における生成システムの言語カバレッジと精度を向上させる

GPT-1

GPT-2

GPT-3