大規模言語モデルのための単言語データセット

私たちのドメイン特化型単言語データセットで大規模言語モデルと生成事前学習トランスフォーマーをファインチューニングします。

生成事前学習トランスフォーマー(GPT)の課題の一つは、最新のドメイン特化情報を取得することです。私たちの数十年にわたる平行コーパス構築の経験は、収集からクリーニング、配信まで、倫理的AIに強く焦点を当てて、大規模言語モデルの人間らしい能力を向上させるのに役立ちます。

お問い合わせ

 

単言語データセットのためのPangeanic

ほとんどの大規模言語モデル(例えば、GPT)は、CommonCrawlWikipedia、書籍、GitHubなどの一般的で無料で利用できるデータを基に構築されています。Pangeanicは、統計的およびニューラル機械翻訳システムの訓練のために、数十年にわたってバイリンガルデータセットを蓄積してきました。また、言語モデルのための単言語データセットも同様に蓄積しています。LLMがさまざまなアプリケーションに対してますます人気が高まる中、私たちのドメイン特化型のストックは、生成テキストソリューションの創出において貴重なツールとなっています。

 

100以上の言語における生成システムの言語カバレッジと精度を向上させる

大規模言語モデル(LLM)は世界を変えています。これらは、NLPや関連アプリケーションにとって非常に強力で刺激的なツールであることが証明されています。さまざまな生成事前学習トランスフォーマーは、自然言語入力を驚くべき精度で理解し、文脈に応じた回答、要約、または比較を生成する能力のおかげで、人工知能の分野を革命的に変えています。これは、一般的に人間と区別がつかないレベルで実現されています。

Tablero

Pangeanicでは、GPTモデルはまだ完璧ではなく、一般人工知能(GIA)という最終目標に向けて多くの作業が残っていることを理解しています。AIアルゴリズムの訓練時によく起こることですが、良質な訓練データの可用性は、主要な制約の一つです。例えば、最初のGPT-1は、BookCorpusからのわずか4.5GBのテキストデータのデータセットで訓練され、2018年にリリースされました。2019年11月には、GPT-2が40GB以上のテキストデータで訓練され、2020年には570GBの多言語テキストデータで訓練されたGPT-3(「text-davinci-003」と「code-davinci-002」)がリリースされました。GPT-3.5シリーズのChatGPT(GPT3.5)のプロトタイプは、720GBを超える多言語テキストデータで訓練されたという噂があります。

建築 パラメータ トレーニング データセット

GPT-1

12レベル、12ヘッドのトランスフォーマーデコーダー(エンコーダーなし)、その後に線形ソフトマックスがあります。

1.2億

BookCorpus:7000冊のさまざまなジャンルの未発表書籍からの4.5GBのテキスト。

GPT-2

GPT-1ですが、正規化が修正されています。

15億

WebText:Redditでアップボートされた4500万のウェブページからの40GBのテキスト、800万のドキュメント。

GPT-3

GPT-2ですが、より大規模なスケーリングを可能にするための修正が加えられています。

175億

570GBのプレーンテキスト、0.4兆トークン。主にCommonCrawl(4100億トークン、60%)、WebText2(4100億トークン、22%)、英語版Wikipedia(30億トークン、3%)、2つの書籍コーパス(Books1は120億トークン、Books2)。

Pangeanicの単言語データセットが特別な理由

言語モデルの訓練に関しては、使用する単言語データセットの質が非常に重要です。CommonCrawlからのペタバイトのデータすべてが、Kosmos、Bloom、ChatGPTなどのモデルの訓練に使用されたわけではありません。これらは高度にキュレーションされています。Pangeanicのチームは、最新の情報を保ち、知識のドメインカバレッジを拡張し、あなたのチームが十分なデータを採掘または生成できないギャップを埋めるのをサポートします。

精密な技術

単言語データセットは、書籍から記事、ウェブページなど、さまざまな形式で存在します。会話、インタビュー、メール、取扱説明書などのより個人的なデータやポッドキャストは、入手が難しいか、知的財産権(IP)で保護されています。私たちのチームは、機械翻訳システムのための平行コーパスと同様に、IPフリーの人間品質のテキストを作成・蓄積しています。そして、複数の言語でそれを行っています!

拡張された専門の言語チームを信頼してください

私たちのチームは、機械学習エンジニア、計算言語学者、翻訳の専門家で構成されています。彼らは一緒になって、各単言語データセットのデータキュレーション、選択、検証を最善の方法で行います。

お問い合わせ 

MicrosoftTeams-image (157)
 

良い単言語データセットのためのヒント

大規模言語モデルを構築する際に留意すべき点はいくつかあります。Pangeanicは2009年から統計的機械翻訳のために、2017年からはニューラルMTシステムのためにこれを構築してきました。

AIモデルを訓練する際には、データセットが正確でスケーラブルであり、あなたのユースケースに関連していることを保証するために、以下の6つのポイントを考慮することをお勧めします。これにより、モデルが要件を理解し、関連情報を抽出し、ターゲットユーザーにとって情報に基づき、正確で受け入れられる結果を提供できるようになります。

その他

サイズ

データセットが大きいほど言語モデリングのパフォーマンスが向上する可能性があるため、データセットのサイズは LLM モデルのトレーニングにとって重要です。理想的には、データセットは言語とテキスト ドメインの多様性を捉えるのに十分な大きさである必要があります。

専門家による翻訳

多様性

データセットには、ニュース記事、ソーシャル メディアの投稿、科学論文など、さまざまな種類のテキストが含まれている必要があります。これにより、モデルは言語のニュアンスを学習し、さまざまなタスクのパフォーマンスを向上させることができます。

統合 API

品質

データセットは高品質で、エラーがなく、適切に構造化されている必要があります。データセットの構造が不十分であったり、エラーが多かったりすると、モデルの品質が低下する可能性があります。

無限

ドメイン固有

自動車、電気工学、法律、医療などの特定のドメインの LLM モデルをトレーニングしている場合は、そのドメインに固有のデータセットが必要です。これにより、モデルがその分野の特定の言語と用語を学習し、ドメイン固有のタスクのパフォーマンスが向上します。

パフォーマンス

連続

長期間にわたるデータセットは、時間の経過に伴う言語の変化と進化を捉えるのに役立つため、理想的です。

メトリクス

バランスの取れた

優れたデータセットには、モデルがバイアスを学習したり、特定の種類のテキストに過剰適合したりするのを防ぐために、さまざまなソースやドメインからのテキストがバランスよく含まれている必要があります。

特定のプロジェクトのために完全な所有権を持つ単言語データセットを構築できます

私たちは、大規模で多様な、高品質のドメイン特化型の継続的かつバランスの取れた単言語テキストを使用して、LLM訓練のための良い単言語データセットの構築をお手伝いします。

お問い合わせ 

Seguridad datos

Pangeanicの単言語データセットはどのように収集されますか?

言語サービスおよびNLP企業として、私たちは20年間、ドメイン特化型の単言語データセットを蓄積してきました。私たちは、継続的にドメイン内の高品質な翻訳候補を収集・作成しています。これにより、私たちの単言語データセットはユニークなものとなっています。

私たちは、AI訓練のためにデータをいくつかの方法で収集します。主に、私たちのECOプラットフォームとアプリを使用して、特定のトピックについて執筆する個人を募集します。

ilustracion-security-2

私たちの言語チームは、クロール不可能なデータもキュレーションし、自由に利用可能なオープンデータをクリーンアップして更新し、知的財産権(IP)フリーのバージョンを作成します。

最後に、特にリソースの少ない言語において、公開されていない既存のテキストファイルの小さなセクションを購入する契約を結びます。

私たちはあなたをサポートするためにここにいます

・単言語データセットの在庫

・100以上の言語

・オーダーメイド

デモのリクエスト

特定の単言語データセットをお探しですか?

Pangeanicでは、ニーズを定義してデータセットをオンラインで簡単にリクエスト、管理、検証できるだけでなく、ドラッグアンドドロップのUIを使って、私たちのチームやタスカーのパフォーマンスやデータセットの収集進捗を監視することもできます。

すべての単言語データセットは、あなたの要件に応じて、関連するメタデータ(年齢、ドメイン、ソースなど)を付加して徹底的に検証され、クリーンアップされ、注釈が付けられます。これにより、あなたのアルゴリズムは、望む通りに正確かつ強力に、そして賢明に成長します!

sentimiento
褒美

単言語データセットにおける知的財産権

私たちのデータセットは、単言語データセットや収集した音声(音声データ)、およびML訓練のための転写に対して、完全な所有権と著作権を提供します。Pangeanicは、倫理的AIがすべてのステップに組み込まれるようにプロセスを遵守しており、あなたの製品にその価値が引き継がれることを確信できます。私たちの顧客は、LLM、MT、またはASRのパフォーマンスを向上させるためのトレーニングデータセットを提供する信頼できるデータサービスのベンダーとのスムーズな関係を楽しんでおり、テキストや音声を生成、収集、処理する手間を省きながら、貴重なメタデータを追加することができます。

チェック

音声データセットの感情注釈

感情分析は、ビジネスの意思決定を促進する非常に貴重な洞察を提供します。Pangeanicは、自社の感情分析ツールを構築する豊富な経験を持っています。感情を抽出するには、その言語のネイティブスピーカーであり、すべてのニュアンスや複雑さ、時には皮肉的な表現を理解している必要があります。私たちの録音は、ポジティブ、ネガティブ、またはニュートラルとして注釈を付けることができ、感情を理解し、自らの洞察を提供できるMLモデルの訓練に役立つデータを追加します。私たちのPECATテキスト注釈ツールは、すべての感情注釈タスクを迅速化します。

PangeanicのAI用単言語データセットを発見してください

私たちは、あなたのビジネスの成長をお手伝いしたいと考えています。AIと人間の創意工夫を組み合わせて、カスタムサービスを提供します。テクノロジーにあなたのために仕事をさせましょう。

お問い合わせ 

tecnologia