機械翻訳システム用パラレルコーパス

人手で作成された高品質パラレルコーパスで機械翻訳システムを構築・改善

当社は翻訳業を起源とするため、機械翻訳システム用パラレルコーパスの作成において長年の実績があります。当社の蓄積データ、翻訳サービス、ポストエディティングサービスは、世界的に有名なオンライン機械翻訳システムの多くの訓練に使用されてきました。

お問い合わせ

パラレルコーパスとは何か?

パラレルコーパスとは、通常2つの言語で書かれた翻訳文の集合体で、文または句レベルで対応付けられたものです。

パラレルコーパスは、最初の統計的機械翻訳システム、そしてその後のニューラル機械翻訳システムの出現により、非常に需要の高いデータとなりました。これらは、あらゆる機械翻訳システムの訓練に不可欠なリソースです。また、多言語データを必要とする他の人工知能(AI)アプリケーションにとっても非常に価値のあるリソースとなっています。例えば、自然言語生成(NLG)など、多くの自然言語処理(NLP)分野でそのような例が見られます。

parallel corpora

パラレルコーパスは、機械翻訳の現代的研究において貴重なツールです。これらは翻訳の本質に関する洞察を提供し、確率的機械翻訳システムの訓練に使用することができます。パラレルコーパスの例としては、英語とフランス語によるカナダの議事録(ハンサード)、国連多言語パラレルコーパス、そして言うまでもなく多言語コーパスの最大のコレクションであるDGT翻訳メモリ(europa.eu)などがあります。ただし、これらは当該行政機関の領域に関連する公開データであり、使用する際にはその旨を明記する必要があることにご留意ください。ほとんどのデータセットは広範な精製作業が必要となります。

パラレルコーパスはAIにとってどれほど重要か?

機械翻訳システムをはじめとする多くのAIシステムには、バイリンガルデータまたは多言語データが必要です。このデータは、提供前に高度に管理され、特定分野に適合し、精製されている必要があります。Pangeanicは知的財産権(IP)から自由なデータを収集し、クライアントの要請に応じて独自の単言語データを生成し、それを翻訳して機械翻訳システムの構築や微調整を行います。

当社のパラレルコーパスにより、システムは2つ以上の言語間で単語や句がどのように翻訳されるかを学習し、それらの間に存在する意味や用法の微妙な違いを認識することが可能になります。

Parallel corpora are the basis of many AI applications, like machine translation. Pangeanic offers human-approved translations so you can build your own machine translation system (or improve it!)
高品質の並列データ(人間による翻訳)により、人間の翻訳とほとんど区別できない品質の機械翻訳システムを作成できます。

+200 の言語の組み合わせ!

私たちは、英語からまたは英語への並列コーパスだけでなく、中国語、日本語、韓国語、ヒンディー語、福建語、アラビア語からスペイン語、フランス語、ドイツ語、イタリア語、ブラジルポルトガル語、ロシア語、ポーランド語などの難しい言語ペアの並列コーパスを使用して、真の多言語システムの構築を支援します。

パフォーマンス

当社の専門分野の一部

AI用データの翻訳サービスに関しては、当社の経験豊富なチームが対応できない言語分野はありません。以下は、当社がパラレルコーパスを提供できる分野の簡潔なリストです:

  • 会話と対話 
  • 工学分野 
  • ソーシャルメディア
  • 広告
  • ソーシャルメディア
  • マーケティング
  • ウェブ
  • コメント
  • 金融

 

  • 電子商取引
  • 税務問題
  • 医療
  • 芸術
  • 歴史
  • 政治
  • 行政
  • ユーザー生成コンテンツ
  • ヘルスケア
  • 法律
  • ソフトウェア
  • ビデオゲーム
  • 取扱説明書 
  • 自動車 
  • 工学分野 
  • 教育・学校
  • 経済学
  • 慣用句、定型表現、諺、熟語
安全

機密保持と所有権 (知的財産権)

当社の顧客の多くは、当社の在庫から注文したり、提供されたデータから翻訳サービスを要求したりしています。 Pangeanic の評判は機密保持とプライバシーによって築かれています。弊社は単一言語コーパスを収集、作成、製造し、ご要望に応じてその一部を翻訳します。当社のクライアントの多くは、他のテクノロジー企業と差別化できる独自のデータを高く評価しており、権利を共有したり、一般に入手可能なオープンアクセスのコーパスを再利用したりすることを望んでいません。 当社のクライアントは、データに対する完全な権利を持つことを選択でき、データは自分の財産となり、Pangeanic がそのデータに一意の識別子をタグ付けして一般のデータベースから分離するため、再販されることはありません。

 

パラレルコーパスはどこで使用されるか?

すべてのアルゴリズムは、学習のために高品質なパラレルコーパスを必要とします。これは、慎重に選択され、人間によって検証され、特定の分野に特化したコーパスを意味します。Pangeanicは、特定の側面を強化するために、特殊な専門用語や表現を含むコーパスを作成することができます。機械翻訳システム以外にも、パラレルコーパスは音声認識や感情分析システムなど、他の多言語AIアプリケーションの訓練や評価にも使用されます。

Pangeanicはパラレルコーパス構築の課題をどのように克服するか

AIに携わる全ての人が知っているように、どのような種類の訓練データセットを構築し使用する場合でも課題がないわけではありません。そして、パラレルコーパスも例外ではありません。原言語の収集段階で品質が求められ、そしてもちろん、人間による翻訳と検証の段階でも品質が要求されます。

ステップ-1
Data quality

対訳コーパスは高品質でなければなりません。つまり、翻訳は正確で、文または語句レベルで整合していなければなりません。これは、特にリソースの少ない言語を扱う場合には達成が困難な場合があります。ポストエディットは特定の MT エンジンのスタイルを強化する戦略となっており、パンゲアニックにとっては珍しいことではありません。

ステップ2
データ量

対訳コーパスは、有用であるために十分な大きさでなければなりません。これは、機械翻訳システムの効果的なトレーニングを可能にするのに十分な数の文が含まれている必要があることを意味します。話者が少ない、またはデジタルでの存在感が不足しているリソースの少ない言語 (アフリカの言語、インド亜大陸、東南アジアの言語) は歴史的にデータ収集の課題となっており、パンゲアニック語ではストックを構築するために日々取り組んでいます。会話や対話などの領域で特定のデータを見つけること、税務問題は「狭い」領域であることも課題です。

ステップ-3
データの多様性

パラレルコーパスは、学習対象の言語のあらゆるバリエーションとニュアンスを捉えるのに十分な多様性を持っていなければなりません。これは、アラビア語やドイツ語 (オーストリア発、ドイツ発、スイス発) やスペイン語など、複数の方言や地域的バリエーションがある言語を扱う場合に特に困難になる可能性があります。

お客様の機械翻訳システムを構築または微調整していますか?

訓練データの一部となるよう、慎重な専門家による人手翻訳が必要なデータセットをお持ちですか?

お問い合わせ 

calidad

AIにおけるパラレルコーパス使用の例

パラレルコーパスは、機械翻訳、音声認識、感情分析など、多言語データを必要とするAIアプリケーションにとって不可欠なリソースです。以下にいくつかの例を挙げます:

Pangeanicは、パラレルコーパスの構築と使用において長い実績を持っています。これが困難な課題であることは理解していますが、当社の高品質なコーパスが機械翻訳、音声認識、感情分析に与える利点は、多くの機械翻訳企業の様々な分野における精度、深さ、カバレッジにおいて肯定的な結果をもたらしてきました。何が効果的かを熟知しており、開発者としての当社の言葉を信頼していただけます。

言語は進化し、AIは進歩し続ける

当社のコーパス収集チームは、新しい単語や、新型コロナウイルス、リモートワーク、ステイケーションなどの新しい状況によって生まれた新しい表現を、多くの言語で収集することに尽力しています。これは、高品質なパラレルコーパスや機械翻訳エンジンの更新に対する需要に応えるためです。

お問い合わせ 

beneficios-api