パラレルコーパスとは何か?
パラレルコーパスとは、通常2つの言語で書かれた翻訳文の集合体で、文または句レベルで対応付けられたものです。
パラレルコーパスは、最初の統計的機械翻訳システム、そしてその後のニューラル機械翻訳システムの出現により、非常に需要の高いデータとなりました。これらは、あらゆる機械翻訳システムの訓練に不可欠なリソースです。また、多言語データを必要とする他の人工知能(AI)アプリケーションにとっても非常に価値のあるリソースとなっています。例えば、自然言語生成(NLG)など、多くの自然言語処理(NLP)分野でそのような例が見られます。
パラレルコーパスは、機械翻訳の現代的研究において貴重なツールです。これらは翻訳の本質に関する洞察を提供し、確率的機械翻訳システムの訓練に使用することができます。パラレルコーパスの例としては、英語とフランス語によるカナダの議事録(ハンサード)、国連多言語パラレルコーパス、そして言うまでもなく多言語コーパスの最大のコレクションであるDGT翻訳メモリ(europa.eu)などがあります。ただし、これらは当該行政機関の領域に関連する公開データであり、使用する際にはその旨を明記する必要があることにご留意ください。ほとんどのデータセットは広範な精製作業が必要となります。
パラレルコーパスはAIにとってどれほど重要か?
機械翻訳システムをはじめとする多くのAIシステムには、バイリンガルデータまたは多言語データが必要です。このデータは、提供前に高度に管理され、特定分野に適合し、精製されている必要があります。Pangeanicは知的財産権(IP)から自由なデータを収集し、クライアントの要請に応じて独自の単言語データを生成し、それを翻訳して機械翻訳システムの構築や微調整を行います。
当社のパラレルコーパスにより、システムは2つ以上の言語間で単語や句がどのように翻訳されるかを学習し、それらの間に存在する意味や用法の微妙な違いを認識することが可能になります。
200以上の言語の組み合わせが可能です
英語から、または英語への並列コーパスだけでなく、中国語、日本語、韓国語、ヒンディー語、福建語、アラビア語からスペイン語、フランス語、ドイツ語、イタリア語、ブラジルポルトガル語、ロシア語、ポーランド語などの難しい言語ペアの並列コーパスを使用して、真の多言語システムの構築を支援します。
当社の専門分野
AI用データの翻訳サービスに関しては、当社の経験豊富なチームに対応できない言語分野はありません。以下は、当社がパラレルコーパスを提供できる分野の簡一覧です。
- 会話と対話
- 工学分野
- ソーシャルメディア
- 広告
- ソーシャルメディア
- マーケティング
- ウェブ
- コメント
- 金融
- 電子商取引
- 税務問題
- 医療
- 芸術
- 歴史
- 政治
- 行政
- ユーザー生成コンテンツ
- ヘルスケア
- 法律
- ソフトウェア
- ビデオゲーム
- 取扱説明書
- 自動車
- 工学分野
- 教育・学校
- 経済学
- 慣用句、定型表現、ことわざ、熟語
機密保持と所有権 (知的財産権)
当社のクライアントの多くは、既存のデータのオーダー、またはクライアントが提供したデータの翻訳を依頼します。Pangeanic の評判は、機密保持とプライバシー保護の上に成り立っています。当社は単一言語のコーパスを収集、作成、製造し、リクエストに応じてその一部を翻訳します。他のテクノロジー企業との差別化を図ることができる当社独自のデータは、多くのクライアントから高く評価されています。また、クライアントは権利の共有や、一般公開されているオープンアクセスのコーパスの再利用は望んでいません。弊社のクライアントはデータに関する全ての権利を持つことを選択できます。その場合、データはクライアントの所有物となり、弊社はそのデータに固有の識別子をタグ付けして一般のデータベースから分離するため、再販されることはありません。
パラレルコーパスはどこで使用されるか?
すべてのアルゴリズムは、学習のために高品質なパラレルコーパスを必要とします。これは、慎重に選択され、人間によって検証され、特定の分野に特化したコーパスを意味します。Pangeanicは、特定の側面を強化するために、特殊な専門用語や表現を含むコーパスを作成することができます。機械翻訳システム以外にも、パラレルコーパスは音声認識や感情分析システムなど、他の多言語AIアプリケーションの訓練や評価にも使用されます。
Pangeanicはパラレルコーパス構築の課題をどのように克服するか?
AIに携わる全ての人が知っているように、どのような種類の訓練データセットを構築し使用する場合でも課題がないわけではありません。そして、パラレルコーパスも例外ではありません。原言語の収集段階で品質が求められ、そしてもちろん、人間による翻訳と検証の段階でも品質が要求されます。
データの品質
パラレルコーパスは高品質でなければなりません。つまり、正確な翻訳と、文または語句レベルでの整合性が必要です。これは、リソースの少ない言語の場合には実現が難しい場合があります。MTエンジンはポストエディットによって強化されますが、Pangeanic はこの方法に精通しています。
データの量
機械翻訳システムを効果的にトレーニングするには、十分な数の文章が含まれたパラレルコーパスが必要です。話者数が少ない言語や、デジタル上のデータが不足しているリソースの少ない言語(アフリカや、インド亜大陸、東南アジアの言語)は、これまでデータ収集の課題となってきました。Pangeanic はこれらのデータを収集しストックすることに、日々取り組んでいます。会話やダイアログ、税金問題などの「狭い」ドメインで特定のデータを見つけることも課題となります。
データの多様性
パラレルコーパスは、学習対象言語のあらゆるバリエーションとニュアンスを捉えるために、多様でなければなりません。これは、アラビア語やドイツ語 (オーストリア、ドイツ、スイス)、スペイン語など、複数の方言や地域的なバリエーションを持つ言語の場合には特に困難です。
AIにおけるパラレルコーパス使用の例
パラレルコーパスは、機械翻訳、音声認識、感情分析など、多言語データを必要とするAIアプリケーションにとって不可欠なリソースです。以下にいくつかの例を挙げます。
音声認識
パラレルコーパスは、複数の言語の音声を認識する音声認識システムのトレーニングと評価に使用されます。
Pangeanicは、パラレルコーパスの構築と使用において長い実績を持っています。これが困難な課題であることは理解していますが、当社の高品質なコーパスが機械翻訳、音声認識、感情分析に与える利点は、多くの機械翻訳企業の様々な分野における精度、深さ、カバレッジにおいて肯定的な結果をもたらしてきました。何が効果的かを熟知しており、開発者としての当社の言葉を信頼していただけます。