パラレルコーパスとは何か?
パラレルコーパスとは、通常2つの言語で書かれた翻訳文の集合体で、文または句レベルで対応付けられたものです。
パラレルコーパスは、最初の統計的機械翻訳システム、そしてその後のニューラル機械翻訳システムの出現により、非常に需要の高いデータとなりました。これらは、あらゆる機械翻訳システムの訓練に不可欠なリソースです。また、多言語データを必要とする他の人工知能(AI)アプリケーションにとっても非常に価値のあるリソースとなっています。例えば、自然言語生成(NLG)など、多くの自然言語処理(NLP)分野でそのような例が見られます。
パラレルコーパスは、機械翻訳の現代的研究において貴重なツールです。これらは翻訳の本質に関する洞察を提供し、確率的機械翻訳システムの訓練に使用することができます。パラレルコーパスの例としては、英語とフランス語によるカナダの議事録(ハンサード)、国連多言語パラレルコーパス、そして言うまでもなく多言語コーパスの最大のコレクションであるDGT翻訳メモリ(europa.eu)などがあります。ただし、これらは当該行政機関の領域に関連する公開データであり、使用する際にはその旨を明記する必要があることにご留意ください。ほとんどのデータセットは広範な精製作業が必要となります。
パラレルコーパスはAIにとってどれほど重要か?
機械翻訳システムをはじめとする多くのAIシステムには、バイリンガルデータまたは多言語データが必要です。このデータは、提供前に高度に管理され、特定分野に適合し、精製されている必要があります。Pangeanicは知的財産権(IP)から自由なデータを収集し、クライアントの要請に応じて独自の単言語データを生成し、それを翻訳して機械翻訳システムの構築や微調整を行います。
当社のパラレルコーパスにより、システムは2つ以上の言語間で単語や句がどのように翻訳されるかを学習し、それらの間に存在する意味や用法の微妙な違いを認識することが可能になります。
+200 の言語の組み合わせ!
私たちは、英語からまたは英語への並列コーパスだけでなく、中国語、日本語、韓国語、ヒンディー語、福建語、アラビア語からスペイン語、フランス語、ドイツ語、イタリア語、ブラジルポルトガル語、ロシア語、ポーランド語などの難しい言語ペアの並列コーパスを使用して、真の多言語システムの構築を支援します。
当社の専門分野の一部
AI用データの翻訳サービスに関しては、当社の経験豊富なチームが対応できない言語分野はありません。以下は、当社がパラレルコーパスを提供できる分野の簡潔なリストです:
- 会話と対話
- 工学分野
- ソーシャルメディア
- 広告
- ソーシャルメディア
- マーケティング
- ウェブ
- コメント
- 金融
- 電子商取引
- 税務問題
- 医療
- 芸術
- 歴史
- 政治
- 行政
- ユーザー生成コンテンツ
- ヘルスケア
- 法律
- ソフトウェア
- ビデオゲーム
- 取扱説明書
- 自動車
- 工学分野
- 教育・学校
- 経済学
- 慣用句、定型表現、諺、熟語
機密保持と所有権 (知的財産権)
当社の顧客の多くは、当社の在庫から注文したり、提供されたデータから翻訳サービスを要求したりしています。 Pangeanic の評判は機密保持とプライバシーによって築かれています。弊社は単一言語コーパスを収集、作成、製造し、ご要望に応じてその一部を翻訳します。当社のクライアントの多くは、他のテクノロジー企業と差別化できる独自のデータを高く評価しており、権利を共有したり、一般に入手可能なオープンアクセスのコーパスを再利用したりすることを望んでいません。 当社のクライアントは、データに対する完全な権利を持つことを選択でき、データは自分の財産となり、Pangeanic がそのデータに一意の識別子をタグ付けして一般のデータベースから分離するため、再販されることはありません。
パラレルコーパスはどこで使用されるか?
すべてのアルゴリズムは、学習のために高品質なパラレルコーパスを必要とします。これは、慎重に選択され、人間によって検証され、特定の分野に特化したコーパスを意味します。Pangeanicは、特定の側面を強化するために、特殊な専門用語や表現を含むコーパスを作成することができます。機械翻訳システム以外にも、パラレルコーパスは音声認識や感情分析システムなど、他の多言語AIアプリケーションの訓練や評価にも使用されます。
Pangeanicはパラレルコーパス構築の課題をどのように克服するか?
AIに携わる全ての人が知っているように、どのような種類の訓練データセットを構築し使用する場合でも課題がないわけではありません。そして、パラレルコーパスも例外ではありません。原言語の収集段階で品質が求められ、そしてもちろん、人間による翻訳と検証の段階でも品質が要求されます。
Data quality
対訳コーパスは高品質でなければなりません。つまり、翻訳は正確で、文または語句レベルで整合していなければなりません。これは、特にリソースの少ない言語を扱う場合には達成が困難な場合があります。ポストエディットは特定の MT エンジンのスタイルを強化する戦略となっており、パンゲアニックにとっては珍しいことではありません。
データ量
対訳コーパスは、有用であるために十分な大きさでなければなりません。これは、機械翻訳システムの効果的なトレーニングを可能にするのに十分な数の文が含まれている必要があることを意味します。話者が少ない、またはデジタルでの存在感が不足しているリソースの少ない言語 (アフリカの言語、インド亜大陸、東南アジアの言語) は歴史的にデータ収集の課題となっており、パンゲアニック語ではストックを構築するために日々取り組んでいます。会話や対話などの領域で特定のデータを見つけること、税務問題は「狭い」領域であることも課題です。
データの多様性
パラレルコーパスは、学習対象の言語のあらゆるバリエーションとニュアンスを捉えるのに十分な多様性を持っていなければなりません。これは、アラビア語やドイツ語 (オーストリア発、ドイツ発、スイス発) やスペイン語など、複数の方言や地域的バリエーションがある言語を扱う場合に特に困難になる可能性があります。
AIにおけるパラレルコーパス使用の例
パラレルコーパスは、機械翻訳、音声認識、感情分析など、多言語データを必要とするAIアプリケーションにとって不可欠なリソースです。以下にいくつかの例を挙げます:
音声認識
パラレル コーパスは、複数の言語で音声を認識できる音声認識システムをトレーニングおよび評価するために使用されます。
Pangeanicは、パラレルコーパスの構築と使用において長い実績を持っています。これが困難な課題であることは理解していますが、当社の高品質なコーパスが機械翻訳、音声認識、感情分析に与える利点は、多くの機械翻訳企業の様々な分野における精度、深さ、カバレッジにおいて肯定的な結果をもたらしてきました。何が効果的かを熟知しており、開発者としての当社の言葉を信頼していただけます。