PARALLELE KORPORA FÜR MASCHINELLE ÜBERSETZUNGSSYSTEME

Erstellen und verbessern Sie maschinelle Übersetzungssysteme mit von Menschen erstellten, hochwertigen parallelen Korpora

Aufgrund unserer Wurzeln in der Übersetzungsbranche haben wir eine lange Geschichte in der Erstellung paralleler Korpora für MT-Systeme Unsere Korpus-, Übersetzungs- und Nachbearbeitungsdienste wurden verwendet, um einige der weltweit bekanntesten Online-Maschinenübersetzungssysteme zu trainieren.

Was sind Parallele Korpora?

Parallele Korpora sind Sammlungen von Übersetzungen, typischerweise in zwei Sprachen, die auf Satz- oder Phrasenebene ausgerichtet sind.

Parallele Korpora wurden mit dem Aufkommen der ersten statistischen und später neuronalen maschinellen Übersetzungssysteme sehr begehrte Daten. Sie sind auch wesentliche Ressourcen für das Training eines jeden maschinellen Übersetzungssystems. Sie sind auch sehr wertvolle Ressourcen für andere Anwendungen der Künstlichen Intelligenz (KI), die mehrsprachige Daten erfordern, wie es bei vielen NLP-Disziplinen wie Textgenerierung (NLG) der Fall ist.

PARALLELE KORPORA FÜR MASCHINELLE ÜBERSETZUNGSSYSTEME

Parallele Korpora sind ein wertvolles Werkzeug für die moderne Forschung in der maschinellen Übersetzung. Sie geben Einblicke in die Natur der Übersetzung und können zur Schulung probabilistischer maschineller Übersetzungssysteme verwendet werden. Beispiele für parallele Korpora sind die kanadischen Hansard-Verfahren in Englisch und Französisch, das mehrsprachige Parallel Corpus der Vereinten Nationen und natürlich die größte Sammlung mehrsprachiger Korpora, DGT-Translation Memory (europa.eu). Bitte beachten Sie jedoch, dass dies öffentliche Daten sind, die sich auf die Domänen dieser Verwaltungen beziehen, und dass diese bei Verwendung anerkannt werden sollten. Die meisten Datensätze erfordern eine umfangreiche Reinigung.

Wie wichtig sind parallele Korpora für KI?

Viele KI-Systeme benötigen zweisprachige oder mehrsprachige Daten, wie beispielsweise maschinelle Übersetzungssysteme. Diese Daten müssen stark kuratiert, domänenspezifisch und vor der Lieferung gereinigt werden. Pangeanic sammelt Daten, die frei von geistigem Eigentum (IP) sind, und generiert eigene einsprachige Daten, die auf Kundenwunsch übersetzt werden, um maschinelle Übersetzungssysteme zu erstellen oder zu optimieren.

Unsere parallelen Korpora ermöglichen es Systemen, zu lernen, wie Wörter und Ausdrücke zwischen zwei oder mehr Sprachen übersetzt werden, und die subtilen Unterschiede in Bedeutung und Verwendung zu erkennen.

Parallel corpora are the basis of many AI applications, like machine translation. Pangeanic offers human-approved translations so you can build your own machine translation system (or improve it!)

Dank qualitativ hochwertiger paralleler Daten (menschliche Übersetzungen) können maschinelle Übersetzungssysteme geschaffen werden, deren Qualität von der menschlicher Übersetzungen fast nicht zu unterscheiden ist

mehr als 200 Sprachkombinationen!

Wir arbeiten mit Deutsch als Kernsprache unserer Entwicklungen und erstellen Übersetzungsmaschinen direkt zwischen Deutsch und Englisch, Französisch, Chinesisch, Japanisch, Spanisch, Ungarisch, Koreanisch, Russisch, Italienisch...., um die Nuancen zwischen Deutsch und den anderen Sprachen zu erhalten.

Wir helfen auch dabei, wirklich mehrsprachige Systeme zu erstellen, nicht nur mit parallelen Korpora vom oder ins Englische, sondern auch in komplexen Sprachkombinationen wie Chinesisch, Japanisch, Koreanisch, Hindi, Hokkien oder Arabisch ins Spanische, Französische, Deutsche, Italienische, Brasilianische Portugiesisch, Russische oder Polnische.

Einige unserer Spezialgebiete

Es gibt keine Sprachdomäne, die unserem erfahrenen Team widersteht, wenn es um Übersetzungsdienstleistungen für Data-for-AI geht. Hier ist eine kurze Liste der Bereiche, aus denen wir parallele Korpora bereitstellen können:

Gespräche und Dialoge
Technische Disziplinen
Soziale Medien
Werbung Marketing
Web
Kommentare
Finanzwesen

E-Commerce
Steuerfragen
Medizin
Kunst
Geschichte
Politik
Öffentliche Verwaltung
Benutzergenerierte Inhalte
Gesundheitswesen

Recht
Software
Videospiele
Handbücher
Automobilindustrie
Bildung und Schule
Wirtschaft
Idiome, feste Wendungen, Sprichwörter und Redewendungen

Vertraulichkeit und Eigentum (IP-Rechte)

Viele unserer Kunden bestellen von unserem Lager oder verlangen Übersetzungsdienste von Daten, die sie zur Verfügung gestellt haben. Der Ruf von Pangeanic basiert auf Vertraulichkeit und Privatsphäre. Wir sammeln, erstellen und fertigen einsprachige Korpora und übersetzen Teile davon auf Anfrage. Viele unserer Kunden schätzen einzigartige Daten, die sie von anderen Technologieunternehmen unterscheiden können, und möchten keine Rechte teilen oder allgemein verfügbare Open-Access-Korpora wiederverwenden. Unsere Kunden können wählen, volle Rechte über die Daten zu haben, die ihr Eigentum werden, und Pangeanic markiert sie mit einem eindeutigen Identifikator, der sie von der allgemeinen Datenbank trennt, sodass sie nie weiterverkauft werden.

Alle Algorithmen benötigen hochwertige parallele Korpora, um daraus zu lernen. Das bedeutet, dass Korpora sorgfältig ausgewählt, von Menschen verifiziert und domänenspezifisch sind. Pangeanic kann Korpora mit spezifischen Terminologien und Ausdrücken erstellen, um bestimmte Aspekte zu verstärken. Neben maschinellen Übersetzungssystemen werden parallele Korpora auch für die Schulung und Auswertung anderer mehrsprachiger KI-Anwendungen wie Spracherkennung oder Sentimentanalyse-Systeme verwendet.

Jeder, der an KI beteiligt ist, weiß, dass der Aufbau und die Verwendung jeglicher Art von Trainingsdatensätzen nicht ohne Herausforderungen ist - und parallele Korpora sind keine Ausnahme. Qualität ist während der Sammelphase der Ausgangssprache und natürlich während der Übersetzung und Überprüfung durch Menschen erforderlich.

Datenqualität

Parallele Korpora müssen von hoher Qualität sein, was bedeutet, dass die Übersetzungen genau und auf Satz- oder Phrasenebene ausgerichtet sein müssen. Dies kann schwierig zu erreichen sein, insbesondere wenn es um Sprachen mit geringen Ressourcen geht. Das Post-Editing ist zu einer Strategie geworden, um den Stil einer bestimmten MT-Engine zu verstärken, und ist Pangeanic nicht fremd.

Datenmenge

Parallele Korpora müssen groß genug sein, um nützlich zu sein, was bedeutet, dass sie eine ausreichende Anzahl von Sätzen enthalten müssen, um ein effektives Training von maschinellen Übersetzungssystemen zu ermöglichen. Ressourcenarme Sprachen mit einer geringen Anzahl von Sprechern oder mit einem Mangel an digitaler Präsenz (afrikanische Sprachen oder Sprachen des indischen Subkontinents oder Südostasiens) haben historisch eine Herausforderung für die Datenerhebung dargestellt und Pangeanic arbeitet täglich daran, einen Bestand aufzubauen. Spezifische Daten in Bereichen wie Gesprächen oder Dialogen zu finden, wobei Steuerfragen „schmale“ Domänen sind, stellt ebenfalls eine Herausforderung dar.

Datenvielfalt

Parallele Korpora müssen vielfältig genug sein, um das gesamte Spektrum der Variationen und Nuancen in den untersuchten Sprachen zu erfassen. Dies kann eine Herausforderung darstellen, insbesondere wenn man mit Sprachen wie Arabisch oder Deutsch (aus Österreich, aus Deutschland, aus der Schweiz) oder Spanisch arbeitet, die mehrere Dialekte oder regionale Variationen haben.

Bauen oder Optimieren Sie Ihr maschinelles Übersetzungssystem?

Haben Sie einen Datensatz, der eine sorgfältige, spezialisierte menschliche Übersetzung benötigt, damit er Teil Ihrer Trainingsdaten wird?

Beispiele für die Verwendung von parallelen Korpora in KI

Parallele Korpora sind wesentliche Ressourcen für KI-Anwendungen, die mehrsprachige Daten wie maschinelle Übersetzung, Spracherkennung und Sentimentanalyse erfordern. Hier sind ein paar Beispiele:

Pangeanic hat langjährige Erfahrung im Aufbau und in der Verwendung von parallelen Korpora. Wir verstehen, dass es eine Herausforderung sein kann, aber die Vorteile unserer hochwertigen Korpora für maschinelle Übersetzung, Spracherkennung und Sentimentanalyse haben positive Ergebnisse in Bezug auf Genauigkeit, Tiefe und Abdeckung in vielen Bereichen für viele MT-Unternehmen bewiesen. Wir wissen, was funktioniert, und Sie können auf unser Wort als Entwickler vertrauen!

Sprachen entwickeln sich und KI schreitet weiter voran

Unsere Teams für die Sammlung von Korpora sind damit beschäftigt, neue Wörter und neue Ausdrücke zu sammeln, die durch neue Umstände wie COVID-19, Remote-Arbeit oder Staycation in vielen Sprachen entstanden sind, um die Nachfrage nach hochwertigen parallelen Korpora und Aktualisierungen der Maschinenübersetzungs-Engines zu befriedigen.

PARALLELE KORPORA FÜR MASCHINELLE ÜBERSETZUNGSSYSTEME

Was sind Parallele Korpora?

Wie wichtig sind parallele Korpora für KI?

mehr als 200 Sprachkombinationen!

Einige unserer Spezialgebiete

Vertraulichkeit und Eigentum (IP-Rechte)

Wo werden parallele Korpora verwendet?

Wie überwindet Pangeanic Herausforderungen beim Aufbau paralleler Korpora?

Datenqualität

Datenmenge

Datenvielfalt

Bauen oder Optimieren Sie Ihr maschinelles Übersetzungssystem?

Beispiele für die Verwendung von parallelen Korpora in KI

Automatische Übersetzung

Spracherkennung

Sentiment Analysis

Sprachen entwickeln sich und KI schreitet weiter voran

Abonnieren Sie unseren Newsletter: