PARALLELE KORPORA FÜR MASCHINELLE ÜBERSETZUNGSSYSTEME
Erstellen und verbessern Sie maschinelle Übersetzungssysteme mit von Menschen erstellten, hochwertigen parallelen Korpora
Aufgrund unserer Wurzeln in der Übersetzungsbranche haben wir eine lange Geschichte in der Erstellung paralleler Korpora für MT-Systeme Unsere Korpus-, Übersetzungs- und Nachbearbeitungsdienste wurden verwendet, um einige der weltweit bekanntesten Online-Maschinenübersetzungssysteme zu trainieren.
Was sind Parallele Korpora?
Parallele Korpora sind Sammlungen von Übersetzungen, typischerweise in zwei Sprachen, die auf Satz- oder Phrasenebene ausgerichtet sind.
Parallele Korpora wurden mit dem Aufkommen der ersten statistischen und später neuronalen maschinellen Übersetzungssysteme sehr begehrte Daten. Sie sind auch wesentliche Ressourcen für das Training eines jeden maschinellen Übersetzungssystems. Sie sind auch sehr wertvolle Ressourcen für andere Anwendungen der Künstlichen Intelligenz (KI), die mehrsprachige Daten erfordern, wie es bei vielen NLP-Disziplinen wie Textgenerierung (NLG) der Fall ist.
Parallele Korpora sind ein wertvolles Werkzeug für die moderne Forschung in der maschinellen Übersetzung. Sie geben Einblicke in die Natur der Übersetzung und können zur Schulung probabilistischer maschineller Übersetzungssysteme verwendet werden. Beispiele für parallele Korpora sind die kanadischen Hansard-Verfahren in Englisch und Französisch, das mehrsprachige Parallel Corpus der Vereinten Nationen und natürlich die größte Sammlung mehrsprachiger Korpora, DGT-Translation Memory (europa.eu). Bitte beachten Sie jedoch, dass dies öffentliche Daten sind, die sich auf die Domänen dieser Verwaltungen beziehen, und dass diese bei Verwendung anerkannt werden sollten. Die meisten Datensätze erfordern eine umfangreiche Reinigung.
Wie wichtig sind parallele Korpora für KI?
Viele KI-Systeme benötigen zweisprachige oder mehrsprachige Daten, wie beispielsweise maschinelle Übersetzungssysteme. Diese Daten müssen stark kuratiert, domänenspezifisch und vor der Lieferung gereinigt werden. Pangeanic sammelt Daten, die frei von geistigem Eigentum (IP) sind, und generiert eigene einsprachige Daten, die auf Kundenwunsch übersetzt werden, um maschinelle Übersetzungssysteme zu erstellen oder zu optimieren.
Unsere parallelen Korpora ermöglichen es Systemen, zu lernen, wie Wörter und Ausdrücke zwischen zwei oder mehr Sprachen übersetzt werden, und die subtilen Unterschiede in Bedeutung und Verwendung zu erkennen.
mehr als 200 Sprachkombinationen!
Wir arbeiten mit Deutsch als Kernsprache unserer Entwicklungen und erstellen Übersetzungsmaschinen direkt zwischen Deutsch und Englisch, Französisch, Chinesisch, Japanisch, Spanisch, Ungarisch, Koreanisch, Russisch, Italienisch...., um die Nuancen zwischen Deutsch und den anderen Sprachen zu erhalten.
Wir helfen auch dabei, wirklich mehrsprachige Systeme zu erstellen, nicht nur mit parallelen Korpora vom oder ins Englische, sondern auch in komplexen Sprachkombinationen wie Chinesisch, Japanisch, Koreanisch, Hindi, Hokkien oder Arabisch ins Spanische, Französische, Deutsche, Italienische, Brasilianische Portugiesisch, Russische oder Polnische.
Einige unserer Spezialgebiete
Es gibt keine Sprachdomäne, die unserem erfahrenen Team widersteht, wenn es um Übersetzungsdienstleistungen für Data-for-AI geht. Hier ist eine kurze Liste der Bereiche, aus denen wir parallele Korpora bereitstellen können:
- Gespräche und Dialoge
- Technische Disziplinen
- Soziale Medien
- Werbung Marketing
- Web
- Kommentare
- Finanzwesen
- E-Commerce
- Steuerfragen
- Medizin
- Kunst
- Geschichte
- Politik
- Öffentliche Verwaltung
- Benutzergenerierte Inhalte
- Gesundheitswesen
- Recht
- Software
- Videospiele
- Handbücher
- Automobilindustrie
- Bildung und Schule
- Wirtschaft
- Idiome, feste Wendungen, Sprichwörter und Redewendungen
Vertraulichkeit und Eigentum (IP-Rechte)
Viele unserer Kunden bestellen von unserem Lager oder verlangen Übersetzungsdienste von Daten, die sie zur Verfügung gestellt haben. Der Ruf von Pangeanic basiert auf Vertraulichkeit und Privatsphäre. Wir sammeln, erstellen und fertigen einsprachige Korpora und übersetzen Teile davon auf Anfrage. Viele unserer Kunden schätzen einzigartige Daten, die sie von anderen Technologieunternehmen unterscheiden können, und möchten keine Rechte teilen oder allgemein verfügbare Open-Access-Korpora wiederverwenden. Unsere Kunden können wählen, volle Rechte über die Daten zu haben, die ihr Eigentum werden, und Pangeanic markiert sie mit einem eindeutigen Identifikator, der sie von der allgemeinen Datenbank trennt, sodass sie nie weiterverkauft werden.
Wo werden parallele Korpora verwendet?
Alle Algorithmen benötigen hochwertige parallele Korpora, um daraus zu lernen. Das bedeutet, dass Korpora sorgfältig ausgewählt, von Menschen verifiziert und domänenspezifisch sind. Pangeanic kann Korpora mit spezifischen Terminologien und Ausdrücken erstellen, um bestimmte Aspekte zu verstärken. Neben maschinellen Übersetzungssystemen werden parallele Korpora auch für die Schulung und Auswertung anderer mehrsprachiger KI-Anwendungen wie Spracherkennung oder Sentimentanalyse-Systeme verwendet.
Wie überwindet Pangeanic Herausforderungen beim Aufbau paralleler Korpora?
Jeder, der an KI beteiligt ist, weiß, dass der Aufbau und die Verwendung jeglicher Art von Trainingsdatensätzen nicht ohne Herausforderungen ist - und parallele Korpora sind keine Ausnahme. Qualität ist während der Sammelphase der Ausgangssprache und natürlich während der Übersetzung und Überprüfung durch Menschen erforderlich.
Datenqualität
Parallele Korpora müssen von hoher Qualität sein, was bedeutet, dass die Übersetzungen genau und auf Satz- oder Phrasenebene ausgerichtet sein müssen. Dies kann schwierig zu erreichen sein, insbesondere wenn es um Sprachen mit geringen Ressourcen geht. Das Post-Editing ist zu einer Strategie geworden, um den Stil einer bestimmten MT-Engine zu verstärken, und ist Pangeanic nicht fremd.
Datenmenge
Parallele Korpora müssen groß genug sein, um nützlich zu sein, was bedeutet, dass sie eine ausreichende Anzahl von Sätzen enthalten müssen, um ein effektives Training von maschinellen Übersetzungssystemen zu ermöglichen. Ressourcenarme Sprachen mit einer geringen Anzahl von Sprechern oder mit einem Mangel an digitaler Präsenz (afrikanische Sprachen oder Sprachen des indischen Subkontinents oder Südostasiens) haben historisch eine Herausforderung für die Datenerhebung dargestellt und Pangeanic arbeitet täglich daran, einen Bestand aufzubauen. Spezifische Daten in Bereichen wie Gesprächen oder Dialogen zu finden, wobei Steuerfragen „schmale“ Domänen sind, stellt ebenfalls eine Herausforderung dar.
Datenvielfalt
Parallele Korpora müssen vielfältig genug sein, um das gesamte Spektrum der Variationen und Nuancen in den untersuchten Sprachen zu erfassen. Dies kann eine Herausforderung darstellen, insbesondere wenn man mit Sprachen wie Arabisch oder Deutsch (aus Österreich, aus Deutschland, aus der Schweiz) oder Spanisch arbeitet, die mehrere Dialekte oder regionale Variationen haben.
Beispiele für die Verwendung von parallelen Korpora in KI
Parallele Korpora sind wesentliche Ressourcen für KI-Anwendungen, die mehrsprachige Daten wie maschinelle Übersetzung, Spracherkennung und Sentimentanalyse erfordern. Hier sind ein paar Beispiele:
Spracherkennung
Parallele Korpora werden verwendet, um Spracherkennungssysteme zu trainieren und zu bewerten, die Sprache in mehreren Sprachen erkennen können.
Pangeanic hat langjährige Erfahrung im Aufbau und in der Verwendung von parallelen Korpora. Wir verstehen, dass es eine Herausforderung sein kann, aber die Vorteile unserer hochwertigen Korpora für maschinelle Übersetzung, Spracherkennung und Sentimentanalyse haben positive Ergebnisse in Bezug auf Genauigkeit, Tiefe und Abdeckung in vielen Bereichen für viele MT-Unternehmen bewiesen. Wir wissen, was funktioniert, und Sie können auf unser Wort als Entwickler vertrauen!
Sprachen entwickeln sich und KI schreitet weiter voran
Unsere Teams für die Sammlung von Korpora sind damit beschäftigt, neue Wörter und neue Ausdrücke zu sammeln, die durch neue Umstände wie COVID-19, Remote-Arbeit oder Staycation in vielen Sprachen entstanden sind, um die Nachfrage nach hochwertigen parallelen Korpora und Aktualisierungen der Maschinenübersetzungs-Engines zu befriedigen.