PangeaMT Masker

DETECTOR DE IDIOMAS

Detectar automaticamente o idioma de uma sequência, um texto ou documento em questão de segundos

Precisa identificar o idioma e a codificação de caracteres de seus documentos?

Fale com um especialista

 

Nosso detector de idiomas pode ser usado para:

previo

Processar o texto antes da tradução automática

entrenar-algoritmo

Aperfeiçoar o texto previamente e melhorar a qualidade dos dados recebidos ao treinar algoritmos

procesos

Organizar os dados (fala em texto, documentos, etc.) antes de outros processos

extraer-textos

Extrair textos bilíngues de recursos on-line para tradução automática

correos

Recuperar, agrupar e compreender informações relevantes (textos do usuário, e-mails, etc.) em um ambiente multilíngue

O detector de idiomas da Pangeanic determina com precisão tanto o idioma do documento inteiro quanto o idioma de cada fragmento, parágrafo ou seção.

Nosso detector de idiomas combina tecnologias estatísticas e neurais para obter os melhores resultados de reconhecimento. Nosso próprio algoritmo é baseado em um modelo matematicamente sólido do algoritmo de espaçamento vetorial.

detector-idiomas

Criamos um espaço multidimensional com vetores que analisam o conteúdo dos documentos e utilizam a noção de n-gramas para calcular as frequências. O algoritmo analisa as posições dos vetores necessários no espaço para determinar sua similaridade.

Finalmente, os resultados combinados do algoritmo são corrigidos usando regras linguísticas especiais desenvolvidas por nossa equipe de linguistas especializados.

Para fins de avaliação, criamos uma página de demonstração para detectar os idiomas mais populares com uma precisão de identificação do idioma de 95% a 99% (resultados típicos da concorrência: 86% a 96%). A velocidade média de processamento foi superior a 8000 KB/s.

Deseja saber mais sobre o nosso detector de idiomas?

Fale com um especialista

il_encriptada