Nosso detector de idiomas pode ser usado para:
Processar o texto antes da tradução automática
Aperfeiçoar o texto previamente e melhorar a qualidade dos dados recebidos ao treinar algoritmos
Organizar os dados (fala em texto, documentos, etc.) antes de outros processos
Extrair textos bilíngues de recursos on-line para tradução automática
Recuperar, agrupar e compreender informações relevantes (textos do usuário, e-mails, etc.) em um ambiente multilíngue
Anonimización monolingüe o multilingüe
O detector de idiomas da Pangeanic determina com precisão tanto o idioma do documento inteiro quanto o idioma de cada fragmento, parágrafo ou seção.
Nosso detector de idiomas combina tecnologias estatísticas e neurais para obter os melhores resultados de reconhecimento. Nosso próprio algoritmo é baseado em um modelo matematicamente sólido do algoritmo de espaçamento vetorial.
Criamos um espaço multidimensional com vetores que analisam o conteúdo dos documentos e utilizam a noção de n-gramas para calcular as frequências. O algoritmo analisa as posições dos vetores necessários no espaço para determinar sua similaridade.
Finalmente, os resultados combinados do algoritmo são corrigidos usando regras linguísticas especiais desenvolvidas por nossa equipe de linguistas especializados.
Para fins de avaliação, criamos uma página de demonstração para detectar os idiomas mais populares com uma precisão de identificação do idioma de 95% a 99% (resultados típicos da concorrência: 86% a 96%). A velocidade média de processamento foi superior a 8000 KB/s.