Nuestro detector de idiomas puede utilizarse con éxito:
Como proceso previo a la Traducción Automática
Para mejorar previamente el texto y mejorar la calidad de los datos de texto recibido al entrenar algoritmos
Para organizar los datos (de habla a texto, documentos, etc.) antes de otros procesos
Para extraer textos bilingües para su Traducción Automática desde recursos en línea
Para recuperar, agrupar y comprender la información relevante (textos del usuario, correos electrónicos, etc.) en un entorno multilingüe
Anonimización monolingüe o multilingüe
El detector de idiomas de Pangeanic determina con exactitud tanto el idioma del documento completo como el de cada fragmento, párrafo o parte
Nuestro detector de idiomas combina tecnologías estadísticas y neuronales para obtener los mejores resultados de reconocimiento. Nuestro algoritmo propio de detección de idiomas se basa en un modelo matemático sólido del algoritmo de espaciado vectorial.
Creamos un espacio multidimensional de vectores que analizan el contenido de los documentos y utilizamos la noción de n-gramas para calcular las frecuencias. El algoritmo analiza las posiciones de los vectores necesarios en el espacio para determinar su similitud. Por último, los resultados combinados del algoritmo se corrigen utilizando reglas lingüísticas especiales desarrolladas por nuestro equipo lingüístico.
Con el fin de realizar una evaluación, hemos creado una página de demostración para detectar los idiomas más populares logrando una precisión de identificación de idiomas del 95 % al 99 % (resultados típicos de la competencia: 86 – 96 %). La velocidad media de procesamiento fue de más de 8000 KB/s.