DETECTOR DE IDIOMAS

Detecte automáticamente el idioma de una secuencia, texto o documento en cuestión de segundos

¿Necesita identificar el idioma y la codificación de caracteres de sus documentos?

Como proceso previo a la Traducción Automática

Para mejorar previamente el texto y mejorar la calidad de los datos de texto recibido al entrenar algoritmos

Para organizar los datos (de habla a texto, documentos, etc.) antes de otros procesos

Para extraer textos bilingües para su Traducción Automática desde recursos en línea

Para recuperar, agrupar y comprender la información relevante (textos del usuario, correos electrónicos, etc.) en un entorno multilingüe

El detector de idiomas de Pangeanic determina con exactitud tanto el idioma del documento completo como el de cada fragmento, párrafo o parte

Nuestro detector de idiomas combina tecnologías estadísticas y neuronales para obtener los mejores resultados de reconocimiento. Nuestro algoritmo propio de detección de idiomas se basa en un modelo matemático sólido del algoritmo de espaciado vectorial.

Creamos un espacio multidimensional de vectores que analizan el contenido de los documentos y utilizamos la noción de n-gramas para calcular las frecuencias. El algoritmo analiza las posiciones de los vectores necesarios en el espacio para determinar su similitud. Por último, los resultados combinados del algoritmo se corrigen utilizando reglas lingüísticas especiales desarrolladas por nuestro equipo lingüístico.

Con el fin de realizar una evaluación, hemos creado una página de demostración para detectar los idiomas más populares logrando una precisión de identificación de idiomas del 95 % al 99 % (resultados típicos de la competencia: 86 – 96 %). La velocidad media de procesamiento fue de más de 8000 KB/s.

DETECTOR DE IDIOMAS

Nuestro detector de idiomas puede utilizarse con éxito:

El detector de idiomas de Pangeanic determina con exactitud tanto el idioma del documento completo como el de cada fragmento, párrafo o parte

¿Quiere saber más sobre nuestro detector de idiomas?

Suscripción a nuestra newsletter: