Il nostro rilevatore linguistico può essere utilizzato con successo:
Come processo previo alla Traduzione Automatica
Per migliorare in anticipo il testo e migliorare la qualità dei dati di testo ricevuti trainando algoritmi
Per organizzare i dati (da voce a testo, documenti, ecc.) prima di altri processi
Per estrarre testi bilingui per la tua traduzione automatica da risorse online
Per recuperare, raggruppare e comprendere le informazioni rilevanti (testi dell'utente, e-mail, ecc.) in un ambiente multilingue
Anonimizzazione monolingue o multilingue
Il rilevatore linguistico di Pangeanic determina con precisione sia la lingua dell'intero documento che quella di ogni frammento, paragrafo o parte
Il nostro rilevatore linguistico combina tecnologie statistiche e neurali per ottenere i migliori risultati di riconoscimento. Il nostro algoritmo proprietario di rilevamento della lingua si basa su un modello matematico dell'algoritmo di spaziatura vettoriale
Creiamo uno spazio multidimensionale di vettori che analizzano il contenuto dei documenti e utilizziamo la nozione di n-grammi per calcolare le frequenze. L'algoritmo analizza le posizioni dei vettori richiesti nello spazio per determinarne la somiglianza. Infine, i risultati combinati dell'algoritmo vengono corretti utilizzando speciali regole linguistiche sviluppate dal nostro team linguistico.
A scopo di valutazione, abbiamo creato una pagina demo per rilevare le lingue più diffuse e abbiamo ottenuto un'accuratezza di identificazione della lingua del 95-99% (i risultati tipici dei concorrenti: 86-96%). La velocità media di elaborazione è stata di oltre 8000 KB/s.