PangeaMT Masker

CLASSIFICAÇÃO DE TEXTO E DADOS

Categoriza automaticamente documentos usando classificadores de conhecimento

Você precisa classificar e categorizar seus dados?

Fale com um especialista

O que é a classificação automática de texto da Pangeanic?

Trata-se de um conjunto de módulos que implementam tarefas de classificação comuns. Ele pode estar relacionado à classificação do texto, ou funcionar como um elemento separado, de alto nível.

Os vários detalhes são flexíveis: por exemplo, você pode escolher qual algoritmo de categorização usar, quais características (palavras ou outros tipos) dos documentos devem ser usados (ou como escolher automaticamente estas características), em que formato os documentos estão, etc.

sumarizacion-empresa

Como personalizar meu módulo?

O processo de personalização deste módulo geralmente envolve a obtenção de uma coleção de documentos pré-categorizados da organização. A Pangeanic treina suas redes neurais profundas para reconhecer as características de cada documento e diferenciá-lo dos demais. Isto cria uma "representação gráfica do conhecimento", que treina o categorizador a reconhecer um conjunto específico de conhecimentos. Este conjunto treinado é salvo e pode ser usado para a realização de consultas.

personalizo-modulo

Há várias maneiras de realizar consultas. O módulo de classificação de texto de nível superior fornece uma categoria geral para as operações do classificador de categoria de nível superior. É possível utilizar as interfaces das categorias individuais dentro de cada uma delas.

Precisão de classificação do texto

Nossa ferramenta semântica classifica automaticamente os documentos por conteúdo e os organiza em categorias gerais, como Eurovoc, ou pode ser personalizada de acordo com a estrutura, a terminologia e os processos de sua organização. As categorias podem ser jurídica, de conformidade, recursos humanos, pesquisa e desenvolvimento, contabilidade e finanças, relatórios (vendas, administração, etc.), feedback de clientes, boletins informativos e muito mais. A definição das categorias pode ser escolhida livremente pelo usuário, já que não é restrita pelos algoritmos de categorização.

categorizacion-textos
 

A classificação de texto da Pangeanic é uma solução ideal para:

  • Gerenciar conteúdo de negócios/conhecimento
  • Categorizar a documentação financeira
  • Pré-classificar documentos seguros
  • Avaliar as novas tendências nos negócios, ciência e tecnologia
  • Gerenciar informações empresariais
  • Identificar e analisar o estado das técnicas de patente
  • Sistemas de assistência automatizados
  • O Pangeanic Categorizer está disponível como um aplicativo de servidor para uso no local ou em SaaS

Tecnologia de categorização

Os algoritmos do Pangeanic Categorizer são baseados em técnicas profundas de aprendizado de máquina. Nossa abordagem de categorização de documentos é executada em duas fases: treinamento e previsão.

Na etapa de treinamento, o Pangeanic Categorizer constrói um classificador, aprendendo um conjunto de documentos modelo para cada categoria. Seu algoritmo de aprendizado utiliza uma ampla gama de características semânticas extraídas de documentos:

  • Palavras com rótulos de categoria gramatical
  • Frases nominais e sua dependência sintática
  • Relações semânticas complexas detectadas em nosso processador linguístico

Este processo de treinamento cria modelos que, na fase de previsão, utilizam o modelo de espaço vetorial para categorizar os documentos. Cada texto recebido é comparado com as características semânticas da categoria do modelo e o grau de proximidade entre elas é calculado. O documento é atribuído à categoria com o maior valor de relevância.

Você quer classificar automaticamente documentos com classificadores de conhecimento?

Fale com um especialista

ilustracion-security-2