PangeaMT Masker

CONJUNTOS DE DADOS MONOLÍNGUES PARA GRANDES MODELOS DE LINGUAGEM

Ajuste de Grandes modelos de linguagem e Transformadores generativos pré-treinados com nossos conjuntos de dados monolíngues de domínio específico

Entendemos que um dos desafios dos Transformadores generativos pré-treinados (GPT) é manter-se atualizado e obter informações de um domínio específico. Nossa experiência de décadas na construção de Corpora paralelos nos ajuda a melhorar as capacidades humanas de seus Grandes modelos de linguagem com um forte foco na IA ética, desde a coleta até a limpeza e a entrega.

Fale com um especialista

 

Pangeanic para conjuntos de dados monolíngues

A maioria dos grandes modelos de linguagem (como o GPT) são construídos com base em dados genéricos, disponíveis gratuitamente em fontes como CommonCrawl, Wikipedia, livros, GitHub, entre outras. A Pangeanic passou décadas acumulando conjuntos de dados bilíngues para o treinamento de estatística e sistemas de tradução de máquinas neurais, bem como dados monolíngues para modelos de linguagem. À medida que os Grandes Modelos de Linguagem (LLMs) se tornam cada vez mais populares para uma variedade de aplicações, nosso estoque de domínios específicos está se tornando uma ferramenta valiosa para a criação de soluções de textos generativos.

 

Aumentar a cobertura linguística e a precisão dos sistemas generativos em mais de 100 idiomas

Os Grandes Modelos de Linguagem (LLMs) estão mudando o mundo. Eles provaram ser uma ferramenta muito poderosa e empolgante para PNL e aplicações relacionadas. Diferentes Transformadores Generativos Pré-treinados (GPT) estão revolucionando o campo da Inteligência Artificial, graças à sua capacidade de compreender as entradas de linguagem natural com notável precisão e gerar respostas dentro do contexto, resumos ou comparações em um nível geralmente indistinguível do dos humanos.

Tablero

Na Pangeanic, entendemos que os modelos de GPT ainda não são perfeitos e há muito trabalho a ser feito para o objetivo final de um Inteligência Artificial Geral (GIA, General Artificial Intelligence). Como acontece frequentemente ao treinar algoritmos de IA, a disponibilidade de bons dados de treinamento é uma das principais limitações. Por exemplo, o primeiro GPT-1 foi treinado em um conjunto de dados de apenas 4,5 Gb de dados de texto do BookCorpus e lançado em 2018. Em novembro de 2019, o GPT-2 foi treinado com mais de 40 GB de dados de texto e o GPT-3 ("text-davinci-003" e "code-davinci-002") foi lançado em 2020 após o treinamento com 570 Gb de dados de texto multilíngues. Um protótipo do ChatGPT da série GPT-3.5 (GPT3.5) tem um pouco mais de 720 Gb de dados de texto multilíngue.

Arquitetura Parâmetros Conjunto de dados de treinamento

GPT-1

Descodificador de transformador de 12 níveis e 12 cabeças (sem codificador), seguido de função Softmax linear.

0,12 bilhões

BookCorpus: 4,5 GB de texto, a partir de 7.000 livros inéditos de vários gêneros.

GPT-2

GPT-1, mas com normalização modificada.

1,5 bilhões

WebText: 40 GB de texto, 8 milhões de documentos, a partir de 45 milhões de páginas da web, editadas no Reddit.

GPT-3

GPT-2, mas com modificações para permitir escalas maiores.

175 bilhões

570 GB de textos sem formatação, 0,4 trilhões de tokens. Principalmente CommonCrawl (410 bilhões, 60%), WebText2 (410 bilhões, 22%), Wikipedia em inglês (3 bilhões, 3%), dois Corpora de livros (Books1 com 12 bilhões de tokens e Books2).

O que torna os conjuntos de dados monolingues da Pangeanic tão especiais?

Quando se trata de treinar modelos de linguagem, a qualidade do conjunto de dados monolíngue utilizado é crucial. Nem todos os petabytes de dados da CommonCrawl foram usados no treinamento de modelos como Kosmos, Bloom, ChatGPT, etc. Eles têm sido altamente supervisionados. A equipe da Pangeanic ajuda você a se manter atualizado e ampliar a cobertura do domínio do conhecimento, preenchendo as lacunas onde sua equipe não puder extrair ou criar dados suficientes.

precisas-tecnicas

Os dados monolíngues podem vir de muitas formas diferentes, desde livros a artigos, páginas da web, etc. Mais dados pessoais como conversas, entrevistas, e-mails, manuais de instrução, etc., podcasts, são difíceis de serem obtidos ou são cobertos por IP. Nossa equipe cria e armazena textos sem IP de qualidade humana, assim como fez para corpora paralelos para sistemas de tradução automática. E nós fazemos isso em vários idiomas!

Confie em uma equipe ampliada, especialista em idiomas

Nossa equipe é composta por engenheiros de aprendizado de máquina, linguistas computacionais e profissionais de tradução. Juntos, eles trazem a melhor curadoria, seleção e verificação de dados possível para cada conjunto de dados monolíngue para modelagem de idioma.

Fale com um especialista 

MicrosoftTeams-image (157)
 

Dicas para um bom conjunto de dados monolíngues

Há vários pontos a serem levados em conta ao construir um Grande Modelo de Linguagem. A Pangeanic está construindo-os desde 2009 para sua tradução automática estatística, e a partir de 2017 para seus sistemas neurais de tradução automática.

Recomendamos ter em mente os seguintes 6 pontos ao treinar um modelo de IA, pois os conjuntos de dados devem ser precisos, escaláveis e relevantes para seu(s) caso(s) de uso, para garantir que os modelos entendam a exigência, extraiam informações relevantes e respondam com resultados que sejam fundamentados, precisos e aceitáveis para seus usuários.

otras

TAMANHO

O tamanho do conjunto de dados é fundamental para o treinamento de modelos de LLM, pois conjuntos de dados maiores podem levar a um melhor desempenho na modelagem de linguagem. Idealmente, o conjunto de dados deveria ser suficientemente grande para capturar a diversidade do idioma e do domínio do texto.

ic-traduccion-experta

DIVERSIDADE

O conjunto de dados deve conter uma gama diversificada de tipos de texto, tais como artigos de notícias, posts nas mídias sociais e artigos científicos. Isso ajuda o modelo a aprender as nuances do idioma e a desempenhar melhor uma variedade de tarefas.

integracion-apis

QUALIDADE

O conjunto de dados deve ser de alta qualidade, livre de erros e bem estruturado. Um conjunto de dados mal estruturado ou cheio de erros pode levar a um modelo de qualidade inferior.

icon-infinitos

DE DOMÍNIO ESPECÍFICO

Se você estiver treinando um modelo de LLM para um domínio específico, como a área automotiva, de engenharia elétrica, jurídica ou médica, é essencial ter um conjunto de dados que seja específico para esse domínio. Isso ajudará o modelo a aprender a linguagem e a terminologia específica dessa área, levando a um melhor desempenho em tarefas específicas do domínio.

ic-rendimiento_2

CONTINUIDADE

Um conjunto de dados que abrange um longo período de tempo é ideal, pois pode ajudar a captar mudanças de linguagem e evolução ao longo do tempo.

ic-metricas

EQUILIBRADO

Um bom conjunto de dados deve ter um equilíbrio entre textos de diferentes fontes e domínios para evitar que o modelo não aprenda preconceitos ou se ajuste excessivamente a um tipo específico de texto.

Podemos construir conjuntos de dados monolíngues para projetos específicos com direitos de propriedade completos

Ajudamos você a construir um bom conjunto de dados monolíngues para treinamento de LLM com textos monolíngues grandes, diversos, de alta qualidade, de domínio específico, contínuos e equilibrados.

Entre em contato conosco 

Seguridad datos

Como os Conjuntos de dados monolíngues da Pangeanic são coletados?

Como uma empresa de serviços linguísticos e de PNL, temos armazenados conjuntos de dados monolíngues de domínios específicos há 20 anos. Reunimos e criamos continuamente pré-candidatos de alta qualidade e de acordo com o domínio para tradução. Isto torna nossos conjuntos de dados monolíngues únicos.

Coletamos dados para treinamento de IA de diversas maneiras. Usamos principalmente nossa plataforma ECO e aplicativos para recrutar indivíduos para escrever sobre determinados tópicos.

ilustracion-security-2

A nossa equipe linguística também faz a curadoria de dados não rastreáveis e limpa dados abertos livremente disponíveis, atualizando-os e/ou criando versões para os tornar livres de propriedade intelectual.

Finalmente, celebramos acordos para comprar pequenas seções de arquivos de texto pré-existentes que não tenham sido tornados públicos, particularmente em línguas de poucos recursos.

Estamos aqui para ajudar você com

· Conjuntos de Dados Monolíngues armazenados

· Mais de 100 idiomas

· Feitos sob medida

Solicite uma demonstração

Procurando por conjuntos de dados monolíngues específicos?

Com a Pangeanic, você pode não apenas definir suas necessidades para solicitar, gerenciar e verificar conjuntos de dados on-line sem complicações com uma interface fácil de arrastar e soltar, mas também pode monitorar como nossa equipe e nossos taskers estão se saindo e como a coleta de conjuntos de dados está progredindo.

Todos os conjuntos de dados monolíngues serão exaustivamente verificados, limpos e anotados com os metadados relevantes (idade, domínio, fonte, etc.) de acordo com suas necessidades, para que seus algoritmos cresçam com a precisão, a força e a inteligência que você desejar!

sentimiento
icon-reward

Direitos de propriedade intelectual sobre conjuntos de dados monolíngues

Nossos conjuntos de dados oferecem a propriedade total e direitos autorais completos, seja para conjuntos de dados monolíngues ou para o áudio coletado (dados de fala) e para a transcrição para treinamento de aprendizado de máquina. A Pangeanic segue processos para que a IA ética seja incorporada em cada passo, e você pode ter certeza de que ela é transmitida aos seus produtos. Nossos clientes desfrutam de um relacionamento tranquilo com um fornecedor confiável de serviços de dados, que oferece conjuntos de dados de treinamento para melhorar o desempenho de LLM, MT ou ASR, liberando-o do incômodo de gerar, coletar e processar texto ou áudio, enquanto adiciona valiosos metadados.

icon-check-circle

Anotação de sentimento para conjuntos de dados de fala

A análise de sentimento fornece conhecimentos muito valiosos, que muitas vezes podem orientar decisões comerciais. A Pangeanic tem uma grande experiência na construção de suas próprias ferramentas de análise de sentimentos. Para extrair sentimentos, é preciso ser um falante nativo da língua e compreender todas as nuances e complexidades e, algumas vezes, até linguagem irônica. Nossas gravações podem ser anotadas como positivas, negativas ou neutras para adicionar mais dados para treinar um modelo de aprendizado de máquina que será capaz de entender e fornecer suas próprias percepções sobre sentimentos. A nossa ferramenta de anotação de texto PECAT acelera todas as tarefas de anotação de sentimentos.

Descubra Conjuntos de dados monolíngues para IA da Pangeanic

Queremos ajudá-lo a expandir seus negócios. Combinamos inteligência artificial e engenhosidade humana para lhe oferecer um serviço personalizado. Deixe a tecnologia trabalhar por você.

Fale com um especialista 

tecnologia