A maioria dos grandes modelos de linguagem (como o GPT) são construídos com base em dados genéricos, disponíveis gratuitamente em fontes como CommonCrawl, Wikipedia, livros, GitHub, entre outras. A Pangeanic passou décadas acumulando conjuntos de dados bilíngues para o treinamento de estatística e sistemas de tradução de máquinas neurais, bem como dados monolíngues para modelos de linguagem. À medida que os Grandes Modelos de Linguagem (LLMs) se tornam cada vez mais populares para uma variedade de aplicações, nosso estoque de domínios específicos está se tornando uma ferramenta valiosa para a criação de soluções de textos generativos.
Aumentar a cobertura linguística e a precisão dos sistemas generativos em mais de 100 idiomas
Os Grandes Modelos de Linguagem (LLMs) estão mudando o mundo. Eles provaram ser uma ferramenta muito poderosa e empolgante para PNL e aplicações relacionadas. Diferentes Transformadores Generativos Pré-treinados (GPT) estão revolucionando o campo da Inteligência Artificial, graças à sua capacidade de compreender as entradas de linguagem natural com notável precisão e gerar respostas dentro do contexto, resumos ou comparações em um nível geralmente indistinguível do dos humanos.
Na Pangeanic, entendemos que os modelos de GPT ainda não são perfeitos e há muito trabalho a ser feito para o objetivo final de um Inteligência Artificial Geral (GIA, General Artificial Intelligence). Como acontece frequentemente ao treinar algoritmos de IA, a disponibilidade de bons dados de treinamento é uma das principais limitações. Por exemplo, o primeiro GPT-1 foi treinado em um conjunto de dados de apenas 4,5 Gb de dados de texto do BookCorpus e lançado em 2018. Em novembro de 2019, o GPT-2 foi treinado com mais de 40 GB de dados de texto e o GPT-3 ("text-davinci-003" e "code-davinci-002") foi lançado em 2020 após o treinamento com 570 Gb de dados de texto multilíngues. Um protótipo do ChatGPT da série GPT-3.5 (GPT3.5) tem um pouco mais de 720 Gb de dados de texto multilíngue.