Modelos de inteligência artificial (IA) como ChatGPT, Claude.AI e Gemini Google retêm apenas uma pequena fração das informações usadas durante seu treinamento — é o que aponta um estudo recente realizado por pesquisadores da Universidade Cornell em colaboração com a Meta, Google DeepMind e NVIDIA. De acordo com os pesquisadores, essas tecnologias armazenam, em média, apenas 3,6 bits de dados por parâmetro. Isso significa que os modelos não guardam cópias exatas do conteúdo treinado, e quanto mais dados recebem, menos detalhes específicos conseguem manter. Para mais informações sobre IA e tecnologia, acesse o TecnoTudo.
O estudo também indica que esses sistemas tendem a generalizar conceitos em vez de reproduzir trechos literalmente. Assim, em vez de memorizar frases exatas, as IAs aprendem a identificar padrões e estruturas linguísticas. A seguir, entenda como os testes foram conduzidos e o que realmente esses modelos conseguem “lembrar”.
O que a IA realmente sabe sobre você?
A pesquisa liderada pelas equipes da Meta, Google DeepMind, Universidade Cornell e NVIDIA revela que os Modelos de Linguagem de Grande Porte (LLMs), como ChatGPT e Gemini, memorizam apenas uma fração mínima dos dados utilizados em seus treinamentos. Apesar de processarem trilhões de palavras extraídas de livros, sites, códigos, vídeos e áudios, esses sistemas armazenam muito pouco conteúdo de forma literal. Os testes mostraram que são memorizados cerca de 3,6 bits por parâmetro — menos da metade do necessário para armazenar uma única letra.

Essa característica está ligada ao propósito dos LLMs: eles são desenvolvidos para reconhecer padrões e contextos, não para reter frases exatas. Quanto maior o volume de dados fornecido, menor é a chance de um modelo reproduzir literalmente o que viu. Isso pode tranquilizar usuários preocupados com violações de privacidade ou uso indevido de conteúdo protegido por direitos autorais.
Afinal, o que as IAs conseguem memorizar?
Para medir a capacidade real de memorização, os pesquisadores treinaram os modelos com dados completamente aleatórios, sem lógica ou padrão. Assim, qualquer informação corretamente “lembrada” por uma IA só poderia ser resultado de pura memorização. Mesmo com modelos gigantes, os resultados mostraram que quase nada foi retido de forma literal.
Essa abordagem é importante porque permite diferenciar a memorização da aprendizagem por padrões. Quando o treinamento ocorre com linguagem comum, é difícil saber se o conteúdo foi memorizado ou apenas previsto com base em padrões. Usando sequências desconexas, os pesquisadores conseguiram medir com mais precisão o que de fato é “gravado” pelo sistema. O estudo também apontou que aumentar a precisão numérica (como ao usar float32) tem impacto quase nulo na quantidade de dados armazenados.
Principais conclusões
Uma das descobertas mais relevantes do estudo é que, ao contrário do que se imagina, treinar modelos com mais dados não aumenta a capacidade de memorização. Pelo contrário, quanto mais dados são incluídos, menor é a chance de o sistema guardar algum conteúdo específico. Isso acontece porque a quantidade limitada de memória é distribuída entre um volume maior de exemplos.
Essa constatação reforça a ideia de que as IAs não operam como bancos de dados, mas sim como sistemas estatísticos que geram texto com base em padrões. O estudo pode influenciar futuras decisões legais, fortalecendo o argumento de que essas ferramentas não copiam trechos protegidos, mas aprendem por meio de generalização.