O conteúdo de direitos autorais de direitos autorais dos modelos do OpenAI, sugere um novo estudo

UM Novo estudo Parece dar credibilidade a alegações de que o OpenAI treinou pelo menos alguns de seus modelos de IA em conteúdo protegido por direitos autorais.

O Openai está envolvido em ternos trazidos por autores, programadores e outros detentores de direitos que acusam a empresa de usar seus trabalhos-livros, bases de código e assim por diante-para desenvolver seus modelos sem permissão. Openai há muito reivindica um uso justo Defesa, mas os demandantes nesses casos argumentam que não há uma escultura na lei de direitos autorais dos EUA para o treinamento de dados.

O estudo, co-autor de pesquisadores da Universidade de Washington, da Universidade de Copenhague e Stanford, propõe um novo método para identificar dados de treinamento “memorizados” por modelos por trás de uma API, como o OpenAI.

Os modelos são motores de previsão. Treinados em muitos dados, eles aprendem padrões – é assim que podem gerar ensaios, fotos e muito mais. A maioria das saídas não é cópias literalmente dos dados de treinamento, mas devido à maneira como os modelos “aprendem”, alguns são inevitavelmente. Modelos de imagem foram encontrados para Capturas de tela regurgitadas de filmes em que foram treinadosenquanto modelos de idiomas foram observados artigos de notícias efetivamente plagiadores.

O método do estudo depende de palavras que os co-autores chamam de “alta sobrevivência”-ou seja, palavras que se destacam como incomuns no contexto de um corpo maior de trabalho. Por exemplo, a palavra “radar” na frase “Jack e eu nos sentamos perfeitamente ainda com o zumbido do radar” seria considerado alta sobrevivência, porque é estatisticamente menos provável do que palavras como “mecanismo” ou “rádio” para aparecer antes de “cantarolando”.

Os co-autores investigaram vários modelos OpenAI, incluindo GPT-4 e GPT-3.5, para sinais de memorização, removendo palavras de alta sobrevivência de trechos de livros de ficção e peças do New York Times e fazendo com que os modelos tentem “adivinhar” quais palavras foram mascaradas. Se os modelos conseguissem adivinhar corretamente, é provável que eles memorizassem o trecho durante o treinamento, concluíram os co-autores.

Estudo de direitos autorais do OpenAi — Um exemplo de ter um modelo “adivinhe” uma palavra de alta sobrevivência.Créditos da imagem:Openai

De acordo com os resultados dos testes, o GPT-4 mostrou sinais de ter memorizado porções de livros de ficção popular, incluindo livros em um conjunto de dados contendo amostras de eBooks protegidos por direitos autorais chamados Bookmia. Os resultados também sugeriram que o modelo memorizava partes dos artigos do New York Times, embora a uma taxa comparativamente mais baixa.

Abhilasha Ravichander, estudante de doutorado da Universidade de Washington e co-autora do estudo, disse ao Strong The One que as descobertas lançam luz sobre os modelos de “dados controversos” poderiam ter sido treinados.

“Para ter grandes modelos de idiomas confiáveis, precisamos ter modelos que possamos investigar e auditar e examinar cientificamente”, disse Ravichander. “Nosso trabalho visa fornecer uma ferramenta para investigar grandes modelos de linguagem, mas há uma necessidade real de maior transparência de dados em todo o ecossistema”.

O OpenAI há muito defende restrições mais frouxas no desenvolvimento de modelos usando dados protegidos por direitos autorais. Embora a empresa possua certos acordos de licenciamento de conteúdo e ofereça mecanismos de opção de exclusão que permitem que os proprietários de direitos autorais sinalizem o conteúdo de que preferem que a empresa não use para fins de treinamento, ela fez lobby vários governos para codificar as regras de “uso justo” em torno das abordagens de treinamento de IA.

Etiquetas

Astaabril 4, 2025

0 2 minutos de leitura

Mostrar mais

Ler o Próximo

O conteúdo de direitos autorais de direitos autorais dos modelos do OpenAI, sugere um novo estudo

Asta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Deixe um comentário Cancelar resposta

Ler o Próximo

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

O que é AI Mistral? Tudo para saber sobre o concorrente Openai

Anduril está trabalhando na difícil tarefa relacionada à IA da computação de borda em tempo real

O Google revela acidentalmente detalhes sobre sua nova linguagem de design Android, material 3 expressivo

As pessoas lutam para obter conselhos úteis para a saúde dos chatbots, o estudo encontra

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA