.
UM Novo estudo Parece dar credibilidade a alegações de que o OpenAI treinou pelo menos alguns de seus modelos de IA em conteúdo protegido por direitos autorais.
O Openai está envolvido em ternos trazidos por autores, programadores e outros detentores de direitos que acusam a empresa de usar seus trabalhos-livros, bases de código e assim por diante-para desenvolver seus modelos sem permissão. Openai há muito reivindica um uso justo Defesa, mas os demandantes nesses casos argumentam que não há uma escultura na lei de direitos autorais dos EUA para o treinamento de dados.
O estudo, co-autor de pesquisadores da Universidade de Washington, da Universidade de Copenhague e Stanford, propõe um novo método para identificar dados de treinamento “memorizados” por modelos por trás de uma API, como o OpenAI.
Os modelos são motores de previsão. Treinados em muitos dados, eles aprendem padrões – é assim que podem gerar ensaios, fotos e muito mais. A maioria das saídas não é cópias literalmente dos dados de treinamento, mas devido à maneira como os modelos “aprendem”, alguns são inevitavelmente. Modelos de imagem foram encontrados para Capturas de tela regurgitadas de filmes em que foram treinadosenquanto modelos de idiomas foram observados artigos de notícias efetivamente plagiadores.
O método do estudo depende de palavras que os co-autores chamam de “alta sobrevivência”-ou seja, palavras que se destacam como incomuns no contexto de um corpo maior de trabalho. Por exemplo, a palavra “radar” na frase “Jack e eu nos sentamos perfeitamente ainda com o zumbido do radar” seria considerado alta sobrevivência, porque é estatisticamente menos provável do que palavras como “mecanismo” ou “rádio” para aparecer antes de “cantarolando”.
Os co-autores investigaram vários modelos OpenAI, incluindo GPT-4 e GPT-3.5, para sinais de memorização, removendo palavras de alta sobrevivência de trechos de livros de ficção e peças do New York Times e fazendo com que os modelos tentem “adivinhar” quais palavras foram mascaradas. Se os modelos conseguissem adivinhar corretamente, é provável que eles memorizassem o trecho durante o treinamento, concluíram os co-autores.

De acordo com os resultados dos testes, o GPT-4 mostrou sinais de ter memorizado porções de livros de ficção popular, incluindo livros em um conjunto de dados contendo amostras de eBooks protegidos por direitos autorais chamados Bookmia. Os resultados também sugeriram que o modelo memorizava partes dos artigos do New York Times, embora a uma taxa comparativamente mais baixa.
Abhilasha Ravichander, estudante de doutorado da Universidade de Washington e co-autora do estudo, disse ao Strong The One que as descobertas lançam luz sobre os modelos de “dados controversos” poderiam ter sido treinados.
“Para ter grandes modelos de idiomas confiáveis, precisamos ter modelos que possamos investigar e auditar e examinar cientificamente”, disse Ravichander. “Nosso trabalho visa fornecer uma ferramenta para investigar grandes modelos de linguagem, mas há uma necessidade real de maior transparência de dados em todo o ecossistema”.
O OpenAI há muito defende restrições mais frouxas no desenvolvimento de modelos usando dados protegidos por direitos autorais. Embora a empresa possua certos acordos de licenciamento de conteúdo e ofereça mecanismos de opção de exclusão que permitem que os proprietários de direitos autorais sinalizem o conteúdo de que preferem que a empresa não use para fins de treinamento, ela fez lobby vários governos para codificar as regras de “uso justo” em torno das abordagens de treinamento de IA.
.








