News

Autores acusam OpenAI de usar sites piratas para treinar ChatGPT * Strong The One

.

Lar > Ações judiciais >

A IA generativa é uma tecnologia revolucionária que deve mudar a sociedade como a conhecemos, mas, paralelamente, levanta muitas questões de violação de direitos autorais. Esta semana, os autores de livros Paul Tremblay e Mona Awad entraram com uma ação contra a OpenAI, acusando a empresa de usar livros piratas para treinar seus modelos ChatGPT.

openaiModelos generativos de IA, como o ChatGPT, capturaram a imaginação de milhões de pessoas, oferecendo um vislumbre de como pode ser um futuro assistido por IA.

A nova tecnologia também traz novas questões de direitos autorais. Vários detentores de direitos estão preocupados que seu trabalho esteja sendo usado para treinar IA sem qualquer forma de compensação, por exemplo.

Como essas e outras questões de direitos autorais serão tratadas não está totalmente claro. Governos de todo o mundo estão adotando abordagens diferentes, com o Congresso dos EUA declarando recentemente que não planeja reagir de forma exagerada. Enquanto isso, os detentores de direitos não pretendem ficar de braços cruzados.

Autores processam OpenAI por violação de direitos autorais

Esta semana, os autores Paul Tremblay e Mona Awad entraram com uma ação coletiva contra a OpenAI, acusando a empresa controladora do ChatGPT de violação de direitos autorais e violação do DMCA, entre outras coisas. Segundo os autores, o ChatGPT foi parcialmente treinado em seus trabalhos protegidos por direitos autorais, sem permissão.

A prova para esta afirmação é aparentemente simples. Os autores nunca deram permissão ao OpenAI para usar seus trabalhos, mas o ChatGPT pode fornecer resumos precisos de seus escritos. Essa informação deve ter vindo de algum lugar.

“De fato, quando o ChatGPT é solicitado, o ChatGPT gera resumos dos trabalhos protegidos por direitos autorais dos Requerentes – algo que só é possível se o ChatGPT tiver sido treinado nos trabalhos protegidos por direitos autorais dos Requerentes”, diz a queixa.

treinamento pirata

Embora esses tipos de alegações não sejam novos, o processo desta semana alega que a OpenAI usou sites piratas como entrada de treinamento. Isso inclui potencialmente a Z-Library, uma biblioteca secreta de milhões de livros piratas que está no centro de um processo criminal do Departamento de Justiça dos EUA.

A OpenAI não divulgou os conjuntos de dados nos quais o ChatGPT é treinado, mas em um artigo mais antigo, dois bancos de dados são referenciados; “Livros1” e “Livros2”. A primeira contém cerca de 63.000 títulos e a segunda cerca de 294.000 títulos.

Esses números são insignificantes isoladamente. No entanto, os autores observam que o OpenAI deve ter usado recursos piratas, pois não existem bancos de dados legítimos com tantos livros.

“Os únicos ‘corpora de livros baseados na Internet’ que já ofereceram tanto material são sites notórios de ‘biblioteca sombra’ como Library Genesis (também conhecido como LibGen), Z-Library (também conhecido como Bok), Sci-Hub e Bibliotik. Os livros agregados por esses sites também estão disponíveis em massa por meio de sistemas de torrent.”

chatgpt reclamação

Com base nesses pontos de dados, a denúncia conclui que a OpenAI cometeu violação de direitos autorais. Como compensação, os demandantes exigem danos estatutários, que podem chegar a US$ 150.000 por obra. Indenizações adicionais pela suposta remoção de informações de gerenciamento de direitos autorais, em violação do DMCA, também estão sobre a mesa.

IA, pirataria e direitos autorais

Não há evidências diretas de que a OpenAI tenha usado sites piratas para treinar o ChatGPT. Dito isso, não é segredo que alguns projetos de IA treinaram com material pirateado no passado, como um excelente resumo dos destaques do Search Engine Journal.

A grande mídia também pegou esse problema. O Washington Post informou anteriormente que o “conjunto de dados C4”, que o Google e o Facebook usaram para treinar seus modelos de IA, incluía Z-Library e vários outros sites piratas.

“Pelo menos 27 outros sites identificados pelo governo dos EUA como mercados de pirataria e falsificações estavam presentes no conjunto de dados”, acrescentou o artigo.

O presente processo será acompanhado de perto por entusiastas de IA e detentores de direitos. Isso pode fazer com que a OpenAI tenha que divulgar alguns de seus dados de treinamento, o que seria interessante por si só.

Mesmo que fique claro que o ChatGPT foi treinado com livros piratas, o tribunal ainda terá que decidir se isso equivale a violação de direitos autorais. Alguns especialistas acreditam que esse tipo de treinamento de IA pode ser considerado uso justo.

O uso justo protege usos transformadores de obras protegidas por direitos autorais que não competem com o conteúdo original. De acordo com vários especialistas, essa defesa provavelmente poderia se aplicar a casos de treinamento de IA.

Uma cópia da queixa apresentada contra a OpenAI no tribunal federal do Distrito Norte da Califórnia está disponível aqui (pdf)

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo