.

Modelos generativos de IA, como o ChatGPT, capturaram a imaginação de milhões de pessoas, oferecendo um vislumbre de como poderá ser um futuro assistido por IA.
A nova tecnologia também traz à tona novas questões de direitos autorais. Por exemplo, vários titulares de direitos estão preocupados com o facto de o seu trabalho estar a ser utilizado para treinar e explorar a IA sem qualquer forma de compensação.
Estas preocupações desencadearam numerosos processos judiciais relacionados com a IA nos Estados Unidos, muitos dos quais visam a OpenAI. Apenas alguns dias atrás, o Author’s Guild e vários membros proeminentes, incluindo George RR Martin e John Grisham, juntaram-se à ação legal.
As alegações em sua reclamação são semelhantes a outras veiculadas nos últimos meses. O primeiro caso foi aberto em um tribunal federal da Califórnia pelos autores Paul Tremblay e Mona Awad, aos quais mais tarde se juntaram a escritora/comediante Sarah Silverman e outros autores em um processo semelhante.
De acordo com os demandantes, grandes conjuntos de treinamento de modelos de linguagem não deveriam ter permissão para usar todos os trechos de texto que encontram online. Eles acusam a OpenAI de usar livros como dados de treinamento, sem permissão, baseando-se em conjuntos de dados provenientes de sites piratas.
As reclamações mencionam os controversos conjuntos de dados Books2 e Books3 que se acredita serem provenientes de bibliotecas paralelas como LibGen, Z-Library, Sci-Hub e Bibliotik.
Moção da OpenAI para rejeitar
Em agosto, a OpenAI respondeu a essas reclamações, pedindo a um tribunal federal da Califórnia que rejeitasse quase todas as reclamações. De acordo com a empresa de tecnologia, não há reivindicações viáveis por violação vicária de direitos autorais, violação de DMCA, concorrência desleal e enriquecimento sem causa.
A única alegação que não foi contestada pela OpenAI é a violação direta de direitos autorais, que a empresa planeja abordar posteriormente.
Entre os seus argumentos para rejeitar as alegações, a empresa de IA citou o uso justo. Argumentou que a utilização de grandes quantidades de textos protegidos por direitos de autor poderia ser considerada “justa” porque ajuda a facilitar o progresso e a inovação.
“Vários tribunais aplicaram a doutrina do uso justo para atingir esse equilíbrio, reconhecendo que o uso de materiais protegidos por direitos autorais por inovadores de maneiras transformadoras não viola os direitos autorais”, escreveu OpenAI.
Autores respondem
Os autores responderam a esses argumentos esta semana. Embora os casos ‘Tremblay’ e ‘Silverman’ ainda não tenham sido oficialmente fundidos, ambos apresentaram exatamente os mesmos argumentos de oposição, pedindo ao tribunal que negue a moção da OpenAI para rejeitar as reivindicações.
Segundo os autores, é “revelador” que a OpenAI não faça nenhuma tentativa de rejeitar a alegação direta de violação de direitos autorais. Esta questão é mais adequada para ser discutida em julgamento e o mesmo se aplica às outras reivindicações.
“No entanto, a OpenAI ainda tenta aproveitar seu movimento para pré-litigar questões que acredita que terão sucesso no futuro. Isso é impróprio em uma moção de rejeição e deve ser desconsiderado”, escrevem eles.
A lenda urbana do uso justo
Os autores observam que a interpretação detalhada da OpenAI sobre o uso justo num contexto de IA é irrelevante, pelo menos nesta fase. O uso justo é uma defesa que normalmente não é usada para rejeitar reivindicações de violação de direitos autorais antes de serem devidamente argumentadas.
“O uso justo, é claro, é uma característica importante – embora limitada – da lei de direitos autorais dos EUA. É importante ressaltar, porém, que o uso justo é uma defesa afirmativa e é “inapropriado para resolver uma moção de rejeição”. Dado isso, os argumentos da OpenAI em relação ao uso justo são totalmente equivocados.
Para reforçar o seu argumento, os autores referem-se a uma decisão recente num processo da Thomson Reuters, que também trata de reivindicações de direitos de autor relacionadas com IA. Nesse caso, o tribunal rejeitou o argumento do uso justo e encaminhou o assunto a julgamento.
Além disso, os demandantes observam que o uso de obras protegidas por direitos autorais para fins de IA nem sempre é considerado uso justo; isso é uma lenda urbana.
“Ao contrário da lenda urbana generalizada na indústria da IA, nenhum tribunal dos EUA decidiu abertamente sobre se treinar um modelo de IA com expressão protegida por direitos de autor é uso justo”, escrevem os demandantes.
Pirataria como fonte
Os autores também reiteram suas alegações de pirataria e mencionam três tipos de violação de direitos autorais. Além de usar trabalhos protegidos por direitos autorais para dados de treinamento, os próprios modelos LLM também infringem trabalhos derivados, e o mesmo se aplica à saída dos modelos.
Essas acusações e reivindicações baseiam-se em grande parte na suspeita de que a OpenAI usou centenas de milhares de livros protegidos por direitos autorais como material de treinamento. Embora a empresa nunca tenha mencionado sua fonte, os autores acreditam que os modelos são treinados em livros piratas de bibliotecas ocultas como LibGen, Z-Library, Sci-Hub e Bibliotik.
“Os conjuntos de dados de livros usados pela OpenAI para treinar modelos de linguagem incluíam milhares de livros protegidos por direitos autorais, incluindo livros escritos pelos Requerentes”, escrevem eles.
“Dado o tamanho desses conjuntos de dados de livros, a fonte mais provável desses livros é um ou mais dos notórios sites de ‘bibliotecas sombra’ que hospedam um grande número de textos piratas que não são de domínio público.”
As alegações diretas e indiretas de violação de direitos autorais baseiam-se nesta suspeita, e o mesmo se aplica às violações do DMCA. Os autores esperam poder provar isso no julgamento e pedem ao tribunal que não rejeite quaisquer reivindicações prematuramente.
–
Cópias dos resumos de oposição idênticos dos autores em resposta à moção de rejeição da OpenAI estão disponíveis aqui (Tremblay et. al / Silverman et al)
.








