.
Na semana passada, o O Authors Guild enviou uma carta aberta aos líderes de algumas das maiores empresas de IA generativa do mundo. Assinado por mais de 9.000 escritores, incluindo autores proeminentes como George Saunders e Margaret Atwood, pedia a empresas como Alphabet, OpenAI, Meta e Microsoft “que obtivessem consentimento, crédito e compensassem de forma justa os escritores pelo uso de materiais protegidos por direitos autorais no treinamento de IA”. O apelo é apenas o mais recente de uma série de esforços de criativos para garantir crédito e compensação pelo papel que eles afirmam que seu trabalho desempenhou no treinamento de sistemas de IA generativos.
Os dados de treinamento usados para modelos de linguagem grandes, ou LLMs, e outros sistemas de IA generativos foram mantidos clandestinos. Porém, quanto mais esses sistemas são usados, mais escritores e artistas visuais percebem semelhanças entre seu trabalho e a produção desses sistemas. Muitos pediram às empresas de IA generativa que revelassem suas fontes de dados e – como no Authors Guild – compensassem aqueles cujos trabalhos foram usados. Alguns dos fundamentos são cartas abertas e postagens de mídia social, mas um número crescente são ações judiciais.
É aqui que a lei de direitos autorais desempenha um papel importante. No entanto, é uma ferramenta mal equipada para lidar com todo o escopo das ansiedades dos artistas, sejam preocupações de longa data sobre emprego e remuneração em um mundo abalado pela internet, ou novas preocupações sobre privacidade e características pessoais – e sem direitos autorais. Para muitos deles, os direitos autorais podem oferecer apenas respostas limitadas. “Há muitas questões que a IA cria para quase todos os aspectos da sociedade”, diz Mike Masnick, editor do blog de tecnologia Techdirt. “Mas esse foco estreito nos direitos autorais como a ferramenta para lidar com isso, eu acho, é realmente equivocado.”
O perfil mais alto Um desses processos recentes ocorreu no início deste mês, quando a comediante Sarah Silverman, ao lado de outros quatro autores em dois processos separados, processou a OpenAI, alegando que a empresa treinou seu popular sistema ChatGPT em seus trabalhos sem permissão. Ambas as ações coletivas foram movidas pelo escritório de advocacia Joseph Saveri, especializado em litígios antitruste. A empresa também está representando os artistas que estão processando Stability AI, Midjourney e DeviantArt por motivos semelhantes. Na semana passada, durante uma audiência nesse caso, o juiz distrital dos EUA, William Orrick, indicou que poderia rejeitar a maior parte do processo, afirmando que, uma vez que esses sistemas foram treinados em “cinco bilhões de imagens compactadas”, os artistas envolvidos precisavam “fornecer mais fatos” para suas reivindicações de violação de direitos autorais.
O caso Silverman alega, entre outras coisas, que a OpenAI pode ter copiado as memórias do comediante, enurese, por meio de “bibliotecas ocultas” que hospedam tesouros de e-books piratas e artigos acadêmicos. Se o tribunal decidir a favor de Silverman e seus colegas demandantes, a decisão pode estabelecer um novo precedente para como a lei vê os conjuntos de dados usados para treinar modelos de IA, diz Matthew Sag, professor de direito da Emory University. Especificamente, poderia ajudar a determinar se as empresas podem reivindicar o uso justo quando seus modelos extraem material protegido por direitos autorais. “Não vou pedir o resultado dessa questão”, diz Sag sobre o processo de Silverman. “Mas parece ser o mais convincente de todos os casos que foram arquivados.” A OpenAI não respondeu aos pedidos de comentários.
No cerne desses casos, explica Sag, está a mesma teoria geral: que os LLMs “copiaram” as obras protegidas dos autores. No entanto, como Sag explicou em depoimento a uma audiência do subcomitê do Senado dos EUA no início deste mês, modelos como GPT-3.5 e GPT-4 não “copiam” o trabalho no sentido tradicional. Digerir seria um verbo mais apropriado — digerir dados de treinamento para realizar sua função: prever a melhor próxima palavra em uma sequência. “Em vez de pensar em um LLM copiando os dados de treinamento como um escriba em um mosteiro”, disse Sag em seu depoimento no Senado, “faz mais sentido pensar nisso como aprendendo com os dados de treinamento como um aluno”.
.








