.
Dois autores entraram com uma ação contra a OpenAI, a empresa por trás da ferramenta de inteligência artificial ChatGPT, alegando que a organização violou a lei de direitos autorais ao “treinar” seu modelo em romances sem a permissão dos autores.
Mona Awad, cujos livros incluem Bunny e 13 Ways of Looking at a Fat Girl, e Paul Tremblay, autor de The Cabin at the End of the World, apresentaram a ação coletiva a um tribunal federal de São Francisco na semana passada.
O ChatGPT permite que os usuários façam perguntas e digitem comandos em um chatbot e respondam com um texto que se assemelha a padrões de linguagem humana. O modelo subjacente ao ChatGPT é treinado com dados disponíveis publicamente na Internet.
No entanto, Awad e Tremblay acreditam que seus livros, que são protegidos por direitos autorais, foram “ingeridos” ilegalmente e “usados para treinar” o ChatGPT porque o chatbot gerou “resumos muito precisos” dos romances, de acordo com a denúncia. Resumos de amostra estão incluídos no processo como provas.
Este é o primeiro processo contra o ChatGPT que diz respeito a direitos autorais, de acordo com Andres Guadamuz, leitor de direito de propriedade intelectual da Universidade de Sussex. O processo explorará as incertas “fronteiras da legalidade” das ações dentro do espaço generativo da IA, acrescenta.
Os livros são ideais para treinar grandes modelos de linguagem porque tendem a conter “prosa longa, bem editada e de alta qualidade”, disseram os advogados dos autores, Joseph Saveri e Matthew Butterick, em um e-mail ao Guardian. “É o padrão ouro de armazenamento de ideias para nossa espécie.”
A denúncia dizia que a OpenAI lucra “injustamente” com “escrita e ideias roubadas” e pede indenização monetária em nome de todos os autores baseados nos Estados Unidos cujos trabalhos foram supostamente usados para treinar o ChatGPT. Embora os autores com obras protegidas por direitos autorais tenham “grande proteção legal”, disseram Saveri e Butterick, eles estão enfrentando empresas “como a OpenAI, que se comportam como se essas leis não se aplicassem a eles”.
No entanto, pode ser difícil provar que os autores sofreram perdas financeiras especificamente por causa do treinamento do ChatGPT em material protegido por direitos autorais, mesmo que o último seja verdadeiro. O ChatGPT pode funcionar “exatamente da mesma forma” se não tivesse ingerido os livros, disse Guadamuz, porque é treinado em uma riqueza de informações da Internet que inclui, por exemplo, internautas discutindo os livros.
A OpenAI tornou-se “cada vez mais secreta” sobre seus dados de treinamento, disseram Saveri e Butterick. Em artigos divulgados juntamente com as primeiras iterações do ChatGPT, a OpenAI deu algumas pistas sobre o tamanho dos “corpora de livros baseados na Internet” que usou como material de treinamento, que chamou apenas de “Livros2”. Os advogados deduzem que o tamanho desse conjunto de dados – estimado em 294.000 títulos – significa que os livros só podem ser extraídos de bibliotecas ocultas, como Library Genesis (LibGen) e Z-Library, por meio das quais os livros podem ser protegidos em massa por meio de sistemas de torrent.
Este caso “provavelmente dependerá de os tribunais verem o uso de material protegido por direitos autorais dessa maneira como ‘uso justo’”, disse Lilian Edwards, professora de direito, inovação e sociedade da Universidade de Newcastle, “ou como simples cópia não autorizada”. Edwards e Guadamuz enfatizam que um processo semelhante movido no Reino Unido não seria decidido da mesma forma, porque o Reino Unido não tem a mesma defesa de “uso justo”.
O governo do Reino Unido está “interessado em promover uma exceção aos direitos autorais que permitiria o uso livre de material protegido por direitos autorais para mineração de texto e dados, mesmo para fins comerciais”, disse Edwards, mas a reforma foi “aumentada” depois que autores, editoras e a indústria musical indústria ficaram “horrorizados”.
após a promoção do boletim informativo
Desde que o ChatGPT foi lançado em novembro de 2022, a indústria editorial tem discutido como proteger os autores dos danos potenciais da tecnologia de IA. No mês passado, a Sociedade de Autores (SoA) publicou uma lista de “etapas práticas para os membros” para “salvaguardar” a si mesmos e seu trabalho. Ontem, o executivo-chefe da SoA, Nicola Solomon, disse à revista especializada The Bookseller que a organização estava “muito satisfeita” em ver os autores processando a OpenAI, tendo “há muito tempo se preocupado” com a “cópia por atacado” do trabalho dos autores para treinar grandes modelos de linguagem. .
Richard Combes, chefe de direitos e licenciamento da Authors’ Licensing and Collecting Society (ALCS), disse que a regulamentação atual em torno da IA é “fragmentada, inconsistente em diferentes jurisdições e lutando para acompanhar os desenvolvimentos tecnológicos”. Ele incentivou os formuladores de políticas a consultar os princípios elaborados pelo ALCS que “protegem o verdadeiro valor que a autoria humana traz para nossas vidas e, principalmente no caso do Reino Unido, nossa economia e identidade internacional”.
Saveri e Butterick acreditam que a IA acabará se assemelhando “ao que aconteceu com a música digital, a TV e os filmes” e cumprirá a lei de direitos autorais. “Eles serão baseados em dados licenciados, com as fontes divulgadas.”
Os advogados também observaram que é “irônico” que as ferramentas da “chamada ‘inteligência artificial’” dependam de dados feitos por humanos. “Seus sistemas dependem inteiramente da criatividade humana. Se eles levarem os criadores humanos à falência, eles logo irão à falência.”
OpenAI foram abordados para comentar.
.







