.
Dois romancistas best-sellers entraram com uma ação contra a OpenAI em um tribunal federal de São Francisco na quarta-feira, alegando em uma ação coletiva proposta que a empresa usou propriedade intelectual protegida por direitos autorais para “treinar” seu chatbot de inteligência artificial.
Os autores Mona Awad e Paul Tremblay afirmam que o ChatGPT foi treinado em parte por “ingerir” seus romances sem seu consentimento. A IA generativa é alimentada por dois programas de software conhecidos como modelos de linguagem grandes, que renunciam a um método de programação tradicional e, em vez disso, extraem grandes quantidades de texto para produzir respostas naturais e realistas aos prompts do usuário.
Quando solicitado, o ChatGPT emitiu resumos extremamente detalhados de “A cabana no fim do mundo” de Tremblay e “Bunny” e “13 maneiras de olhar para uma garota gorda” de Awad. Ambos os autores afirmam que isso é prova de que seus romances foram usados para treinar o chatbot, e o arquivamento inclui as respostas do ChatGPT às solicitações relacionadas a seus romances.
De acordo com o processo, grande parte do material que a OpenAI usa para treinar seus chatbots generativos vem de obras protegidas por direitos autorais, incluindo livros escritos por Awad e Tremblay, “que foram copiados pela OpenAI sem consentimento, sem crédito e sem compensação”.
O processo alega que uma variedade de materiais foi usada para treinar os grandes modelos de linguagem, mas os livros têm sido “um ingrediente-chave no treinamento de conjuntos de dados para grandes modelos de linguagem porque os livros oferecem os melhores exemplos de escrita longa de alta qualidade”.
Em junho de 2018, a OpenAI revelou que treinou GPT-1 usando BookCorpus, que o processo descreveu como um “conjunto de dados controversos” reunido por pesquisadores de inteligência artificial em 2015, com uma coleção de “mais de 7.000 livros inéditos exclusivos de uma variedade de gêneros, incluindo Aventura , Fantasia e Romance.
“Eles copiaram os livros de um site chamado Smashwords.com, que hospeda romances inéditos que estão disponíveis gratuitamente para os leitores. Esses romances, no entanto, estão em grande parte protegidos por direitos autorais.
Autor Paul Tremblay.
(Allen Amato)
De acordo com a denúncia, iterações posteriores dos grandes modelos de linguagem da empresa foram treinadas usando quantidades significativamente maiores de livros protegidos por direitos autorais. Em um artigo de julho de 2020 apresentando o GPT-3, a empresa revelou que 15% do conjunto de dados de treinamento veio de “dois corpora de livros baseados na Internet” que a OpenAI chamou simplesmente de “Livros1” e “Livros2”.
O processo estima que, com base nos números revelados no artigo da OpenAI sobre o GPT-3, o Books1 conteria cerca de 63.000 títulos e o Books2 incluiria aproximadamente 294.000 títulos.
“Como os OpenAI Language Models não podem funcionar sem as informações expressivas extraídas dos trabalhos dos Requerentes (e outros) e retidas dentro deles, os OpenAI Language Models estão infringindo trabalhos derivados, feitos sem a permissão dos Requerentes e em violação de seus direitos exclusivos sob o Lei de Direitos Autorais.”, diz o processo.
Também na quarta-feira, uma ação coletiva mais ampla foi movida pela Clarkson, um escritório de advocacia de interesse público, em nome de uma dúzia de clientes anônimos, acusando a OpenAI de levantar dados privados, às vezes identificando informações de usuários da Internet “sem seu consentimento informado ou conhecimento, ” de acordo com um relatório da Rolling Stone. Os especialistas previram que mais processos certamente acontecerão, à medida que a IA se tornar mais adepta do uso de informações da Web para gerar novos conteúdos.
.