Entretenimento

9.000 autores dizem que empresas de IA exploraram livros para treinar chatbots

.

Mais de 9.000 autores estão chamando as empresas de tecnologia por trás da IA ​​generativa em uma carta aberta que afirma que há uma injustiça inerente na exploração de obras protegidas por direitos autorais para treinar chatbots sem consentimento, crédito ou compensação.

Se os usuários solicitarem que o GPT-4 resuma as obras de Roxane Gay ou Margaret Atwood, ele poderá fazê-lo em detalhes, capítulo por capítulo. Se os usuários quiserem que o ChatGPT escreva uma história no estilo de uma autora aclamada como Maya Angelou, eles podem pedir para “escrever um ensaio pessoal no estilo de Maya Angelou, explorando o tema da autodescoberta e crescimento pessoal”. E voilà.

A IA generativa é alimentada por dois programas de software conhecidos como modelos de linguagem grandes, que renunciam a um método de programação tradicional e, em vez disso, extraem grandes quantidades de texto para produzir respostas naturais e realistas aos prompts do usuário.

Na carta aberta de terça-feira, o Authors Guild escreve que “as tecnologias generativas de IA construídas em grandes modelos de linguagem devem sua existência aos nossos escritos. Essas tecnologias imitam e regurgitam nossa linguagem, histórias, estilo e ideias. Milhões de livros, artigos, ensaios e poesia protegidos por direitos autorais fornecem o ‘alimento’ para sistemas de IA, refeições intermináveis ​​para as quais não houve cobrança.”

A carta afirma ainda que empresas de tecnologia, incluindo OpenAI, Alphabet, Meta, Stability AI, IBM e Microsoft, gastaram bilhões para desenvolver tecnologia de IA e que compensar os autores pelo uso de seus trabalhos seria uma jogada justa, porque sem esses livros, “IA seria banal e extremamente limitada”.

O romancista e ensaísta Jonathan Franzen elogiou o esforço, afirmando: “O Authors Guild está dando um passo importante para promover os direitos de todos os americanos cujos dados, palavras e imagens estão sendo explorados, para lucro imenso, sem o seu consentimento – em outras palavras, praticamente todos os americanos com mais de seis anos de idade”.

Dan Brown, James Patterson, Margaret Atwood, Roxane Gay, Celeste Ng, Viet Thanh Nguyen, George Saunders e Rebecca Makkai estão entre os milhares de autores que estão questionando os líderes da indústria de IA, pedindo que suas preocupações sejam abordadas e ações específicas sejam tomadas:

  • Obtenha permissão para o uso de material protegido por direitos autorais em programas generativos de IA.
  • Compense de forma justa os escritores pelo uso passado e contínuo de seus trabalhos em programas generativos de IA.
  • Compensar de forma justa os escritores pelo uso de suas obras na produção de IA, independentemente de as saídas infringirem as leis atuais.

“Entendemos que muitos dos livros usados ​​para desenvolver sistemas de IA se originaram de notórios sites de pirataria”, continua a carta. “Não apenas a recente decisão da Suprema Corte em Warhol v. Goldsmith deixa claro que a alta comercialidade de seu uso argumenta contra o uso justo, mas nenhum tribunal desculparia a cópia de obras de origem ilegal como uso justo.”

O Authors Guild diz que a IA generativa ameaça as profissões dos escritores ao “inundar o mercado com livros, histórias e jornalismo medíocres escritos por máquinas com base em nosso trabalho”. E que, pelo menos na última década, os autores experimentaram um declínio de 40% na renda, com muitos escritores em tempo integral em 2022 mal ultrapassando o nível federal de pobreza.

A carta vem apenas algumas semanas depois que os romancistas best-sellers Mona Awad e Paul Tremblay entraram com uma ação contra a OpenAI em um tribunal federal de San Francisco, alegando que o ChatGPT foi treinado em parte por “ingerir” seus romances sem seu consentimento.

Quando solicitado, o ChatGPT emitiu resumos extremamente detalhados de “A cabana no fim do mundo” de Tremblay e “Bunny” e “13 maneiras de olhar para uma garota gorda” de Awad. Ambos os autores afirmam que isso é prova de que seus romances foram usados ​​para treinar o chatbot, e o arquivamento inclui as respostas do ChatGPT às solicitações relacionadas a seus romances.

Em junho de 2018, a OpenAI revelou que treinou GPT-1 usando BookCorpus, que o processo descreveu como um “conjunto de dados controversos” reunido por pesquisadores de inteligência artificial em 2015, com uma coleção de “mais de 7.000 livros inéditos exclusivos de uma variedade de gêneros, incluindo aventura, fantasia e romance.

“Eles copiaram os livros de um site chamado Smashwords.com, que hospeda romances inéditos que estão disponíveis gratuitamente para os leitores. Esses romances, no entanto, estão em grande parte protegidos por direitos autorais.

De acordo com a denúncia, as iterações posteriores dos grandes modelos de linguagem da empresa foram treinadas usando quantidades significativamente maiores de livros protegidos por direitos autorais. Em um artigo de julho de 2020 apresentando o GPT-3, a empresa revelou que 15% do conjunto de dados de treinamento veio de “dois corpora de livros baseados na Internet” que a OpenAI chamou simplesmente de “Livros1” e “Livros2”.

O processo estima que, com base nos números revelados no artigo da OpenAI sobre o GPT-3, o Books1 conteria cerca de 63.000 títulos e o Books2 incluiria aproximadamente 294.000 títulos.

Os especialistas previram que mais processos certamente acontecerão, à medida que a IA se tornar mais adepta do uso de informações da Web para gerar novos conteúdos.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo