.

Benj Edwards / Getty Images
No início de agosto, o The New York Times atualizou seus termos de serviço (TOS) para proibir a extração de seus artigos e imagens para treinamento de IA, relata a Adweek. A mudança ocorre em um momento em que as empresas de tecnologia continuam a monetizar aplicativos de linguagem de IA, como ChatGPT e Google Bard, que obtiveram seus recursos por meio de fragmentos maciços e não autorizados de dados da Internet.
Os novos termos proíbem o uso do conteúdo do Times – que inclui artigos, vídeos, imagens e metadados – para treinar qualquer modelo de IA sem permissão expressa por escrito. Na Seção 2.1 dos TOS, o NYT diz que seu conteúdo é para “uso pessoal e não comercial” do leitor e que o uso não comercial não inclui “o desenvolvimento de qualquer programa de software, incluindo, mas não limitado a, treinamento um sistema de aprendizado de máquina ou inteligência artificial (IA).
Mais abaixo, na seção 4.1, os termos dizem que sem o consentimento prévio por escrito do NYT, ninguém pode “usar o Conteúdo para o desenvolvimento de qualquer programa de software, incluindo, mas não limitado a, treinamento de um sistema de aprendizado de máquina ou inteligência artificial (IA) .”
O NYT também descreve as consequências de ignorar as restrições: “Engajar-se em um uso proibido dos Serviços pode resultar em penalidades civis, criminais e/ou administrativas, multas ou sanções contra o usuário e aqueles que o auxiliam.”
Por mais ameaçador que pareça, os termos de uso restritivos não impediram anteriormente o consumo indiscriminado da Internet em conjuntos de dados de aprendizado de máquina. Todos os grandes modelos de linguagem disponíveis hoje – incluindo o GPT-4 da OpenAI, o Claude 2 da Anthropic, o Llama 2 da Meta e o PaLM 2 do Google – foram treinados em grandes conjuntos de dados de materiais extraídos da Internet. Usando um processo chamado aprendizado não supervisionado, os dados da web foram alimentados em redes neurais, permitindo que os modelos de IA ganhassem um senso conceitual de linguagem analisando as relações entre as palavras.
A natureza controversa do uso de dados copiados para treinar modelos de IA, que não foi totalmente resolvida nos tribunais dos EUA, levou a pelo menos um processo que acusa a OpenAI de plágio devido à prática. Na semana passada, a Associated Press e várias outras organizações de notícias publicaram uma carta aberta dizendo que “uma estrutura legal deve ser desenvolvida para proteger o conteúdo que alimenta os aplicativos de IA”, entre outras preocupações.
A OpenAI provavelmente antecipa desafios legais contínuos à frente e começou a fazer movimentos que podem ser projetados para superar algumas dessas críticas. Por exemplo, a OpenAI detalhou recentemente um método que os sites podem usar para bloquear seu rastreador da Web de treinamento de IA usando o robots.txt. Isso levou vários sites e autores a declararem publicamente que bloqueariam o rastreador.
Por enquanto, o que já foi raspado é inserido no GPT-4, incluindo o conteúdo do New York Times. Talvez tenhamos que esperar até o GPT-5 para ver se a OpenAI ou outros fornecedores de IA respeitam os desejos dos proprietários de conteúdo de serem deixados de fora. Caso contrário, novos processos ou regulamentos de IA podem estar por vir.
.







