Ciência e Tecnologia

Os registros judiciais mostram que os funcionários da Meta discutidos usando conteúdo protegido por direitos autorais para treinamento de IA

.

Durante anos, os funcionários da Meta discutiram internamente usando trabalhos protegidos por direitos autorais obtidos por meio de meios legalmente questionáveis ​​para treinar os modelos de IA da empresa, de acordo com documentos do tribunal não lotados na quinta -feira.

Os documentos foram submetidos pelos queixosos no caso Kadrey v. Meta, uma das muitas disputas de direitos autorais da IA ​​lentamente enrolando o sistema judicial dos EUA. O réu, Meta, afirma que os modelos de treinamento em obras protegidas por IP, principalmente livros, são “uso justo”. Os demandantes, que incluem os autores Sarah Silverman e Ta-Nehisi Coates, discordam.

Materiais anteriores apresentados no processo alegam que o CEO da Meta, Mark Zuckerberg funciona E que a Meta interrompeu as negociações de licenciamento de dados de treinamento de IA com os editores de livros. Mas os novos arquivos, a maioria dos quais mostram partes de bate -papos de trabalho interno entre os meta -funcionários, pintam a imagem mais clara de como a Meta pode ter passado a usar dados protegidos por direitos autorais para treinar seus modelos, incluindo modelos na família de lhama da empresa.

Em um bate -papo, os funcionários da Meta, incluindo Melanie Kambadur, gerente sênior da equipe de pesquisa de modelos de Llama da Meta, discutiram modelos de treinamento sobre trabalhos que eles conheciam, pode estar legalmente repleto.

““[M]A opinião de Y seria (na linha de ‘Perguntar o perdão, não a permissão’): tentamos adquirir os livros e escalá -lo para executivos para que eles façam a ligação ”, escreveu Xavier Martinet, um engenheiro de meta de pesquisa, em um bate -papo datado Fevereiro de 2023, De acordo com os registros. ““[T]é o motivo pelo qual eles criaram este genérico para [sic]: para que possamos ser menos avessos ao risco. ”

Martinet lançou a idéia de comprar e-books a preços de varejo para criar um conjunto de treinamento em vez de cortar acordos de licenciamento com editores de livros individuais. Depois que outro funcionário apontou que o uso de materiais não autorizados e protegidos por direitos autorais pode ser um motivo para um desafio legal, Martinet dobrou, argumentando que as startups de “um gazilhão” provavelmente já estavam usando livros piratas para treinamento.

“Quero dizer, pior caso: descobrimos que está finalmente ok, enquanto um start -up de gazilhão [sic] Apenas toneladas de livros pirateados sobre BitTorrent ”, escreveu Martinet, De acordo com os registros. ““[M]Y 2 centavos novamente: Tentar ter acordos com editores leva diretamente muito tempo … ”

No mesmo bate -papo, Kambadur, que observou que a Meta estava conversando com a plataforma de hospedagem de documentos “e outros” para licenças, alertou que, ao usar “dados publicamente disponíveis” para treinamento de modelos, exigiria aprovações, os advogados da Meta estavam sendo “menos conservadores” do que Eles estavam no passado com tais aprovações.

“Sim, definitivamente precisamos obter licenças ou aprovações em dados publicamente disponíveis”, disse Kambadur, De acordo com os registros. ““[D]O Ifference agora é que temos mais dinheiro, mais advogados, mais ajuda bizdev, capacidade de acelerar/escalar a velocidade e os advogados estão sendo um pouco menos conservadores nas aprovações. ”

Conversas sobre libgen

Em outro bate -papo de trabalho transmitido nos arquivos, Kambadur discute possivelmente usando a LibGen, um “agregador de links” que fornece acesso a obras protegidas por direitos autorais de editores, como uma alternativa às fontes de dados que a Meta pode licenciar.

A Libgen foi processada várias vezes, ordenada a desligar e multou dezenas de milhões de dólares para violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela De um resultado de pesquisa no Google para a libgen que contém o trecho “Não, a libgen não é legal”.

Alguns tomadores de decisão da Meta parecem ter tido a impressão de que não usar o LibGen para o treinamento de modelos poderia prejudicar seriamente a competitividade de Meta na corrida da IA, De acordo com os registros.

Em um email endereçado à VP da Meta AI Joelle Pineau, Sony Theakanath, diretora de gerenciamento de produtos da Meta, chamada Libgen “essencial para atender aos números SOTA em todas as categorias”, referindo -se a superar os melhores modelos de IA da AI da melhor, de última geração (SOTA) e Categorias de benchmark.

Theakanath também descreveu “mitigações” no e -mail destinado a ajudar a reduzir a exposição legal da META, incluindo a remoção de dados da Libgen “claramente marcada como pirata/roubada” e também simplesmente não citando publicamente o uso. “Não divulgaríamos o uso de conjuntos de dados LibGen usados ​​para treinar”, como Theakanath colocou.

Na prática, essas mitigações implicavam pentear através de arquivos libgen para palavras como “roubado” ou “pirateado”. De acordo com os registros.

Em um bate -papo de trabalhoKambadur mencionado Que a equipe de IA da Meta também sintonizou os modelos para “evitar instruções de IP arriscadas” – ou seja, configurou os modelos para se recusar a responder a perguntas como “reproduzir as três primeiras páginas de ‘Harry Potter e a pedra do feiticeiro’ ou” diga -me em quais e -books você foi treinado . ”

Os registros contêm outras revelações, o que implica que a meta pode ter eliminado dados do Reddit Para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado Pushift. Notavelmente, o Reddit disse em abril de 2023 que planejava começar a cobrar das empresas de IA para acessar dados para treinamento de modelos.

Em um bate -papo, datado de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos da Org generativa da Meta da Meta, disse que a meta liderança estava considerando “substituir” decisões passadas sobre dados de treinamento, incluindo uma decisão de não usar conteúdo quora ou livros licenciados e artigos científicos, Para garantir que os modelos da empresa tivessem dados de treinamento suficientes.

Nayak implicava que os conjuntos de dados de treinamento de primeira parte da Meta-Facebook e Postagens do Instagram, texto transcrito de vídeos em meta plataformas e certos Meta para negócios Mensagens – simplesmente não bastava. “Precisamos de mais dados”, escreveu ela.

Os demandantes em Kadrey v. Meta alteraram sua queixa várias vezes desde que o caso foi apresentado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. As últimas alegações de que meta, entre outras reivindicações, referenciadas cruzadas Certos livros piratas com livros protegidos por direitos autorais disponíveis para licença para determinar se fazia sentido seguir um contrato de licenciamento com um editor.

Em um sinal de quão alto meta considera as apostas legais, a empresa Adicionou Dois litigantes da Suprema Corte do escritório de advocacia Paul Weiss para sua equipe de defesa no caso.

A Meta não respondeu imediatamente a um pedido de comentário.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo