technology

‘Eu não dei permissão’: os apoiadores da IA ​​se importam com as violações da lei de dados? | Inteligência Artificial (IA)

.

Csistemas de inteligência artificial de ponta podem ajudá-lo a escapar de uma multa de estacionamento, escrever um ensaio acadêmico ou induzi-lo a acreditar que o Papa Francisco é um fashionista. Mas as bibliotecas virtuais por trás dessa tecnologia de tirar o fôlego são vastas – e há preocupações de que elas estejam operando em violação de dados pessoais e leis de direitos autorais.

Os enormes conjuntos de dados usados ​​para treinar a última geração desses sistemas de IA, como aqueles por trás do ChatGPT e do Stable Diffusion, provavelmente contêm bilhões de imagens extraídas da Internet, milhões de e-books piratas, todos os procedimentos de 16 anos do parlamento europeu e toda a Wikipédia em inglês.

Mas o apetite voraz da indústria por big data está começando a causar problemas, já que reguladores e tribunais de todo o mundo reprimem pesquisadores que aspiram conteúdo sem consentimento ou aviso prévio. Em resposta, os laboratórios de IA estão lutando para manter seus conjuntos de dados em segredo, ou até mesmo desafiando os reguladores a insistir no assunto.

Na Itália, o ChatGPT foi proibido de operar depois que o regulador de proteção de dados do país disse que não havia base legal para justificar a coleta e o “armazenamento massivo” de dados pessoais para treinar o GPT AI. Na terça-feira, o comissário de privacidade canadense seguiu o exemplo com uma investigação sobre a empresa em resposta a uma reclamação alegando “a coleta, uso e divulgação de informações pessoais sem consentimento”.

O órgão regulador de dados da Grã-Bretanha expressou suas próprias preocupações. “A lei de proteção de dados ainda se aplica quando as informações pessoais que você está processando vêm de fontes publicamente acessíveis”, disse Stephen Almond, diretor de tecnologia e inovação do Information Commissioner’s Office.

Michael Wooldridge, professor de ciência da computação na Universidade de Oxford, diz que “grandes modelos de linguagem” (LLMs), como os que sustentam o ChatGPT da OpenAI e o Bard do Google, acumulam quantidades colossais de dados.

“Isso inclui toda a rede mundial de computadores – tudo. Cada link é seguido em cada página, e cada link nessas páginas é seguido … Nessa quantidade inimaginável de dados, provavelmente há muitos dados sobre você e eu ”, diz ele, acrescentando que os comentários sobre uma pessoa e seu trabalho também podem ser reunidas por um LLM. “E não está armazenado em um grande banco de dados em algum lugar – não podemos olhar para ver exatamente quais informações tem sobre mim. Está tudo enterrado em redes neurais enormes e opacas”.

Wooldridge diz que os direitos autorais são uma “tempestade que se aproxima” para as empresas de IA. É provável que os LLMs tenham acessado material protegido por direitos autorais, como artigos de notícias. De fato, o chatbot assistido por GPT-4 anexado ao mecanismo de busca Bing da Microsoft cita sites de notícias em suas respostas. “Não dei permissão explícita para que meus trabalhos fossem usados ​​como dados de treinamento, mas quase certamente foram, e agora contribuem para o que esses modelos sabem”, diz ele.

“Muitos artistas estão seriamente preocupados com o fato de seus meios de subsistência estarem em risco devido à IA generativa. Espere ver batalhas legais”, acrescenta.

Ações judiciais já surgiram, com a empresa de fotografia Getty Images processando a startup britânica Stability AI – a empresa por trás do gerador de imagens AI Stable Diffusion – depois de alegar que a empresa de geração de imagens violou direitos autorais usando milhões de Getty Photos não licenciados para treinar seu sistema . Nos Estados Unidos, um grupo de artistas está processando a Midjourney e a Stability AI em um processo que alega que as empresas “violaram os direitos de milhões de artistas” no desenvolvimento de seus produtos usando o trabalho dos artistas sem sua permissão.

Um esboço desenhado por Kris Kashtanova que o artista inseriu no programa de IA Stable Diffusion e transformou na imagem resultante usando prompts de texto.
Um esboço desenhado por Kris Kashtanova que o artista inseriu no programa de IA Stable Diffusion e transformou na imagem resultante usando prompts de texto. Fotografia: Kris Kashtanova/Reuters

Desajeitado para a estabilidade, o Stable Diffusion ocasionalmente cuspirá fotos com uma marca d’água Getty Images intacta, exemplos dos quais a agência de fotografia incluiu em seu processo. Em janeiro, pesquisadores do Google até conseguiram fazer com que o sistema Stable Diffusion recriasse quase perfeitamente uma das imagens não licenciadas nas quais havia sido treinado, um retrato da evangelista norte-americana Anne Graham Lotz.

Processos de direitos autorais e ações de reguladores contra a OpenAI são prejudicados pelo sigilo absoluto da empresa sobre seus dados de treinamento. Em resposta à proibição italiana, Sam Altman, executivo-chefe da OpenAI, que desenvolveu o ChatGPT, disse: “Achamos que estamos seguindo todas as leis de privacidade”. Mas a empresa se recusou a compartilhar qualquer informação sobre quais dados foram usados ​​para treinar o GPT-4, a versão mais recente da tecnologia subjacente que alimenta o ChatGPT.

Mesmo em seu “relatório técnico” descrevendo a IA, a empresa diz apenas que foi treinada “usando dados disponíveis publicamente (como dados da Internet) e dados licenciados de provedores terceirizados”. Mais informações estão ocultas, diz ele, devido “tanto ao cenário competitivo quanto às implicações de segurança de modelos de grande escala como o GPT-4”.

Outros têm a visão oposta. A EleutherAI se descreve como um “laboratório de pesquisa de IA sem fins lucrativos” e foi fundada em 2020 com o objetivo de recriar o GPT-3 e lançá-lo ao público. Para isso, o grupo montou o Pile, uma coleção de conjuntos de dados de 825 gigabytes coletados de todos os cantos da Internet. Inclui 100 GB de e-books retirados do site pirata bibliotik, outros 100 GB de código de computador extraído do Github e uma coleção de 228 GB de sites coletados na Internet desde 2008 – tudo, o grupo reconhece, sem o consentimento dos autores envolvidos.

pule a promoção do boletim informativo

Eleuther argumenta que os conjuntos de dados no Pile já foram tão amplamente compartilhados que sua compilação “não constitui dano significativamente aumentado”. Mas o grupo não corre o risco legal de hospedar diretamente os dados, em vez disso, recorre a um grupo de “entusiastas de dados” anônimos chamado Eye, cuja política de remoção de direitos autorais é um vídeo de um coro de mulheres vestidas fingindo masturbar seus pênis imaginários enquanto cantoria.

Algumas das informações produzidas pelos chatbots também são falsas. O ChatGPT acusou falsamente um professor de direito dos EUA, Jonathan Turley, da Universidade George Washington, de assediar sexualmente um de seus alunos – citando um artigo de notícias que não existia. O regulador italiano referiu-se ainda ao facto de as respostas do ChatGPT “nem sempre corresponderem às circunstâncias factuais” e “são tratados dados pessoais imprecisos”.

Um relatório anual sobre o progresso da IA ​​mostrou que os players comerciais estavam dominando o setor, sobre instituições acadêmicas e governos.

De acordo com o relatório AI Index de 2023, compilado pela Universidade de Stanford, com sede na Califórnia, no ano passado havia 32 modelos significativos de aprendizado de máquina produzidos pela indústria, em comparação com três produzidos pela academia. Até 2014, a maioria dos modelos significativos vinha da esfera acadêmica, mas desde então o custo de desenvolvimento de modelos de IA, incluindo pessoal e poder de computação, aumentou.

“Em geral, os modelos de linguagem grande e multimodal estão se tornando maiores e mais caros”, disse o relatório. Uma iteração inicial do LLM por trás do ChatGPT, conhecida como GPT-2, tinha 1,5 bilhão de parâmetros, análogos aos neurônios de um cérebro humano, e custou cerca de US$ 50.000 para treinar. Em comparação, o PaLM do Google tinha 540 bilhões de parâmetros e custou cerca de US$ 8 milhões.

Isso levantou preocupações de que entidades corporativas adotarão uma abordagem de risco menos comedida do que projetos acadêmicos ou apoiados pelo governo. Na semana passada, uma carta cujos signatários incluíam Elon Musk e o cofundador da Apple, Steve Wozniak, pedia uma pausa imediata na criação de “gigantes experimentos de IA” por pelo menos seis meses. A carta dizia que havia preocupações de que as empresas de tecnologia estivessem criando “mentes digitais cada vez mais poderosas” que ninguém poderia “entender, prever ou controlar de forma confiável”.

Andrew Rogoyski, do Institute for People-Centred AI da University of Surrey, na Inglaterra, disse: “Big AI significa que essas AIs estão sendo criadas puramente por grandes corporações com fins lucrativos, o que infelizmente significa que nossos interesses como seres humanos não são necessariamente bem representados.

Ele acrescentou: “Temos que concentrar nossos esforços em tornar a IA menor, mais eficiente, exigindo menos dados, menos eletricidade, para que possamos democratizar o acesso à IA”.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo