.
Novos temores foram levantados sobre o material de treinamento usado para alguns dos maiores e mais poderosos modelos de inteligência artificial, depois que várias investigações expuseram as fontes fascistas, piratas e maliciosas das quais os dados são coletados.
Um desses conjuntos de dados é o Colossal Clean Crawled Corpus, ou C4, montado pelo Google a partir de mais de 15 milhões de sites e usado para treinar tanto o LaMDA AI do mecanismo de busca quanto o concorrente GPT do Meta, o LLaMA.
O conjunto de dados é público, mas sua escala dificultou o exame do conteúdo: é supostamente uma versão “limpa” de um conjunto de dados mais expansivo, Common Crawl, com conteúdo “ruidoso”, linguagem ofensiva e calúnias racistas removidos do material.
Mas uma investigação do Washington Post revela que a “limpeza” do C4 é superficial. Embora se baseie em sites como o Guardian – que representa 0,05% de todo o conjunto de dados – e a Wikipedia, bem como em grandes bancos de dados como o Google Patents e o hub de revistas científicas PLOS, também contém sites menos respeitáveis.
O site nacionalista branco VDARE está no banco de dados, um dos 1.000 maiores sites, assim como o site de notícias de extrema direita Breitbart. O site de propaganda RT, apoiado pelo estado russo, é um dos cem maiores fornecedores de dados de treinamento para o corpus C4.
Poucos sites deram consentimento explícito para serem incluídos, embora a Common Crawl, a organização sem fins lucrativos que reuniu os dados copiados, diga que respeita os pedidos para ficar de fora de sua pesquisa. Alguns, no entanto, ultrapassam os limites do uso justo: o b-ok.org, anteriormente conhecido como Bookzz, era um vasto repositório de e-books piratas, até ser apreendido pelo FBI em 2022. Apesar disso, o conteúdo do site permanece no banco de dados C4.
Essas vastas coleções de dados são importantes para a criação de IA, porque os grandes modelos de linguagem (LLM) que sustentam ferramentas como o ChatGPT precisam de grandes conjuntos de dados para melhorar.
Reunir as centenas de gigabytes de texto necessários para treinar tal modelo a partir de fontes explicitamente licenciadas seria uma tarefa difícil, e muitos pesquisadores de IA optam por pedir perdão em vez de permissão, argumentando que suas criações são cobertas por defesas de “uso justo” para direitos autorais. .
Alguns até optam por abrir mão da “limpeza” que o Google aplicou ao seu conjunto de dados, a fim de acessar ainda mais dados para seus sistemas aprenderem. A Stability AI, com sede em Londres, lançou seu novo LLM, StableLM, na quarta-feira, treinado no Pile, um conjunto de dados de 850 GB que inclui todo o banco de dados Common Crawl não limpo, bem como 2 milhões de e-books piratas do site BitTorrent Bibliotik, 100 GB de dados extraídos do site de codificação GitHub e fontes mais esotéricas, como todos os e-mails internos enviados pela agora extinta empresa de energia Enron e todos os procedimentos do parlamento europeu.
The Pile é hospedado publicamente por um grupo de “entusiastas de dados” anônimos chamado Eye, cuja política de remoção de direitos autorais vincula a um vídeo de um coro de mulheres vestidas fingindo masturbar pênis imaginários enquanto cantam.
A versão usada pela Stability, que atualmente é privada, é “três vezes maior”, diz a empresa. Ele não divulgou mais detalhes sobre o conteúdo extra desse conjunto de dados, que, segundo ele, “dá ao StableLM um desempenho surpreendentemente alto em tarefas de conversação e codificação”.
“Abrimos nossos modelos de código aberto para promover a transparência e fomentar a confiança”, disse Stability. “Os pesquisadores podem ‘examinar sob o capô’ para verificar o desempenho, trabalhar em técnicas de interpretabilidade, identificar riscos potenciais e ajudar a desenvolver proteções.
“As organizações dos setores público e privado podem adaptar (‘ajustar’) esses modelos de código aberto para seus próprios aplicativos sem compartilhar seus dados confidenciais ou abrir mão do controle de seus recursos de IA.”
O Google foi abordado para comentar.
.