Novas preocupações levantadas sobre fontes de material de treinamento para sistemas de IA | Inteligência Artificial (IA)

Novos temores foram levantados sobre o material de treinamento usado para alguns dos maiores e mais poderosos modelos de inteligência artificial, depois que várias investigações expuseram as fontes fascistas, piratas e maliciosas das quais os dados são coletados.

Um desses conjuntos de dados é o Colossal Clean Crawled Corpus, ou C4, montado pelo Google a partir de mais de 15 milhões de sites e usado para treinar tanto o LaMDA AI do mecanismo de busca quanto o concorrente GPT do Meta, o LLaMA.

O conjunto de dados é público, mas sua escala dificultou o exame do conteúdo: é supostamente uma versão “limpa” de um conjunto de dados mais expansivo, Common Crawl, com conteúdo “ruidoso”, linguagem ofensiva e calúnias racistas removidos do material.

Mas uma investigação do Washington Post revela que a “limpeza” do C4 é superficial. Embora se baseie em sites como o Guardian – que representa 0,05% de todo o conjunto de dados – e a Wikipedia, bem como em grandes bancos de dados como o Google Patents e o hub de revistas científicas PLOS, também contém sites menos respeitáveis.

O site nacionalista branco VDARE está no banco de dados, um dos 1.000 maiores sites, assim como o site de notícias de extrema direita Breitbart. O site de propaganda RT, apoiado pelo estado russo, é um dos cem maiores fornecedores de dados de treinamento para o corpus C4.

Poucos sites deram consentimento explícito para serem incluídos, embora a Common Crawl, a organização sem fins lucrativos que reuniu os dados copiados, diga que respeita os pedidos para ficar de fora de sua pesquisa. Alguns, no entanto, ultrapassam os limites do uso justo: o b-ok.org, anteriormente conhecido como Bookzz, era um vasto repositório de e-books piratas, até ser apreendido pelo FBI em 2022. Apesar disso, o conteúdo do site permanece no banco de dados C4.

Essas vastas coleções de dados são importantes para a criação de IA, porque os grandes modelos de linguagem (LLM) que sustentam ferramentas como o ChatGPT precisam de grandes conjuntos de dados para melhorar.

Reunir as centenas de gigabytes de texto necessários para treinar tal modelo a partir de fontes explicitamente licenciadas seria uma tarefa difícil, e muitos pesquisadores de IA optam por pedir perdão em vez de permissão, argumentando que suas criações são cobertas por defesas de “uso justo” para direitos autorais. .

Alguns até optam por abrir mão da “limpeza” que o Google aplicou ao seu conjunto de dados, a fim de acessar ainda mais dados para seus sistemas aprenderem. A Stability AI, com sede em Londres, lançou seu novo LLM, StableLM, na quarta-feira, treinado no Pile, um conjunto de dados de 850 GB que inclui todo o banco de dados Common Crawl não limpo, bem como 2 milhões de e-books piratas do site BitTorrent Bibliotik, 100 GB de dados extraídos do site de codificação GitHub e fontes mais esotéricas, como todos os e-mails internos enviados pela agora extinta empresa de energia Enron e todos os procedimentos do parlamento europeu.

The Pile é hospedado publicamente por um grupo de “entusiastas de dados” anônimos chamado Eye, cuja política de remoção de direitos autorais vincula a um vídeo de um coro de mulheres vestidas fingindo masturbar pênis imaginários enquanto cantam.

A versão usada pela Stability, que atualmente é privada, é “três vezes maior”, diz a empresa. Ele não divulgou mais detalhes sobre o conteúdo extra desse conjunto de dados, que, segundo ele, “dá ao StableLM um desempenho surpreendentemente alto em tarefas de conversação e codificação”.

“Abrimos nossos modelos de código aberto para promover a transparência e fomentar a confiança”, disse Stability. “Os pesquisadores podem ‘examinar sob o capô’ para verificar o desempenho, trabalhar em técnicas de interpretabilidade, identificar riscos potenciais e ajudar a desenvolver proteções.

“As organizações dos setores público e privado podem adaptar (‘ajustar’) esses modelos de código aberto para seus próprios aplicativos sem compartilhar seus dados confidenciais ou abrir mão do controle de seus recursos de IA.”

O Google foi abordado para comentar.

Strongabril 22, 2023

0 3 minutos de leitura

Mostrar mais

Ler o Próximo

Novas preocupações levantadas sobre fontes de material de treinamento para sistemas de IA | Inteligência Artificial (IA)

Strong

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Deixe um comentário Cancelar resposta

Ler o Próximo

Esta função do Google Sheets faz o Excel se sentir como um dinossauro

Não bloqueado arrecada US $ 20 milhões para a IA para ajudar os desenvolvedores a entender as bases de código

A Newlimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US $ 130 milhões para desenvolver tratamentos de reversão da idade

O Google estreia um modelo atualizado Gemini 2.5 Pro Ai antes da E/S

A relevância da IA ​​levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA

O novo Surface Pro da Microsoft é menor, mais leve e mais amigável

Impulsionado pela Defesa e Starlink, Orca AI recebe US $ 72,5 milhões para sua plataforma de remessa autônoma

Os agentes de fronteira dos EUA estão pedindo ajuda para tirar fotos de todos que entram no país de carro

Os Rovers da NASA acabaram de encontrar rochas retorcidas semelhantes em lados opostos de Marte

Centenas de sites de comércio eletrônico invadidos em ataques de cadeia de suprimentos

Artigos relacionados

Deixe um comentário Cancelar resposta

A relevância da IA levanta US $ 24 milhões para ajudar as empresas a criar agentes de IA