technology

O Reddit começará a cobrar modelos de IA aprendendo com seus arquivos extremamente humanos

.

Mascote Reddit na frente do telefone em silhueta
Prolongar / O Reddit, um site repleto de humanos sendo todos os tipos de humanos possíveis, começará a cobrar de empresas maiores que desejam treinar seus AIs de modelo de linguagem grande em seus dados.

Getty Images

Se você é uma empresa treinando um modelo de linguagem grande (LLM) AI e deseja aprender com o subreddit u/420NarutoConspiracy, em breve terá que pagar por isso.

Steve Huffman, fundador e CEO do Reddit, agregador de notícias e discussões sociais, disse recentemente ao The New York Times que planeja cobrar das empresas que acessam sua API com o objetivo de extrair seus 18 anos de conteúdo gerado principalmente por humanos. Detalhes sobre os novos termos estão disponíveis em um post de anúncio subsequente no Reddit.

A API ainda seria gratuita para desenvolvedores que trabalham com bots e outras ferramentas do Reddit e pesquisadores que trabalham em projetos acadêmicos ou não comerciais. Mas simplesmente manter as conversas do Reddit para fins de treinamento de IA terá um preço, cujas quantidades exatas devem chegar nas próximas semanas.

“O corpus de dados do Reddit é realmente valioso”, disse Huffman ao Times. “Mas não precisamos dar todo esse valor para algumas das maiores empresas do mundo de graça.

“Rastrear o Reddit, gerar valor e não retornar nada desse valor para nossos usuários é algo com o qual temos um problema. É um bom momento para apertarmos as coisas.”

Os comentários e conversas do Reddit têm sido um rico recurso para treinar LLM AIs. O ChatGPT e o Bard do Google citam os dados do Reddit como uma de suas fontes. Em sua análise de apenas um subconjunto (12 milhões) do conjunto de dados de geração de imagem da Stable Diffusion (2,3 bilhões), Andy Baio e Simon Willison observaram que “plataformas de conteúdo gerado pelo usuário eram uma enorme fonte de dados de imagem”. Uma investigação sobre fontes de dados comuns para muitos AIs publicada hoje pelo The Washington Post observou que “uma compilação de texto de links altamente avaliados por usuários do Reddit” está incluída no GPT-3.

Embora pretenda limitar o acesso a IAs, o Reddit disse que pretende fornecer aos desenvolvedores e moderadores melhores ferramentas para trabalhar em suas comunidades. Os aplicativos iOS e Android do Reddit oferecerão maneiras de visualizar rapidamente o histórico de um usuário, atualizar as regras da comunidade e lidar melhor com várias filas de mods.

A mudança do Reddit no acesso à API ocorre quando a empresa pretende abrir o capital no segundo semestre de 2023, de acordo com o The Information. A empresa entrou com pedido confidencial de uma oferta pública inicial em dezembro de 2021. Esperava uma avaliação de US$ 15 bilhões, segundo a Reuters, mas adiou o pedido até que as condições do mercado, especialmente em torno de empresas de tecnologia, melhorassem.

O Reddit é parcialmente propriedade da Advance Publications, que também é proprietária da Condé Nast, controladora da Strong The One.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo