.

Getty Images
Se você é uma empresa treinando um modelo de linguagem grande (LLM) AI e deseja aprender com o subreddit u/420NarutoConspiracy, em breve terá que pagar por isso.
Steve Huffman, fundador e CEO do Reddit, agregador de notícias e discussões sociais, disse recentemente ao The New York Times que planeja cobrar das empresas que acessam sua API com o objetivo de extrair seus 18 anos de conteúdo gerado principalmente por humanos. Detalhes sobre os novos termos estão disponíveis em um post de anúncio subsequente no Reddit.
A API ainda seria gratuita para desenvolvedores que trabalham com bots e outras ferramentas do Reddit e pesquisadores que trabalham em projetos acadêmicos ou não comerciais. Mas simplesmente manter as conversas do Reddit para fins de treinamento de IA terá um preço, cujas quantidades exatas devem chegar nas próximas semanas.
“O corpus de dados do Reddit é realmente valioso”, disse Huffman ao Times. “Mas não precisamos dar todo esse valor para algumas das maiores empresas do mundo de graça.
“Rastrear o Reddit, gerar valor e não retornar nada desse valor para nossos usuários é algo com o qual temos um problema. É um bom momento para apertarmos as coisas.”
Os comentários e conversas do Reddit têm sido um rico recurso para treinar LLM AIs. O ChatGPT e o Bard do Google citam os dados do Reddit como uma de suas fontes. Em sua análise de apenas um subconjunto (12 milhões) do conjunto de dados de geração de imagem da Stable Diffusion (2,3 bilhões), Andy Baio e Simon Willison observaram que “plataformas de conteúdo gerado pelo usuário eram uma enorme fonte de dados de imagem”. Uma investigação sobre fontes de dados comuns para muitos AIs publicada hoje pelo The Washington Post observou que “uma compilação de texto de links altamente avaliados por usuários do Reddit” está incluída no GPT-3.
Embora pretenda limitar o acesso a IAs, o Reddit disse que pretende fornecer aos desenvolvedores e moderadores melhores ferramentas para trabalhar em suas comunidades. Os aplicativos iOS e Android do Reddit oferecerão maneiras de visualizar rapidamente o histórico de um usuário, atualizar as regras da comunidade e lidar melhor com várias filas de mods.
A mudança do Reddit no acesso à API ocorre quando a empresa pretende abrir o capital no segundo semestre de 2023, de acordo com o The Information. A empresa entrou com pedido confidencial de uma oferta pública inicial em dezembro de 2021. Esperava uma avaliação de US$ 15 bilhões, segundo a Reuters, mas adiou o pedido até que as condições do mercado, especialmente em torno de empresas de tecnologia, melhorassem.
O Reddit é parcialmente propriedade da Advance Publications, que também é proprietária da Condé Nast, controladora da Strong The One.
.