News

O acordo de conteúdo da OpenAI com o FT é uma tentativa de evitar mais desafios legais – e um ‘apocalipse de dados’ da IA

.

A nova “parceria estratégica” e acordo de licenciamento da OpenAI com o Financial Times (FT) segue acordos semelhantes entre a empresa de tecnologia dos EUA e editoras como a Associated Press, o gigante da mídia alemão Axel Springer e o jornal francês Le Monde.

A OpenAI licenciará o conteúdo do FT para uso como dados de treinamento para seus produtos, incluindo sucessores de seu chatbot de IA ChatGPT. Os sistemas de IA desenvolvidos pela OpenAI são expostos a estes dados para os ajudar a melhorar o seu desempenho em termos de utilização da linguagem, contexto e precisão. O FT receberá um pagamento não divulgado como parte do negócio.

Isto está a acontecer num contexto global de desafios legais por parte de empresas de comunicação social que alegam violação de direitos de autor sobre a utilização do seu conteúdo para treinar produtos de IA. O mais notório deles é um caso apresentado pelo New York Times contra a OpenAI. Existe também o receio entre as empresas tecnológicas de que, à medida que constroem produtos cada vez mais avançados, a Internet já não tenha dados de alta qualidade suficientes para treinar estas ferramentas de IA.

Então, o que este acordo significará para o FT? Ainda faltam detalhes sobre parcerias como esta, além do fato de que o FT será pago pelo seu conteúdo. No entanto, há indícios de outros benefícios potenciais.

Num comunicado, o chefe executivo do Grupo FT, John Ridding, enfatizou que o jornal estava comprometido com o “jornalismo humano”. Mas ele também reconheceu que o negócio das notícias não pode ficar parado: “Estamos interessados ​​em explorar os resultados práticos relativos às fontes de notícias e à IA através desta parceria… Valorizamos a oportunidade de estar dentro do ciclo de desenvolvimento à medida que as pessoas descobrem conteúdos de novas formas. .”

O FT já havia dito que iria “experimentar de forma responsável” ferramentas de IA e treinar jornalistas para usar IA generativa para “descoberta de histórias”.

A OpenAI provavelmente está interessada em anunciar esta parceria porque espera que ela ajude a resolver os problemas mais graves que seus principais produtos enfrentam. A primeira é que essas ferramentas generativas de IA às vezes inventam coisas, um fenômeno conhecido como alucinação. Usar conteúdo confiável do FT e de outras fontes confiáveis ​​deve ajudar nisso.

O segundo problema é que poderia ajudar a compensar o escrutínio legal que a OpenAI enfrenta. A assinatura de acordos oficiais com fontes de notícias proporciona à empresa de tecnologia algum controle de danos à reputação, pois mostra que ela está tentando fazer o bem com o mundo do jornalismo. Também proporciona potencialmente mais segurança jurídica no futuro.

OpenAI

Varavin88/Shutterstock

O conteúdo licenciado do FT – e de outras fontes de mídia – poderia fornecer ao ChatGPT e ao próximo GPT-5 respostas mais específicas e referenciadas aos usuários. Gemini, concorrente do ChatGPT do Google, já tenta fazer isso fornecendo pesquisas no Google que apoiam as afirmações que faz. Obter resultados diretamente da fonte significa que a OpenAI tem evidências mais confiáveis ​​para pesquisar e treinar.

Isto parece seguir a tendência de “geração aumentada de recuperação” (RAG) que está se tornando mais popular no mundo da IA. RAG é uma técnica pela qual um grande modelo de linguagem (a tecnologia que está por trás dos chatbots de IA, como o ChatGPT) pode ser fornecido com um banco de dados de conhecimento que pode ser pesquisado para apoiar o que o chatbot já sabe. É como fazer um exame com um livro aberto à sua frente.

Isto ajuda a reduzir o risco de alucinação, onde a IA produz com autoridade uma resposta que parece real, mas na verdade é inventada. Ter acesso a uma base de dados de jornalismo confiável ajuda a compensar os problemas de confiabilidade dos produtos de IA, resultantes de seu treinamento na Internet aberta.

Programa de parceria

Há um subtexto neste programa global de parcerias com a mídia que não diz respeito à lei ou à ética. A OpenAI precisa de cada vez mais dados com o passar do tempo para continuar entregando grandes melhorias por meio de atualizações em seus produtos de IA. No entanto, estes produtos estão a ficar sem dados de formação de alta qualidade provenientes da Internet aberta.

Isto ocorre, pelo menos em parte, porque há agora uma proliferação de conteúdo produzido por IA na web. Isto potencialmente prejudica a necessidade contínua da OpenAI de provar aos seus parceiros, governos e investidores que pode proporcionar grandes melhorias aos seus principais produtos.

O processo do New York Times sustenta que produtos como o ChatGPT ameaçam os negócios das empresas de mídia. Qualquer que seja o resultado deste caso, é do interesse da OpenAI manter as suas fontes de dados de formação, incluindo empresas de comunicação social, produtivas e economicamente viáveis. O sucesso do ChatGPT, pelo menos por enquanto, está muito ligado ao sucesso das pessoas e organizações que produzem os dados que o tornam útil.

As relações públicas da indústria da IA ​​fizeram muito para promover a ideia da inevitabilidade: que a IA, na forma de produtos como o ChatGPT, transformará as indústrias – e a vida das pessoas em geral. No entanto, a tecnologia falha o tempo todo. O acordo do FT destaca a tensão dinâmica que existe entre a IA e as indústrias que ela está a mudar. O ChatGPT precisa agora do jornalismo confiável que as suas próprias capacidades produtivas e métodos de formação ajudaram a minar.

A ideia de que a IA generativa envenenou a Internet não é nova. Alguns investigadores de IA compararam a propagação de lixo gerado pela IA na Internet à forma como a contaminação radioactiva de metais forçou os fabricantes de aço na década de 1950 a mergulhar em busca de aço de navios naufragados que tinham sido fabricados antes da era nuclear. Este aço pré-nuclear era necessário para determinados usos, como em aceleradores de partículas e contadores Geiger.

De forma semelhante, para a OpenAI e empresas semelhantes, treinar os seus produtos com base em “restos” de dados não parece ser um caminho viável a seguir.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo