Ciência e Tecnologia

As ferramentas de IA estão ficando sem dados de treinamento, mas existem 6 soluções

.

Principais conclusões

  • A IA pode ficar sem dados de alta qualidade até 2026, mas a quantidade crescente de dados adicionados à internet anualmente oferece soluções potenciais.
  • A IA pode ser levada a esquecer dados de baixa qualidade, impulsionando o desenvolvimento de métodos para “desaprender” dados seletivamente.
  • A tecnologia de reconhecimento de fala disponibiliza dados de vídeo e podcast para treinamento de IA, enquanto dados sintéticos oferecem uma solução futura para o crescimento da IA.



A inteligência artificial precisa de dados de treinamento, mas esses dados são limitados. Então, de que outra forma podemos treinar a IA para que ela continue a crescer e seja útil para nós?

Você pode pensar que a internet e seus dados são recursos inesgotáveis, mas as ferramentas de IA estão ficando sem dados para minerar. Agora, antes que você se preocupe, isso não vai parar o desenvolvimento da IA ​​— ainda há muitos dados prontos para treinar sistemas de IA.


1 Sempre há mais dados adicionados online

Resumindo, o instituto de pesquisa de IA Epoch diz que os dados de alta qualidade nos quais a IA está sendo treinada podem acabar até 2026.

A palavra-chave aqui é “poderia”. A quantidade de dados adicionados à internet a cada ano aumenta, então algo drástico pode mudar antes de 2026. Ainda assim, é uma estimativa justa — de qualquer forma, os sistemas de IA ficarão sem dados bons em algum momento.


Devemos lembrar, no entanto, que cerca de 147 zettabytes de dados são adicionados on-line a cada ano (conforme Exploding Topics). Apenas um zettabyte é igual a 1.000.000.000.000.000.000.000 bits de dados. Em termos reais (bem, um tanto reais), isso é mais do que 30 bilhões de filmes 4K (reais, mas insondáveis). É uma quantidade assustadora de informações para a IA peneirar.

No entanto, a IA consome dados mais rápido do que a humanidade consegue criá-los…

2 A IA pode esquecer dados de baixa qualidade

Smartphone exibindo o logotipo DALL-E 3, em um fundo de servidores de dados e código digital, simbolizando a tecnologia de IA.
Mehaniq/Shutterstock/Meio da jornada

Nem todos esses 147 zettabytes de dados são bons dados, é claro. Há muito mais do que aparenta. Mas estima-se que a IA também terá usado dados de linguagem de baixa qualidade até 2050.


A Reuters relatou que o Photobucket, que já foi um dos maiores repositórios de imagens do mundo, estava em negociações para licenciar sua extensa biblioteca para empresas de treinamento de IA. Dados de imagem treinaram sistemas como DALL-E e Midjourney, mas mesmo isso pode acabar até 2060. Há um problema maior aqui também: o Photobucket abrigou imagens de plataformas de mídia social dos anos 2000, como o Myspace, o que significa que elas não são um padrão tão alto quanto a fotografia atual. Isso leva a dados de baixa qualidade.

O Photobucket não está sozinho. Em fevereiro de 2024, o Google fechou um acordo com o Reddit, permitindo que o gigante das buscas usasse os dados do usuário da plataforma de mídia social em seu treinamento de IA. Outras plataformas de mídia social também estão fornecendo dados do usuário para fins de treinamento de IA; algumas estão usando-os para treinar modelos de IA internos, como o Llama da Meta.

No entanto, embora algumas informações possam ser obtidas de dados de baixa qualidade, a Microsoft está supostamente desenvolvendo uma maneira para a IA “desaprender” dados seletivamente. Primeiramente, isso seria usado para problemas de IP, mas também pode significar que as ferramentas podem esquecer o que aprenderam de conjuntos de dados de baixa qualidade.


Poderíamos fornecer mais dados à IA sem sermos muito seletivos; esses sistemas de IA poderiam então escolher o que é mais benéfico para aprender.

3 Reconhecimento de fala abre dados de vídeo e podcast

Os dados alimentados para ferramentas de IA até agora consistiam em grande parte de texto e, em menor extensão, imagens. Isso sem dúvida mudará, e provavelmente já mudou, pois o software de reconhecimento de fala significará que a riqueza de vídeos e podcasts disponíveis também pode treinar IA.

Notavelmente, a OpenAI desenvolveu a rede neural de reconhecimento automático de fala (ASR) de código aberto, Whisper, usando 680.000 horas de dados multilíngues e multitarefas. A OpenAI então alimentou mais de um milhão de horas de informações de vídeos do YouTube em seu grande modelo de linguagem, GPT-4.

Este é um modelo ideal para outros sistemas de IA, que usam reconhecimento de fala para transcrever vídeos e áudio de diversas fontes e executar esses dados em seus modelos de IA.


De acordo com a Statista, mais de 500 horas de vídeo são carregadas no YouTube a cada minuto, um número que se manteve bastante consistente desde 2019. Isso sem mencionar outras plataformas de vídeo e áudio como Dailymotion e Podbean. Se a IA puder voltar sua atenção para novos conjuntos de dados como esses, ainda há uma enorme quantidade de informações a serem mineradas.

4 As IAs se mantiveram em grande parte na língua inglesa

Isso não é tudo o que podemos aprender com o Whisper. A OpenAI treinou o modelo usando 117.000 horas de dados de áudio não em inglês. Isso é especialmente interessante porque muitos sistemas de IA foram treinados principalmente usando inglês ou visualizando outras culturas através das lentes ocidentais.

Em essência, a maioria das ferramentas é limitada pela cultura de seus criadores.

Tome o ChatGPT como exemplo. Logo após seu lançamento em 2022, Jill Walker Rettberg, professora de Cultura Digital na Universidade de Bergen, Noruega, testou o ChatGPT e concluiu:


“O ChatGPT não sabe muito sobre a cultura norueguesa. Ou melhor, o que quer que ele saiba sobre a cultura norueguesa é presumivelmente aprendido principalmente de fontes em língua inglesa… O ChatGPT está explicitamente alinhado com os valores e leis dos EUA. Em muitos casos, eles estão próximos dos valores noruegueses e europeus, mas presumivelmente nem sempre será esse o caso.”

As IAs, então, podem se desenvolver quanto mais pessoas multinacionais interagem com elas — ou quanto mais línguas e culturas diversas são usadas para treinar tais sistemas. Agora mesmo, muitas inteligências artificiais foram confinadas a uma única biblioteca; elas podem crescer se receberem as chaves de bibliotecas ao redor do mundo.

5 As editoras podem ajudar a desenvolver IAs

mulher soprando confete de um livro aberto que ela acabou de ler
DALL-E/FazerUsoDe


A propriedade intelectual é obviamente uma questão enorme, mas algumas editoras poderiam ajudar a desenvolver IAs fazendo acordos de licenciamento. Isso significaria dar às ferramentas dados de alta qualidade, ou seja, confiáveis, de livros, em vez de informações potencialmente de baixa qualidade coletadas de fontes online.

Na verdade, a Meta, dona do Facebook, Instagram e WhatsApp, supostamente considerou comprar a Simon & Schuster, uma das “Big Five” editoras. A ideia era usar literatura publicada pela empresa para treinar a própria IA da Meta. O acordo acabou fracassando, talvez devido à área cinzenta ética da empresa processar IPs sem consentimento prévio dos escritores.

Outra opção aparentemente considerada foi comprar direitos de licenciamento individuais sobre novos títulos. Isso deve causar grandes preocupações para os criativos, mas ainda será uma maneira interessante para as ferramentas de IA se desenvolverem se os dados utilizáveis ​​estiverem esgotados.

6 Dados sintéticos são o futuro

Todas as outras soluções ainda são limitadas, mas uma opção pode fazer a IA prosperar no futuro: dados sintéticos. E isso já está sendo investigado como uma possibilidade muito real.


Então, o que são dados sintéticos? Nesse sentido, são dados criados por IA; assim como humanos criam dados, esse método veria a inteligência artificial gerar dados para propósitos de treinamento.

Na verdade, uma IA poderia criar um vídeo deepfake convincente. Esse vídeo deepfake poderia ser realimentado em uma IA para que ela pudesse aprender com o que é essencialmente um cenário imaginário. Afinal, essa é uma das principais maneiras pelas quais os humanos aprendem: lemos ou assistimos a algo para entender o mundo ao nosso redor.

É provável que as IAs já tenham consumido informações sintéticas. Deepfakes circularam online e espalharam informações falsas e desinformação, então, enquanto os sistemas de IA escaneiam a internet, faz sentido que alguns tenham sido sujeitos a conteúdo falsificado.

Sim, há um lado insidioso nisso. Também pode danificar ou limitar IAs, reforçando e espalhando erros cometidos por essas ferramentas. As empresas estão trabalhando para erradicar o último problema; ainda assim, “IAs aprendendo umas com as outras e cometendo erros” é um ponto da trama de muitos cenários de pesadelo de ficção científica.


7

A IA é controversa. Há muitas desvantagens, mas os detratores ignoram seus benefícios. Por exemplo, a rede de auditoria e consultoria PwC [PDF] sugere que a IA pode contribuir com até US$ 15,7 trilhões para a economia mundial até 2030.

Além disso, a IA já está sendo usada em todo o mundo. Você provavelmente já a usou hoje de uma forma ou de outra, talvez sem nem perceber. Agora que o gênio saiu da garrafa, a chave é certamente treiná-lo em dados confiáveis ​​e de qualidade para que possamos fazer uso adequado deles.

A IA tem seus pontos positivos e negativos. Há um equilíbrio a ser encontrado.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo