technology

Agora você pode executar um modelo de IA de nível GPT-3 em seu laptop, telefone e Raspberry Pi

.

Uma imagem abstrata gerada por IA sugerindo a silhueta de uma figura.

Strong The One

As coisas estão se movendo na velocidade da luz em AI Land. Na sexta-feira, um desenvolvedor de software chamado Georgi Gerganov criou uma ferramenta chamada “llama.cpp” que pode executar o novo modelo de linguagem grande AI de classe GPT-3 da Meta, LLaMA, localmente em um laptop Mac. Logo depois, as pessoas descobriram como rodar o LLaMA no Windows também. Então alguém mostrei rodando em um smartphone Pixel 6, e depois veio um Raspberry Pi (apesar de correr muito lentamente).

Se isso continuar, podemos estar olhando para um concorrente do ChatGPT de bolso antes que percebamos.

Mas vamos voltar um minuto, porque ainda não chegamos lá. (Pelo menos não hoje – literalmente hoje, 13 de março de 2023.) Mas o que chegará na próxima semana, ninguém sabe.

Desde o lançamento do ChatGPT, algumas pessoas ficaram frustradas com os limites integrados do modelo de IA que o impedem de discutir tópicos que o OpenAI considera delicados. Assim começou o sonho – em alguns setores – de um modelo de linguagem grande (LLM) de código aberto que qualquer um pudesse executar localmente sem censura e sem pagar taxas de API para OpenAI.

Existem soluções de código aberto (como GPT-J), mas exigem muita RAM da GPU e espaço de armazenamento. Outras alternativas de código aberto não poderiam apresentar desempenho de nível GPT-3 em hardware de nível de consumidor prontamente disponível.

Digite LLaMA, um LLM disponível em tamanhos de parâmetro que variam de 7B a 65B (que é “B” como em “bilhões de parâmetros”, que são números de ponto flutuante armazenados em matrizes que representam o que o modelo “sabe”). O LLaMA fez uma afirmação inebriante: que seus modelos menores poderiam igualar o GPT-3 da OpenAI, o modelo fundamental que alimenta o ChatGPT, em qualidade e velocidade de saída. Havia apenas um problema – a Meta lançou o código aberto do LLaMA, mas reteve os “pesos” (o “conhecimento” treinado armazenado em uma rede neural) apenas para pesquisadores qualificados.

Voando na velocidade do LLaMA

As restrições do Meta ao LLaMA não duraram muito, porque em 2 de março alguém vazou os pesos do LLaMA no BitTorrent. Desde então, houve uma explosão de desenvolvimento em torno do LLaMA. O pesquisador independente de IA Simon Willison comparou essa situação ao lançamento do Stable Diffusion, um modelo de síntese de imagem de código aberto lançado em agosto passado. Aqui está o que ele escreveu em um post em seu blog:

Parece-me que o momento Stable Diffusion em agosto deu início a toda a nova onda de interesse em IA generativa – que foi impulsionada pelo lançamento do ChatGPT no final de novembro.

Esse momento de difusão estável está acontecendo novamente agora, para grandes modelos de linguagem – a tecnologia por trás do próprio ChatGPT. Esta manhã, executei um modelo de linguagem de classe GPT-3 em meu laptop pessoal pela primeira vez!

As coisas da IA ​​já eram estranhas. Está prestes a ficar muito mais estranho.

Normalmente, a execução do GPT-3 requer várias GPUs A100 de classe de datacenter (além disso, os pesos do GPT-3 não são públicos), mas o LLaMA fez sucesso porque podia ser executado em uma única GPU robusta para o consumidor. E agora, com otimizações que reduzem o tamanho do modelo usando uma técnica chamada quantização, o LLaMA pode ser executado em um Mac M1 ou em uma GPU Nvidia menor.

As coisas estão acontecendo tão rapidamente que às vezes é difícil acompanhar os últimos desenvolvimentos. (Em relação à taxa de progresso da IA, um colega repórter de IA disse a Ars: “É como aqueles vídeos de cachorros em que você derruba uma caixa de bolas de tênis neles. [They] não sabe onde perseguir primeiro e se perde na confusão.”)

Por exemplo, aqui está uma lista de eventos notáveis ​​relacionados ao LLaMA com base em uma linha do tempo que Willison apresentou em um comentário do Hacker News:

  • 24 de fevereiro de 2023: Meta AI anuncia LLaMA.
  • 2 de março de 2023: Alguém vazou os modelos LLaMA via BitTorrent.
  • 10 de março de 2023: Georgi Gerganov cria llama.cpp, que pode ser executado em um Mac M1.
  • 11 de março de 2023: Artem Andreenko executa o LLaMA 7B (lentamente) em um Raspberry Pi 44 GB de RAM, 10 seg/token.
  • 12 de março de 2023: LLaMA 7B em execução no NPX, uma ferramenta de execução node.js.
  • 13 de março de 2023: alguém executa llama.cpp em um smartphone Pixel 6também muito lentamente.
  • 13 de março de 2023, 2023: Stanford lança o Alpaca 7B, uma versão ajustada por instrução do LLaMA 7B que “se comporta de maneira semelhante ao” text-davinci-003 “da OpenAI, mas é executado em um hardware muito menos poderoso.

Depois de obter os pesos do LLaMA, seguimos as instruções de Willison e executamos a versão do parâmetro 7B em um Macbook Air M1, e ele funciona a uma taxa de velocidade razoável. Você o chama como um script na linha de comando com um prompt, e o LLaMA faz o possível para concluí-lo de maneira razoável.

Uma captura de tela do LLaMA 7B em ação em um MacBook Air executando llama.cpp.
Prolongar / Uma captura de tela do LLaMA 7B em ação em um MacBook Air executando llama.cpp.

Benj Edwards / Strong The One

Ainda há a questão de quanto a quantização afeta a qualidade da saída. Em nossos testes, o LLaMA 7B reduzido para quantização de 4 bits foi muito impressionante para rodar em um MacBook Air – mas ainda não está de acordo com o que você pode esperar do ChatGPT. É inteiramente possível que melhores técnicas de solicitação possam gerar melhores resultados.

Além disso, as otimizações e os ajustes finos ocorrem rapidamente quando todos têm acesso ao código e aos pesos, embora o LLaMA ainda esteja sobrecarregado com alguns termos de uso bastante restritivos. O lançamento do Alpaca hoje por Stanford prova que o ajuste fino (treinamento adicional com um objetivo específico em mente) pode melhorar o desempenho, e ainda é cedo para o lançamento do LLaMA.

No momento em que este livro foi escrito, executar o LLaMA em um Mac continua sendo um exercício bastante técnico. Você precisa instalar o Python e o Xcode e estar familiarizado com o trabalho na linha de comando. Willison tem boas instruções passo a passo para quem quiser tentar. Mas isso pode mudar em breve, pois os desenvolvedores continuam a codificar.

Quanto às implicações de ter essa tecnologia na natureza – ninguém sabe ainda. Enquanto alguns se preocupam com o impacto da IA ​​como uma ferramenta para spam e desinformação, Willison diz: “Não vai deixar de ser inventado, então acho que nossa prioridade deve ser descobrir as maneiras mais construtivas possíveis de usá-la”.

No momento, nossa única garantia é que as coisas vão mudar rapidamente.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo