.

Links Rápidos
-
O que é um Modelo de Grande Ação (LAM)?
-
Os LAMs sucederão os LLMs, mas não estão prontos (ainda)
Principais conclusões
- Os LAMs são sistemas de IA que podem entender a entrada humana e executar ações correspondentes, aproveitando as capacidades dos LLMs.
- Os LAMs podem executar tarefas complexas, como pedir um café ou fazer uma reserva de hotel.
- Embora os LAMs sejam promissores para o futuro, eles ainda não estão prontos para uso generalizado, como evidenciado pela falha do dispositivo r1 da Rabbit em executar muitas de suas funções anunciadas.
A ascensão dos chatbots de IA generativa popularizou o termo “modelo de linguagem grande”, a tecnologia de IA subjacente trabalhando nos bastidores. Modelos de linguagem grande (LLMs) geram saída com base em um conjunto previsto de linguagem em resposta à entrada do usuário, fazendo parecer que a IA é capaz de pensar por si mesma.
Mas os LLMs não são os únicos grandes modelos na cidade; os grandes modelos de ação (LAMs) podem ser a próxima grande novidade na IA.
O que é um Modelo de Grande Ação (LAM)?
Um LAM é um sistema de inteligência artificial capaz de entender a entrada humana e executar uma ação correspondente. Esta é uma abordagem ligeiramente diferente dos sistemas de IA que focam apenas em gerar respostas. O termo “modelo de ação grande” foi introduzido pela primeira vez pela Rabbit Inc., desenvolvedora do dispositivo rabbit r1. No vídeo de lançamento do rabbit r1 da empresa, ele diz que um LAM é um novo modelo fundamental que ajuda a levar a IA das palavras à ação.
LAMs são treinados em grandes conjuntos de dados de ação do usuário; portanto, eles aprendem imitando ações humanas ou por meio de demonstração. Por meio de demonstração, LAMs podem entender e navegar em interfaces de usuário de diferentes sites ou aplicativos móveis e executar ações específicas com base em suas instruções. De acordo com Rabbit, um LAM pode conseguir isso mesmo se a interface for ligeiramente alterada.
Você pode pensar em LAMs como uma extensão das capacidades existentes de LLMs. Enquanto LLMs geram texto ou saída de mídia com base na entrada do usuário ao prever a próxima palavra ou token (você faz uma pergunta, e um LLM fornece um texto ou saída de mídia), LAMs vão além ao adicionar a capacidade de executar ações complexas em seu nome.
O que os LAMs podem fazer?
LAMs são todos sobre executar ações complexas em seu nome. No entanto, o ponto crítico a ser observado é a capacidade de executar ações complexas. Isso torna os LAMs mais úteis para executar tarefas avançadas, mas não significa que eles não possam executar ações mais simples.
Em teoria, isso significa que você pode, por exemplo, dizer a um LAM para fazer algo em seu nome, como pedir um café no Starbucks mais próximo, uma corrida de Uber e até mesmo fazer uma reserva de hotel. Portanto, é diferente de executar tarefas simples como pedir ao Google Assistant, Siri ou Alexa para ligar sua TV ou as luzes da sala de estar.
Nos bastidores, de acordo com a visão compartilhada pela Rabbit Inc., o LAM é capaz de acessar o site ou aplicativo relevante, como o Uber, e navegar pela sua interface para realizar uma ação, como pedir uma viagem ou cancelá-la caso mude de ideia.
Os LAMs sucederão os LLMs, mas não estão prontos (ainda)
O conceito de LAMs é empolgante, talvez até mais do que LLMs. LAMs serão o futuro após a IA generativa, permitindo que possamos compensar tarefas mundanas e focar em outras atividades gratificantes. No entanto, por mais empolgantes que pareçam, LAMs ainda não estão prontos.
O primeiro produto comercial que prometeu alavancar um LAM (o rabbit r1) não cumpriu totalmente sua promessa de marketing de executar ações em nome de seus usuários. O dispositivo falhou tão espetacularmente em seu principal ponto de venda que muitas avaliações em primeira mão o classificaram como bastante inútil.
Pior ainda, uma investigação feita por Coffeezilla, um YouTuber, em colaboração com um grupo seleto de engenheiros de software com acesso a parte da base de código do r1, descobriu que o Rabbit usava scripts do Playwright para executar ações em vez de um LAM. Então, em vez de um dispositivo executar um modelo de IA exclusivo, ele estava, na verdade, apenas executando um monte de instruções do estilo If > Then; muito longe do LAM prometido.
Se há algo que você pode tirar do dispositivo r1 do Rabbit é, sim, a visão está lá. No entanto, o trabalho precisa ser feito antes da realização, então não fique animado ainda.
.







