.
O modelo Gemini AI da Alphabet é público há apenas dois meses, mas a empresa já está lançando uma atualização. O Gemini Pro 1.5, lançado hoje com disponibilidade limitada, é mais poderoso que seu antecessor e pode lidar com grandes quantidades de entrada de texto, vídeo ou áudio ao mesmo tempo.
Demis Hassabis, CEO do Google DeepMind, que desenvolveu o novo modelo, compara a sua vasta capacidade de entrada com a memória de trabalho de uma pessoa, algo que ele explorou anos atrás como neurocientista. “A melhor coisa sobre esses recursos básicos é que eles liberam algumas coisas auxiliares que o modelo pode fazer”, diz ele.
Em uma demonstração, o Google DeepMind mostrou o Gemini Pro 1.5 analisando um PDF de 402 páginas da transcrição das comunicações da Apollo 11. A modelo foi solicitada a encontrar trechos engraçados e destacou diversos momentos, como quando os astronautas disseram que um atraso nas comunicações foi devido a uma pausa no sanduíche. Outra demonstração mostrou a modelo respondendo a perguntas sobre ações específicas em um filme de Buster Keaton. A versão anterior do Gemini poderia ter respondido a essas perguntas apenas com quantidades muito menores de texto ou vídeo. O Google espera que os novos recursos permitam que os desenvolvedores criem novos tipos de aplicativos com base no modelo.
“É realmente mágico como o modelo executa esse tipo de raciocínio em cada página, em cada palavra”, diz Oriol Vinyals, cientista pesquisador do Google DeepMind.
O Google diz que o Gemini Pro 1.5 pode absorver e dar sentido a uma hora de vídeo, 11 horas de áudio, 700.000 palavras ou 30.000 linhas de código de uma só vez – várias vezes mais do que outros modelos de IA, incluindo o GPT-4 da OpenAI, que alimenta o ChatGPT. A empresa não divulgou os detalhes técnicos desse feito. Hassabis diz que um uso para modelos que podem lidar com grandes quantidades de texto, testado por pesquisadores do Google DeepMind, é identificar as conclusões importantes nas discussões do Discord com milhares de mensagens.
O Gemini Pro 1.5 também é mais capaz – pelo menos pelo seu tamanho – conforme medido pela pontuação do modelo em vários benchmarks populares. O novo modelo explora uma técnica previamente inventada por pesquisadores do Google para obter mais desempenho sem exigir mais poder de computação. A técnica, chamada de mistura de especialistas, ativa seletivamente partes da arquitetura de um modelo mais adequadas para resolver uma determinada tarefa, tornando-o mais eficiente para treinar e executar.
O Google afirma que o Gemini Pro 1.5 é tão capaz quanto sua oferta mais poderosa, o Gemini Ultra, em muitas tarefas, apesar de ser um modelo significativamente menor. Hassabis diz que não há razão para que a mesma técnica usada para melhorar o Gemini Pro não possa ser aplicada para impulsionar o Gemini Ultra.
A versão atualizada do Gemini Pro será disponibilizada aos desenvolvedores por meio do AI Studio, uma sandbox para testar recursos do modelo, e a um número limitado de desenvolvedores por meio da API da plataforma de nuvem Vertex AI do Google. Ainda não há data para um lançamento geral.
O Google também está lançando novas ferramentas para ajudar os desenvolvedores a usar o Gemini em seus aplicativos, incluindo novas maneiras de aproveitar a capacidade dos modelos de analisar vídeo e áudio. A empresa também disse que está adicionando novos recursos do Gemini à sua ferramenta de codificação baseada na web, Project IDX, incluindo maneiras de a IA depurar e testar código.
A velocidade da atualização do Gemini é um sinal de uma furiosa corrida de IA iniciada pelo sucesso do ChatGPT. No início desta semana, a OpenAI anunciou que está dando ao ChatGPT a capacidade de lembrar informações úteis de conversas durante longos períodos de tempo. Na semana passada, o Google renomeou seu chatbot Bard e anunciou que o Gemini Ultra estaria disponível com uma assinatura paga.
O ritmo frenético do progresso na IA generativa está em desacordo com as preocupações sobre os riscos que a tecnologia pode representar. O Google afirma que submeteu o Gemini Pro 1.5 a testes extensivos e que fornecer acesso limitado oferece uma maneira de coletar feedback sobre riscos potenciais. A empresa afirma que também forneceu aos pesquisadores do AI Safety Institute do Reino Unido acesso aos seus modelos mais poderosos para que possam testá-los.
Hassabis diz esperar mais avanços nos próximos meses. “Esta é uma nova cadência”, diz ele, “estou tentando trazer uma espécie de mentalidade de startup”.
.