.
É um tanto irritante ouvir uma IA falando em um tom estranhamente amigável e me dizendo para limpar a desordem na minha estação de trabalho. Estou um pouco orgulhoso disso, mas acho que é hora de empilhar os gadgets espalhados ao acaso e arrumar a bagunça de arame.
Minha irmã também concordaria. Mas entrar em ação depois de uma IA “vê” minha mesa, reconhece a bagunça e distribui o conselho da casa de casa é o quadro geral. O Gemini AI Chatbot do Google agora pode fazer isso. E muito mais.
O molho secreto aqui é uma atualização recente de recursos chamada Project Astra. Está em desenvolvimento há anos e finalmente começou a ser lançado no início deste mês. A idéia abrangente é servir uma IA que tudo vê, com tudo o que quer que seja e abertamente inteligente no seu telefone.
Google Hawks Essas superpotências sob um nome pouco inspirador: Gemini Live com compartilhamento de câmera e tela. Desenvolvido na unidade DeepMind da empresa, a empresa iniciou seu desenvolvimento como “assistente universal de IA”. É uma pena que o nome final não seja tão aspiracional.

Vamos começar com a situação de acesso. A capacidade está agora disponível para usuários do Pixel 9 e Galaxy S25. Mas se você tiver um telefone Android com uma assinatura avançada de Gemini para acompanhá -lo, poderá acessar o novo kit de ferramentas.
A propósito, isso seria de US $ 20 por mês. Eu tentei nos dois telefones acima mencionados e agora também tenho para rolar no meu OnePlus 13. A parte mais legal? Você não precisa passar por nenhum aro técnico para acessá -lo.
Uma combinação de botão de potência/volume ou um furto de canto de tela para convocar Gemini é tudo o que você precisa. Não importa qual aplicativo você está executando, você pode acessar a nova câmera e as costeletas de compartilhamento de tela como uma sobreposição em todos os cantos do sistema operacional.
Compreendendo o mundo ao seu redor
Comecei apontando a câmera para uma pintura e perguntei sobre ela. O Gemini Live conseguiu detectá -lo com precisão como uma pintura no estilo Madhubani, decodificando o uso ousado de cores e representação de animais.

Em seguida, passou a me dar uma breve lição de história e as variações que se desenvolveram ao longo dos anos. As informações eram precisas, até o nível mais granular. Felizmente, você também pode optar por ter um texto de entrada e gêmeos baseados em texto, se estiver em um lugar onde as conversas de voz podem ser estranhas.
O que eu mais gosto no novo Avatar de câmera e tela do Gemini Live é que ele não é extremamente conversado. Você pode interrompê -lo a qualquer momento, o que só aumenta o apelo “natural” das conversas.
Eu tentei Gêmeos em vários cenários. Eu não estava preparado para isso.
As respostas que fornece são geralmente sucintas, como se quisesse lhe dar uma chance (ou até mesmo empurrar) fazer uma pergunta de acompanhamento em vez de dar uma resposta extremamente longa. Ele se destaca em toda uma gama de tópicos e cenários visuais, mas existem algumas armadilhas.

Ele ainda não pode usar o Google Lens, o que significa que Gemini não pode comparar as imagens que vê na tela do seu telefone com os resultados correspondentes na web. Além disso, ele não pode acessar informações em tempo real se você pedir a Gemini para procurar os desenvolvimentos mais recentes em torno de um tópico ou personalidade.
Perguntei sobre espécies vegetais, listagens de restaurantes, recolher dados dos quadros de avisos e entender minha receita médica para um recente ataque de gripe. Gêmeos se saiu muito bem, mais do que eu já experimentei o desempenho da AI Chatbot até agora.
Desbloqueando um banco de conhecimento
Em seguida, empurrei Gêmeos para entender o material acadêmico complexo. Coloquei um livro sobre aprendizado de máquina no quadro da câmera. Gêmeos ao vivo não apenas o reconheceu, mas também passou a me dar uma visão geral do conteúdo do livro e de seus assuntos principais.

Curiosamente, comecei a folhear as páginas e pousar na lista de capítulos. A IA reconheceu o progresso, parou de falar e me perguntou se eu estava interessado em algum capítulo em particular agora que estava checando a lista de tópicos.
Fiquei surpreso de surpresa neste momento.
Pedi para quebrar alguns tópicos complexos, e a IA fez um trabalho respeitável, mesmo indo além do escopo do material na página e retirando informações de seu expansivo banco de conhecimento.
Por exemplo, quando perguntei sobre o conteúdo da página introdutória no romance seminal de Bhisham Sahni, Tamas, a IA correu corretamente a menção do prêmio Sahitya Akademi. Em seguida, ele mencionou detalhes que nem estavam listados na página, como o ano em que ganhou a prestigiada honra literária e o que é o livro.
Por outro lado, a leitura da língua hindi do Gemini Live foi horrível. Não era apenas o pobre sotaque, mas o fato de Gêmeos estarem proferindo puro e sem palavras repetidamente. Enquanto tentava ler urdu, persa e árabe, fez um trabalho consideravelmente melhor, mas muitas vezes misturava palavras de linhas aleatórias.

Na minha primeira tentativa com a poesia urdu, reconheceu não apenas o texto urdu, mas também deu um resumo preciso do poema. O maior desafio, mais uma vez, foi a narração. Ouvir uma versão anglicizada de Urdu realmente machucou meus ouvidos.
Se destaca em pontos surpreendentes
A IA é uma ferramenta fantástica de solução de problemas e existem inúmeros referências para provar isso. Eu o testei contra problemas de física que lidam com termodinâmica, equações eletroquímicas e problemas estatísticos que aparecem em um caderno manuscrito. O Gemini Live fez um trabalho fantástico em tais tarefas.
Também se destacou em tarefas criativas também. Minha irmã, que é designer de moda, apresentou um de seus esboços na visão da câmera e pediu feedback e melhorias. O Gemini Live começou elogiando o design, atraiu paralelos com algumas ideologia de design de algumas marcas de moda e fez algumas recomendações.

Quando estimulada, a IA também aconselhou minha irmã sobre as melhores ferramentas para converter esboços desenhados à mão em conceitos digitais. Seguiu essas palavras de orientação, fornecendo informações úteis na pilha de software e onde se poderia encontrar material de aprendizado.
Quando coloquei algumas baterias Duracell na visualização da câmera, elas não apenas as reconheciam com precisão, mas também me disse que as plataformas hiperlocais de comércio eletrônico que podem me entregar em minutos.
Os serviços – chamados Blinkit e Swiggy Instart – estão disponíveis apenas na Índia e principalmente reservados para locais urbanos. Mesmo em uma sala mal iluminada, foi capaz de identificar um par de fones de ouvido com fio na primeira tentativa.
A conscientização da situação é o seu traje forte.
Comparados ao seu bate -papo de gêmeos habituais ou o que você encontra na seção de visão geral da IA da pesquisa do Google, as conversas ao vivo de Gemini adotam uma abordagem mais cautelosa para distribuir conhecimento, especialmente se for de natureza sensível. Percebi que tópicos como recomendações alimentares e tratamento médico são tratados com uma abordagem cada vez mais cautelosa, e os usuários geralmente são cutucados ao encontrar o recurso especialista certo.
Algumas armadilhas familiares

Meu envergonhador é que a reforma do “Project Astra” de Gemini é impressionante. É um vislumbre do futuro do que os smartphones podem alcançar. Com algumas melhorias, integrações e fluxos de trabalho de aplicativo cruzado, isso pode fazer com que a pesquisa do Google pareça uma relíquia desatualizada. Mas, por enquanto, existem algumas falhas gritantes.
Em algumas ocasiões, notei que o sistema de memória fica errado. Quando solicitado à IA para identificar uma faixa de fitness na visualização da câmera, ela a reconheceu corretamente como a Galaxia Samsung Fit 3. Mas quando eu empurrei uma pergunta de acompanhamento, ele percebeu erroneamente o dispositivo como uma faixa de fitness da Huawei.
Também pode mentir descaradamente. E com bastante confiança, devo dizer. Por exemplo, quando eu disse para resumir minha revisão do dispositivo vestível, a IA respondeu que as tendências digitais ainda não o revisaram. Na realidade, o artigo foi publicado há uma semana.
Em seguida, pedi para passar por alguns artigos na página do meu autor depois de ativar o compartilhamento de tela. Gêmeos fez um trabalho decente ao explicar as histórias, mas ocasionalmente tropeçava no entendimento contextual. Por exemplo, mencionou incorretamente que apenas a Intel e a AMD podem fazer NPUs que se qualificam para o crachá Copilot+.

O artigo, por outro lado, menciona claramente que a Qualcomm foi a primeira a atender a esse critério, antes da competição. E que foi apenas no final do ano passado que a AMD e a Intel poderiam finalmente subir de nível e conhecer a linha de base da IA Chip com um novo portfólio de processadores.
No meio da conversa sobre um artigo, ele novamente encontrou uma questão de memória. Em vez de resumir a história que estava sendo discutida, ela voltou a falar sobre o primeiro artigo que viu via compartilhamento de tela. Quando eu o interrompei no meio da narração, Gemini consertou seu erro.
Outra questão que notei com a narração de idiomas não ingleses é que os Gêmeos ao vivo mudaram aleatoriamente a voz e ritmo no meio da narração. Foi bastante chocante, e a pronúncia era absolutamente mecânica, muito diferente de suas habilidades de conversação em inglês.

As lutas da visão da máquina também são aparentes contra fontes estilísticas. Em algumas ocasiões, ela cuspiu com confiança informações erradas e, quando solicitado a se corrigir, a IA expressou incapacidade de encontrar as informações mais recentes sobre esse tópico. Esses cenários são raros, mas os erros de Gêmeos estão aqui para ficar.
Para resumir tudo, acho que os Gêmeos ao vivo com o compartilhamento de câmera e tela é um dos maiores saltos que a IA deva até agora. É uma das implementações mais gratificantes da IA generativa até agora. Tudo o que precisa é de uma pitada de diversidade e uma correção para sua síndrome de “mentirosa confiante”.
As coisas estão definitivamente no caminho certo agora, e esmagadoramente, mas ainda alguns marcos cruciais de serem o companheiro de IA perfeito dos sonhos techno-forturistas.
.




