.
A plataforma de aprendizado de máquina, Hugging Face, lançou um aplicativo iOS que dará sentido ao mundo ao seu redor, como visto pela câmera do seu iPhone. Apenas aponte para uma cena ou clique em uma imagem e ele implantará uma IA para descrevê-la, identificar objetos, executar a tradução ou puxar detalhes baseados em texto.
Nomeado Huggingsnap, o aplicativo adota uma abordagem de vários modelos para entender a cena ao seu redor como uma entrada e agora está disponível gratuitamente na App Store. É alimentado pelo smolvlm2, um modelo de IA aberto que pode lidar com texto, imagem e vídeo como formatos de entrada.
O objetivo abrangente do aplicativo é permitir que as pessoas aprendam sobre os objetos e o cenário ao seu redor, incluindo reconhecimento de plantas e animais. A idéia não é muito diferente da inteligência visual nos iPhones, mas o Huggingsnap tem uma vantagem crucial sobre seu rival da Apple.
Não exige que a internet funcione
Tudo o que precisa é de um iPhone executando o iOS 18 e você está pronto para ir. A interface do usuário do Huggingsnap não é muito diferente do que você recebe com a inteligência visual. Mas há uma diferença fundamental aqui.
A Apple depende do ChatGPT para que a inteligência visual funcione. Isso ocorre porque atualmente não é capaz de agir como uma ferramenta de IA generativa, como ChatGPT ou Gemini do Google, ambos com seu próprio banco de conhecimento. Em vez disso, ele descarrega todas essas solicitações e consultas de usuário para ChatGPT.
Isso requer uma conexão com a Internet, pois o ChatGPT não pode funcionar no modo offline. Huggingsnap, por outro lado, funciona muito bem. Além disso, uma abordagem offline significa que nenhum dados do usuário sai do seu telefone, o que é sempre uma mudança bem -vinda de uma perspectiva de privacidade.
O que você pode fazer com Huggingsnap?

Huggingsnap é alimentado pelo modelo SMOLVLM2 desenvolvido abraçando o rosto. Então, o que esse modelo executando o programa por trás deste aplicativo pode realizar? Bem, muito. Além de responder perguntas com base no que ele vê através da câmera de um iPhone, ele também pode processar imagens escolhidas na galeria do seu telefone.
Por exemplo, mostre uma foto de qualquer monumento histórico e peça para lhe dar sugestões de viagem. Ele pode entender as coisas que aparecem em um gráfico ou entender as perguntas e as perguntas de resposta de uma conta de eletricidade com base nos detalhes que ele recebeu no documento.
Possui uma arquitetura leve e é particularmente adequada para aplicações de IA no dispositivo. Nos benchmarks, ele tem um desempenho melhor do que o modelo de paligemma aberto (3B) concorrente do Google e esfrega os ombros com o modelo rival Qwen AI da Alibaba com recursos de visão.

A maior vantagem é que ele requer menos recursos do sistema para executar, o que é particularmente importante no contexto dos smartphones. Curiosamente, o popular Media Player VLC também está usando o mesmo modelo SMOLVLM2 para fornecer descrições de vídeo, permitindo que os usuários pesquisem em um vídeo usando prompts de linguagem natural.
Também pode extrair de maneira inteligente os momentos de destaque mais importantes de um vídeo. “Projetado para eficiência, o SMOLVLM pode responder a perguntas sobre imagens, descrever conteúdo visual, criar histórias fundamentadas em várias imagens ou funcionar como um modelo de linguagem pura sem entradas visuais”, diz o repositório do Github do aplicativo.
.