.
O TalkBack, recurso indispensável do Android para pessoas cegas ou com baixa visão, fica muito mais útil – e poderoso – graças ao Gemini Nano com modelo multimodal.
Há um extenso artigo no blog Android Developers Blog, onde a equipe fala sobre o mais recente aprimoramento do recurso de leitor de tela do Android Accessibility Suite.
Hoje, graças ao Gemini Nano com multimodalidade, o TalkBack fornece automaticamente aos usuários com cegueira ou baixa visão descrições de imagens mais vívidas e detalhadas para que eles entendam melhor as imagens na tela.
– Blog de desenvolvedores Android, setembro de 2024
O TalkBack inclui um recurso que fornece descrições de imagens quando os desenvolvedores não adicionaram texto alternativo descritivo. Anteriormente, esse recurso dependia de um pequeno modelo de aprendizado de máquina chamado Garcon, que gerava respostas breves e genéricas, muitas vezes sem detalhes específicos, como pontos de referência ou produtos. A introdução do Gemini Nano com recursos multimodais apresentou uma oportunidade ideal para aprimorar os recursos de acessibilidade do TalkBack. Agora, quando os usuários optam por dispositivos qualificados, o TalkBack aproveita a tecnologia multimodal avançada do Gemini Nano para fornecer automaticamente descrições de imagens claras e detalhadas em aplicativos como Google Fotos e Chrome, mesmo quando o dispositivo está offline ou com uma conexão de rede instável.
A equipe do Google fornece um exemplo que ilustra como o Gemini Nano melhora as descrições de imagens. Primeiro, o Garcon é apresentado com um panorama da costa de Sydney, Austrália, à noite – e pode ler: “Lua cheia sobre o oceano”. O Gemini Nano com multimodalidade, no entanto, pode pintar um quadro mais rico, com uma descrição como: “Uma vista panorâmica da Sydney Opera House e da Sydney Harbour Bridge da costa norte de Sydney, Nova Gales do Sul, Austrália”. Parece muito melhor, certo?
Utilizar um modelo no dispositivo como o Gemini Nano foi a única solução prática para o TalkBack gerar automaticamente descrições detalhadas de imagens, mesmo quando o dispositivo está offline.
O usuário médio do TalkBack se depara com 90 imagens sem rótulo por dia, e essas imagens não eram tão acessíveis antes desse novo recurso. O recurso recebeu feedback positivo do usuário, com os primeiros testadores escrevendo que as novas descrições de imagem são uma “virada de jogo” e que é “maravilhoso” ter descrições detalhadas de imagem incorporadas ao TalkBack
.
– Lisie Lillianfeld, gerente de produto do Google
Ao implementar o Gemini Nano com multimodalidade, a equipe de acessibilidade do Android teve que escolher entre verbosidade de inferência e velocidade, uma decisão parcialmente influenciada pela resolução da imagem. O Gemini Nano atualmente suporta imagens em 512 pixels ou 768 pixels.
Embora a resolução de 512 pixels gere o primeiro token quase dois segundos mais rápido do que a opção de 768 pixels, as descrições resultantes são menos detalhadas. A equipe finalmente priorizou fornecer descrições mais longas e detalhadas, mesmo ao custo de maior latência. Para reduzir o impacto desse atraso na experiência do usuário, os tokens são transmitidos diretamente para o sistema de texto para fala, permitindo que os usuários comecem a ouvir a resposta antes que o texto inteiro seja gerado.
Embora eu ainda não esteja embarcando totalmente no trem do hype da IA, recursos alimentados por IA como esse são impressionantes – pense no potencial! E então, há histórias como essa que fazem você querer diminuir o tom desse nosso “maravilhoso” progresso:
.