Ciência e Tecnologia

IA pode mudar a forma como as pessoas cegas veem o mundo

.

Para ela 38 aniversário, Chela Robles e sua família fizeram uma caminhada até One House, sua padaria favorita em Benicia, Califórnia, para um sanduíche de peito e brownies. Na volta de carro para casa, ela tocou uma pequena tela sensível ao toque em sua têmpora e pediu uma descrição do mundo lá fora. “Um céu nublado”, a resposta veio através de seu Google Glass.

Robles perdeu a capacidade de enxergar no olho esquerdo quando tinha 28 anos e no olho direito um ano depois. A cegueira, diz ela, nega pequenos detalhes que ajudam as pessoas a se conectarem umas com as outras, como sinais e expressões faciais. O pai dela, por exemplo, conta muitas piadas secas, então ela nem sempre pode ter certeza quando ele está falando sério. “Se uma imagem pode dizer 1.000 palavras, imagine quantas palavras uma expressão pode dizer”, diz ela.

Robles tentou serviços que a conectam a pessoas que enxergam para obter ajuda no passado. Mas em abril, ela se inscreveu para um teste com o Ask Envision, um assistente de IA que usa o GPT-4 da OpenAI, um modelo multimodal que pode receber imagens e texto e gerar respostas de conversação. O sistema é um dos vários produtos de assistência para pessoas com deficiência visual começarem a integrar modelos de linguagem, prometendo dar aos usuários muito mais detalhes visuais sobre o mundo ao seu redor – e muito mais independência.

O Envision foi lançado como um aplicativo de smartphone para leitura de texto em fotos em 2018 e no Google Glass no início de 2021. No início deste ano, a empresa começou a testar um modelo de conversação de código aberto que poderia responder a perguntas básicas. Em seguida, a Envision incorporou o GPT-4 da OpenAI para descrições de imagem para texto.

O Be My Eyes, um aplicativo de 12 anos que ajuda os usuários a identificar objetos ao seu redor, adotou o GPT-4 em março. A Microsoft – que é um grande investidor na OpenAI – iniciou os testes de integração do GPT-4 para seu serviço SeeingAI, que oferece funções semelhantes, de acordo com Sarah Bird, líder responsável pela IA da Microsoft.

Em sua iteração anterior, o Envision lia o texto em uma imagem do início ao fim. Agora ele pode resumir o texto em uma foto e responder a perguntas de acompanhamento. Isso significa que o Ask Envision agora pode ler um menu e responder a perguntas sobre coisas como preços, restrições alimentares e opções de sobremesa.

Outro testador inicial do Ask Envision, Richard Beardsley, diz que normalmente usa o serviço para fazer coisas como encontrar informações de contato em uma conta ou ler listas de ingredientes em caixas de comida. Ter uma opção de mãos livres através do Google Glass significa que ele pode usá-lo enquanto segura a coleira de seu cão-guia e uma bengala. “Antes, você não podia pular para uma parte específica do texto”, diz ele. “Ter isso realmente torna a vida muito mais fácil porque você pode pular exatamente para o que está procurando.”

A integração da IA ​​em produtos visuais pode ter um impacto profundo nos usuários, diz Sina Bahram, um cientista da computação cego e chefe de uma consultoria que aconselha museus, parques temáticos e empresas de tecnologia como Google e Microsoft sobre acessibilidade e inclusão.

Bahram tem usado Be My Eyes com GPT-4 e diz que o modelo de linguagem grande faz uma diferença de “ordens de magnitude” em relação às gerações anteriores de tecnologia por causa de suas capacidades e porque os produtos podem ser usados ​​sem esforço e não requerem habilidades técnicas. Duas semanas atrás, ele diz, ele estava andando na rua na cidade de Nova York quando seu parceiro de negócios parou para olhar algo mais de perto. Bahram usou Be My Eyes com GPT-4 para descobrir que era uma coleção de adesivos, alguns de desenho animado, mais algum texto, alguns grafites. Esse nível de informação é “algo que não existia um ano atrás fora do laboratório”, diz ele. “Simplesmente não era possível.”

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo