.
A capacidade da Siri de reconhecer a fala pode estar aumentando com a adição da tecnologia de leitura labial – ou, mais apropriadamente, de sensação labial -, de acordo com uma patente recém-publicada da Apple.
A patente, Detecção de palavras-chave usando detecção de movimento [PDF], vê a Apple não se voltando para novas formas de inteligência artificial ou reconhecimento visual de fala, mas sim para os vários sensores embutidos em seus muitos dispositivos. Esses sensores podem ser configurados para reconhecer certas vibrações e movimentos da cabeça como correspondentes a certas palavras ou frases e, por sua vez, usá-los da mesma forma que o reconhecimento de áudio de palavras como “Hey Siri”.
Sensores de movimento em dispositivos “podem detectar movimentos musculares, vibrações, movimentos da cabeça e afins e produzir um fluxo de dados representando a força específica, taxa angular e/ou orientação criada pelos referidos movimentos”, escreveram os boffins da Apple em seu registro de patente. Esses sensores podem ser incorporados em dispositivos vestíveis como um par de AirPods, “óculos inteligentes ou similares”.
A Apple ainda descreve o uso de detecção de movimento como uma alternativa aos sensores de áudio que precisam permanecer ativos e gravar continuamente um buffer de som em antecipação à palavra de ativação, o que pode servir para melhorar a duração da bateria e oferecer o efeito colateral de maior privacidade, A Apple afirma.
“O sensor de áudio pode permanecer em um estado inativo (por exemplo, em um modo de baixa potência, ocioso ou desligado) enquanto [the] usuário fala entrada de voz, de modo que nenhum dado de áudio correspondente à entrada de voz seja produzido”, sugere a patente.
Isso não significa que um assistente digital com detecção de movimento ainda não precisaria processar uma tonelada de dados, o que a Apple também admite na patente. Para combinar vibrações e movimentos da cabeça com certas palavras, a Apple disse que precisaria treinar uma pequena amostra de palavras (semelhante a como a Siri é treinada em um novo iDevice) e contar com um corpus generalizado de dados semelhantes de outros usuários, ou precisaria de uma quantidade considerável de dados de usuários que provavelmente precisariam “escutar” por um bom tempo para emparelhar leituras de sensores com sinais de áudio.
Proteção de dados muito?
“Esses dados coletados podem incluir dados de informações pessoais que identificam exclusivamente ou podem ser usados para contatar ou localizar uma pessoa específica”, disse a Apple, observando que tais dados podem incluir informações de localização, dados demográficos, número de telefone, endereço físico e endereço de e-mail, dados de saúde dados “ou qualquer outra informação de identificação ou pessoal.”
Como tal, a Apple admite, “a presente divulgação também contempla modalidades nas quais os usuários bloqueiam seletivamente o uso ou o acesso a dados de informações pessoais” e permitiria que os usuários cancelassem esse recurso se ele se tornasse disponível.
Quanto aos possíveis recursos de acessibilidade que vêm à mente quando se ouve “iPhone de leitura labial”, parece que a Apple está puramente focada em melhorar o reconhecimento de fala para os próprios usuários do iPhone, e não para as pessoas que eles podem estar tentando ouvir em uma sala lotada. . A Apple não menciona o uso de câmeras para ler os lábios na patente, e a empresa não respondeu às nossas perguntas perguntando se havia algum plano para usar essa tecnologia para ajudar pessoas com deficiência auditiva.
Se a tecnologia chegará a ser concretizada, como sempre, não está claro, especialmente devido à Apple histórico de arquivamento muitas patentes que nunca passam do estágio de conceito. O recurso pode ser bem-vindo para os usuários da Apple preocupados com o fato de o iMaker estar ficando para trás em relação à concorrência em termos de recursos de inteligência artificial, incluindo reconhecimento de fala no Siri e outros recursos limitados do assistente digital, que este repórter pode atestar.
Também vale a pena notar que esta é simplesmente uma publicação de patente, não a concessão de uma patente real, o que significa que a Apple não recebeu nenhum direito exclusivo sobre o conceito de usar sensores de movimento, acelerômetros e giroscópios para reconhecer a fala sem ouvi-la.
Escrevendo em antecipação à teleconferência de resultados do terceiro trimestre da Apple ontem, o observador da Apple Ming-Chi Kuo disse ele acreditava que não havia sinal de que a Apple estaria integrando mais IA em produtos adicionais no próximo ano, então não espere que Siri esteja gravando intimamente cada movimento de seus lábios tão cedo. ®
.