.

A Microsoft revelou o Kosmos-1, que descreve como um modelo multimodal de linguagem grande (MLLM) que pode não apenas responder a prompts de linguagem, mas também a dicas visuais, que podem ser usadas para uma variedade de tarefas, incluindo legendas de imagens, respostas visuais a perguntas, e mais.
O ChatGPT da OpenAI ajudou a popularizar o conceito de LLMs, como o modelo GPT (Generative Pre-trained Transformer), e a possibilidade de transformar um prompt de texto ou entrada em uma saída.
Também: A OpenAI está contratando desenvolvedores para tornar o ChatGPT melhor na codificação
Embora as pessoas fiquem impressionadas com esses recursos de bate-papo, os LLMs ainda lutam com entradas multimodais, como prompts de imagem e áudio, argumentam os pesquisadores de IA da Microsoft em um artigo chamado ‘A linguagem não é tudo de que você precisa: alinhando a percepção com os modelos de linguagem. O artigo sugere que a percepção multimodal, ou aquisição de conhecimento e “aterramento” no mundo real, é necessária para ir além das capacidades do tipo ChatGPT para a inteligência geral artificial (AGI).
“Mais importante, desbloquear a entrada multimodal amplia muito as aplicações de modelos de linguagem para áreas de maior valor, como aprendizado de máquina multimodal, inteligência de documentos e robótica”, diz o artigo.
A empresa de robótica de propriedade da Alphabet, Everyday Robots, e o Brain Team do Google mostraram o papel do aterramento no ano passado ao usar LLMs para fazer os robôs seguirem descrições humanas de tarefas físicas. A abordagem envolveu fundamentar o modelo de linguagem em tarefas que são possíveis dentro de um determinado contexto do mundo real. A Microsoft também usou a base em seu modelo Prometheus AI para integrar os modelos GPT da OpenAI com feedback do mundo real da classificação de pesquisa e resultados de pesquisa do Bing.
A Microsoft diz que seu Kosmos-1 MLLM pode perceber modalidades gerais, seguir instruções (aprendizagem zero-shot) e aprender no contexto (aprendizagem de poucos tiros). “O objetivo é alinhar a percepção com os LLMs, para que os modelos possam ver e falar”, diz o artigo.
As demonstrações das saídas do Kosmos-1 para prompts incluem a imagem de um gatinho com uma pessoa segurando um papel com um sorriso desenhado sobre a boca. O prompt é: ‘Explique por que esta foto é engraçada?’ A resposta do Kosmos-1 é: “O gato está usando uma máscara que dá um sorriso ao gato.”
Outros exemplos mostram isso: perceber por uma imagem que um tenista tem rabo de cavalo; ler a hora em uma imagem de um mostrador de relógio às 10:10; calcular a soma de uma imagem de 4 + 5; respondendo ‘o que é TorchScale?’ (que é uma biblioteca de aprendizado de máquina PyTorch), com base em uma página de descrição do GitHub; e lendo a frequência cardíaca de um mostrador do Apple Watch.
Cada um dos exemplos demonstra um potencial para MLLMs como o Kosmos-1 automatizar uma tarefa em várias situações, desde informar a um usuário do Windows 10 como reiniciar o computador (ou qualquer outra tarefa com um prompt visual) até ler uma página da Web para iniciar uma pesquisa na web, interpretando dados de saúde de um dispositivo, legendando imagens e assim por diante. O modelo, no entanto, não inclui recursos de análise de vídeo.
Também: O que é ChatGPT? Aqui está tudo o que você precisa saber
Os pesquisadores também testaram o desempenho do Kosmos-1 no teste de QI de Raven. Os resultados encontraram uma “grande lacuna de desempenho entre o modelo atual e o nível médio dos adultos”, mas também descobriram que sua precisão mostrou potencial para os MLLMs “perceberem padrões conceituais abstratos em um contexto não-verbal”, alinhando a percepção com os modelos de linguagem.
A pesquisa sobre “resposta a perguntas de páginas da web” é interessante, dado o plano da Microsoft de usar modelos de linguagem baseados no Transformer para tornar o Bing um rival melhor para a pesquisa do Google.
“A resposta a perguntas de páginas da Web visa encontrar respostas para perguntas de páginas da Web. Isso requer que o modelo compreenda tanto a semântica quanto a estrutura dos textos. A estrutura da página da Web (como tabelas, listas e layout HTML) desempenha um papel fundamental papel na forma como a informação é organizada e exibida. A tarefa pode nos ajudar a avaliar a capacidade do nosso modelo de entender a semântica e a estrutura das páginas da web”, explicam os pesquisadores.
.