Ciência e Tecnologia

Coere afirma que seu novo modelo AYA Vision AI é o melhor da categoria

.

Coere para a IA, a AI Startup coerente o Laboratório de Pesquisa Sem fins lucrativos, divulgou nesta semana um modelo multimodal de IA “Open”, Aya Vision, o laboratório afirmou que é o melhor da categoria.

A Aya Vision pode executar tarefas como escrever legendas de imagem, responder a perguntas sobre fotos, traduzir texto e gerar resumos em 23 idiomas principais. Coere, que também está disponibilizando a Visão AYA gratuitamente através do WhatsApp, chamou de “um passo significativo para tornar os avanços técnicos acessíveis a pesquisadores em todo o mundo”.

“Embora a IA tenha feito um progresso significativo, ainda existe uma grande lacuna no desempenho dos modelos em diferentes idiomas – que se torna ainda mais perceptível em tarefas multimodais que envolvem texto e imagens”, escreveu Coere em um Postagem do blog. “A Aya Vision pretende ajudar explicitamente a fechar essa lacuna.”

Aya Vision vem em alguns sabores: Aya Vision 32b e Aya Vision 8b. O mais sofisticado dos dois, Aya Vision 32b, define uma “nova fronteira”, disse Cohere, superando os modelos 2x do seu tamanho, incluindo a visão de Llama-3.2 90B da Meta. Enquanto isso, o AYA Vision 8b pontua melhor em algumas avaliações do que os modelos 10x do seu tamanho, de acordo com a Coere.

Ambos os modelos são disponível Da plataforma de dev AI abraçando o rosto sob uma licença Creative Commons 4.0 com Adendo de uso aceitável de coere. Eles não podem ser usados ​​para aplicações comerciais.

Coere disse que a Visão AYA foi treinada usando um “pool diversificado” de conjuntos de dados em inglês, que o laboratório traduziu e usado para criar anotações sintéticas. Anotações, também conhecidas como tags ou etiquetas, ajudam os modelos a entender e interpretar dados durante o processo de treinamento. Por exemplo, a anotação para treinar um modelo de reconhecimento de imagem pode assumir a forma de marcas em torno de objetos ou legendas que se referem a cada pessoa, local ou objeto descrito em uma imagem.

Coere a Visão Aya
O modelo AYA Vision da Cohere pode executar uma variedade de tarefas de entendimento visual.Créditos da imagem:Coere

O uso de anotações sintéticas de Cohere – ou seja, anotações geradas pela IA – está em tendência. Apesar de suas possíveis desvantagens, os rivais, incluindo o OpenAI, estão cada vez mais alavancando dados sintéticos para treinar modelos como o poço dos dados do mundo real seca. Empresa de pesquisa Gartner estimativas que 60% dos dados utilizados para projetos de IA e análise no ano passado foram criados sinteticamente.

De acordo com a Coere, o treinamento da AYA Vision sobre anotações sintéticas permitiu ao laboratório usar menos recursos e alcançar o desempenho competitivo.

“Isso mostra nosso foco crítico na eficiência e [doing] Mais usando menos computação ”, escreveu Coere em seu blog. “Isso também permite um maior apoio à comunidade de pesquisa, que geralmente tem acesso mais limitado para calcular recursos”.

Juntamente com a AYA Vision, a Cohere também lançou uma nova suíte de benchmark, a AyavisionBench, projetada para investigar as habilidades de um modelo em tarefas de “linguagem da visão”, como identificar diferenças entre duas imagens e converter capturas de tela em código.

O setor de IA está no meio do que alguns chamaram de “crise de avaliação”, uma conseqüência da popularização dos benchmarks que oferecem pontuações agregadas que se correlacionam mal à proficiência nas tarefas com as quais os usuários de IA se preocupam. Coere afirma que o AyavisionBench é um passo para corrigir isso, fornecendo uma estrutura “ampla e desafiadora” para avaliar o entendimento cruzado e multimodal de um modelo.

Com alguma sorte, esse é realmente o caso.

““[T]O conjunto de dados dele serve como uma referência robusta para avaliar modelos de linguagem da visão em configurações multilíngues e do mundo real “, coere os pesquisadores escreveu em um post em abraçar o rosto. “Disponibilizamos esse conjunto de avaliações à comunidade de pesquisa para avançar as avaliações multimodais multilíngues”.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo