.

meta
Na quarta-feira, a Meta anunciou um modelo de IA chamado Segment Anything Model (SAM), que pode identificar objetos individuais em imagens e vídeos, mesmo aqueles não encontrados durante o treinamento, relata a Reuters.
De acordo com uma postagem no blog da Meta, o SAM é um modelo de segmentação de imagem que pode responder a solicitações de texto ou cliques do usuário para isolar objetos específicos em uma imagem. A segmentação de imagem é um processo em visão computacional que envolve a divisão de uma imagem em vários segmentos ou regiões, cada um representando um objeto ou área de interesse específico.
O objetivo da segmentação de imagem é tornar uma imagem mais fácil de analisar ou processar. A Meta também considera a tecnologia útil para entender o conteúdo da página da Web, aplicativos de realidade aumentada, edição de imagens e auxiliar no estudo científico, localizando automaticamente animais ou objetos para rastrear em vídeo.
Normalmente, diz Meta, a criação de um modelo de segmentação preciso “requer trabalho altamente especializado de especialistas técnicos com acesso à infraestrutura de treinamento de IA e grandes volumes de dados no domínio cuidadosamente anotados”. Ao criar o SAM, a Meta espera “democratizar” esse processo, reduzindo a necessidade de treinamento especializado e especialização, o que espera fomentar mais pesquisas em visão computacional.
Além do SAM, a Meta montou um conjunto de dados que chama de “SA-1B” que inclui 11 milhões de imagens licenciadas de “uma grande empresa de fotografia” e 1,1 bilhão de máscaras de segmentação produzidas por seu modelo de segmentação. A Meta disponibilizará o SAM e seu conjunto de dados para fins de pesquisa sob uma licença Apache 2.0.
Atualmente, o código (sem os pesos) está disponível no GitHub, e a Meta criou uma demonstração interativa gratuita de sua tecnologia de segmentação em um site especial. Usando a demonstração, os visitantes podem fazer upload de uma foto e usar “Hover & Click” (selecionar objetos com o mouse), “Box” (selecionar objetos dentro de uma caixa de seleção) ou “Everything” (que tenta identificar automaticamente cada objeto na imagem).

Benj Edwards / Meta
Embora a tecnologia de segmentação de imagens não seja nova, o SAM é notável por sua capacidade de identificar objetos não presentes em seu conjunto de dados de treinamento e sua abordagem parcialmente aberta. Além disso, o lançamento do modelo SA-1B pode servir como uma faísca para uma nova geração de aplicativos de visão computacional, semelhante a como o modelo de linguagem LLaMA da Meta já está inspirando projetos derivados.
De acordo com a Reuters, o CEO da Meta, Mark Zuckerberg, enfatizou a importância de incorporar IA generativa nos aplicativos da empresa este ano. Embora a Meta ainda não tenha lançado um produto comercial usando esse tipo de IA, já havia utilizado anteriormente uma tecnologia semelhante ao SAM internamente com o Facebook para marcação de fotos, moderação de conteúdo e determinação de postagens recomendadas no Facebook e no Instagram.
O anúncio da Meta ocorre em meio a uma competição acirrada entre as grandes empresas de tecnologia para dominar o espaço da IA. O modelo de linguagem ChatGPT da OpenAI, apoiado pela Microsoft, ganhou atenção generalizada no outono de 2022, provocando uma onda de investimentos que pode definir a próxima grande tendência de negócios em tecnologia além da mídia social e do smartphone.
.