technology

O modelo de IA “massivamente multilíngue” da Meta traduz até 100 idiomas, fala ou texto

.

Uma ilustração de uma pessoa segurando um megafone diante de uma silhueta de cabeça que diz

Imagens Getty

Na terça-feira, a Meta anunciou o SeamlessM4T, um modelo multimodal de IA para traduções de fala e texto. Como uma rede neural que pode processar texto e áudio, ela pode realizar traduções de texto para fala, fala para texto, fala para fala e texto para texto para “até 100 idiomas”, de acordo com Meta. Seu objetivo é ajudar pessoas que falam línguas diferentes a se comunicarem entre si de maneira mais eficaz.

Dando continuidade à abordagem relativamente aberta da Meta à IA, a Meta está lançando o SeamlessM4T sob uma licença de pesquisa (CC BY-NC 4.0) que permite aos desenvolvedores desenvolver o trabalho. Eles também estão lançando o SeamlessAlign, que Meta chama de “o maior conjunto de dados de tradução multimodal aberto até o momento, totalizando 270.000 horas de fala minada e alinhamentos de texto”. Isso provavelmente dará início ao treinamento de futuros modelos de IA de tradução de outros pesquisadores.

Entre os recursos do SeamlessM4T divulgados no blog promocional da Meta, a empresa afirma que o modelo pode realizar reconhecimento de fala (você fornece o áudio da fala e ele converte em texto), tradução de fala para texto (traduz o áudio falado para um idioma diferente no texto), tradução de fala para fala (você alimenta o áudio da fala e ele gera o áudio da fala traduzido), tradução de texto para texto (semelhante ao funcionamento do Google Translate) e tradução de texto para fala ( alimente-o com texto e ele traduzirá e falará em outro idioma). Cada uma das funções de tradução de texto suporta quase 100 idiomas e as funções de saída de voz suportam cerca de 36 idiomas de saída.

No anúncio do SeamlessM4T, Meta faz referência ao Babel Fish, um peixe fictício da clássica série de ficção científica de Douglas Adams que, quando colocado no ouvido, pode traduzir instantaneamente qualquer idioma falado:

Construindo um tradutor de linguagem universal, como o fictício Babel Fish em O Guia do Mochileiro das Galáxias, é um desafio porque os sistemas existentes de fala para fala e fala para texto cobrem apenas uma pequena fração dos idiomas do mundo. Mas acreditamos que o trabalho que anunciamos hoje é um avanço significativo nesta jornada.

Como eles treinaram isso? De acordo com o artigo de pesquisa Seamless4MT, os pesquisadores da Meta “criaram um corpus multimodal de traduções de fala alinhadas automaticamente com mais de 470.000 horas, denominado SeamlessAlign” (mencionado anteriormente acima). Eles então “filtraram um subconjunto deste corpus com dados rotulados por humanos e pseudo-rotulados, totalizando 406.000 horas”.

Como sempre, o Meta está sendo um pouco vago sobre onde obteve seus dados de treinamento. Os dados de texto vieram do “mesmo conjunto de dados implantado no NLLB” (conjuntos de frases retiradas da Wikipedia, fontes de notícias, discursos roteirizados e outras fontes e traduzidas por tradutores humanos profissionais). E os dados de fala do SeamlessM4T vieram de “4 milhões de horas de áudio bruto originadas de um repositório publicamente disponível de dados rastreados da web”, das quais 1 milhão de horas foram em inglês, de acordo com o artigo de pesquisa. Meta não especificou qual repositório ou a procedência dos clipes de áudio utilizados.

A Meta está longe de ser a primeira empresa de IA a oferecer ferramentas de tradução de aprendizado de máquina. O Google Translate usa técnicas de aprendizado de máquina desde 2006, e grandes modelos de linguagem (como GPT-4) são bem conhecidos por sua capacidade de traduzir entre idiomas. Mas, mais recentemente, a tecnologia esquentou na frente do processamento de áudio. Em setembro, a OpenAI lançou seu próprio modelo de tradução de voz para texto de código aberto, chamado Whisper, que pode reconhecer fala em áudio e traduzi-la em texto com alto nível de precisão.

SeamlessM4T se baseia nessa tendência, expandindo a tradução multimodal para muitos outros idiomas. Além disso, Meta diz que a “abordagem de sistema único” do SeamlessM4T – um modelo monolítico de IA em vez de vários modelos combinados em uma cadeia (como algumas das técnicas anteriores de processamento de áudio do Meta) – reduz erros e aumenta a eficiência do processo de tradução.

Mais detalhes técnicos sobre como o SeamlessM4T funciona estão disponíveis no site da Meta, e seu código e pesos (os arquivos reais da rede neural treinada) podem ser encontrados no Hugging Face.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo