.
Agora, você já sabe que a linha Galaxy S24 é o que trouxe o Galaxy AI: o conjunto de recursos de inteligência artificial que surpreendeu o mundo com o Circle to Search, Live Translate e muito mais. O Galaxy AI também fez a Apple finalmente cair em si e fazer (algum) progresso no campo da IA com seu próximo Apple Intelligence. Um dos recursos mais impressionantes do Galaxy AI é o Live Translate – este literalmente ouve o que o falante está dizendo e então traduz para o seu idioma de preferência. O recurso chegou com 13 idiomas suportados e, recentemente, mais três idiomas foram adicionados, para um total de 16.
Muitas vezes me perguntei como uma coisa dessas é possível – deve ter sido muito difícil planejar e desenvolver! A Samsung confirma meu palpite com seu último artigo detalhado sobre o Galaxy AI e as provações e tribulações das equipes ao redor do mundo por trás do projeto.
Os recursos do Galaxy AI, como o Live Translate, realizam três processos principais: reconhecimento automático de fala (ASR), tradução automática neural (NMT) e conversão de texto em fala (TTS).


Reconhecimento automático de fala (ASR), tradução automática neural (NMT) e conversão de texto em fala (TTS) exigem conjuntos distintos de informações para treinamento. | Crédito da imagem – Samsung
Como resolver o desafio dos dialetos?
Até aqui, tudo bem: o reconhecimento de fala faz o seu trabalho, depois a tradução automática neural entra em ação e a fala traduzida é enviada de volta para você via conversão de texto em fala.
Mas o que você faz quando os dialetos entram em cena!?
Por exemplo, o Samsung R&D Institute Vietnam (SRV) enfrentou obstáculos com modelos de reconhecimento automático de fala porque O vietnamita é uma língua com seis tons distintos. As línguas tonais podem ser difíceis de reconhecer para a IA devido à complexidade que os tons adicionam às nuances linguísticas. A equipe respondeu ao desafio com um modelo que diferencia entre quadros de áudio mais curtos de cerca de 20 milissegundos.
Então, o Samsung R&D Institute na Polônia teve o “obstáculo gigantesco” de treinar modelos de tradução automática neural para um continente tão diverso quanto a Europa. Com base em sua vasta experiência com projetos em mais de 30 idiomas em quatro fusos horáriosa equipe polonesa superou com sucesso os desafios de frases intraduzíveis e administrou expressões idiomáticas que não têm equivalentes diretos em outros idiomas.
O Instituto de P&D da Samsung, na Jordânia, também não teve facilidade em adaptar o árabe — um idioma falado em mais de 20 países em cerca de 30 dialetos — para o Galaxy AI.
A criação de um modelo de conversão de texto em fala não foi uma tarefa fácil, uma vez que os diacríticos e os guias de pronúncia são amplamente compreendidos pelos falantes nativos de árabe, mas ausente por escrito. Usando um modelo de previsão sofisticado para identificar sinais diacríticos ausentes, a equipe publicou com sucesso um modelo de linguagem capaz de entender dialetos e responder em árabe padrão.


Cada idioma tem um conjunto distinto de qualidades que representam desafios na criação de um modelo de idioma de IA para ele. Os tons aumentam a complexidade para idiomas tonais como o vietnamita. | Crédito da imagem – Samsung
O Samsung R&D Institute India-Bangalore se uniu ao Vellore Institute of Technology para reunir quase um milhão de linhas de dados de áudio segmentados e selecionados, abrangendo fala conversacional, palavras e comandos. Essa colaboração proporcionou aos alunos experiência prática em um projeto do mundo real e mentoria de especialistas da Samsung. A extensa coleta de dados permitiu que o SRI-B treinasse o Galaxy AI em hindi, cobrindo mais de 20 dialetos regionais junto com suas inflexões tonais, pontuação e coloquialismos exclusivos.
Insights linguísticos locais foram cruciais para o desenvolvimento do modelo de espanhol latino-americano, refletindo a diversidade da língua e sua base de usuários variada. Por exemplo, a palavra para “piscina” varia regionalmente, sendo “alberca” no México, “piscina” na Colômbia, Bolívia e Venezuela, e “pileta” na Argentina, Paraguai e Uruguai.
Enquanto isso, o Samsung R&D Institute China-Beijing e o Samsung R&D Institute China-Guangzhou fizeram parceria com as empresas chinesas Baidu e Meitu. Eles alavancaram sua experiência com grandes modelos de linguagem, como ERNIE Bot e MiracleVision, respectivamente. Consequentemente, o Galaxy AI agora suporta tanto o mandarim quanto o cantonês, acomodando os modos primários dessas línguas.
Conversas de cafeterias também foram utilizadas
O Bahasa Indonesia é conhecido por seu uso extensivo de significados contextuais e implícitos, que frequentemente dependem de pistas sociais e situacionais. Para abordar isso, pesquisadores do Samsung R&D Institute Indonesia conduziram gravações de campo em cafeterias e ambientes de trabalho, capturando ruídos ambientais autênticos que poderia distorcer a entrada. Isso ajudou o modelo a aprender a extrair informações essenciais da entrada verbal, aumentando assim a precisão do reconhecimento de fala. O japonês, com seu número limitado de sons, tem muitos homônimos que devem ser interpretados com base no contexto. Para enfrentar esse desafio, o Samsung R&D Institute Japan utilizou o Samsung Gauss, o grande modelo de linguagem interno da empresa, para criar frases contextuais com palavras e frases relevantes ao cenário. Essa abordagem ajudou o modelo de IA a distinguir entre diferentes homônimos de forma eficaz.
Homônimos são palavras com significados diferentes que são homógrafas (palavras que têm a mesma grafia) ou homófonas (palavras que têm a mesma pronúncia), ou ambas.
A IA é realmente complexa – e não consigo nem imaginar o que o futuro reserva neste campo específico.
.