.
Há mais de 2.000 anos, o antigo filósofo grego Aristóteles descobriu uma maneira de construir argumentos. Ele chamou isso de “retórica” e descreveu como a lógica no texto de um argumento ou discurso, as necessidades e a compreensão do público e a autoridade do orador poderiam ser usadas como estratégias para persuadir outros.
Em vez de confiar apenas na lógica do argumento ou na confiança no orador, os políticos e os intervenientes há muito reconheceram que não há nada tão eficaz como usar a emoção para conquistar os corações e, consequentemente, as mentes de uma audiência.
Com o lançamento do GTP-4o na semana passada, podemos ter acabado de ver uma máquina ideal para esta tarefa. Embora a maioria veja isto como um avanço fantástico, com potencial para beneficiar muitas pessoas, alguns vêem-no com mais cautela.
Apesar de já ter recusado o pedido da OpenAI para provar sua voz, a atriz Scarlett Johansson disse que ficou “chocada” e “irritada” quando ouviu o novo GTP-4o falar.
Uma das cinco vozes usadas pelo GTP-4o, chamada Sky, parecia estranhamente com a atriz em seu papel como AI Samantha no filme Her de 2013 – sobre um homem que se apaixona por uma assistente virtual. Para aumentar a discussão, o fundador e CEO da OpenAI, Sam Altman, pareceu enfatizar a comparação entre Sky e Samantha/Johansson, twittando “ela” no dia do lançamento do GPT-4o.
Posteriormente, a OpenAI postou no X que estava “trabalhando para pausar o uso da Sky” e criou uma página da web em 19 de maio, explicando que uma atriz diferente havia sido usada. A empresa também expandiu a forma como as vozes foram escolhidas.

jamesonwu1972 / Shutterstock
O fato de o filme Her ter sido referenciado quase imediatamente quando o GPT-4o foi lançado ajudou a aumentar a conscientização sobre a tecnologia entre o público em geral e, talvez, fez com que suas capacidades parecessem menos assustadoras.
Isso é uma sorte porque os rumores sobre a parceria com a Apple despertaram temores de privacidade, com o iOS18 sendo lançado no próximo mês. Da mesma forma, a OpenAI fez parceria com a Microsoft com sua nova geração de sistema Windows alimentado por IA, chamado Copilot + PC.
Ao contrário de outros grandes modelos de linguagem (LLMs), o GTP-4o (ou omni) foi construído desde o início para compreender não apenas texto, mas também visão e som de uma forma unificada. Esta é a verdadeira multimodalidade que vai muito além das capacidades dos LLMs “tradicionais”.
Ele pode reconhecer nuances na fala, como emoção, respiração, ruído ambiente, canto dos pássaros e pode integrar isso com o que vê.
É um modelo multimodal unificado (o que significa que pode lidar com fotos e texto), é rápido – responde na mesma velocidade da fala humana normal (em média 320 milissegundos) – e pode ser interrompido. O resultado é irritantemente natural, alterando o tom e a intensidade emocional de forma adequada. Pode até cantar. Alguns até reclamaram do quão “sedutor” o GTP-4o é. Não admira que alguns atores estejam preocupados.
É genuinamente uma nova maneira de interagir com IA. Representa uma mudança subtil na nossa relação com a tecnologia, proporcionando um tipo fundamentalmente novo de interface “natural”, por vezes referida como EAI, ou IA empática.
A velocidade deste avanço enervou muitas organizações governamentais e forças policiais. Ainda não está claro qual a melhor forma de lidar com esta tecnologia se ela for usada como arma por estados pária ou criminosos. Com o aumento dos deepfakes de áudio, está se tornando cada vez mais difícil detectar o que é ou não real. Até amigos de Johansson pensaram que era ela.
Num ano em que se prevê a realização de eleições envolvendo mais de 4 mil milhões de potenciais eleitores, e em que a fraude baseada em áudio deepfake direcionado está a aumentar, os perigos da IA armada não devem ser subestimados.
Como Aristóteles descobriu, a capacidade persuasiva muitas vezes não tem a ver com o que você diz, mas com a maneira como você o diz. Todos nós sofremos de preconceito inconsciente, um relatório interessante do Reino Unido sobre preconceito de sotaque destaca isso. Alguns sotaques são mais verossímeis, autoritários ou até confiáveis do que outros. Precisamente por esta razão, as pessoas que trabalham em call centers estão agora a utilizar a IA para “ocidentalizar” as suas vozes. No caso do GTP-4o, a forma como ele diz as coisas pode ser tão importante quanto o que diz.
Se a IA compreender as necessidades do público e for capaz de raciocínio lógico, então talvez a última peça necessária seja a forma como a mensagem é entregue – como Aristóteles identificou há 2.000 anos. Talvez então teremos criado uma IA com potencial para se tornar um mestre sobre-humano da retórica e com poderes de persuasão que vão além da capacidade de resistência do público.
.