News

A reclamação de Scarlett Johansson à OpenAI é uma nova referência no desenvolvimento de inteligência de máquina

.

Há mais de 2.000 anos, o antigo filósofo grego Aristóteles descobriu uma maneira de construir argumentos. Ele chamou isso de “retórica” e descreveu como a lógica no texto de um argumento ou discurso, as necessidades e a compreensão do público e a autoridade do orador poderiam ser usadas como estratégias para persuadir outros.

Em vez de confiar apenas na lógica do argumento ou na confiança no orador, os políticos e os intervenientes há muito reconheceram que não há nada tão eficaz como usar a emoção para conquistar os corações e, consequentemente, as mentes de uma audiência.

Com o lançamento do GTP-4o na semana passada, podemos ter acabado de ver uma máquina ideal para esta tarefa. Embora a maioria veja isto como um avanço fantástico, com potencial para beneficiar muitas pessoas, alguns vêem-no com mais cautela.

Apesar de já ter recusado o pedido da OpenAI para provar sua voz, a atriz Scarlett Johansson disse que ficou “chocada” e “irritada” quando ouviu o novo GTP-4o falar.

Uma das cinco vozes usadas pelo GTP-4o, chamada Sky, parecia estranhamente com a atriz em seu papel como AI Samantha no filme Her de 2013 – sobre um homem que se apaixona por uma assistente virtual. Para aumentar a discussão, o fundador e CEO da OpenAI, Sam Altman, pareceu enfatizar a comparação entre Sky e Samantha/Johansson, twittando “ela” no dia do lançamento do GPT-4o.

Posteriormente, a OpenAI postou no X que estava “trabalhando para pausar o uso da Sky” e criou uma página da web em 19 de maio, explicando que uma atriz diferente havia sido usada. A empresa também expandiu a forma como as vozes foram escolhidas.

Sam Altman
Sam Altman é o CEO da OpenAI.
jamesonwu1972 / Shutterstock

O fato de o filme Her ter sido referenciado quase imediatamente quando o GPT-4o foi lançado ajudou a aumentar a conscientização sobre a tecnologia entre o público em geral e, talvez, fez com que suas capacidades parecessem menos assustadoras.

Isso é uma sorte porque os rumores sobre a parceria com a Apple despertaram temores de privacidade, com o iOS18 sendo lançado no próximo mês. Da mesma forma, a OpenAI fez parceria com a Microsoft com sua nova geração de sistema Windows alimentado por IA, chamado Copilot + PC.

Ao contrário de outros grandes modelos de linguagem (LLMs), o GTP-4o (ou omni) foi construído desde o início para compreender não apenas texto, mas também visão e som de uma forma unificada. Esta é a verdadeira multimodalidade que vai muito além das capacidades dos LLMs “tradicionais”.

Ele pode reconhecer nuances na fala, como emoção, respiração, ruído ambiente, canto dos pássaros e pode integrar isso com o que vê.

É um modelo multimodal unificado (o que significa que pode lidar com fotos e texto), é rápido – responde na mesma velocidade da fala humana normal (em média 320 milissegundos) – e pode ser interrompido. O resultado é irritantemente natural, alterando o tom e a intensidade emocional de forma adequada. Pode até cantar. Alguns até reclamaram do quão “sedutor” o GTP-4o é. Não admira que alguns atores estejam preocupados.

É genuinamente uma nova maneira de interagir com IA. Representa uma mudança subtil na nossa relação com a tecnologia, proporcionando um tipo fundamentalmente novo de interface “natural”, por vezes referida como EAI, ou IA empática.

A velocidade deste avanço enervou muitas organizações governamentais e forças policiais. Ainda não está claro qual a melhor forma de lidar com esta tecnologia se ela for usada como arma por estados pária ou criminosos. Com o aumento dos deepfakes de áudio, está se tornando cada vez mais difícil detectar o que é ou não real. Até amigos de Johansson pensaram que era ela.

Num ano em que se prevê a realização de eleições envolvendo mais de 4 mil milhões de potenciais eleitores, e em que a fraude baseada em áudio deepfake direcionado está a aumentar, os perigos da IA ​​armada não devem ser subestimados.

Como Aristóteles descobriu, a capacidade persuasiva muitas vezes não tem a ver com o que você diz, mas com a maneira como você o diz. Todos nós sofremos de preconceito inconsciente, um relatório interessante do Reino Unido sobre preconceito de sotaque destaca isso. Alguns sotaques são mais verossímeis, autoritários ou até confiáveis ​​do que outros. Precisamente por esta razão, as pessoas que trabalham em call centers estão agora a utilizar a IA para “ocidentalizar” as suas vozes. No caso do GTP-4o, a forma como ele diz as coisas pode ser tão importante quanto o que diz.

Se a IA compreender as necessidades do público e for capaz de raciocínio lógico, então talvez a última peça necessária seja a forma como a mensagem é entregue – como Aristóteles identificou há 2.000 anos. Talvez então teremos criado uma IA com potencial para se tornar um mestre sobre-humano da retórica e com poderes de persuasão que vão além da capacidade de resistência do público.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo