“Espere o que? Quão?” Emily Jones não estava acostumada a ser deixada para trás. Uma das melhores pilotos de corridas de simuladores com várias vitórias em seu nome, Jones puxou o volante do equipamento de e-sports, os olhos fixos na tela à sua frente: faça isso?” Com seus comentários em staccato intercalados com pneus cantando, Jones arremessou seu carro virtual pela pista virtual a 120 milhas por hora — depois 140, 150 — perseguindo o piloto de Gran Turismo mais rápido do mundo.
Construído pela Sony AI, um laboratório de pesquisa lançado pela empresa em 2020, o Gran Turismo Sophy é um programa de computador treinado para controlar carros de corrida dentro do mundo do Gran Turismo, um videogame conhecido por suas simulações super-realistas de veículos e pistas reais. Em uma série de eventos realizados a portas fechadas no ano passado, a Sony colocou seu programa contra os melhores humanos do circuito profissional de simulação de corrida.
O que eles descobriram durante as batalhas nas pistas de corrida – e as que se seguiram – poderia ajudar a moldar o futuro das máquinas que trabalham ao lado dos humanos ou se juntam a nós nas estradas.
Em julho de 2021, Jones, que mora em Melbourne, na Austrália, e corre para a equipe de e-sports Trans Tasman Racing, não sabia o que esperar. “Não me falaram muito sobre isso”, ela diz agora, um ano depois. “’Não pratique nada’, eles disseram. ‘Não olhe para seus tempos de volta.’ Eu estava tipo, obviamente vai ser bom se eles mantiverem isso em segredo de mim.” No final, GT Sophy bateu a melhor volta de Jones por 1,5 segundos. Em um nível em que os recordes são quebrados em incrementos de milissegundos, 1,5 segundo é uma era.
Mas a Sony logo aprendeu que a velocidade por si só não era suficiente para tornar o GT Sophy um vencedor . O programa ultrapassou todos os pilotos humanos em uma pista vazia, definindo tempos de volta sobre-humanos em três percursos virtuais diferentes. No entanto, quando a Sony testou o GT Sophy em uma corrida contra vários pilotos humanos, onde a inteligência e a velocidade são necessárias, o GT Sophy perdeu. O programa às vezes era muito agressivo, acumulando penalidades por direção imprudente, e outras vezes muito tímido, cedendo quando não precisava.
A Sony reagrupou, retreinou sua IA, e marcar uma revanche em outubro. Desta vez GT Sophy venceu com facilidade. O que fez a diferença? É verdade que a Sony voltou com uma rede neural maior, dando ao seu programa mais recursos para usar em tempo real. Mas, no final das contas, a diferença se resumia a dar à GT Sophy algo que Peter Wurman, chefe da Sony AI America, chama de “etiqueta”: a capacidade de equilibrar sua agressividade e timidez, escolhendo o comportamento mais apropriado para a situação em questão.
Isso também é o que torna o GT Sophy relevante além do Gran Turismo. A etiqueta entre os pilotos em uma pista é um exemplo específico do tipo de comportamento dinâmico e sensível ao contexto que os robôs devem ter quando interagem com as pessoas, diz Wurman. quando correr riscos e quando jogar pelo seguro seria útil para a IA que é melhor para interagir com as pessoas, seja no chão de fábrica, em robôs domésticos ou em carros sem motorista.
“Acho que ainda não aprendemos os princípios gerais sobre como lidar com as normas humanas que você deve respeitar”, diz Wurman. “Mas é um começo e esperamos que nos dê algumas dicas sobre esse problema em geral.”
Game changer
GT Sophy é apenas o mais recente de uma linha de sistemas de IA que venceram os melhores jogadores humanos do mundo em vários jogos, de xadrez e Go a videogames como Starcraft e DOTA. Mas o Gran Turismo ofereceu à Sony um novo tipo de desafio. Ao contrário de outros jogos, especialmente aqueles que são baseados em turnos, Gran Turismo convida seus melhores jogadores a controlar um veículo nos limites do que é fisicamente possível, em tempo real e próximo a outros jogadores que tentam fazer o mesmo.
Os carros fazem curvas a mais de 100 milhas por hora com apenas alguns centímetros entre eles. Nessas velocidades, os menores erros podem levar a um acidente. Gran Turismo captura a física do mundo real em detalhes extremos, simulando a aerodinâmica de um carro e o atrito de seus pneus na pista. O jogo às vezes é usado para treinar e recrutar pilotos para corridas do mundo real.
“Ele faz um excelente trabalho com o realismo”, diz Davide Scaramuzza, que lidera o grupo de robótica e percepção da Universidade de Zurique na Suíça. Scaramuzza não esteve envolvido com o GT Sophy, mas sua equipe usou o Gran Turismo para treinar um piloto de IA anterior – embora nenhum que tenha sido testado contra humanos.
GT Sophy não tem a mesma visão do jogo que os jogadores humanos. Em vez de ler pixels de uma tela, o programa recebe atualizações sobre a posição de seu carro na pista e as posições dos carros ao seu redor. Ele também recebe informações sobre as forças físicas virtuais que afetam seu veículo. Em resposta, GT Sophy diz ao carro para virar ou frear. Esse vai-e-vem entre o GT Sophy e o jogo acontece 10 vezes por segundo, o que Wurman e seus colegas afirmam corresponder ao tempo de reação dos jogadores humanos.
Sony usou aprendizado por reforço para treinar GT Sophy do zero por tentativa e erro. No início, a IA lutou para manter um carro na estrada. Mas depois de treinar em 10 PlayStation 4s, cada um executando 20 instâncias do programa, o GT Sophy combinou com a IA integrada do Gran Turismo, que jogadores amadores usam para praticar, em cerca de oito horas. Em 24 horas, ele estava estabelecendo tempos de volta perto do topo de uma tabela de classificação online de 17.700 jogadores humanos. . A essa altura, era mais rápido do que qualquer humano.
A IA da Sony aprendeu a dirigir nos limites do que o jogo permitia, realizando movimentos que os jogadores humanos só podem ficar boquiabertos. Em particular, Jones ficou impressionado com a forma como a GT Sophy fazia curvas, freando cedo antes de acelerar em uma linha muito mais apertada do que ela.
“Ele usou a curva de uma maneira estranha, fazendo coisas que eu nem sequer tinha pensado,” ela diz. Por exemplo, o GT Sophy muitas vezes deixa cair uma roda na grama na beira da pista e depois derrapa em curvas. “Você não quer fazer isso porque vai cometer um erro. É como um acidente controlado”, diz ela. “Talvez eu pudesse fazer isso em uma centena de vezes.”
GT Sophy foi rápida em dominar a física do jogo. O maior problema eram os árbitros. A nível profissional, as corridas do Gran Turismo são assistidas por juízes humanos, que podem atribuir pontos de penalização por condução perigosa. Acumular penalidades foi uma das principais razões para a derrota do GT Sophy na primeira rodada de corridas em julho passado, embora tenha sido mais rápido do que qualquer um dos pilotos humanos. E aprender a evitá-los fez toda a diferença no segundo round.
Difícil, mas justo
Wurman trabalha no GT Sophy há vários anos. Há uma pintura de dois carros lutando por uma posição pendurada na parede atrás de sua mesa. “É um carro GT Sophy passando por Yamanaka”, diz Wurman, referindo-se a Tomoaki Yamanaka, um dos quatro pilotos profissionais japoneses de corridas simuladas que competiram contra GT Sophy no ano passado.
Wurman pode’ Lembre-se de qual raça a pintura foi tirada. Se for o evento de outubro, Yamanaka pode estar se divertindo muito, lutando contra um adversário difícil, mas justo. Se for o evento de julho, ele provavelmente está xingando no computador.
O companheiro de equipe de Yamanaka, Takuma Miyazono, me contou sobre aquela corrida de julho através de um tradutor. “Houve algumas vezes em que fomos empurrados para fora da pista por causa da agressividade com que ela entrava nas curvas”, disse ele. “Isso nos derrubou. Os motoristas humanos tiveram que se segurar nas curvas para evitar serem atropelados.”
Treinar a IA para jogar limpo sem perder sua vantagem competitiva foi difícil, diz Wurman. Os árbitros humanos fazem julgamentos subjetivos que dependem do contexto, tornando difícil transformá-los em simples prós e contras que a IA pode aprender.
Os pesquisadores da Sony tentaram dar à IA muitas dicas diferentes, ajustando-as à medida que avançavam, na esperança de encontrar uma mistura que funcionasse. Eles tentaram penalizá-lo se saísse da pista ou batesse na parede. Eles o penalizaram por acidentes que causaram e por acidentes em que a chamada de um árbitro poderia ir para qualquer lado. Eles experimentaram penalidades de tamanhos diferentes para cada um e verificaram como a condução do GT Sophy mudou em resposta.
A Sony também aumentou a competição que o GT Sophy enfrentou em seu treinamento. Antes, ele treinava principalmente contra versões anteriores de si mesmo. Levando à revanche de outubro, a Sony testou sua IA a cada uma ou duas semanas contra os melhores pilotos, aprimorando-a constantemente. “Isso nos deu o tipo de feedback que precisávamos para encontrar o equilíbrio certo entre agressividade e timidez”, diz Wurman.
Funcionou. Quando Miyazono enfrentou a GT Sophy, três meses depois, a agressão havia desaparecido – mas a IA não estava simplesmente recuando. “Quando você entra em uma curva com dois carros lado a lado, deixa espaço suficiente para o seu carro passar”, ele me disse. “Realmente parece que você está correndo com outra pessoa.”
“Você tem um tipo diferente de paixão e diversão ao dirigir contra algo que reage dessa maneira”, acrescentou. “Isso foi algo que realmente deixou uma grande impressão em minha mente.”
Scaramuzza está impressionado com o trabalho da Sony . “Medimos o progresso da robótica em relação ao que os humanos podem fazer”, diz ele. Mas Elia Kaufman, que trabalha com Scaramuzza na Universidade de Zurique, aponta que ainda são os pesquisadores humanos que escolhem quais dos comportamentos aprendidos de GT Sophy serão incorporados durante o treinamento. “São eles que julgam o que é uma boa etiqueta de corrida ou não”, diz ele. “Seria muito interessante se isso pudesse ser feito de forma automatizada.” Tal máquina não só teria boas maneiras, mas poderia reconhecer o que eram boas maneiras e ser capaz de adaptar seu comportamento a novas configurações.
A equipe de Scaramuzza está agora aplicando sua pesquisa do Gran Turismo às corridas de drones do mundo real, treinando uma IA para voar usando entrada de vídeo bruto em vez de dados de uma simulação. No mês passado, eles convidaram dois pilotos de drones campeões mundiais para enfrentar o computador. Não há prêmios para adivinhar quem ganhou. “Foi muito interessante olhar para seus rostos depois que viram nossa IA correndo”, diz Scaramuzza. “Eles ficaram alucinados.”
Scaramuzza acha que dar o salto para o mundo real é essencial para o verdadeiro progresso na robótica. “Sempre haverá uma incompatibilidade entre a simulação e o mundo real”, diz ele. “Isso é algo que fica esquecido quando as pessoas falam sobre a IA fazendo um progresso incrível. Em termos de estratégia, sim. Em termos de implantação no mundo real, definitivamente ainda não chegamos lá.”
Por enquanto, a Sony está aderindo aos jogos. Ela planeja colocar o GT Sophy em uma versão futura do Gran Turismo. “Gostaríamos que isso se tornasse parte do produto”, diz Peter Stone, diretor executivo da Sony AI America. “A Sony é uma empresa de entretenimento, e queremos que isso torne o jogo mais divertido.” vê-lo dirigir. “Haverá faixas em que estamos tipo, espere um segundo, estamos fazendo isso há anos, mas na verdade há uma maneira mais rápida de fazer isso.” Miyazono já tentou copiar algumas das linhas que a IA toma nas curvas, agora que mostrou a ele que pode ser feito.
“Se o benchmark mudar, todo mundo se levanta também, ” diz Jones.