Christopher Bouzy está tentando ficar à frente dos bots. Como a pessoa por trás do Bot Sentinel, um popular sistema de detecção de bots, ele e sua equipe atualizam continuamente seus modelos de aprendizado de máquina por medo de que fiquem “obsoletos”. A tarefa? Classificando 3,2 milhões de tweets de contas suspensas em duas pastas: “Bot” ou “Not.”
Para detectar bots, os modelos do Bot Sentinel devem primeiro aprender qual é o comportamento problemático por meio da exposição a dados . E ao fornecer ao modelo tweets em duas categorias distintas – bot ou não bot – o modelo de Bouzy pode se calibrar e supostamente encontrar a própria essência do que, ele pensa, torna um tweet problemático.
Dados de treinamento são o coração de qualquer modelo de aprendizado de máquina. No crescente campo de detecção de bots, como os caçadores de bots definem e rotulam os tweets determina a maneira como seus sistemas interpretam e classificam o comportamento do tipo bot. Segundo especialistas, isso pode ser mais uma arte do que uma ciência. “No final das contas, trata-se de uma vibração quando você está fazendo a rotulagem”, diz Bouzy. “Não se trata apenas das palavras no tweet, o contexto importa.”
Ele é um bot, ela é um bot, todo mundo é um bot
Antes que alguém possa caçar bots, eles precisam descobrir o que é um bot – e essa resposta muda dependendo de quem você pergunta. A internet está cheia de pessoas acusando umas às outras de serem bots por pequenas divergências políticas. Trolls são chamados de bots. Pessoas sem foto de perfil e poucos tweets ou seguidores são chamadas de bots. Mesmo entre os caçadores de bots profissionais, as respostas diferem.
O Bot Sentinel é treinado para eliminar o que Bouzy chama de “contas problemáticas” – não apenas contas automatizadas. O professor de informática e ciência da computação da Universidade de Indiana, Filippo Menczer, diz que a ferramenta que ele ajuda a desenvolver, Botometer, define bots como contas que são pelo menos parcialmente controladas por software. Kathleen Carley é professora de ciência da computação no Institute for Software Research da Carnegie Mellon University, que ajudou a desenvolver duas ferramentas de detecção de bots: BotHunter e BotBuster. Carley define um bot como “uma conta que é executada usando um software completamente automatizado”, uma definição que se alinha com a do próprio Twitter. “Um bot é uma conta automatizada – nada mais ou menos”, escreveu a empresa em uma postagem no blog de maio de 2020 sobre manipulação de plataforma.
Assim como as definições diferem, os resultados dessas ferramentas produzir nem sempre se alinham. Uma conta sinalizada como um bot pelo Botometer, por exemplo, pode voltar como perfeitamente humana no Bot Sentinel, e vice-versa. Ao contrário do Botometer, que visa identificar contas automatizadas ou parcialmente automatizadas, o Bot Sentinel está caçando contas que se envolvem em trolling tóxico. De acordo com Bouzy, você conhece essas contas quando as vê. Eles podem ser automatizados ou controlados por humanos e se envolvem em assédio ou desinformação e violam os termos de serviço do Twitter. “Apenas o pior dos piores”, diz Bouzy.
Botometer é mantido por Kaicheng Yang, doutorando em informática no Observatório de Mídias Sociais da Universidade de Indiana, que criou a ferramenta com Menczer. A ferramenta também usa aprendizado de máquina para classificar bots, mas quando Yang está treinando seus modelos, ele não está necessariamente procurando por assédio ou violações dos termos de serviço. Ele está apenas procurando por bots. De acordo com Yang, quando ele rotula seus dados de treinamento, ele se faz uma pergunta: “Eu acredito que o tweet está vindo de uma pessoa ou de um algoritmo? ?”
Como treinar um algoritmo
Não só não há consenso sobre como definir um bot, mas não há um único critérios claros ou sinais que qualquer pesquisador pode apontar para prever com precisão se uma conta é um bot. Os caçadores de bots acreditam que expor um algoritmo a milhares ou milhões de contas de bots ajuda um computador a detectar comportamentos semelhantes a bots. Mas a eficiência objetiva de qualquer sistema de detecção de bots é prejudicada pelo fato de que os humanos ainda precisam fazer julgamentos sobre quais dados usar para construí-lo.
Tome o Botometer, por exemplo . Yang diz que o Botometer é treinado em tweets de cerca de 20.000 contas. Embora algumas dessas contas se identifiquem como bots, a maioria é categorizada manualmente por Yang e uma equipe de pesquisadores antes de ser processada pelo algoritmo. (Menczer diz que algumas das contas usadas para treinar o Botometer vêm de conjuntos de dados de outras pesquisas revisadas por pares. “Tentamos usar todos os dados que podemos obter, desde que venham de uma fonte confiável”, ele diz.)