.
Quando o OpenAI foi lançado GPT-3 em julho de 2020, ofereceu um vislumbre dos dados usados para treinar o modelo de linguagem grande. Milhões de páginas extraídas da web, postagens do Reddit, livros e muito mais são usadas para criar o sistema de texto generativo, de acordo com um artigo técnico. Coletadas nesses dados estão algumas das informações pessoais que você compartilha sobre você online. Esses dados agora estão colocando o OpenAI em apuros.
Em 31 de março, o regulador de dados da Itália emitiu uma decisão de emergência temporária exigindo que a OpenAI parasse de usar as informações pessoais de milhões de italianos incluídas em seus dados de treinamento. De acordo com o regulador, Garante per la Protezione dei Dati Personali, a OpenAI não tem o direito legal de usar as informações pessoais das pessoas no ChatGPT. Em resposta, a OpenAI impediu que as pessoas na Itália acessassem seu chatbot enquanto fornece respostas aos funcionários, que estão investigando mais.
A ação é a primeira tomada contra o ChatGPT por um regulador ocidental e destaca as tensões de privacidade em torno da criação de modelos gigantes de IA generativa, que geralmente são treinados em vastas faixas de dados da Internet. Assim como artistas e empresas de mídia reclamaram que desenvolvedores de IA generativa usaram seu trabalho sem permissão, o regulador de dados agora está dizendo o mesmo para as informações pessoais das pessoas.
Decisões semelhantes poderiam ocorrer em toda a Europa. Nos dias desde que a Itália anunciou sua investigação, reguladores de dados na França, Alemanha e Irlanda entraram em contato com o Garante para pedir mais informações sobre suas descobertas. “Se o modelo de negócios consistiu apenas em vasculhar a internet em busca de qualquer coisa que você pudesse encontrar, então pode haver um problema realmente significativo aqui”, diz Tobias Judin, chefe internacional da autoridade de proteção de dados da Noruega, que está monitorando os acontecimentos. Judin acrescenta que, se um modelo é construído com base em dados que podem ser coletados ilegalmente, isso levanta questões sobre se alguém pode usar as ferramentas legalmente.
O golpe da Itália para a OpenAI também ocorre quando o escrutínio de grandes modelos de IA aumenta constantemente. Em 29 de março, os líderes de tecnologia pediram uma pausa no desenvolvimento de sistemas como o ChatGPT, temendo suas implicações futuras. Judin diz que a decisão italiana destaca preocupações mais imediatas. “Essencialmente, estamos vendo que o desenvolvimento de IA até o momento pode ter uma falha enorme”, diz Judin.
O trabalho italiano
As regras do GDPR da Europa, que abrangem a forma como as organizações coletam, armazenam e usam os dados pessoais das pessoas, protegem os dados de mais de 400 milhões de pessoas em todo o continente. Esses dados pessoais podem ser qualquer coisa, desde o nome de uma pessoa até seu endereço IP — se puderem ser usados para identificar alguém, podem contar como informações pessoais. Ao contrário da colcha de retalhos das regras de privacidade em nível estadual nos Estados Unidos, as proteções do GDPR se aplicam se as informações das pessoas estiverem disponíveis gratuitamente online. Resumindo: só porque as informações de alguém são públicas não significa que você pode vasculhá-las e fazer o que quiser com elas.
O Garante da Itália acredita que o ChatGPT tem quatro problemas sob o GDPR: o OpenAI não tem controles de idade para impedir que menores de 13 anos usem o sistema de geração de texto; pode fornecer informações sobre pessoas que não são precisas; e as pessoas não foram informadas de que seus dados foram coletados. Talvez o mais importante, seu quarto argumento afirma que “não há base legal” para coletar informações pessoais das pessoas nas enormes ondas de dados usadas para treinar o ChatGPT.
“Os italianos perceberam o blefe”, diz Lilian Edwards, professora de direito, inovação e sociedade da Universidade de Newcastle, no Reino Unido. “Parecia bastante evidente na UE que isso era uma violação da lei de proteção de dados.”
.