.
Os alunos podem querer pensar duas vezes antes de usar um chatbot para concluir sua próxima tarefa. Os modelos de linguagem que geram texto em resposta às solicitações do usuário plagiam o conteúdo de várias maneiras, de acordo com uma equipe de pesquisa liderada pela Penn State que conduziu o primeiro estudo para examinar diretamente o fenômeno.
“O plágio vem em diferentes sabores”, disse Dongwon Lee, professor de ciências da informação e tecnologia da Penn State. “Queríamos ver se os modelos de linguagem não apenas copiam e colam, mas também recorrem a formas mais sofisticadas de plágio sem perceber.”
Os pesquisadores se concentraram em identificar três formas de plágio: literalmente, ou copiar e colar diretamente o conteúdo; parafrasear ou reformular e reestruturar o conteúdo sem citar a fonte original; e ideia, ou usando a ideia principal de um texto sem a devida atribuição. Eles construíram um pipeline para detecção automatizada de plágio e o testaram contra o GPT-2 da OpenAI porque os dados de treinamento do modelo de linguagem estão disponíveis online, permitindo que os pesquisadores comparem os textos gerados com os 8 milhões de documentos usados para pré-treinar o GPT-2.
Os cientistas usaram 210.000 textos gerados para testar o plágio em modelos de linguagem pré-treinados e modelos de linguagem ajustados, ou modelos treinados posteriormente para focar em tópicos específicos. Nesse caso, a equipe ajustou três modelos de linguagem para se concentrar em documentos científicos, artigos acadêmicos relacionados ao COVID-19 e reivindicações de patentes. Eles usaram um mecanismo de pesquisa de código aberto para recuperar os 10 principais documentos de treinamento mais semelhantes a cada texto gerado e modificaram um algoritmo de alinhamento de texto existente para detectar melhor as ocorrências de plágio literal, paráfrase e ideia.
A equipe descobriu que os modelos de linguagem cometeram todos os três tipos de plágio e que quanto maior o conjunto de dados e os parâmetros usados para treinar o modelo, mais frequentemente o plágio ocorreu. Eles também observaram que os modelos de linguagem ajustados reduziram o plágio literal, mas aumentaram as instâncias de paráfrase e plágio de ideias. Além disso, eles identificaram instâncias do modelo de linguagem expondo as informações privadas dos indivíduos por meio de todas as três formas de plágio. Os pesquisadores apresentarão suas descobertas na 2023 ACM Web Conference, que acontece de 30 de abril a 4 de maio em Austin, Texas.
“As pessoas perseguem grandes modelos de linguagem porque quanto maior o modelo fica, as habilidades de geração aumentam”, disse o principal autor Jooyoung Lee, estudante de doutorado na Faculdade de Ciências e Tecnologia da Informação da Penn State. “Ao mesmo tempo, eles estão colocando em risco a originalidade e criatividade do conteúdo dentro do corpus de treinamento. Esta é uma descoberta importante.”
O estudo destaca a necessidade de mais pesquisas sobre geradores de texto e as questões éticas e filosóficas que eles representam, de acordo com os pesquisadores.
“Embora o resultado possa ser atraente e os modelos de linguagem possam ser divertidos de usar e pareçam produtivos para certas tarefas, isso não significa que sejam práticos”, disse Thai Le, professor assistente de ciência da computação e da informação na Universidade do Mississippi. que começou a trabalhar no projeto como candidato a doutorado na Penn State. “Na prática, precisamos cuidar das questões éticas e de direitos autorais que os geradores de texto representam.”
Embora os resultados do estudo se apliquem apenas ao GPT-2, o processo de detecção automática de plágio que os pesquisadores estabeleceram pode ser aplicado a modelos de linguagem mais recentes, como o ChatGPT, para determinar se e com que frequência esses modelos plagiam o conteúdo do treinamento. O teste de plágio, no entanto, depende dos desenvolvedores tornarem os dados de treinamento publicamente acessíveis, disseram os pesquisadores.
O estudo atual pode ajudar os pesquisadores de IA a construir modelos de linguagem mais robustos, confiáveis e responsáveis no futuro, de acordo com os cientistas. Por enquanto, eles recomendam que as pessoas tenham cuidado ao usar geradores de texto.
“Pesquisadores e cientistas de IA estão estudando como tornar os modelos de linguagem melhores e mais robustos, enquanto isso, muitos indivíduos estão usando modelos de linguagem em suas vidas diárias para várias tarefas de produtividade”, disse Jinghui Chen, professor assistente de ciências da informação e tecnologia da Penn State. “Embora o aproveitamento de modelos de linguagem como um mecanismo de pesquisa ou um estouro de pilha para depurar código provavelmente seja bom, para outros fins, uma vez que o modelo de linguagem pode produzir conteúdo plagiado, pode resultar em consequências negativas para o usuário.”
O resultado do plágio não é algo inesperado, acrescentou Dongwon Lee.
“Como um papagaio estocástico, ensinamos modelos de linguagem a imitar a escrita humana sem ensiná-los a não plagiar adequadamente”, disse ele. “Agora, é hora de ensiná-los a escrever corretamente, e ainda temos um longo caminho a percorrer.”
A National Science Foundation apoiou este trabalho.
.