News

Grupo antipirataria pede mais transparência no treinamento de IA * Strong The One

.

computador antigoA história mostra que os detentores de direitos autorais tendem a ser cautelosos com as novas tecnologias que perturbam o status quo.

Desde a imprensa escrita, passando pelas fitas cassete, até aos serviços de streaming de vídeo online, todos foram vistos em algum momento como grandes ameaças às receitas dos detentores de direitos de autor.

Estes não eram apenas medos exagerados, uma vez que as tecnologias podem ser usadas tanto para o bem como para o mal. Os serviços de streaming pirata ainda são um problema hoje, por exemplo, mas o mesmo não pode ser dito do Netflix e do Spotify.

No ano passado, a inteligência artificial tornou-se uma das principais preocupações dos detentores de direitos autorais. Embora esta tecnologia em evolução possa ser uma vantagem para os detentores de direitos, o foco atual é evitar que a IA explore, canibalize ou infrinja conteúdos protegidos por direitos de autor.

A questão já chegou aos tribunais em diversas instâncias e há algumas semanas informamos que grupos antipirataria também estão se envolvendo. No mês passado, a Aliança Dinamarquesa pelos Direitos foi o primeiro grupo a reivindicar uma grande vitória na frente de derrubadas, ao remover da web uma cópia do controverso conjunto de dados de treinamento de IA Books3.

O conjunto de dados Books3 tem um claro ângulo de pirataria, pois foi criado a partir da biblioteca do site ‘pirata’ Bibliotik. A coleção de texto simples de 196.640 livros, com quase 37 GB de tamanho, foi usada para treinar vários modelos de IA, incluindo o Meta.

Books3 foi publicado pela primeira vez no The Eye no final de 2020 e acabou sendo removido quando a Rights Alliance enviou um aviso formal de remoção. Ainda há cópias circulando em outros lugares, mas os detentores dos direitos também estão determinados a retirá-las.

Transparência necessária

Muitos detentores de direitos acreditam que o Books3 não é o único conjunto de dados originado pela pirataria. Existem também outros conjuntos de dados de livros, que são grandes demais para terem sido criados a partir de conteúdo de domínio público. E há conjuntos de dados que também usam músicas, imagens e vídeos protegidos por direitos autorais.

O que torna o Books3 único é o fato de a fonte ter sido publicada. Em muitos outros casos, esse não é o caso, de modo que os detentores de direitos não podem enviar avisos de remoção, mesmo que queiram.

A diretora da Rights Alliance, Maria Fredenslund, observa que o exemplo do Books3 mostra a importância de as empresas serem transparentes sobre os conjuntos de dados que usam para treinar modelos de IA. Esta deve ser a regra daqui para frente, não a exceção.

“O Books3 foi um caso especial, pois os criadores do conjunto de dados tornaram pública a sua origem e, ao mesmo tempo, alguns desenvolvedores de inteligência artificial indicaram que usaram o Books3. O caso é, portanto, um exemplo real de que a transparência é necessária para que os detentores de direitos façam cumprir o seu conteúdo”, afirma Fredenslund.

“Estamos, portanto, no processo de continuar a nossa experiência com o Books3, num apelo a um requisito mais rigoroso de transparência no Regulamento de IA da UE, para que os titulares de direitos tenham uma oportunidade real de verificar se o seu conteúdo é usado para treinar inteligência artificial.”

Escritório de Direitos Autorais dos EUA faz perguntas

O grupo antipirataria não é o único partido focado na transparência. O Gabinete de Direitos de Autor dos EUA, que lançou uma iniciativa mais ampla de IA no início deste ano, acaba de lançar uma consulta pública onde pede às partes interessadas a sua opinião sobre o assunto.

“Para permitir que os proprietários de direitos autorais determinem se seus trabalhos foram usados, os desenvolvedores de modelos de IA deveriam ser obrigados a coletar, reter e divulgar registros relativos aos materiais usados ​​para treinar seus modelos?” o escritório pergunta.

“Que obrigações, se houver, deveriam existir para notificar os proprietários de direitos autorais de que suas obras foram usadas para treinar um modelo de IA?” outra pergunta diz.

transparência do escritório de direitos autorais

Comitê da Câmara dos Comuns do Reino Unido intervém

Na semana passada, um novo relatório de IA do Comitê da Câmara dos Comuns do Reino Unido também interveio sobre o assunto. O governo já havia sugerido a ideia de introduzir uma exceção de direitos autorais para mineração de texto e dados para IA, mas após objeções, rapidamente recuou.

O Comité da Câmara dos Comuns acredita que isto foi sensato, observando que os titulares de direitos devem ser protegidos. O seu relatório também recomenda maior transparência e a necessidade de os detentores de direitos de autor serem compensados ​​se o seu trabalho for utilizado para fins de formação em IA.

“O governo deve considerar como os criativos podem garantir a transparência e, se necessário, recurso e reparação caso suspeitem que os criadores de IA estão a utilizar indevidamente os seus trabalhos no desenvolvimento de IA”, escreve o Comité da Câmara dos Comuns.

“O governo deve apoiar a continuação de um forte regime de direitos autorais no Reino Unido e deixar claro que são necessárias licenças para usar conteúdo protegido por direitos autorais em IA. Em linha com o nosso trabalho anterior, este Comité também acredita que o Governo deve agir para garantir que os criadores sejam bem recompensados ​​no regime de direitos de autor.”

Apenas o começo

A União Europeia já tem um requisito de transparência no seu regulamento recentemente proposto sobre IA, mas a Rights Alliance não acredita que seja útil na sua forma actual.

“[T]A regulamentação da UE sobre IA não é suficiente, uma vez que não obriga os criadores de inteligência artificial a publicar a origem do conteúdo dos seus dados de treino”, observa o grupo antipirataria.

Estes são apenas alguns exemplos de questões recentes de direitos autorais relacionadas à IA. Embora ainda seja cedo, podemos esperar que o tema mantenha os detentores de direitos, os legisladores e os tribunais ocupados durante anos.

Agora é a hora de várias partes interessadas traçarem seus limites na areia. Está claro que o desenvolvimento da IA ​​não pode ser retardado, mas ainda não foram determinados quais dados e resultados de treinamento serão considerados justos.

.

Mostrar mais

Artigos relacionados

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Botão Voltar ao topo