.
A Microsoft está lançando um projeto de pesquisa para estimar a influência de exemplos de treinamento específicos no texto, imagens e outros tipos de mídia que os modelos de IA generativos criam.
Isso é Por uma lista de empregos Datado de dezembro que foi recentemente recirculado no LinkedIn.
De acordo com a listagem, que busca um estagiário de pesquisa, o projeto tentará demonstrar que os modelos podem ser treinados de tal maneira que o impacto de dados específicos – por exemplo, fotos e livros – em seus resultados podem ser “estimados de maneira eficiente e útil”.
“As arquiteturas atuais de rede neural são opacas em termos de fornecimento de fontes para suas gerações, e existem […] Boas razões para mudar isso “, lê a listagem.”[One is,] Incentivos, reconhecimento e potencialmente pagam pelas pessoas que contribuem com certos dados valiosos para tipos imprevistos de modelos que desejaremos no futuro, assumindo que o futuro nos surpreenderá fundamentalmente. ”
Geradores de texto, código, imagem, vídeo e músicas movidos a IA estão no centro de vários processos de IP contra empresas de IA. Freqüentemente, essas empresas treinam seus modelos em grandes quantidades de dados de sites públicos, alguns dos quais são protegidos por direitos autorais. Muitas das empresas argumentam que Doutrina de uso justo Protege suas práticas de eliminação de dados e treinamento. Mas os criativos – de artistas a programadores e autores – discordam em grande parte.
A própria Microsoft está enfrentando pelo menos dois desafios legais dos detentores de direitos autorais.
O New York Times processou a gigante da tecnologia e seu colaborador, em dezembro, em dezembro, acusando as duas empresas de violação dos direitos autorais do Times, implantando modelos treinados em milhões de artigos. Vários desenvolvedores de software Também entrou com uma ação contra a Microsoft, alegando que o assistente de codificação do GitHub Copilot AI da empresa foi treinado ilegalmente usando seus trabalhos protegidos.
O novo esforço de pesquisa da Microsoft, que a listagem descreve como “proveniência em tempo de treinamento”. segundo tem o envolvimento de Jaron Lanier, o tecnólogo talentoso e cientista interdisciplinar na Microsoft Research. Em um abril de 2023 Op-ed in the New YorkerLanier escreveu sobre o conceito de “dignidade de dados”, que para ele significava conectar “coisas digitais” com “os humanos que querem ser conhecidos por terem feito isso”.
“Uma abordagem de design de dados rastrearia os colaboradores mais exclusivos e influentes quando um grande modelo fornece uma saída valiosa”, escreveu Lanier. “Por exemplo, se você pedir a um modelo para ‘um filme animado de meus filhos em um mundo de pintura a petróleo de gatos que falam em uma aventura’, então certos pintores de petróleo, retratistas de gatos, dubladores e escritores-ou suas propriedades-poderiam ser calculadas para serem pagos até a criação da nova obra-prima. Eles seriam reconhecidos.
Já não existem, várias empresas tentando isso. O desenvolvedor de modelos de IA Bria, que recentemente levantou US $ 40 milhões em capital de risco, reivindica “programaticamente” compensar os proprietários de dados de acordo com sua “influência geral”. A Adobe e o Shutterstock também concedem pagamentos regulares aos colaboradores do conjunto de dados, embora os valores exatos de pagamento tendam a ser opacos.
Poucos grandes laboratórios estabeleceram programas de pagamento de colaboradores individuais fora de contratos de licenciamento de inking com editores, plataformas e corretores de dados. Em vez disso, eles forneceram meios para os detentores de direitos autorais “optarem por não participar” do treinamento. Mas alguns desses processos de opção são onerosos e se aplicam apenas a modelos futuros-não treinados anteriormente.
Obviamente, o projeto da Microsoft pode chegar a pouco mais que uma prova de conceito. Há precedentes para isso. Em maio, o OpenAI disse que estava desenvolvendo tecnologia semelhante que permitiria aos criadores especificarem como desejam que seus trabalhos sejam incluídos – ou excluídos dos dados de treinamento. Mas quase um ano depois, a ferramenta ainda não viu a luz do dia, e muitas vezes não foi vista como uma prioridade internamente.
Microsoft também pode estar tentando “lavagem de ética,”Aqui – ou decisões regulatórias e/ou tribunais prejudicam seu negócio de IA.
Mas que a empresa está investigando maneiras de rastrear dados de treinamento é notável à luz das posições recentemente expressas da AI Labs sobre o uso justo. Vários dos principais laboratórios, incluindo o Google e o OpenAI, publicaram documentos de políticas que recomendam que o governo Trump enfraqueça as proteções de direitos autorais no que se refere ao desenvolvimento da IA. O OpenAI pediu explicitamente ao governo dos EUA que codificasse o uso justo para o treinamento de modelos, o que argumenta que liberaria desenvolvedores de restrições onerosas.
A Microsoft não respondeu imediatamente a um pedido de comentário.
.








