Autores dizem que Meta usou livros protegidos por direito autoral em treinamento de IA

Por Katie Paul

NOVA YORK (Reuters) - Os advogados da Meta alertaram a empresa sobre os riscos legais de a empresa usar milhares de livros para treinar seus modelos de IA, mas ela fez isso mesmo assim, de acordo com um novo processo que acusa a companhia de violação de direitos autorais.

O novo processo, apresentado na noite de segunda-feira, consolida duas ações judiciais movidas contra a proprietária do Facebook e do Instagram pela comediante Sarah Silverman, pelo ganhador do Prêmio Pulitzer Michael Chabon e por outros autores proeminentes, que alegam que a Meta usou suas obras sem permissão para treinar seu modelo de linguagem de inteligência artificial, o Llama.

No mês passado, um juiz da Califórnia indeferiu parte do processo de Silverman e indicou que daria aos autores permissão para alterar suas reivindicações.

A Meta não respondeu imediatamente a um pedido de comentário sobre as alegações.

A nova queixa, apresentada na segunda-feira, inclui registros de bate-papo de um pesquisador afiliado à Meta discutindo a aquisição do conjunto de dados em um servidor Discord, uma evidência potencialmente significativa que indica que a Meta estava ciente de que o uso dos livros poderia não estar protegido pela lei de direitos autorais dos EUA.

Nos registros de bate-papo citados na denúncia, o pesquisador Tim Dettmers descreve suas conversas com o departamento jurídico da Meta sobre se o uso dos arquivos de livros como dados de treinamento seria "legalmente aceitável".

"No Facebook, há muitas pessoas interessadas em trabalhar com o (T)he (P)ile, inclusive eu, mas em sua forma atual, não podemos usá-lo por motivos legais", escreveu Dettmers em 2021, referindo-se a um conjunto de dados que a Meta reconheceu ter usado para treinar sua primeira versão do Llama, de acordo com a denúncia.

No mês anterior, Dettmers escreveu que os advogados da Meta haviam lhe dito que "os dados não podem ser usados ou os modelos não podem ser publicados se forem treinados com esses dados", diz a denúncia.

Continua após a publicidade

Embora Dettmers não descreva as preocupações dos advogados, seus pares no chat identificam "livros com direitos autorais ativos" como a maior fonte provável de preocupação. Eles dizem que o treinamento com os dados deve "se enquadrar no uso justo", uma doutrina jurídica dos EUA que protege determinados usos não licenciados de obras com direitos autorais.

Dettmers, um estudante de doutorado da Universidade de Washington, disse à Reuters que não poderia comentar sobre as alegações.

Este ano, as empresas de tecnologia têm enfrentado uma série de ações judiciais de criadores de conteúdo que as acusam de roubar obras protegidas por direitos autorais para criarem modelos de IA generativos.

Se forem bem-sucedidos, esses casos poderão frear o desenvolvimento de IA generativa, pois poderão aumentar o custo da criação de modelos que consomem muitos dados, obrigando as empresas de IA a compensarem artistas, autores e outros criadores de conteúdo pelo uso de suas obras.

Ao mesmo tempo, novas regras provisórias na Europa que regulamentam a inteligência artificial podem forçar as empresas a divulgarem dados que usam para treinar seus modelos, expondo-as potencialmente a mais riscos legais.

A Meta lançou uma primeira versão de seu modelo de linguagem ampla Llama em fevereiro e publicou uma lista de conjuntos de dados usados para treinamento, incluindo "a seção Books3 do ThePile". A pessoa que montou esse conjunto de dados disse em outro fórum que ele contém 196.640 livros, de acordo com a denúncia.

Continua após a publicidade

A empresa não divulgou os dados de treinamento da versão mais recente do modelo, o Llama 2, que disponibilizou para uso comercial em meados deste ano.

O Llama 2 é de uso gratuito para empresas com menos de 700 milhões de usuários ativos mensais. O lançamento foi visto no setor de tecnologia como um potencial divisor de águas no mercado de software de IA generativa, ameaçando derrubar o domínio de participantes como a OpenAI e o Google, que cobram pelo uso de seus modelos.

Deixe seu comentário

O autor da mensagem, e não o UOL, é o responsável pelo comentário. Leia as Regras de Uso do UOL.