
O CEO da Meta, Mark Zuckerberg, parece ter usado a batalha do YouTube para remover conteúdo pirateado para defender o uso de sua empresa de um conjunto de dados contendo e-books protegidos por direitos autorais, revelam trechos recém-divulgados de uma declaração que ele deu no final do ano passado.
A declaração, que fez parte de uma reclamação apresentada ao tribunal pelos advogados dos autores, está relacionada ao caso de direitos autorais de IA Kadrey v. Meta. É um dos muitos casos semelhantes que tramitam no sistema judicial dos EUA e colocam empresas de IA contra autores e outros detentores de propriedade intelectual. Em sua maioria, os réus nesses casos - empresas de IA - afirmam que o treinamento em conteúdo protegido por direitos autorais é um “uso justo”. Muitos detentores de direitos autorais discordam.
“Por exemplo, o YouTube, acho que pode acabar hospedando algumas coisas que as pessoas pirateiam por um certo período de tempo, mas o YouTube está tentando remover essas coisas”, disse Zuckerberg durante sua declaração, de acordo com trechos de uma transcrição disponibilizada na quarta-feira à noite. “E a grande maioria das coisas no YouTube, eu presumiria, são boas e eles têm a licença para fazer isso.”
Trechos da declaração de Zuckerberg fornecem algumas pistas sobre o pensamento de Zuckerberg sobre conteúdo protegido por direitos autorais e uso justo. No entanto, deve-se observar que a transcrição completa da declaração não foi divulgada. O TechCrunch entrou em contato com a Meta para obter contexto adicional e irá atualizar o artigo se a empresa responder.
Com base nos trechos da declaração, Zuckerberg parece estar defendendo o uso pela Meta de um conjunto de dados de treinamento de e-books chamado LibGen para desenvolver sua família de modelos de IA conhecida como Llama. A Llama da Meta concorre com modelos principais de empresas de IA como OpenAI.
LibGen, que se descreve como um "agregador de links", fornece acesso a obras protegidas por direitos autorais de editoras como Cengage Learning, Macmillan Learning, McGraw Hill e Pearson Education. A LibGen foi processada várias vezes, ordenada a fechar e multada em dezenas de milhões de dólares por violação de direitos autorais.
De acordo com documentos judiciais liberados nesta semana, Zuckerberg supostamente aprovou o uso da LibGen para treinar pelo menos um dos modelos Llama da Meta, apesar das preocupações dentro da equipe executiva e de pesquisa de IA da empresa sobre as implicações legais.
Advogados dos autores, que incluem os best-sellers Sarah Silverman e Ta-Nehisi Coates, citaram funcionários da Meta que se referiam à LibGen como um “conjunto de dados que sabemos ser pirateado” e indicando que seu uso “pode minar a posição de negociação [da Meta] com reguladores”, de acordo com uma petição legal.
Durante sua declaração, Zuckerberg afirmou que “não tinha realmente ouvido falar” da LibGen.
“Eu entendo que você está tentando me fazer dar uma opinião sobre a LibGen, que não ouvi falar”, disse Zuckerberg durante a declaração. “É apenas que eu não tenho conhecimento dessa coisa específica.”
Sob questionamento de um dos advogados dos autores, David Boies, Zuckerberg explicou por que seria irracional proibir o uso de um conjunto de dados como a LibGen.
“Então, eu gostaria de ter uma política contra as pessoas usarem o YouTube porque algum conteúdo pode ser protegido por direitos autorais? Não”, ele disse. “[T] há casos em que ter uma proibição total pode não ser a coisa certa a fazer.”
Zuckerberg afirmou que a Meta deveria ser “bastante cuidadosa” ao treinar em material protegido por direitos autorais.
“Sabe, [se há] alguém que está fornecendo um site e está tentando violar os direitos das pessoas ... obviamente é algo que gostaríamos de ser cautelosos ou cuidadosos em como nos envolvemos com isso ou talvez até impedir nossas equipes de se envolverem com isso”, disse Zuckerberg durante a declaração, de acordo com a transcrição.
Novas alegações
Os advogados dos autores no caso Kadrey v. Meta alteraram a reclamação várias vezes desde que foi apresentada no Tribunal Distrital dos Estados Unidos para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. A última reclamação alterada apresentada pelos advogados dos autores na quarta-feira à noite contém novas alegações contra a Meta, incluindo que a empresa cruzou determinados livros pirateados na LibGen com livros protegidos por direitos autorais disponíveis para licença. Advogados alegam que a Meta usou essa tática para determinar se valia a pena buscar um acordo de licenciamento com uma editora.
A Meta supostamente usou a LibGen para treinar sua mais recente família de modelos Llama, Llama 3, de acordo com a petição alterada. Os autores também alegam que a Meta está usando o conjunto de dados para treinar seus modelos Llama 4 de próxima geração.
De acordo com a petição alterada, pesquisadores da Meta supostamente tentaram esconder o fato de que os modelos Llama foram treinados em materiais protegidos por direitos autorais inserindo “amostras supervisionadas” no ajuste fino do Llama. E a Meta baixou e-books pirateados de outra fonte, Z-Library, para treinar o Llama até abril de 2024, alega a petição alterada.
A Z-Library, ou Z-Lib, foi alvo de várias ações legais movidas por editoras, incluindo apreensões de domínio e retiradas. Em 2022, os cidadãos russos que supostamente a mantinham foram acusados de violação de direitos autorais, fraude eletrônica e lavagem de dinheiro.