Dona do chatGPT teria usado secretamente vídeos do YouTube para treinar IA

Imagem: Marco Bertorello/AFP

Aurélio Araújo

Colaboração para Tilt, em São Paulo

18/04/2024 04h01Atualizada em 18/04/2024 17h56

O GPT-4, modelo de linguagem de inteligência artificial que está por trás do ChatGPT, foi treinado com mais de um milhão de horas de vídeos do YouTube, coletando dados sem autorização e provavelmente infringindo leis de direitos autorais, segundo reportagem do jornal The New York Times, publicada na última semana.

A OpenAI, empresa responsável pelo GPT-4, teria feito isso a partir de 2021, após usar praticamente todos os textos de fontes confiáveis em inglês para treinar seus algoritmos com inteligência artificial.

Relacionadas

Como a IA é treinada

O GPT-4 é um dos chamados "modelos de linguagem grande" (LLM, na sigla em inglês), ou seja, uma inteligência artificial projetada para entender e gerar texto em uma escala significativamente grande.

Para que o sistema gerar informações por conta própria, é preciso que ele passe por um "treinamento", o que envolve reunir um grande volume de textos de base para alimentá-lo. Tratam-se de livros de textos, artigos, sites da internet, documentos, entre outros. Quanto mais diversificados e representativos forem os dados, melhor será o desempenho do modelo.

De acordo com a reportagem, uma vez que não havia mais bons textos disponíveis em inglês na internet naquele momento e ainda faltava muito treinamento para que esse LLM fosse aperfeiçoado, a OpenAI deu um passo adiante: passou a treinar o GPT-4 com transcrições de vídeos da internet.

O próprio presidente da empresa, Greg Brockman, esteve envolvido na coleta de vídeos, segundo o jornal.

A OpenAI afirmou que cada um de seus modelos de inteligência artificial "tem um conjunto de dados único que selecionamos para ajudar na compreensão do mundo e permanecer globalmente competitivos em pesquisa".

Batalhas jurídicas

O problema é que esses vídeos não poderiam ser usados para tal objetivo. As regras do YouTube, de propriedade do Google, dizem que é proibido o uso em serviços independentes da plataforma. Mais do que isso: essa coleta de dados pode representar um desrespeito às leis de direitos autorais dos Estados Unidos. Quem vai decidir é a Justiça estadunidense.

Já existem processos judiciais em andamento contra o uso sem autorização de textos disponíveis na internet para treinamento de LLMs. Em 2023, o próprio New York Times acionou na Justiça a OpenAI e a Microsoft pela utilização de suas matérias jornalísticas para treinar as IAs das respectivas empresas. O uso de vídeos sem autorização é apenas uma nova camada nesse imbróglio.

Nos EUA, o Escritório de Direitos Autorais, órgão governamental que cuida do assunto, já recebeu mais de 10 mil reclamações e registros de sindicatos, escritores e empresas que alegam terem tido suas produções usadas sem autorização por modelos de IA.

Fundada em 1870, essa agência federal ainda está preparando um material para definir como devem funcionar os direitos autorais no país na era da inteligência artificial. Até lá, porém, as empresas da área se aproveitam do que parece ser uma zona cinzenta da legislação.

Não é só a OpenAI

A velocidade com a qual os modelos LLMs estão crescendo desafiam a quantidade de material disponível na internet. Segundo o New York Times, os dados de qualidade disponíveis para treinar essas IAs podem ser completamente exauridos até 2026.

"O único jeito prático para que essas ferramentas existam é se elas puderem ser treinadas em quantidades massivas de dados, sem precisar licenciá-los", afirmou Sy Damle, advogado especializado em modelos de IA, numa discussão pública sobre leis de direitos autorais no ano passado. "A quantidade de dados necessários é tão massiva que até mesmo um licenciamento coletivo não funcionaria."

Por isso, não é só a OpenAI que está recorrendo a esse uso controverso de dados sem autorização: o próprio Google usou transcrições de vídeos do YouTube para treinar seus próprios modelos de IA.

De acordo com fontes ouvidas pelo jornal, essa é uma das razões pela qual o Google não se posicionou publicamente sobre o tema.

Por outro lado, Matt Bryant, porta-voz da empresa, negou ao New York Times que o Google tinha conhecimento das práticas da OpenAI e reafirmou que são proibidos a "coleta ou downloads não autorizados de conteúdo do YouTube".

Inteligência artificial

Dona do chatGPT teria usado secretamente vídeos do YouTube para treinar IA

Relacionadas

Como a IA é treinada

Batalhas jurídicas

Não é só a OpenAI

Enviado com sucesso para a Redação

As mais lidas agora

Amazon desenvolve modelo de IA de vídeo, diz site

Justiça ordena Google a retirar anúncios falsos com Luciano Hang e Havan

Inversão em polos da Terra causou caos há 42 mil anos; pode rolar de novo?

Inteligência artificial

'Vovó boa de papo' criada por IA é arma para enganar golpistas por telefone

Força-tarefa luta para salvar Wikipédia de ser devastada pela IA

IA? Nada disso! Jovem 'viciado' no TikTok é o que pode mudar Google de vez

Monopólio do Google: venda do Chrome deixará lição ao mercado de IA

Igreja troca padre por IA de Jesus em confessionário na Suíça

Amazon dobra aposta em concorrente do ChatGPT e anuncia investimento de US$ 4 bi

Inteligência artificial vira arma contra a resistência a antibióticos

EUA querem retalhar Google, e desfecho é o pior pesadelo de Apple e Meta

Enviado com sucesso para a Redação

Relacionadas

Como a IA é treinada

Batalhas jurídicas

Não é só a OpenAI

Comunicar erro

Enviado com sucesso para a Redação

As mais lidas agora

Amazon desenvolve modelo de IA de vídeo, diz site

Justiça ordena Google a retirar anúncios falsos com Luciano Hang e Havan

Inversão em polos da Terra causou caos há 42 mil anos; pode rolar de novo?

Inteligência artificial

'Vovó boa de papo' criada por IA é arma para enganar golpistas por telefone

Força-tarefa luta para salvar Wikipédia de ser devastada pela IA

IA? Nada disso! Jovem 'viciado' no TikTok é o que pode mudar Google de vez

Monopólio do Google: venda do Chrome deixará lição ao mercado de IA

Igreja troca padre por IA de Jesus em confessionário na Suíça

Amazon dobra aposta em concorrente do ChatGPT e anuncia investimento de US$ 4 bi

Inteligência artificial vira arma contra a resistência a antibióticos

EUA querem retalhar Google, e desfecho é o pior pesadelo de Apple e Meta

Comunicar erro

Enviado com sucesso para a Redação