Diogo Cortiz

Diogo Cortiz

Guerra dos dados: Google usará seus posts para treinar robôs inteligentes

Diogo Cortiz*

Especial para Tilt

06/07/2023 04h00

O Google atualizou a sua política de privacidade para deixar claro que poderá utilizar dados públicos de usuários para treinar modelos de Inteligência Artificial, incluindo o Bard, seu concorrente ao ChatGPT.

Podemos, por exemplo, coletar informações disponíveis publicamente on-line ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem. Ou, caso as informações sobre sua empresa apareçam em um site, podemos indexá-las e exibi-las nos Serviços do Google

O trecho acima fala especificamente sobre a coleta de dados disponíveis na Internet, ou outras fontes públicas, mas não cita qualquer mecanismo de consentimento do usuário ou mais detalhes sobre o processo de coleta. É como se o Google estivesse se dando uma carta branca para varrer a Internet e puxar nossos conteúdos, sem que ao menos saibamos ou tenhamos qualquer tipo de controle.

Essa é a guerra por mais dados e conteúdos para o treinamento de modelos de IA:

por um lado, as empresas que desenvolvem a tecnologia buscam fontes cada vez mais maiores e diversas de informações,
por outro, as plataformas que publicam e hospedam conteúdos tentam encontrar maneiras de barrar essa coleta ou, pelo menos, obter alguma remuneração.

No mesmo fim de semana, Elon Musk anunciou um limite para a quantidade de posts que cada usuário pode ter acesso no Twitter. A justificativa é que a rede social está sofrendo um nível extremo de "data scrapping", prática de coleta de dados sem autorização da rede social.

Mesmo antes dessa mudança agressiva e arriscada, que impacta diretamente a experiência dos usuários na plataforma, Musk já havia restringindo o uso da API do Twitter, mecanismo pelo qual usuários podem coletar dados de maneira autorizada e controlada.

A decisão de Musk impactou em cheio a área de pesquisa científica. O Twitter era considerado como uma praça pública por pesquisadores que conseguiam puxar os dados para fazer estudos sobre dinâmicas sociais, o funcionamento das redes sociais e também construir conjuntos de dados para treinamentos de IA.

Com a restrição na API do Twitter, os pesquisadores estão com dificuldades para criar novos conjuntos de dados e até mesmo utilizar os existentes. No ano passado, eu participei de um projeto de pesquisa - entre a PUC-SP, Mackenzie e NIC.br - que criou e deixou público para comunidade brasileira alguns conjuntos de dados sobre emoções que poderiam ser usados no treinamento de IA para identificar expressões emocionais nos textos em português. Na semana passada, porém, eu recebi um e-mail de outro pesquisador dizendo que não conseguia mais usar os nossos dados porque a API deixou de permitir acesso ao conteúdo original.

E o Twitter não está sozinho nessa.

O Reddit, famoso fórum de Internet nos EUA, que também é bastante utilizado para a coleta de dados, causou revolta nas últimas semanas por restringir o acesso e passar a cobrar pelo uso de sua API. E o Stack Overflow, famoso site de perguntas e respostas na área de programação, também pensa em maneiras de cobrar pelo uso dos conteúdos que estão disponíveis em sua plataforma.

Faz tempo que a gente ouve que os dados são o novo petróleo. Só que antes as plataforma coletavam os dados dos usuários finais dentro de seus próprios domínios. Agora, elas entraram em uma guerra na qual cada uma tenta obter o máximo de informações e conteúdos da outra. Estão competindo para enfiar uma "bomba de sucção" no campo de exploração da concorrente.

*Professor na PUC-SP e Pesquisador no NIC.br. Doutor em Tecnologias da Inteligência e Design Digital pela PUC-SP, com PhD fellowship pela Université Paris I - Sorbonne. MBA em Economia Internacional pela USP e Especialista em Neurociência. Foi pesquisador visitante no laboratório de Ciência Cognitiva da Queen Mary University of London. Tem pesquisas na intersecção entre ciência cognitiva, design e tecnologia.

** Este texto não reflete, necessariamente, a opinião do UOL