Raspar o tacho

Coleta maciça de todos nossos dados públicos virou "mina de ouro" de empresas, hackers e políticos

Gabriel Francisco Ribeiro De Tilt, em São Paulo

Uma foto pública no Instagram, com nome, localização e algumas hashtags, é bem mais útil do que os críticos da "blogueiragem" imaginam. Para além de rostos filtrados, fotos de comida e cenários paradisíacos, uma postagem dessas pode ser a peça que faltava para montar um perfil de quem você é —do que gosta, onde mora, que restaurante frequenta, onde estudou, em quem vota, quem admira, para que time torce, se é gay, religioso e/ou ativista.

Até aí, você pode dizer que não tem nada a esconder ou não se importa —e, provavelmente, qualquer pessoa disposta a dar uma "stalkeada" conseguiria as mesmas informações. Mas o que chama a atenção na raspagem de dados, como essa varredura por informações é chamada, é o volume e o cruzamento de dados. E também como tudo isso pode ser usado, para o bem ou para o mal.

Na eleição passada, ficou claro como as campanhas pagaram máquinas de disparo de mensagens em massa para tentar convencer milhares de eleitores mais volúveis a votar em Fernando Haddad (PT) ou Jair Bolsonaro (sem partido).

Antes disso, o escândalo da Cambridge Analytica escancarou como os dados qualificados do Facebook (seus, dos seus amigos e dos amigos dos seus amigos) poderiam virar o jogo entre os indecisos —ou entre aqueles mais suscetíveis a acreditar em fake news e teorias da conspiração, por exemplo. Mas, se você perdeu tudo isso na época, provavelmente agora anda preocupado com o cenário pintado no filme "O Dilema das Redes".

Em todos esses casos, o uso dos dados já era impressionante. Agora, com a raspagem de dados, chegamos a um volume muito maior e com um grau de detalhamento ainda mais assustador. É a versão 2.0, que ganhou as manchetes na eleição municipal.

  • Me dê uma curtida...

    O modelo Ocean, desenvolvido na Universidade Cambridge e aplicado pela consultoria britânica Cambridge Analytica, diz que curtidas do Facebook traçam o perfil psicológico de uma pessoa. Ao analisar 70 curtidas, o algoritmo te conhece melhor que seus amigos. Com 150, melhor que seus pais. Com 300, que seu cônjuge. E acima disso, melhor que você mesmo. A ciência por trás disso é a psicometria, ramo da psicologia que usa estatística.

  • ... que te direi quem és

    Com 68 curtidas é possível prever sua raça (95% de precisão), orientação sexual (88%) e filiação a um partido (85%). Curtidas revelam ainda gênero, religião, tendência à depressão, uso de drogas, QI, se os pais são casados e muito mais. Todas as interações são guardadas e cruzadas com outras informações, usando aprendizado de máquina e algoritmos, e disso saem relações inusitadas como: quem curte batata frita é mais mente aberta, quem gosta de Harley Davidson tem QI mais baixo.

Lambendo os beiços

O que os casos das máquinas de spam eleitoral e da Cambridge Analityca mostraram é que o uso invisível dos nossos dados é real e acontece o tempo todo a partir de todos os rastros que deixamos nas redes sociais —coisa que a publicidade já fazia há muito tempo e com mais precisão, vale dizer. O avanço aqui é que o spam não é mais aleatório e os dados não vem só daquilo que é postado no Facebook ou captado por testes de personalidade.

A raspagem permite chegar a um grupo significativo de pessoas, muito bem definidas, que viram alvos —de anúncios, propaganda política, controle de doenças ou até monitoramento estatal.

A varredura usa softwares especiais para colher, na internet, dados pessoais de muita gente ao mesmo tempo. Sabe quando vazaram dados do Yahoo, Netflix, Zoom, Twitter, Google e muitos outros serviços que guardam tantas das nossas informações? Para você ter uma ideia, já são mais de 9 bilhões de senhas expostas em diversos casos de hackeamentos pelo mundo, que viram dinheiro no comércio ilegal da dark web (pacotes de dados valem até US$ 10 mil no submundo da internet e identidades de bebês custam centenas de dólares).

Mas, a coleta não para por aí. As maiores fontes são as postagens nas redes sociais —o programa consegue ler até os Stories (post efêmero) do Instagram com marcação em um restaurante, por exemplo. Também entram dados públicos de uma lista de aprovados num concurso ou faculdade, de quem ganhou um sorteio na internet, de PDFs, de uma reclamação ou comentário numa página, de um processo judicial ou de cadastros de CNPJs... Além disso, os robôs conseguem acessar informações escondidas (mas acessíveis) no código-fonte de uma página.

A partir de um nome se chega ao CPF e, com ele, ao título de eleitor. Ou seja, ao colégio eleitoral e à zona de votação.

Junta uma informação aqui, outra ali, soma com a geolocalização enviada pelo GPS do seu celular, multiplica por todas as pessoas do seu bairro ou da sua cidade e associa ao seu WhatsApp. Está feito o perfil de um grupo significativo de pessoas, que viram alvos de anúncios, propaganda política, controle de doenças ou até monitoramento estatal.

É isso que as já conhecidas máquinas de spam, que usam o WhatsApp como tática de busca de votos (e muitas vezes de divulgação de desinformação), passaram a oferecer na municipal: pacotes de informações muito valiosas sobre moradores de todo um colégio eleitoral, divididos por espectro político.

É feito de forma automática. Por exemplo: olho tudo o que tem no código-fonte de uma página, vejo o que interessa e levo para um Excel, organizando esse conteúdo. No caso das eleições, eles podem ver onde você já foi, se marcou algum lugar, se usou determinada hashtag que pode indicar que você apoia um candidato ou tenha alguma visão política

Luiza Bandeira, pesquisadora digital forense da organização norte-americana Atlantic Councik, que trabalha com raspagem de dados

Segundo reportagem recente da Folha de S. Paulo, a BomBrasil.net, por exemplo, ofereceu a candidatos a vereadores um banco de dados de celulares com nome, endereço, bairro, renda, data de nascimento, com filtro de WhatsApp (20 mil números de celular por R$ 1.800, cada envio de WhatsApp sai por R$ 0,15, e o de SMS, R$ 0,09).

"Cadastramos na agenda de seu celular os contatos de WhatsApp de eleitores de sua cidade", dizia a oferta encontrada pela apuração, que também podia incluir dados dos usuários do Instagram e do Facebook. A prática é proibida pela lei eleitoral e, em certos casos, é invasão de privacidade.

Ok, parece assustador. Mas os especialistas ouvidos por Tilt acham que esses bancos de dados que as empresas vendem para as campanhas eleitorais podem não ser tudo o que dizem. Não é tão simples assim obter os celulares das pessoas por raspagem de dados e os pacotes podem ser feitos com informações obtidas "no chute".

O Instagram não deixa o telefone à disposição para raspagem de dados, a não ser nas páginas comerciais. Já o Facebook não permite API (códigos que inserem funções de um app em outro) que capture esses números, mesmo quando estão públicos. Na prática, isso teria de ser feito pessoa a pessoa, associando o dado com o perfil com ajuda de um robô.

Ingredientes enriquecidos

Capturar só uma informação não basta, é preciso enriquecer esse dado. Na raspagem, a varredura consegue associar, classificar e organizar as informações coletadas.

"É um processo automatizado de busca, cópia e classificação de dados acessíveis na internet. O programa se passa por uma pessoa ou usuário comum, acessa um site, copia e cola o dado em algum ambiente interno", explica Hiago Kin, presidente da Associação Brasileira de Segurança Cibernética.

Existem diversos programas (ou scripts) que fazem esse trabalho e não é preciso ser um hacker para encontrar explicações detalhadas sobre como aplicar na prática, embora os códigos precisem ser atualizados com frequência para escapar das equipes de segurança das redes sociais.

"Não tem uma técnica tão incrível que descobre onde eu moro só pelo número de telefone. As pessoas podem pensar que é uma coisa supertecnológica e mirabolante, e as empresas até vendem como se fosse, mas na prática não é. É uma análise das minhas atividades", diz Bandeira.

O grande entrave dos raspadores é simular o acesso de uma pessoa, porque o sistema é programado para detectar comportamento de máquina (quando um robô troca de página 20 vezes por segundo, por exemplo). Mas, segundo Kin, é possível construir um algoritmo de aleatoriedade, que abre páginas em diferentes intervalos de segundos e esconde a origem.

Eu consigo criar do zero uma raspagem do Instagram em menos de meia hora. Qualquer estudante com um mínimo conhecimento de código consegue, porque é muito simples. Dá para pegar qualquer dado visível: um perfil com nome, local onde trabalha, data de nascimento e telefone. Em 2016, fiz uma raspagem de 1 milhão de fotos no Instagram em um mês e consegui ver onde o caminho que as pessoas percorriam pela localização nas fotos

Janderson Toth, cientista de dados e mestrando em informática na UFRJ (Universidade Federal do Rio de Janeiro) que usa raspagem de dados em pesquisas

A receita

Especialistas em cibersegurança ouvidos por Tilt disseram que a raspagem de dados virou uma "mina de ouro" para hackers. Fora do contexto eleitoral, esses pacotes de informações servem para aplicar crimes online —como o famoso clone de contas do WhatsApp, que usa iscas personalizadas para enganar a vitima. Com poucas informações pessoais sobre você, os criminosos conseguem criar perfis falsos ou roubar contas nas mais diversas redes sociais para aplicar ataques virtuais ou golpes.

A raspagem de dados já era usada por empresas de cobrança ou por sites ilegais de consultas de dados como o Tudo Sobre Todos, que foram derrubados pela Justiça. Outro uso mais sofisticado é feito pela startup brasileira In Loco, que vende inteligência a partir de dados de geolocalização. Esse tipo de informação, que você nem percebe que fornece, é largamente usado na publicidade (a partir do Advertising ID) e nos sistemas de checagem de identidade para segurança —a empresa tem como clientes grandes varejistas e bancos.

O Advertising ID ou código de publicidade é um número único que constantemente identifica os interesses dos usuários que navegam pelos serviços de plataformas como Google, Facebook, Apple e outros ecommerces. Ele serve para mostrar anúncios segmentados ou personalizados (ou "anúncios com base em interesses"), que geram receita para os apps, mas também podem ser usados para rastrear deslocamentos.

A base da InLoco soma 60 milhões de celulares brasileiros (a população estimada do Brasil hoje é de 211 milhões, segundo o IBGE). A partir da tecnologia desenvolvida por ela, pode dizer de forma automatizada quantas pessoas estão "estacionadas", ou seja, em casa. Então, nem todo uso é negativo. Foi isso que permitiu que alguns estados controlassem o índice de adesão ao isolamento social durante a pandemia e decidissem como agir a partir deles.

Empresas como a Google, dona de aplicativos como o Google Maps, o Waze e o Google Fotos, e o Facebook, dono de WhatsApp e Instagram, também armazenam seus deslocamentos e isso foi usado para dar informações sobre a população durante a pandemia e vem sendo usado para projetos de pesquisa.

Toth, por exemplo, usa a raspagem para analisar postagens de grupos com palavras-chave ligadas ao tema coronavírus. E foi com a tática que Luiza Bandeira ajudou a confirmar uma rede bolsonarista presente no Facebook e Instagram para manipular a opinião pública, com membros de gabinetes da família Bolsonaro, num processo que levou o ministro do STF (Supremo Tribunal Federal) Alexandre de Moraes a aplicar multa de R$ 1,920 milhão ao Facebook caso as páginas não fossem bloqueadas.

Ela não tinha acesso ao sistema da plataforma e teve de buscar os dados apenas cavando informações acessíveis a qualquer um na internet. O trabalho de formiguinha feito por robôs envolveu o seguinte:

  • Análise de código-fonte: assim surgiu um dos nomes mais relevantes da operação. Ao analisar o código-fonte da página derrubada no Instagram "Bolsonaro News", ela achou o email do criador da conta, que pertencia a Tercio Arnaud, um dos principais assessores do presidente Jair Bolsonaro (sem partido);
  • Domínios de sites: a página do Facebook "The Brazilian Post" estava associada ao site de mesmo nome, conhecido por propagar conteúdos bolsonaristas. Ao entrar no site, a Atlantic Council descobriu que o domínio tinha sido registrado por Paulo "Chuchu" Eduardo Lopes, secretário do deputado federal Eduardo Bolsonaro (PSL-SP);
  • Comparação de contas: várias contas tinham como dono Jonathan Bennetti, associado ao deputado estadual Coronel Nishikawa (PSL-SP)
  • Análise de fotos: ao investigar se uma conta é verdadeira ou falsa, existe uma análise das imagens postadas usando a busca reversa no Google, que mostra se há outra semelhante na web. As fotos eram, na verdade, de usuários de outros países;
  • Conexões: estes são elementos considerados "fracos", mas as curtidas e compartilhamento feitas pela página nas redes sociais criam conexões que servem como indício de um relacionamento entre pessoas.

As barreiras das redes

As redes sociais trabalham para evitar a raspagem de dados e já percebem, por exemplo, se você busca muitas informações em um curto período de tempo —um bom indicador de comportamento automatizado por um programa.

O Facebook possui uma API (Interface de Programação de Aplicativo) própria, que usa os dados dos usuários para publicidade. Eles dizem que são dados anonimizados, ou seja, que não ligam as informações ao nome da pessoa. Parte do conteúdo da API inclui páginas curtidas, regiões que o usuário faz check-in, recomendações que pede, tipo de produtos que vende, músicas que gosta...

Com essas informações, as empresas pagam ao Facebook para oferecer produtos e serviços direcionados a certos grupos. Não à toa, quando você curte um produto ou pesquisa outro, começam a aparecer propagandas relacionadas por todos os lados.

Eles podem, os outros não. Recentemente, o Facebook processou duas empresas (uma israelense e outra norte-americana) por fazerem raspagem de dados no site, o que é proibido pelos seus termos de uso —o que inclui as "raspagens do bem".

O conceito de "dado anonimizados" é muito questionado por especialistas em privacidade, porque não basta ocultar o nome de alguém para esconder sua identidade. E mesmo anonimizados, explica Kin, os dados da raspagem são valiosos por associação, porque se junta informações de várias plataformas, do Facebook ao LinkedIn.

O Twitter é mais aberto à raspagem de dados por princípio. Os "trending topics", por exemplo, são formados a partir do que as pessoas estão lendo ou postando. Uma API feita pela própria empresa mostra dados como "bio do usuário" e os últimos 3 mil posts dele na rede.

"Todas as redes sociais oferecem APIs e esta seria a forma mais legal de obter dados. Nelas, você é obrigado a se identificar, têm controle da quantidade de dados e dos acessos", diz Janderson Roth.

E pode?

Mesmo usando dados públicos, especialistas veem ilegalidades na ação, especialmente quando usada para fins eleitorais. Para Francisco Brito Cruz, diretor do InternetLab, a raspagem esbarra em três legislações:

  1. Legislação eleitoral: o TSE (Tribunal Superior Eleitoral) determina que o candidato só pode mandar mensagens privadas em WhatsApp, SMS, Telegram e afins se a pessoa autorizar o recebimento.
  2. Marco Civil da Internet: aponta direitos do usuário ao usar serviços online e determina que haja transparência e privacidade dos dados coletados.
  3. LGPD (Lei Geral de Proteção de Dados): determina que as pessoas precisam dar o consentimento explícito para que seus dados sejam usados e veta a venda ou o desvio de finalidade das informações. Há discussão sobre a validade da lei nestas eleições, porque está em vigor há pouco tempo.

O que mais pesa contra a raspagem é o desvio de finalidade. Brito Cruz dá um exemplo: uma pessoa vendendo bicicleta num grupo do Facebook pode colocar um telefone de contato para este fim, ela não deu autorização para que os dados fossem extraídos e usados para direcionar publicidade ou campanha eleitoral —muito menos, obviamente, para aplicação de golpes.

"Não é porque é público que pode ser tratado de qualquer maneira. Uma das bases legais mais importantes é o consentimento, que precisa ser livre, inequívoco, sem coação", diz.

Ele defende que as plataformas tomem medidas contra essa prática. O Internet Lab preparou um documento voltado às regras eleitorais digitais em que elencava a raspagem de dados como uma das principais preocupações para o pleito.

As candidaturas que fazem isso podem ser punidas, explica Eduardo Damian Duarte, presidente da Comissão Especial de Direito Eleitoral da OAB (Ordem dos Advogados do Brasil). "Os candidatos podem sofrer multa e processo por abuso do poder econômico., entra em propaganda irregular. A legislação proíbe o disparo em massa e a compra de cadastros de alguma forma, como esses serviços parecem fazer, então o candidato tem que buscar os contatos com consentimento de quem cede", afirma.

Os eleitores que se sentirem incomodados podem denunciar as propagandas ao TSE. Neste ano, o órgão já tem um canal de denúncias só para propaganda eleitoral ilegal no WhatsApp.

Me deixe fora dessa

Já deu para perceber que é difícil fugir, ao usar uma rede social você aumenta potencialmente as chances de ter os dados pessoais raspados.

  • Dados pessoais protegidos: qualquer coisa que te identifica (nome, número de telefone, localização)
  • Dados sensíveis: religião ou orientação sexual, que contam com mais proteções ainda na LGPD


E aqui, cabe uma conscientização: as novas gerações já nascem no ambiente digital e imersas numa cultura de ausência de privacidade. Segundo relatório da PwC, enviado em carta aberta às empresas de tecnologia, a exploração descontrolada dos dados mina a liberdade de crianças e adolescentes, por as companhias de ad-tech (publicidade mesclada com tecnologia) coletam 72 milhões de pontos de dados sobre uma criança até ela chegar aos 13 anos.

Mas, uma "higiene digital" ajuda. Veja como começar:

  • Fique atento a políticas de privacidade de sites
  • Revise o máximo de opções de privacidade das redes sociais que usa
  • Evite deixar como públicas informações pessoais, seja telefone, email, endereço ou locais visitados
  • Não exponha informações pessoais como número de telefone e documentos em comentários ou postagens
  • Aprende sobre os direitos dos seus dados, da mesma forma como é importante saber os direitos do consumidor


A dica é basicamente não deixar o trabalho de quem faz isso ainda mais fácil.

Topo