Topo

Como os mecanismos de busca conseguem trazer quase tudo que queremos saber?

Rodrigo Lara

Colaboração para Tilt

28/01/2021 04h00

Usar um mecanismo de busca na internet como o Google pode ser algo bem trivial hoje em dia, mas o trabalho que os servidores da empresa fazem é intenso. Cada busca retorna milhões de páginas mas provavelmente na primeira página você vai receber o que precisa em poucos segundos. Mas como isso acontece?

O resultado de uma busca, na verdade, é preparado muito antes de procurarmos algo na internet. Ferramentas como o Google e outros buscadores, como o Bing e o DuckDuckGo reúnem informações de diversas fontes diferentes o tempo todo. É como se fosse uma pesquisa prévia para organizar tudo que está espalhado pela web.

Como a internet não tem um registro centralizado de todas as suas páginas, a busca por novos sites precisa ser constante. É uma espécie de rastreamento que pode ocorrer de diversas formas. Por exemplo, quando há um novo link em uma página já conhecida —ao publicar uma notícia nova aqui no UOL, por exemplo—, quando o dono de um site envia uma lista de páginas para a ferramenta rastrear e por aí vai.

Depois que a página é descoberta, o próximo passo é identificar o seu conteúdo. É o processo de indexação, no qual ferramentas dos buscadores analisam o conteúdo, catalogam materiais multimídia ali reunidos etc.

Essa indexação permite que os conteúdos sejam referenciados nos bancos de dados das ferramentas de busca. Esse banco de dados é armazenado em diversos computadores.

Quando o usuário faz a busca, na verdade, ele está procurando neste "índice" criado pelos mecanismos de busca e não na internet como um todo. O que sites como o Google fazem, portanto, é criar um índice do conteúdo espalhado pela internet, apresentar esse conteúdo mediante uma busca de um usuário e fazer a ponte entre o que o usuário deseja e o conteúdo final.

Os mecanismos de pesquisa buscam por toda a internet?

Depende. Em termos práticos, a resposta é sim, já que se considerarmos as páginas realmente "úteis", é praticamente certo de que elas estarão indexadas em ferramentas de busca. Por outro lado, há conteúdo que fica de fora. E isso, normalmente, ocorre de forma deliberada —e não por falta de eficiência das ferramentas. Aqui, inclui-se conteúdo impróprio ou, ainda, sites presentes na deep e na dark web, como veremos a seguir.

Como é determinado o que aparece antes e depois no resultado de buscas?

Quem determina isso são os algoritmos de cada buscador e o resultado leva em conta nuances como as palavras usadas na consulta, relevância e usabilidade das páginas, conhecimento sobre a origem das informações (por isso, sites oficiais de governos têm prioridade sobre páginas "convencionais"), local do usuário etc.

Outro ponto a ser considerado é a natureza da notícia. Neste caso, fontes que têm atualização mais recente tendem a aparecer no topo das buscas.

Como páginas que ficam na dark/deep web evitam ser descobertas pelos mecanismos de busca?

Neste caso, as páginas usam ferramentas que bloqueiam o acesso de mecanismos de busca, deixando elas "blindadas".

Quando falamos deep web ou dark web, muitas vezes associamos esse conteúdo a atividades criminosas. De fato, organizações do tipo costumam usar a dark web para movimentar informações.

Já a deep web não tem esse caráter e pode ser composta por áreas nas quais empresas, por exemplo, colocam dados que só podem ser acessados por clientes e funcionários.

Fontes:

André Perin, professor do departamento de Engenharia Elétrica da FEI
Vivaldo José Breternitz, professor da Faculdade de Ciência e Informática da Universidade Presbiteriana Mackenzie
Departamento de comunicação do Google

Toda quinta, Tilt mostra que há tecnologia por trás de (quase) tudo que nos rodeia. Tem dúvida de algum objeto? Mande para a gente que vamos investigar.