Topo

OPINIÃO

Já existem algoritmos para reduzir o arrependimento em nossas escolhas

Liza Summer Pexels
Imagem: Liza Summer Pexels

Diogo Cortiz*

Especial para Tilt

27/03/2021 04h00

Você ganhou uma bolsa de pesquisa para ficar 90 dias na Keio University, em Tóquio. É sua primeira vez na cidade e ainda não conhece nada por lá. Na sua rua há três restaurantes que parecem bem legais e com pratos parecidos. Você está com fome e entra no mais próximo da sua casa. Naquele dia, sua experiência foi boa, nenhum prato veio esculachado, mas também não teve nada de excepcional.

No dia seguinte, você deve ir ao mesmo lugar ou tentar um novo restaurante? Esta é uma dúvida que sempre me irrita e me deixa sem paciência em viagens (e aposto que acontece o mesmo com muitos de vocês). Devo prospectar novas possibilidades ou aproveitar aquelas que já conheço? São tantas opções que tenho medo de me arrepender.

A boa notícia é que existem algoritmos que pode nos ajudar em situações assim.

Na área da ciência da computação, matemática e ciência cognitiva, esse desafio é conhecido como "o problema do bandido de muitos braços". O nome vem de uma inspiração com os cassinos, que disponibilizam diversas máquinas caça-níqueis que pagam prêmios como probabilidades diferentes.

O problema foi considerado sem solução (e "insolucionável") até a metade do século 20. Durante a Segunda Guerra, havia até uma piada entre os aliados que eles deveriam apresentar o problema aos alemães para ocupar a cabeça dos cientistas nazistas.

Mas do que se trata esse desafio?

Vamos facilitar trazendo um exemplo. Imagine que você está em um cassino que tem duas máquinas caça-níquel. Você jogou 15 vezes na "Máquina A", ganhou 9 e perdeu 6. Na "Máquina B", você jogou apenas duas vezes, ganhou uma e perdeu outra.

Qual é a melhor máquina para você continuar apostando?

Bem, de acordo com a informação que você tem até o momento, a "Máquina A" parece ser a mais indicada por apresentar a probabilidade de ganho de 60%. Na "Máquina B" o ganho é de somente 50%.

Mas tem um problema com esta análise. Você explorou pouco a "Máquina B". Só jogou nela duas vezes. Na verdade, pode ser que ela seja uma máquina boa, mas você ainda não descobriu. E se ela for melhor que a "Máquina A", mas você não soube aproveitá-la? Que arrependimento.

Então o melhor é insistir na "Máquina B"?

Tudo depende do tempo que você ainda tem para continuar jogando (o que chamamos de intervalo).

Se você acabou de chegar ao cassino e ainda tem mais, sei lá, 1.000 jogadas, você está no início do intervalo. Neste caso, é interessante testar mais a "Máquina B" para colher informações adicionais sobre o seu comportamento. Caso descubra que a "Máquina B" é melhor do que a "Máquina A", você ainda terá um monte de jogadas para aproveitá-la.

Caso tenha poucas jogadas restantes (está no fim do intervalo), então não faz sentido tentar colher mais informações sobre a "Máquina B". Mesmo que você descubra ser uma máquina boa, não sobra tempo para aproveitá-la. Seu tempo está esgotando. Neste caso, aproveite a "Máquina A".

E esses tipos de algoritmos podem nos ajudar a entender o desenvolvimento humano?

Alison Gopnik, professora de Berkeley, estuda muito a importância da infância. Vimos até aqui que a fase "Explore", no início de uma jornada, é estratégica para coletar informações e gerar conhecimento sobre o problema, mas que geralmente não traz os melhores resultados.

Assim, ela argumenta que a infância é um momento propício para que os humanos explorem, prospectem, sem se preocupar com a recompensa, afinal uma criança será alimentada e cuidada por um responsável.

Um fato interessante é que não vemos uma dependência dos pais tão prolongada em outras espécies.

No início da vida, os humanos parecem livres para explorar, conhecer e aprender, o que resultará em melhores decisões mais tarde.

Na velhice, as pessoas tendem a fechar seus leques de opções, focando naquelas que as fazem felizes.

Laura Carsten, professora de Stanford, dedicou sua carreira às pesquisas sobre o processo de envelhecimento. Ela argumenta que os mais velhos têm menos interações sociais por opção. Já exploraram as possibilidades quando jovens, agora querem aproveitar aquelas mais significativas.

Em geral, no início da vida estamos na fase de prospecção, enquanto na velhice nos dedicamos a aproveitar aquilo que aprendemos.

Pode parecer contraintuitivo, mas a matemática nos diz que os mais velhos devem ser constantemente mais felizes do que os jovens, e foi o que Laura Carsten encontrou em suas pesquisas.

Existem algoritmos para lidar com diferentes versões do "o problema do bandido de muitos braços". Tudo começou com estudos específicos na área da computação.

Hoje, essas estratégias são aplicadas em diversos serviços que usamos no dia a dia —desde as recomendações na Netflix aos testes A/B em projetos de design.

O curioso é que os mesmos algoritmos e estratégias também podem ser adotados pela ciência cognitiva para estudar o processo de desenvolvimento humano e as decisões das pessoas.

* Diogo Cortiz é cientista cognitivo e professor da PUC-SP. Doutor em Tecnologias da Inteligência pela PUC-SP, com PhD fellowship pela Université Paris I - Sorbonne. Especialista em Neurociência pela PUC-RS. Fez estágio pós-doc no laboratório de computação criativa da Universidade de Salamanca e foi professor visitante no laboratório de ciência cognitiva da Queen Mary University of London, no Reino Unido.