Opinião

'Clube da luta da IA': como as big techs te convencem qual robô é campeão

O verdadeiro 'Clube da Luta' no mundo da tecnologia, que tem relevância para a humanidade, não é uma disputa entre Elon Musk e Mark Zuckerberg. Trata-se, na verdade, do embate para identificar qual entidade dominará a Inteligência Artificial ou, pelo menos, qual IA se destaca ao executar determinadas tarefas.

Nessa briga, que já está acontecendo, são muitos competidores:

  • OpenAI com ChatGPT,
  • Google com o Bard,
  • Meta com Llama,
  • Antropic com Claude

Todas estão dando duro para desenvolver os melhores modelos. Mas como saber qual IA se garante mais e em qual modalidade?

Para isso, existem testes e competições que avaliam o resultado do desempenho dos modelos em tarefas específicas. Uma espécie de clube de luta da IA.

Se no filme a regra número 1 é "não falar sobre o Clube da Luta" e a regra número 2 é "não falar sobre o Clube da Luta", na briga das IAs não tem muito segredo. O que as empresas mais querem é falar sobre isso, para mostrar que seus produtos são melhores do que os dos concorrentes.

Apesar da estratégia de marketing, esse tipo de comparação é importante na ciência para sabermos quais modelos se comportam melhor para alguma tarefa e o que podemos fazer para melhorá-los.

Hoje, as organizações submetem suas IAs para competições e testes que atestam o desempenho de seus modelos, geralmente uma nota de zero a cem, para um conjunto de tarefas específicas. Em seguida, os próprios desenvolvedores tendem a comparar os desempenhos em artigos científicos e estratégias de marketing.

Existem centenas de testes e competições, mas separei um que é comum entre as big techs para ilustrar o assunto. O MMLU (Measuring Massive Multitask Language Understanding) é um teste multitarefa composto por perguntas de múltipla-escolha nas áreas de humanidades, ciências sociais, ciências exatas e outras áreas do conhecimento. Ao todo são 57 tarefas.

Continua após a publicidade

Abaixo tem exemplo de uma das questões do MMLU sobre microeconomia:

Uma das razões pelas quais o governo desencoraja e regula os monopólios é que:

  1. o excedente do produtor é perdido e o excedente do consumidor é ganho.
  2. os preços de monopólio garantem a eficiência produtiva, mas custam à sociedade a eficiência alocativa.
  3. as empresas monopolistas não se envolvem em pesquisa e desenvolvimento significativos.
  4. o excedente do consumidor é perdido com preços mais elevados e níveis de produção mais baixos.

Sabe a resposta?
Acertou se você escolheu a opção 4.

Não sei qual IA acertou ou errou esta questão específica, mas o GPT-4 foi o modelo que se saiu melhor na competição como um todo. Abaixo tem uma tabela com o desempenho dos principais modelos:

  • GPT-4 (OpenAI) - 86.4
  • PaLM-2 (Google) - 78.3
  • GPT 3.5 (OpenAI) - 70.0
  • LLaMA 2 (Meta) - 68.9
Continua após a publicidade
O MMLU é apenas um dos inúmeros testes que estão disponíveis para avaliar as IAs, cada um com um objetivo diferente. Existem testes que avaliam
  • a habilidade de programação,
  • raciocínio lógico,
  • senso comum,
  • conhecimento de história,
  • matemática,
  • compreensão de texto.

É por isso que às vezes escutamos que o "Modelo A" superou o "Modelo B" em uma tarefa. Isso não quer dizer que um é melhor do que o outro na sua totalidade, apenas que pode ter um desempenho melhor nesta tarefa específica, o que nos ajuda a entender qual IA pode ser mais útil para resolver um determinado problema.

Hoje em dia, com o avanço dos modelos de linguagem que conseguem processar textos, a IA deixou de ser avaliada apenas com testes específicos. Virou moda aplicar provas de humanos para tentar inferir sobre a capacidade da máquina.

A OpenAI listou no relatório técnico o desempenho do modelo GPT-4 em provas que são tradicionalmente aplicadas a pessoas. O mundo ficou em choque ao descobrir que uma IA conseguira figurar na melhor posição de rankings em testes de medicina, advocacia, entre outros.

É preciso dizer, no entanto, que temos que olhar com cautela para esses resultados. Todos os testes são limitados e capturam apenas um recorte de uma habilidade que desejamos avaliar. Quando dizemos que uma IA foi bem em um teste da OAB, por exemplo, é apenas isso que podemos concluir: que a máquina foi bem em um teste. É um equívoco extrapolar o resultado e afirmar que ela será uma ótima advogada. O mesmo cuidado deveria ser aplicado ao avaliarmos pessoas, algo que nem sempre acontece.

Continua após a publicidade

No caso das IAs, ainda existe outro desafio: entender com quais dados os modelos foram treinados.

É um momento crítico para garantir que a IA não seja treinada com os dados que serão usados para avaliá-la. Em projetos menores e controlados, dividimos o conjunto de dados em dois: o de treinamento, com 80% dos dados; e o de teste, com os 20% restantes. Desta forma, podemos garantir que o modelo está sendo avaliado com dados e situações inéditas.

Só que no caso dos grandes modelos de linguagem, como o ChatGPT, a coisa muda um pouco. A quantidade de dados de treinamento é tão absurda que fica difícil garantir que os modelos não tenham sido treinados com testes que, posteriormente, serão usados na fase de avaliação. Isso pode acontecer por descuido ou, na pior dos casos, de maneira proposital para inflar o resultado dos testes. O problema é que não temos como saber exatamente o que acontece porque os modelos fechados não divulgam quais bases de dados foram usadas no aprendizado.

Quando viralizou um corte do youtuber Felipe Castanhari dizendo, em entrevista no podcast PodPah, que o ChatGPT tinha um QI maior do que o do Einstein, eu gravei um vídeo dizendo que isso não era algo tão importante assim, porque, entre outras coisas, não temos como garantir que o modelo nunca tenha sido treinado com os dados do próprio teste. No caso, seria como aplicar uma prova para quem sabe o gabarito.

Na luta pela conquista do cinturão do domínio do mercado de IA, cada modelo quer ser o mais forte e poderoso neste novo ringue tecnológico. Só devemos estar atentos aos esteroides da Inteligência Artificial, que, neste contexto, é o risco de injetar dados de avaliação durante a fase de treinamento. Podemos estar sendo iludidos por algoritmos que se mostram fortões, mas não passam de modelos fake natty.

*Professor na PUC-SP e Pesquisador no NIC.br. Doutor em Tecnologias da Inteligência e Design Digital pela PUC-SP, com PhD fellowship pela Université Paris I - Sorbonne. MBA em Economia Internacional pela USP e Especialista em Neurociência. Foi pesquisador visitante no laboratório de Ciência Cognitiva da Queen Mary University of London. Tem pesquisas em tecnologia, IA e ciência cognitiva.

Opinião

Texto em que o autor apresenta e defende suas ideias e opiniões, a partir da interpretação de fatos e dados.

Este texto não reflete, necessariamente, a opinião do UOL

Deixe seu comentário

Só para assinantes