IA brasileira que não ouve linguistas é iPhone que ignora designers

Robô sentado em banco de madeira enquanto mexe em folhas de papel Imagem: Andrea De Santis/Unplash

O dia era 29 de junho de 2007. De cima de um palco minimalista, Steve Jobs apresentou ao mundo uma revolução no design que é até hoje vista como marco da tecnologia: a interface totalmente gráfica de um dispositivo que era apenas uma tela. O iPhone mudou a maneira como o design de interface é visto. Uma busca rápida na web revela uma infinidade de artigos, posts, vídeos e podcasts discutindo o que aquela apresentação —e tudo que resultou dela- representou para toda uma área do conhecimento humano.

Cortemos para 2024, mais precisamente para o último dia 30 de julho, quando, durante a 5ª Conferência Nacional de CT&I, o PBIA (Plano Brasileiro de Inteligência Artificial) foi apresentado ao presidente Lula. O documento estendido do plano traz quatro menções a "modelos de linguagem". Para além do fato de a escolha terminológica ser ruim (o que se modela são línguas específicas e não a capacidade cognitiva para a linguagem), o plano parece se fiar a uma visão no mínimo limitada dos LLMs (Large Language Models, ou Grandes Modelos de Língua). A Linguística Computacional, como ramo da IA que é, já está passando pelo auge do hype dos LLMs treinados puramente em dados crus. As pesquisas já têm mostrado que existe um limite para a performance desses modelos que não pode ser superado apenas com mais dados e com mais poder computacional.

É preciso curadoria humana dos dados.

É preciso modelar o que está por trás da forma linguística. Sim, porque não nos enganemos: como já escrevi anteriormente na Folha de S.Paulo, LLMs e ferramentas deles derivadas só fazem sentido porque nós, humanos, construímos significado a partir de quaisquer míseras pistas linguísticas. Ocorre que a visão de modelos de língua que emerge da leitura do PBIA não parece contemplar a necessidade de ampliar esforços de curadoria humana sobre os dados, seja através da construção de datasets de treinamento semanticamente anotados, ou da incorporação, aos modelos, de grandes recursos linguístico-computacionais que já vêm desenvolvidos por linguistas brasileiros há, no mínimo, 15 anos, tais como a FrameNet Brasil, a WordNet Br, entre tantos outros.

Uma evidência de como isso é importante vem de um trabalho resultante de uma parceria entre o Laboratório FrameNet Brasil de Linguística Computacional, da UFJF, e a Vital Strategies Brasil. As organizações desenvolveram uma IA para estimar subnotificação de casos de violência contra mulher a partir da análise semântica de campos abertos de prontuários eletrônicos do e-SUS.

Tiago Timponi Torrent, professor da Pós-Graduação em Linguística da Universidade Federal de Juiz de Fora e Coordenador do Laboratório FrameNet Brasil Imagem: Arquivo Pessoal

A tecnologia se baseia em um modelo semântico que associa palavras do português que aparecem nos prontuários da atenção básica e nas notificações do SINAN (Sistema de Informação de Agravos de Notificação) a cenas evocadas pelos falantes quando encontram tais palavras. Cada cena - ou frame - é composta por um conjunto de participantes e objetos. Assim, uma palavra como "agressão" evoca o frame "Causar_dano_corporal", em que um Agressor agride uma Vítima usando ou não uma Arma.

Uma amostra de quase 15 mil sentenças extraídas do e-SUS e do SINAN foi anotada para um total de cerca de 80 frames. As sentenças anotadas são usadas como dataset de treinamento para uma IA que aprende a anotar sozinha novas sentenças nunca vistas. Uma vez que toda a base de dados está anotada, uma outra IA consegue encontrar padrões nos dados de prontuários eletrônicos que são condizentes com casos de violência, mas que não contam com notificações no SINAN. É assim que o sistema estima os índices de subnotificação de violência em cada território coberto pelo SUS.

Continua após a publicidade

Comparada a um LLM estado da arte treinado em dados crus de mais de 40 línguas (inclusive o português brasileiro), essa IA tem desempenho muito melhor. Isso porque, para problemas específicos, como o da estimativa de subnotificação de violência contra mulher, é preciso uma solução específica, que considere como a língua portuguesa é usada pelos profissionais de saúde que acolhem as vítimas e preenchem os prontuários e notificações. Um LLM genérico, baseado só em formas linguísticas, não resolve este e nem os demais problemas propostos no mesmo plano.

Em tempo: não se trata aqui de criticar as perspectivas daquelas pessoas muito competentes que contribuíram com o PBIA. Trata-se apenas de apontar que uma perspectiva fundamental, a de quem estuda a principal interface entre seres humanos e as IAs, tem sido deixada de lado na construção do plano. É como se, após a famosa apresentação que Jobs fez do iPhone, todos os designers fossem ignorados na revolução que se seguiria.

O PBIA afirma que o Brasil quer uma IA de nível mundial, que garanta não só a representação da sua diversidade linguística, mas que também se ponha a serviço de sua soberania e da atuação do Estado em áreas estratégicas, como saúde pública, segurança e educação. Para isso, é fundamental assegurar que o PBIA se alimente do que se sabe sobre a dinâmica das línguas humanas, sobre os impactos de tal dinâmica na forma como as IAs funcionam, na nossa relação com elas e nos riscos e oportunidades derivados desses impactos. Para isso, é necessário chamar os linguistas para uma conversa.

As línguas são a nova interface e somos nós, os linguistas, os hackers.

*Doutor em Linguística pela Universidade Federal do Rio de Janeiro. Professor do Programa de Pós-Graduação em Linguística da Universidade Federal de Juiz de Fora e Coordenador do Laboratório FrameNet Brasil e da ReINVenTA - Research and Innovation Network for Vision and Text Analysis of Multimodal Objects. Bolsista de Produtividade do CNPq

Opinião

Texto em que o autor apresenta e defende suas ideias e opiniões, a partir da interpretação de fatos e dados.

Este texto não reflete, necessariamente, a opinião do UOL

Deixe seu comentário

O autor da mensagem, e não o UOL, é o responsável pelo comentário. Leia as Regras de Uso do UOL.