![]()
A promessa de uma triagem médica rápida e acessível através de um chatbot esbarra numa realidade problemática, segundo um estudo rigoroso publicado na Nature Medicine. A investigação, nascida no Instituto de Internet de Oxford e no Departamento Nuffield de Ciências da Saúde, desmonta a noção de que os grandes modelos de linguagem (LLM) estão preparados para guiar doentes. Em vez de se revelarem um avanço, estes sistemas demonstraram uma propensão inquietante para gerar informação enganadora, quando não francamente errónea, sem que isso se traduza em escolhas mais acertadas por parte das pessoas.
O ensaio, que envolveu perto de 1.300 participantes, colocou os voluntários perante cenários clínicos escritos por médicos, desde uma dor de cabeça intensa após uma noite de excessos a um cansaço persistente pós-parto. Um grupo foi autorizado a consultar um LLM para avaliar a gravidade e decidir se devia procurar um médico de família ou dirigir-se a um hospital. O outro grupo limitou-se às ferramentas habituais: motores de busca online e o seu próprio critério.
Os resultados foram claros e um tanto desconcertantes. Não houve vantagem mensurável no grupo que recorreu à inteligência artificial. A tomada de decisão não foi mais correta. Mas o detalhe mais revelador — e preocupante — emergiu da análise manual das conversas. Os investigadores depararam-se com uma dupla barreira de incompreensão. Por um lado, os utilizadores, na sua interação com a máquina, tendiam a fornecer descrições pobres ou incompletas dos seus sintomas. Por outro, o modelo respondia, por vezes, com uma mistura desconcertante de sugestões razoáveis e recomendações completamente desajustadas, criando uma sensação falsa de segurança ou, pelo contrário, de alarme infundado.
Andrew Bean, investigador principal do projeto, sublinha que a interação com humanos se mostrou um obstáculo até para os modelos mais avançados. “Desenvolver testes robustos para modelos de linguagem é crítico”, afirmou, esperando que o trabalho contribua para “sistemas de IA mais seguros e úteis”. A mensagem implícita, porém, é de cautela extrema. Os autores traçam um paralelo direto com os ensaios clínicos para novos fármacos: estas ferramentas digitais carecem de validação rigorosa em contextos reais antes de qualquer implementação junto de doentes.
O entusiasmo inicial de alguns prestadores de cuidados de saúde, que vislumbravam nos LLM um auxiliar para a gestão preliminar de condições, fica assim arrefecido. O fosso entre a perceção da sua potencial utilidade e a evidência da sua aplicação prática mostrou-se, para já, intransponível. O estudo não nega o potencial futuro da tecnologia, mas insiste num caminho de prudência, alertando que a pressa em integrar sistemas ainda imprecisos nos circuitos de saúde pode ter custos elevados. A complexidade do diálogo clínico, repleto de nuances e contextos, revelou-se um desafio demasiado complexo para a fria lógica estatística dos atuais modelos.
NR/HN/Lusa



0 Comments