IAs passam em teste rigoroso de matemáticos em Harvard, resolvendo 7 de 10 desafios propostos

Na última semana, um grupo de trinta matemáticos se reuniu em Harvard para realizar uma atividade incomum: avaliar soluções geradas por inteligência artificial. Com o objetivo do projeto First Proof, foram testados quatro sistemas de IA em dez questões que já tinham sido resolvidas por humanos, mas que nunca haviam sido publicadas.

Os resultados, divulgados recentemente, foram surpreendentes: sete das dez questões apresentaram pelo menos uma solução correta. Os sistemas de IA utilizaram predominantemente o modelo GPT-5.5 Pro, da OpenAI – que esteve presente em três das quatro configurações – e o Gemini 3.1 Pro Preview, desenvolvido pelo Google. O Claude Opus 4.7, da Anthropic, foi utilizado como modelo auxiliar em um dos sistemas.

Dentre as soluções obtidas, algumas foram consideradas “impecáveis”. Em um exemplo notável, um dos modelos adotou uma abordagem diferente daquela utilizada pelos humanos e conseguiu impressionar os avaliadores.

Motivação para a criação do teste pelos matemáticos

A proposta surgiu como uma resposta à insatisfação com as narrativas apresentadas pelas empresas de tecnologia. Frequentemente, essas empresas proclamam suas conquistas sem que haja uma verificação clara das soluções oferecidas, além de os modelos frequentemente apresentarem inconsistências.

“Não escreve da forma como nós escrevemos – de certa forma, não escreve de maneira honesta”, comentou Martin Hairer, matemático do Imperial College London e laureado com a Medalha Fields, em entrevista ao Washington Post.

A analogia entre humanos e IA

Terry Tao, também medalhista Fields e professor na Universidade da Califórnia em Los Angeles, fez uma analogia interessante sobre a discrepância entre humanos e sistemas de IA.

Para ele, especialistas humanos se assemelham a alpinistas: exploram pacientemente o terreno, estabelecem metas intermediárias e colaboram entre si. Em contraste, os sistemas de IA são descritos como “saltadores” – capazes de alcançar alturas que os humanos não conseguiriam de imediato, mas suas falhas raramente oferecem aprendizado para o próximo passo.

Limitações atuais da inteligência artificial

Um aspecto crucial destacado pelos matemáticos é que o desafio não está apenas na resolução de problemas, mas na seleção adequada destes. Escolher quais questões são dignas de investigação exige um entendimento profundo e percepção do contexto mais amplo da disciplina.

Lauren Williams, professora em Harvard e uma das líderes do First Proof, ilustrou essa questão com um exemplo simples ao Washington Post: um geólogo poderia questionar qual é a cor média de uma pedra na Terra. Embora seja uma pergunta válida, não é necessariamente interessante – algo que a IA não consegue discernir.

Sébastien Bubeck, matemático da OpenAI, corroborou essa ideia ao afirmar que os modelos podem resolver problemas sem compreender o motivo pelo qual estão fazendo isso ou a relevância daquele problema dentro do escopo maior da matemática.

Mais de 2.300 matemáticos assinam manifesto

Simultaneamente aos testes realizados, matemáticos também lançaram a Declaração de Leiden, um manifesto internacional que já conta com mais de 2.300 signatários e estabelece diretrizes para o uso ético e transparente da inteligência artificial na área matemática.

A declaração reconhece as oportunidades trazidas pela tecnologia, mas também alerta para os riscos envolvidos: os modelos tendem a não dar crédito às ideias utilizadas e as empresas frequentemente destacam sucessos sem apresentar transparência quanto aos casos de insucesso.

Contexto histórico: um desafio com 80 anos

No mês passado, a OpenAI anunciou que um modelo havia conseguido refutar uma conjectura formulada por Paul Erdős que estava sem solução há oito décadas. Esse resultado foi considerado uma “solução espetacular” pelo matemático Noga Alon da Universidade Princeton.

A iniciativa First Proof surge como uma resposta organizada por parte da comunidade científica: ao invés de simplesmente reagir aos anúncios feitos pelas empresas tecnológicas, os matemáticos decidiram estabelecer seus próprios critérios para avaliação das soluções propostas.

Deixe um comentário