
Quanto mais forte o modelo, mais fraco o "pensamento"?
Em um relatório recém-publicado, pesquisadores da Apple avaliaram o desempenho de Modelos de Raciocínio de Grande Porte (LRMs, na sigla em inglês) no tratamento de problemas lógicos de dificuldade crescente, como o problema das Torres de Hanói ou o problema da Travessia do Rio .
Os resultados foram chocantes: ao se depararem com problemas extremamente complexos, a precisão dos modelos avançados de IA não apenas piorou, como "entrou em colapso completo".
O que é ainda mais preocupante é que, antes da queda brusca de desempenho, os modelos começaram a... reduzir seu esforço de raciocínio, um comportamento contrário à intuição, já que seria necessário mais raciocínio ao lidar com um problema difícil.
Em muitos casos, mesmo com o algoritmo correto, os modelos ainda falham em fornecer uma solução. Isso revela profundas limitações em sua capacidade de adaptação e aplicação de regras em novos ambientes.
O desafio da "teoria geral"
Em resposta a essa pesquisa, o acadêmico americano Gary Marcus, uma das vozes céticas quanto às verdadeiras capacidades da IA, classificou as descobertas da Apple como "bastante devastadoras".
Em seu boletim informativo pessoal no Substack, ele afirmou: "Qualquer pessoa que pense que grandes modelos de linguagem (LLMs) são um caminho direto para a Inteligência Artificial Geral (AGI) está se enganando."
Concordando com essa visão, Andrew Rogoyski, especialista do Instituto de IA Centrada no Ser Humano (Universidade de Surrey, Reino Unido), acredita que essa descoberta aponta para a possibilidade de a indústria de tecnologia estar caminhando para um "beco sem saída": "Quando os modelos só têm um bom desempenho em problemas de dificuldade simples e média, mas falham completamente em problemas de dificuldade crescente, fica claro que há um problema com a abordagem atual."
Um ponto específico destacado pela Apple é a falta de capacidade de "raciocínio geral", ou seja, a capacidade de estender a compreensão de uma situação específica para situações semelhantes.
Quando o conhecimento não pode ser transmitido da maneira como os humanos normalmente o fazem, os modelos atuais facilmente caem em um estado de "aprendizagem mecânica": fortes em padrões repetitivos, mas fracos em pensamento lógico ou dedução.
Além disso, pesquisas demonstraram que modelos de raciocínio em larga escala consomem recursos computacionais ao executar repetidamente as etapas corretas para problemas simples, mas escolhendo a abordagem errada desde o início para problemas um pouco mais complexos.
O relatório testou uma série de modelos líderes, incluindo o o3 da OpenAI, o Gemini Thinking do Google, o Claude 3.7 Sonnet-Thinking e o DeepSeek-R1. Embora a Anthropic, o Google e a DeepSeek ainda não tenham se manifestado, a OpenAI se recusou a comentar.
A pesquisa da Apple não nega as conquistas da IA em linguagem, imagens ou big data. No entanto, ela destaca um ponto cego que está sendo negligenciado: a capacidade de raciocinar genuinamente, que é fundamental para alcançar a verdadeira inteligência.
Fonte: https://baovanhoa.vn/nhip-song-so/ai-suy-luan-kem-dan-khi-gap-bai-toan-phuc-tap-141602.html







Comentário (0)