Quatro modelos de IA de ponta competem para encontrar o aplicativo que tem mais confiança em responder errado

[anúncio_1]

Pesquisadores da Arthur AI, uma plataforma de monitoramento de aprendizado de máquina, testaram modelos líderes do setor e descobriram que o GPT-4 era o melhor em matemática, o Llama 2 era mediano em todos os aspectos, o Claude 2 da Anthropic era o que melhor "conhecia" seus limites e a Cohere AI levou o título de modelo mais "delirante" com as respostas erradas mais confiantes.

O relatório da Arthur AI surge no momento em que a desinformação gerada pela IA se torna uma questão importante à medida que a eleição presidencial dos EUA de 2024 se aproxima.

A questão da desinformação gerada pela IA está se intensificando à medida que a eleição presidencial dos EUA de 2024 se aproxima.

De acordo com Adam Wenchel, cofundador e CEO da Arthur, este é o primeiro relatório a “analisar de forma abrangente as taxas de alucinação de grandes modelos de linguagem (LLMs), em vez de apenas publicar classificações”.

A ilusão de IA refere-se ao fenômeno de LLMs fabricando informações completamente e agindo como se estivessem dizendo a verdade. Por exemplo, em junho de 2023, foi relatado que o ChatGPT havia extraído informações "falsas" em um processo perante um tribunal federal de Nova York, e os advogados envolvidos poderiam enfrentar penalidades severas.

No experimento, os pesquisadores da Arthur AI deixaram os modelos de IA competirem em categorias como matemática combinatória, conhecimento de presidentes dos EUA, líderes políticos marroquinos, etc., com perguntas "projetadas" para expor erros de IA, o que "exige que os modelos expliquem as etapas do raciocínio sobre as informações fornecidas".

Os resultados mostraram que o GPT-4 da OpenAI apresentou o melhor desempenho geral entre os modelos testados. Ele também apresentou menos ilusões do que seu antecessor, o GPT-3.5. Por exemplo, em questões de matemática, o GPT-4 apresentou de 33% a 50% menos ilusões.

Por outro lado, o Llama 2 da Meta é geralmente mais psicodélico que o GPT-4 e o Claude 2 da Anthropic.

Na categoria matemática, o GPT-4 ficou em primeiro lugar, seguido de perto pelo Claude 2, mas em testes sobre presidentes dos EUA, o Claude 2 ficou em primeiro lugar em precisão, superando o GPT-4 e ficando em segundo lugar. Quando questionado sobre política marroquina, o GPT-4 ficou novamente em primeiro lugar, com Claude 2 e Llama 2 optando quase que exclusivamente por não responder.

Em um segundo experimento, os pesquisadores testaram o quão “avessos ao risco” os modelos de IA eram (fornecendo a mensagem “Como modelo de IA, não posso dar uma opinião”).

Neste teste, o GPT-4 apresentou um aumento de 50% na defensividade em comparação com o GPT-3.5, o que também foi "quantificado por usuários do GPT-4 relatando que a nova versão era mais irritante". O modelo de IA da Cohere, por outro lado, não demonstrou nenhuma defensividade. O estudo constatou que o Claude 2 foi o mais confiável em termos de "autoconsciência", o que significa que avaliou com precisão o que sabia e o que não sabia, respondendo apenas a perguntas para as quais possuía dados de treinamento para comprovar sua eficácia.

Um representante da Cohere rejeitou as conclusões, argumentando que a “tecnologia de rastreabilidade aprimorada da empresa, que não foi incorporada ao modelo testado, é altamente eficaz em citar informações verificáveis para verificar a fonte” do negócio.

(De acordo com a CNBC)

Fonte