Dario Amodei, CEO da Anthropic, compartilha a pesquisa mais recente da empresa. Foto: Fortune . |
Pesquisadores da empresa de IA Anthropic dizem que fizeram um avanço fundamental na compreensão exata de como os modelos de grande linguagem (LLMs) funcionam, um avanço que pode ter implicações importantes para melhorar a segurança de futuros modelos de IA.
Pesquisas mostram que os modelos de IA são ainda mais inteligentes do que pensávamos. Um dos maiores problemas com os modelos de LLM, que estão por trás dos chatbots mais poderosos, como ChatGPT, Gemini e Copilot, é que eles agem como uma caixa-preta.
Podemos inserir informações e obter resultados de chatbots, mas como eles chegam a uma resposta específica continua sendo um mistério, até mesmo para os pesquisadores que os criaram.
Isso dificulta prever quando um modelo pode ter alucinações ou produzir resultados falsos. Os pesquisadores também construíram barreiras para impedir que a IA respondesse a perguntas perigosas, mas não explicam por que algumas barreiras são mais eficazes do que outras.
Os agentes de IA também são capazes de "hackear com recompensa". Em alguns casos, os modelos de IA podem mentir para os usuários sobre o que eles fizeram ou estão tentando fazer.
Embora os modelos recentes de IA sejam capazes de raciocinar e gerar cadeias de pensamento, alguns experimentos mostraram que eles ainda não refletem com precisão o processo pelo qual o modelo chega a uma resposta.
Em essência, a ferramenta desenvolvida pelos pesquisadores da Anthropic é semelhante ao scanner de ressonância magnética funcional que os neurocientistas usam para escanear o cérebro humano. Ao aplicá-la ao seu modelo Claude 3.5 Haiku, a Anthropic conseguiu obter alguns insights sobre como os modelos de LLM funcionam.
Os pesquisadores descobriram que, embora Claude tenha sido treinado apenas para prever a próxima palavra em uma frase, em certas tarefas ele aprendeu a planejar a longo prazo.
Por exemplo, quando solicitado a escrever um poema, Claude primeiro encontrava palavras que se encaixassem no tema e pudessem rimar, depois trabalhava de trás para frente para escrever versos completos.
O Claude também possui uma linguagem de IA comum. Embora seja treinado para suportar múltiplas linguagens, o Claude pensará primeiro naquela linguagem e, em seguida, expressará seus resultados na linguagem que ele suportar.
Além disso, depois de fornecer a Claude um problema difícil, mas sugerir deliberadamente a solução errada, os pesquisadores descobriram que Claude podia mentir sobre sua linha de pensamento, seguindo a sugestão para agradar o usuário.
Em outros casos, quando lhe faziam uma pergunta simples que o modelo conseguia responder imediatamente, sem raciocínio, Claude ainda fabricava um processo de raciocínio falso.
Josh Baston, pesquisador da Anthropic, disse que, embora Claude tenha afirmado ter feito um cálculo, ele não conseguiu encontrar nada acontecendo.
Enquanto isso, especialistas argumentam que há estudos que mostram que às vezes as pessoas nem se entendem, mas apenas criam explicações racionais para justificar as decisões tomadas.
Em geral, as pessoas tendem a pensar de maneira semelhante. É por isso que psicólogos descobriram vieses cognitivos comuns.
No entanto, os LLMs podem cometer erros que os humanos não podem, porque a maneira como eles geram respostas é muito diferente da maneira como realizamos uma tarefa.
A equipe da Anthropic implementou um método de agrupamento de neurônios em circuitos com base em características, em vez de analisar cada neurônio individualmente como técnicas anteriores.
Essa abordagem, compartilhou o Sr. Baston, ajuda a entender quais papéis os diferentes componentes desempenham e permite que os pesquisadores rastreiem todo o processo de inferência por meio das camadas da rede.
Este método também tem a limitação de ser apenas aproximado e não refletir todo o processamento de informações do LLM, especialmente a mudança no processo de atenção, que é muito importante quando o LLM dá resultados.
Além disso, identificar circuitos de redes neurais, mesmo para frases com apenas algumas dezenas de palavras, leva horas para um especialista. Eles afirmam que ainda não está claro como estender a técnica para analisar frases mais longas.
Deixando de lado as limitações, a capacidade do LLM de monitorar seu processo de raciocínio interno abre novas oportunidades para controlar sistemas de IA a fim de garantir segurança e proteção.
Ao mesmo tempo, também pode ajudar os pesquisadores a desenvolver novos métodos de treinamento, melhorar as barreiras de controle da IA e reduzir ilusões e resultados enganosos.
Fonte: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html






Comentário (0)