Vietnam.vn - Nền tảng quảng bá Việt Nam

Una investigación innovadora abre la «caja negra» del razonamiento de la IA

Después de escribir un comando a la IA y obtener los resultados, ¿siente curiosidad acerca de cómo la herramienta determinó su respuesta?

ZNewsZNews30/03/2025

Dario Amodei, director ejecutivo de Anthropic, comparte las últimas investigaciones de la compañía. Foto: Fortune .

Los investigadores de la empresa de inteligencia artificial Anthropic afirman haber logrado un avance fundamental al comprender exactamente cómo funcionan los modelos de lenguaje grandes (LLM), un avance que podría tener implicaciones importantes para mejorar la seguridad de los futuros modelos de inteligencia artificial.

Las investigaciones demuestran que los modelos de IA son incluso más inteligentes de lo que creíamos. Uno de los mayores problemas de los modelos LLM, que están detrás de los chatbots más potentes como ChatGPT, Gemini y Copilot, es que actúan como una caja negra.

Podemos ingresar datos y obtener resultados de los chatbots, pero cómo llegan a una respuesta específica sigue siendo un misterio, incluso para los investigadores que los crearon.

Esto dificulta predecir cuándo un modelo podría alucinar o producir resultados falsos. Los investigadores también han construido barreras para evitar que la IA responda preguntas peligrosas, pero no explican por qué algunas barreras son más efectivas que otras.

Los agentes de IA también son capaces de "piratear recompensas". En algunos casos, los modelos de IA pueden mentir a los usuarios sobre lo que han hecho o intentan hacer.

Aunque los modelos recientes de IA son capaces de razonar y generar cadenas de pensamiento, algunos experimentos han demostrado que todavía no reflejan con precisión el proceso mediante el cual el modelo llega a una respuesta.

En esencia, la herramienta que desarrollaron los investigadores de Anthropic es similar a los escáneres fMRI que utilizan los neurocientíficos para escanear el cerebro humano. Al aplicarla a su modelo Claude 3.5 Haiku, Anthropic pudo comprender mejor el funcionamiento de los modelos LLM.

Los investigadores descubrieron que, aunque Claude sólo fue entrenado para predecir la siguiente palabra de una oración, en ciertas tareas aprendió a planificar a más largo plazo.

Por ejemplo, cuando le pedían que escribiera un poema, Claude primero buscaba palabras que encajaran con el tema y pudieran rimar, y luego trabajaba al revés para escribir versos completos.

Claude también tiene un lenguaje de IA común. Aunque está entrenado para admitir varios idiomas, Claude pensará primero en ese idioma y luego expresará los resultados en el idioma compatible.

Además, después de plantearle a Claude un problema difícil, pero sugerirle deliberadamente una solución equivocada, los investigadores descubrieron que Claude podía mentir sobre su línea de pensamiento, siguiendo la sugerencia para complacer al usuario.

En otros casos, cuando se le hacía una pregunta sencilla que el modelo podía responder inmediatamente sin razonar, Claude seguía inventando un proceso de razonamiento falso.

Josh Baston, investigador de Anthropic, dijo que aunque Claude afirmó haber hecho un cálculo, no pudo encontrar nada que sucediera.

Mientras tanto, los expertos sostienen que hay estudios que demuestran que a veces las personas ni siquiera se entienden a sí mismas, sino que sólo crean explicaciones racionales para justificar las decisiones que toman.

En general, las personas tienden a pensar de forma similar. Por eso, los psicólogos han descubierto sesgos cognitivos comunes.

Sin embargo, los LLM pueden cometer errores que los humanos no pueden, porque la forma en que generan respuestas es muy diferente a la forma en que realizamos una tarea.

El equipo de Anthropic implementó un método que agrupa las neuronas en circuitos según características en lugar de analizar cada neurona individualmente como lo hacían las técnicas anteriores.

Este enfoque ayuda a comprender qué roles desempeñan los diferentes componentes y permite a los investigadores rastrear todo el proceso de inferencia a través de las capas de la red, dijo Baston.

Este método también tiene la limitación de que es sólo aproximado y no refleja todo el proceso de procesamiento de información de LLM, especialmente el cambio en el proceso de atención, que es muy importante mientras LLM da resultados.

Además, identificar circuitos de redes neuronales, incluso para oraciones de apenas unas pocas docenas de palabras, requiere horas de trabajo por parte de un experto. Afirman que aún no está claro cómo extender la técnica para analizar oraciones más largas.

Dejando de lado las limitaciones, la capacidad de LLM para monitorear el razonamiento interno abre nuevas oportunidades para controlar los sistemas de IA para garantizar la seguridad.

Al mismo tiempo, también puede ayudar a los investigadores a desarrollar nuevos métodos de entrenamiento, mejorar las barreras de control de la IA y reducir las ilusiones y los resultados engañosos.

Fuente: https://znews.vn/nghien-cuu-dot-pha-mo-ra-hop-den-suy-luan-cua-ai-post1541611.html


Kommentar (0)

No data
No data
Escena mágica en la colina del té "cuenco al revés" en Phu Tho
Tres islas de la región central se asemejan a las Maldivas y atraen turistas en verano.
Contemple la brillante ciudad costera de Quy Nhon, Gia Lai, por la noche.
Imagen de campos en terrazas en Phu Tho, con suave pendiente, brillantes y hermosos como espejos antes de la temporada de siembra.
La fábrica Z121 está lista para la Noche Final Internacional de Fuegos Artificiales
La famosa revista de viajes elogia la cueva Son Doong como "la más magnífica del planeta"
Una cueva misteriosa atrae a turistas occidentales, comparada con la "cueva Phong Nha" en Thanh Hoa
Descubra la belleza poética de la bahía de Vinh Hy
¿Cómo se procesa el té más caro de Hanoi, cuyo precio supera los 10 millones de VND/kg?
Sabor de la región del río

Herencia

Cifra

Negocio

No videos available

Noticias

Sistema político

Local

Producto