La IA aún no puede reemplazar a los humanos en el campo de la programación. Foto: John McGuire . |
En los últimos tiempos, los modelos de IA líderes de OpenAI y Anthropic se utilizan cada vez más para aplicaciones de programación. ChatGPT y Claude han aumentado la memoria y el poder de procesamiento para poder analizar cientos de líneas de código, o Gemini ha integrado una visualización de resultados Canvas específicamente para programadores.
En octubre de 2024, el director ejecutivo de Google, Sundar Pichai, afirmó que el 25% del código nuevo de la empresa era generado por IA. Mark Zuckerberg, director ejecutivo de Meta, también expresó sus ambiciones de implementar ampliamente modelos de IA de codificación dentro de la corporación.
Sin embargo, un nuevo estudio de Microsoft Research, la división de investigación y desarrollo de Microsoft, muestra que los modelos de IA, incluidos Claude 3.7 Sonnet de Anthropic y o3-mini de OpenAI, no lograron manejar muchos errores en un punto de referencia de pruebas de programación llamado SWE-bench Lite.
Los autores del estudio probaron nueve modelos de IA diferentes que se integraron con una variedad de herramientas de depuración como el depurador de Python, y pudieron manejar el problema con una sola declaración. Los modelos tenían la tarea de resolver 300 errores de software seleccionados del conjunto de datos SWE-bench Lite.
![]() |
Tasa de éxito al resolver problemas de programación del conjunto de datos SWE-bench Lite. Foto: Microsoft. |
Incluso cuando están equipados con modelos más nuevos y potentes, los resultados muestran que los agentes de IA rara vez completan con éxito más de la mitad de las tareas de depuración asignadas. Entre los modelos probados, Claude 3.7 Sonnet logró la tasa de éxito promedio más alta con un 48,4%, seguido por o1 de OpenAI con un 30,2% y o3-mini con un 22,1%.
Algunas de las razones de este bajo rendimiento incluyen que algunos modelos no entienden cómo aplicar las herramientas de depuración proporcionadas. Además, según los autores, el problema mayor radica en la falta de datos.
Argumentan que el sistema que entrena los modelos aún carece de datos que simulen los pasos de depuración que los humanos realizan de principio a fin. En otras palabras, la IA no ha aprendido lo suficiente sobre cómo piensan y actúan los humanos, paso a paso, cuando enfrentan un error de software real.
Entrenar y ajustar los modelos permitirá que sean mejores en la depuración de software. “Sin embargo, esto requeriría conjuntos de datos especializados para el entrenamiento”, dijeron los autores.
Muchos estudios han señalado vulnerabilidades de seguridad y errores en la IA durante la generación de código, debido a debilidades como la capacidad limitada para comprender la lógica de programación. Una revisión reciente de Devin, una herramienta de programación de IA, descubrió que solo completó 3 de 20 pruebas de programación.
La programabilidad de la IA sigue siendo controvertida. Anteriormente, el Sr. Kevin Weil, Director de Producto de OpenAI, dijo que para finales de este año, la IA superará a los programadores humanos.
Por otro lado, Bill Gates, cofundador de Microsoft, cree que la programación seguirá siendo una carrera sostenible en el futuro. Otros líderes como Amjad Masad (CEO de Replit), Todd McKinnon (CEO de Okta) y Arvind Krishna (CEO de IBM) también han expresado su apoyo a esta visión.
La investigación de Microsoft, aunque no es nueva, también es un recordatorio para los programadores, incluidos los gerentes, para que piensen más cuidadosamente antes de darle el control total de la codificación a la IA.
Fuente: https://znews.vn/diem-yeu-chi-mang-cua-ai-post1545220.html
Kommentar (0)