El pensamiento abstracto sigue siendo un desafío demasiado grande (Pexels)
Varios modelos de inteligencia artificial han sido sometidos a un test de razonamiento abstracto. Los resultados reflejan claramente cuáles son sus puntos débiles
Una nueva batería de pruebas ha puesto en aprietos a sistemas de inteligencia artificial como ChatGPT, DeepSeek o Claude. Lo que parece un juego lógico simple para un humano, se convierte en un muro infranqueable para las máquinas más sofisticadas. El test ARC-AGI-2, recientemente publicado por la Arc Prize Foundation, evidencia las limitaciones actuales de la inteligencia artificial.
François Chollet, investigador y cofundador de la fundación, ha diseñado este nuevo conjunto de desafíos con un propósito claro: medir hasta qué punto los modelos actuales pueden razonar, adaptarse y generalizar en contextos no entrenados previamente. El resultado ha sido rotundo. Las máquinas, que brillan en matemáticas o programación, se estrellan cuando se enfrentan a patrones abstractos sin instrucciones explícitas.
Los puzzles planteados son visuales y requieren identificar reglas ocultas en cuadrículas de colores. A diferencia de otros exámenes donde los modelos pueden sacar partido de su capacidad de memorización masiva, aquí se exige capacidad de percepción y razonamiento. El objetivo no es encontrar respuestas almacenadas, sino descubrir relaciones entre elementos y aplicarlas a nuevas situaciones.
Desempeño muy por debajo del esperado
El nivel de acierto entre los modelos más conocidos ha sido sorprendentemente bajo. GPT-4.5, Claude 3.7 y Gemini 2.0 Flash no superan el 1 % de efectividad en las pruebas. DeepSeek R1 y o1-pro, diseñados específicamente para tareas de razonamiento, apenas alcanzan el 1,3 %.
El caso más llamativo ha sido el de o3-low, que había logrado un 76 % de aciertos en la versión anterior del test (ARC-AGI-1) y que ahora está por debajo del 5 %. Resolver una sola prueba con este modelo puede suponer un coste de hasta 200 euros, según los responsables del proyecto. Por el contrario, el ser humano promedio resuelve correctamente un 60 % de las preguntas sin formación específica.
¿Razonan las IA o solo predicen respuestas?
Este nuevo test da fuerza a una idea que se resiste a desaparecer: las IA actuales no piensan como los humanos. "Los modelos no asignan semántica a los puzzles", explicó Mike Knoop, uno de los impulsores de ARC-AGI-2, en el pasado. Según sus palabras, lo que las personas interpretan intuitivamente, los algoritmos lo abordan como un rompecabezas sin sentido.
La paradoja de Moravec, formulada en 1988, se mantiene más vigente que nunca. Lo que nos resulta fácil a los humanos, como reconocer patrones simples o aplicar lógica visual, representa un desafío abrumador para los sistemas entrenados con billones de datos. En cambio, las IA resuelven en fracciones de segundo operaciones complejas que a las personas nos llevarían días, semanas o años.
La clave de ARC-AGI-2 no está solo en el contenido de sus pruebas, sino también en cómo se mide el rendimiento. A diferencia de benchmarks anteriores, esta evaluación incorpora una métrica de eficiencia que impide el uso de fuerza bruta. Los modelos deben encontrar una solución razonada y rápida, sin necesidad de calcular miles de opciones posibles.
El sitio web de ARC Prize permite acceder a las mismas pruebas utilizadas con los modelos. Cualquier usuario puede intentar resolver estos desafíos y comparar su capacidad con la de las IA más sofisticadas. El ejercicio no solo es interesante, sino que pone de manifiesto lo lejos que seguimos de una verdadera inteligencia artificial general.
Font, article de R.Badillo per a "El confidencial"
No hay comentarios:
Publicar un comentario