El Quadern d'Enric : Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida

martes, 10 de junio de 2025

Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida

Investigadores de Apple han descubierto que los modelos de razonamiento se cansan de pensar y se rinden ante problemas complejos
Pero algunos expertos apuntan a que las pruebas ejecutadas en Apple tenían ciertos problemas

Las máquinas no piensan, eso es una ilusión. No lo decimos nosotros, lo dicen un grupo de investigadores de Apple que acaban de publicar un revelador estudio titulado precisamente así ('La ilusión de pensar'). En él dichos expertos han analizado el rendimiento de varios modelos de IA con la capacidad de "razonar", y sus conclusiones son llamativas... y preocupantes.

Puzzles para las IAs que "razonan". Lo normal al evaluar la capacidad de un modelo de IA es utilizar benchmarks con pruebas de programación o de matemáticas, por ejemplo. En lugar de eso, Apple creó varias pruebas basadas en puzzles lógicos que eran totalmente nuevos y que por tanto no podían formar parte del entrenamiento de estos modelos. En la evaluación participaron Claude Thinking, DeepSeek-R1 y o3-mini.

Modelos que se estrellan. En sus pruebas comprobaron como todos estos modelos de razonamiento se acababan estrellando de bruces contra un muro cuando se enfrentaban a problemas complejos. En esos casos, la precisión de dichos modelos cayó estrepitósamente hasta el 0%. No importaba además que concedieras más recursos a estos modelos a la hora de tratar de resolver esos problemas. Si eran de cierta dificultad, no podían con ellos.

Se cansan de pensar. De hecho, sucedió algo curioso. A medida que los problemas se volvían más complicados, estos modelos comenzaron a pensar no más, sino menos. Usaron menos tokens para resolverlos y se ridieron antes a pesar de poder utilizar recursos ilimitados.

Ni con ayuda. Los investigadores de Apple incluso intentaron darle a los modelos un algoritmo exacto que guiaba a los modelos a que pudieran encontrar la solución paso por paso. Y aquí, otra sorpresa mayúscula: ninguno de los modelos lograba resolver los problemas a pesar de tener esas soluciones guiadas. No podían seguir instrucciones de forma consistente.

Tres tipos de problemas. En su evaluación dividieron los problemas a resolver en tres clases y comprobaron si los modelos de razonamiento realmente aportaban algo frente a los modelos tradicionales que no "razonan".

Problemas de baja complejidad: los modelos de razonamiento efectivamente superaban a los que no tenían esa capacidad de razonamiento. Eso sí, a menudo piensan demasiado para resolver estos problemas sencillos.
Problemas de complejidad media: había todavía alguna ventaja frente a modelos convencionales, pero no demasiada.
Problemas de alta complejidad: todos los modelos se acabaron estrellando contra dichos problemas.

De pensar, nada. Según estos investigadores, la razón de ese fracaso a la hora de razonar en problemas complejos es sencilla. Estos modelos no "razonan" en absoluto, y lo único que hacen es usar técnicas avanzadas de reconocimiento de patrones para resolver los problemas. Eso no funciona con problemas complejos, y ahí los cimientos de estos modelos se desmoronan completamente. Ante esos problemas, si a un modelo se le dan instrucciones claras y más recursos deberían mejorar y ser capaces de intentar resolverlos, pero este estudio demuestra lo contrario.

Muy lejos de AGI. Lo que sugieren estos resultados es que la expectación que han generado estos modelos es inmerecida: los actuales modelos de razonamiento simplemente no logran pasar de cierta barrera añadiendo datos o computación. Algunos apuntaban a cómo los modelos de razonamiento podían ser un posible camino hacia la búsqueda de la AGI, pero las conclusiones de este estudio revelan que de hecho no estamos más cerca de lograr modelos que puedan considerarse inteligencia artificial general.

No encuentran soluciones, las memorizan y copian. De hecho, el estudio corroboró algo que otros defendieron en el pasado: estos modelos simplemente tienen memorizado el conocimiento, y reproducen la solución que ya tenían memorizada cuando encuentran patrones correspondientes que llevan a esa solución. Así, estos modelos pudieron resolver el célebre problema de las torres de Hanoi de muchísimos movimientos porque una vez saben la solución pueden aplicarla de forma sistemática. Sin embargo en otros puzzles fracasaban a los pocos movimientos.

Loros estocásticos. Muchos de los críticos de la IA siempre han defendido que los modelos de IA generativa, razonen o no, son básicamente loros que repiten lo que se les ha enseñado. En el caso de la IA detectan patrones y son capaces de encontrar/predecir la siguiente palabra/pixel al generar texto o imágenes. El resultado suele ser convincente, pero solo porque se han vuelto extremadamente buenos a la hora de detectar esos patrones y responder de forma adecuada y coherente. Pero no es conocimiento nuevo: es repetir el queya tienen.

Que no piensan. Otros expertos críticos de esas expectativas llevan tiempo alertándonos de los peligros del antropomorfismo de las IAs. Lo explicaba Subbarao Kambhampti, de la Universidad de Arizona, que por ejemplo analizaba el proceso de "razonamiento" de estos modelos y su "cadena de pensamiento". Usamos verbos como "pensar", cuando no piensan. No entienden tampoco lo que hacen, y eso contamina todas las asunciones que hacemos sobre su capacidad (o falta de ella).

Font, article de Javier Pastor per a "Xakata"

El Quadern d'Enric

martes, 10 de junio de 2025

Hemos descubierto algo preocupante en los modelos de IA: si el problema es demasiado difícil, se rinden enseguida

Investigadores de Apple han descubierto que los modelos de razonamiento se cansan de pensar y se rinden ante problemas complejos

Pero algunos expertos apuntan a que las pruebas ejecutadas en Apple tenían ciertos problemas

No hay comentarios:

Publicar un comentario

Etiquetas

Entrades anteriors