Los modelos de IA están logrando superar los benchmarks que se habían diseñado hasta ahora
Los expertos han comenzado a crear pruebas mucho más complejas, pero eso cada vez es más difícil
Pruebas más exigentes. Este benchmark consiste en unos 300 problemas matemáticos de distinto nivel. Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.
Humanity's Last Exam. Otra de las pruebas recientes es Humanity's Last Exam, un examen con entre 20 y 50 veces más preguntas que FrontierMath, pero que cubren muchas más disciplinas. Los problemas a resolver han sido recolectados de la comunidad académica, y para ser incluida, una pregunta debe haber sido no respondida correctamente por los modelos actuales. Se espera que dicha prueba se lance a principios de 2025.
La paradoja de Moravec. Pero tan interesante o más que esas pruebas avanzadas son las que juegan con el concepto que maneja la paradoja de Moravec. Cosas que son triviales para los seres humanos pero que las máquinas no logran resolver.
ARC-AGI. Es justo lo que hace el benchmark ARC-AGI, creada por el investigador François Chollet en 2019 y que en su última evolución plantea pruebas con las que la mayoría de modelos lo pasan realmente mal. O1 mini solo lograba un 7,8% de puntuación, pero de nuevo o3 ha sorprendido a todos y alcanza un 87,5% en su modo más avanzado (muy caro) y un 75,7% en el modo de bajo consumo, un hito realmente excepcional. Por supuesto, los creadores de ARC-AGI ya trabajan en una nueva versión mucho más exigente que creen que los modelos de IA tardarán mucho en superar.
Font, article de Javier Pastor per a "Xakata"
No hay comentarios:
Publicar un comentario