Con 671.000 millones de parámetros, es un 60% más grande que el ya de por sí enorme Llama 3.1 405B
Ha sido entrenado con una inversión mínima en comparación con la que necesitó GPT-4
Pero según sus responsables, compite de tú a tú con él y demuestra el avance de la IA china
Un 60% más grande que Llama 3.1 405B. Meta tenía hasta ahora uno de los modelos de IA más grandes del mercado con 405.000 millones de parámetros (405B). El modelo de DeepSeek llega a los 671B, casi un 66% más. La pregunta, claro, es si tantos parámetros sirven de algo.
Cuantos más parámetros, (normalmente) mejor. El número de parámetros suele tener una fuerte relación con la capacidad de los modelos. Los modelos de IA que corren localmente en nuestros PCs o móviles suelen tener muchos menos (3B, 7B, 14B suelen ser sus tamaños) y los que se ejecutan en centros de datos son capaces de ser mucho más grandes y capaces tanto en precisión como en opciones y potencia, como ocurre con DeepSeek V3. Pero claro, cuanto más grandes son más recursos de computación necesitan para ser usados con cierta fluidez.
Dos innovaciones para lograr mejorar. DeepSeek V3 hace uso de una arquitectura Mixture-of-Experts que solo activa algunos parámetros de forma óptima para procesar diversas tareas de forma eficiente. Sus responsables han introducido dos mejoras llamativas en este nuevo modelo. La primera, una estrategia de balanceo de carga que monitoriza y ajusta la carga en los "expertos". La segunda, un sistema de predicción de tokens. La combinación de ambas permite que la generación de tokens triplique la de DeepSeek V2: ahora llega a 60 tokens por segundo al usar el mismo hardware que su predecesor.
China coge carrerilla. Este nuevo modelo "abierto" es la última demostración del gran avance que China está haciendo a pesar de los cortapisas de la guerra comercial con Estados Unidos. DeepSeek ya nos sorprendió hace poco más de un mes con su modelo DeepSeek-R1, capaz de competir con o1 de OpenAI en el ámbito del "razonamiento" por IA. Y otras startups y grandes empresas de tecnología chinas siguen trabajando de forma frenética, y los frutos son visibles y prometedores. Y además, con un enfoque Open Source que los hace especialmente interesantes para investigadores y académicos.
Font, article de Javier Pastor per a "Xakata"
No hay comentarios:
Publicar un comentario