Los investigadores de Deepseek publicaron el lunes un nuevo modelo speculative llamado V 3 2 -Exp, diseñado para tener costos de inferencia dramáticamente más bajos cuando se usan en operaciones de contexto largo. Deepseek anunció el modelo con Una publicación en la cara abrazada también publicando Un documento académico vinculado en Github.

La característica más importante del nuevo modelo se llama atención escasa de Deepseek, un intrincado sistema descrito en detalle en el diagrama a continuación. En esencia, el sistema utiliza un módulo llamado “indexador de rayos” para priorizar extractos específicos desde la ventana de contexto. Después de eso, un sistema separado llamado “Sistema de selección de tokens de grano fino” elige symbols específicos dentro de esos extractos para cargarse en la ventana de atención limitada del módulo. Tomados en conjunto, permiten que los modelos de atención escasa operen en largas partes de contexto disadvantage cargas de servidor relativamente pequeñas.

Captura de pantalla

Para las operaciones de contexto a largo plazo, los beneficios del sistema kid significativos. Las pruebas preliminares de Deepseek descubrieron que el precio de una easy llamada API podría reducirse hasta la mitad en situaciones de contexto largo. Se requerirán pruebas adicionales para construir una evaluación más sólida, pero debido a que el modelo es de peso abierto y está disponible libremente en la cara abrazada, no pasará mucho tiempo antes de que las pruebas de terceros puedan evaluar las afirmaciones hechas en el documento.

El nuevo modelo de Deepseek es una de una serie de avances recientes que abordan el problema de los costos de inferencia, esencialmente, los costos del servidor de operar un modelo de IA prevenido, a diferencia del costo de capacitación. En el caso de Deepseek, los investigadores estaban buscando formas de hacer que la arquitectura del transformador essential funcione de manera más eficiente, y descubriendo que hay mejoras significativas para hacer.

Con sede en China, Deepseek ha sido una figura inusual en el auge de la IA, particularmente para aquellos que ven la investigación de la IA como una lucha nacionalista entre los Estados Unidos y China. La compañía hizo olas a principios de año disadvantage su modelo R 1, capacitado utilizando principalmente el aprendizaje de refuerzo a un costo mucho menor que sus competidores estadounidenses. Pero el modelo no ha provocado una revolución mayorista en la capacitación de IA, como algunos predijeron, y la compañía ha retirado del centro de atención en los meses posteriores.

Es poco potential que el nuevo enfoque de “escasa atención” produzca el mismo alboroto que R 1, pero aún podría enseñar a los proveedores de los Estados Unidos algunos trucos muy necesarios para ayudar a mantener bajos los costos de inferencia.

Fuente