Anna Barclay | Getty Images News | Getty Images
El último modelo experimental de la startup china Deepseek promete aumentar la eficiencia y mejorar la capacidad de la IA para manejar mucha información a una fracción del costo, pero las preguntas siguen sobre cuán efectiva y segura es la arquitectura.
Deepseek envió a Silicon Valley a un frenesí cuando lanzó su primer modelo R1 de la nada el año pasado, lo que demuestra que es posible entrenar modelos de idiomas grandes (LLM) rápidamente, en chips menos potentes, usando menos recursos.
La compañía lanzó Deepseek-V3.2-Exex el lunes, una versión experimental de su modelo actual Deepseek-V3.1-terminus, que se basa aún más en su misión de aumentar la eficiencia en los sistemas de IA, Según una publicación en el foro de IA, abrazando la cara.
“Deepseek v3.2 continúa el enfoque en la eficiencia, la reducción de costos y el intercambio de código abierto”, dijo a CNBC Adina Yakefu, líder de la comunidad china en Hugging Face. “La gran mejora es una nueva característica llamada DSA (atención escasa de Deepseek), lo que hace que la IA sea mejor en el manejo de documentos y conversaciones largas. También reduce el costo de ejecutar la IA a la mitad en comparación con la versión anterior”.
“Es significativo porque debería hacer que el modelo sea más rápido y rentable de usar sin una caída notable en el rendimiento”, dijo Nick Patience, vicepresidente y líder de práctica para la IA en el Grupo Futurum. “Esto hace que la IA poderosa sea más accesible para los desarrolladores, investigadores y empresas más pequeñas, lo que puede conducir a una ola de aplicaciones nuevas e innovadoras”.
Los pros y los contras de la escasa atención
Un modelo de IA toma decisiones basadas en sus datos de capacitación y nueva información, como un aviso. Digamos que una aerolínea quiere encontrar la mejor ruta de A a B, mientras que hay muchas opciones, no todas son factibles. Al filtrar las rutas menos viables, reduce drásticamente la cantidad de tiempo, el combustible y, en última instancia, el dinero, se necesita para hacer el viaje. Eso es exactamente la atención escasa, solo factores en los datos que cree que es importante dada la tarea en cuestión, a diferencia de otros modelos hasta ahora que han reducido todos los datos en el modelo.
“Entonces, básicamente, eliminas las cosas que crees que no son importantes”, dijo Ekaterina Almasque, cofundadora y socia gerente del New Venture Capital Fund Blankpage Capital.
La atención escasa es una bendición para la eficiencia y la capacidad de escalar la IA dada que se necesitan menos recursos, pero una preocupación es que podría conducir a una caída en cuán confiables son los modelos debido a la falta de supervisión sobre cómo y por qué descuenta la información.
“La realidad es que ellos (modelos de atención dispersos) han perdido muchos matices”, dijo Almasque, quien fue uno de los primeros defensores de Dataiku y DarkTrace, y un inversor en Graphcore. “Y luego, la verdadera pregunta es, ¿tenían el mecanismo adecuado para excluir datos no importantes, o hay un mecanismo que excluye datos realmente importantes, y luego el resultado será mucho menos relevante?”
Esto podría ser particularmente problemático para la seguridad e inclusión de la IA, señaló el inversor, y agregó que puede no ser “el modelo de IA más seguro” para usar en comparación con competidores o arquitecturas tradicionales.
Deepseek, sin embargo, dice que el modelo experimental funciona a la par con su V3.1-extremo. A pesar de la especulación de Una burbuja que se forma, IA permanece en el centro de la competencia geopolítica con los Estados Unidos y China compitiendo por el lugar ganador. Yakefu señaló que los modelos de Deepseek funcionan “justo fuera de la caja” con chips de IA de fabricación china, como Ascend y Cambricon, lo que significa que pueden ejecutar localmente en hardware doméstico sin ninguna configuración adicional.
Deepseek también compartió el código de programación y las herramientas reales necesarias para usar el modelo experimental, dijo. “Esto significa que otras personas pueden aprender de él y desarrollar sus propias mejoras”.
Pero para Almasque, la naturaleza misma de esto significa que la tecnología puede no ser defendible. “El enfoque no es súper nuevo”, dijo, señalando que la industria ha estado “hablando de modelos dispersos desde 2015” y que Deepseek no puede patentar su tecnología debido a ser de código abierto. La ventaja competitiva de Deepseek, por lo tanto, debe estar en cómo decide qué información incluir, agregó.
La propia compañía reconoce que V3.2-Exp es un “paso intermedio hacia nuestra arquitectura de próxima generación”, según el poste de la cara abrazada.
Como señaló la paciencia, “este es el valor de valor de Deepseek en todo momento: la eficiencia se está volviendo tan importante como la potencia cruda”.
“Deepseek está jugando el largo juego para mantener a la comunidad invertida en su progreso”, agregó Yakefu. “La gente siempre buscará lo que es barato, confiable y efectivo”.