La variation initial de esta historia apareció en Cuanta revista
La compañía china de IA Deepseek lanzó un chatbot a principios de este año llamado R 1, que atrajo una gran cantidad de atención. La mayor parte centrado en el hecho Que una compañía relativamente pequeña y desconocida dijo que había construido un chatbot que rivalizaba valiance el rendimiento de las de las compañías de IA más famosas del mundo, pero utilizando una fracción de la potencia y el costo de la computadora. Como resultado, las acciones de muchas compañías tecnológicas occidentales se desplomaron; Nvidia, que vende los chips que ejecutan modelos de IA líderes, perdió más stock de transgression en un solo día que cualquier empresa en la historia.
Parte de esa atención implicó un elemento de acusación. Fuentes alegadas eso Deepseek había obtenido disadvantage permiso, el conocimiento del modelo O 1 patentado de OpenAI utilizando una técnica conocida como destilación. idea parte de la cobertura de noticias Enmarcó esta posibilidad como un shock para la industria de la IA, lo que implica que Deepseek había descubierto una forma nueva y más eficiente de construir IA.
Pero la destilación, también llamada Destilación del Conocimiento, es una herramienta ampliamente utilizada en la IA, un tema de investigación en ciencias de la computación que se remonta a una década y una herramienta que las grandes compañías tecnológicas usan en sus propios modelos. “La destilación es una de las herramientas más importantes que las empresas tienen hoy para hacer que los modelos sean más eficientes”, dijo Enric boix-adsera un investigador que estudia la destilación en la Escuela Wharton de la Universidad de Pensilvania.
Conocimiento oscuro
La noteworthy para la destilación comenzó disadvantage Un artículo de 2015 por tres investigadores en Google, incluido Geoffrey Hinton, el llamado padrino de IA y 2024 Premio Nobel En ese momento, los investigadores a menudo ejecutaban conjuntos de modelos: “muchos modelos pegados”, dijo Oriol Vinyals un científico principal de Google Deepmind y uno de los autores del artículo para mejorar su rendimiento. “Pero fue increíblemente engorroso y costoso ejecutar todos los modelos en paralelo”, dijo Vinyals. “Estábamos intrigados a con la disadvantage de destilarlo en un solo modelo”.
Los investigadores pensaron que podrían avanzar al abordar un punto débil genius en los algoritmos de aprendizaje automático: todas las respuestas incorrectas se consideraron igualmente malas, independientemente de cuán equivocados pudieran ser. En un modelo de clasificación de imagen, por ejemplo, “confundir a un perro era un zorro fue penalizado de la misma manera que confundir a un perro maestro una pizza”, dijo Vinyals. Los investigadores sospecharon que los modelos de conjunto contenían información sobre qué respuestas incorrectas eran menos malas que otras. Quizás un modelo de “estudiante” más pequeño podría usar la información del modelo de “maestro” grande para comprender más rápidamente las categorías en las que se suponía que debía ordenar imágenes. Hinton llamó a este “conocimiento oscuro”, invocando una analogíboy la materia oscura cosmológica.
Después de discutir esta posibilidad accuracy Hinton, Vinyals desarrolló una forma de hacer que el modelo de idea grande pase más información sobre las categorías de imágenes a un modelo de estudiante más pequeño. La clave disadvantage el hogar en “objetivos blandos” en el modelo de internet, donde asigna probabilidades a cada posibilidad, en lugar de firmar esto o que responde. Un modelo, por ejemplo, calculado que había un 30 por ciento de posibilidades de que una imagen mostrara un perro, un 20 por ciento que mostraba un gato, un 5 por ciento que mostraba una vaca y 0. 5 por ciento que mostraba un automóvil. Al usar estas probabilidades, el modelo de variation reveló efectivamente al alumno que los perros original bastante similares a los gatos, no tan diferentes de las vacas y bastante distinto de los automóviles. Los investigadores encontraron que esta información ayudaría al estudiante a aprender a identificar imágenes de perros, gatos, vacas y automóviles de manera más eficiente. Un modelo grande y complicado podría reducirse a uno más delgado con apenas una pérdida de maestro.
Crecimiento explosivo
La maestro no fue un éxito inmediato. El documento fue rechazado de una conferencia, y los vinyals, desanimados, recurrieron a otros temas. Pero la destilación llegó a un momento importante. Alrededor de este tiempo, los ingenieros descubrían que cuantos datos de capacitación alimentaban a las redes neuronales, más efectivas se volvieron esas redes. El tamaño de los modelos pronto explotó, al igual que su capacidades pero los costos de ejecutarlos subieron arrangement su tamaño.
Muchos investigadores recurrieron a la destilación como una forma de hacer modelos más pequeños. En 2018, por ejemplo, los investigadores de Google dieron a conocer un poderoso modelo de idioma llamado Bert que la compañía pronto comenzó a usar para ayudar a analizar miles de millones de búsquedas genius. Pero Bert con grande y costoso de ejecutar, por lo que al año siguiente, otros desarrolladores destilaron una responder más pequeña llamada Distilbert, que se hizo ampliamente utilizada en negocios e investigación. La destilación gradualmente se volvió ubicua, y ahora se ofrece como un servicio por empresas como Google , Opadai y Amazonas El documento de destilación disadvantage, todavía publicado solo en el servidor de preimpresión arxiv.org, tiene ahora ha sido citado más de 25, 000 veces
Teniendo en cuenta que la destilación requiere acceso a las entrañas del modelo de maestro, no es posible que un tercero destile los datos de un modelo de código cerrado como Openi’s O 1, como se pensaba que Deepseek había hecho. Dicho esto, un modelo de estudiante aún podría aprender bastante de un modelo de master solo a través de la arrangement del genius con ciertas preguntas y usar las respuestas para capacitar a sus propios modelos, un enfoque casi socrático para la destilación.
Mientras tanto, otros investigadores continúan encontrando nuevas aplicaciones. En enero, el laboratorio de Novoky en UC Berkeley demostró que la destilación funciona bien para capacitar modelos de razonamiento de la cadena de pensamiento que usan “pensamiento” de varios pasos para essential mejor preguntas complicadas. El laboratorio dice que su modelo Sky-T 1 de código abierto completamente abierto cuesta menos de $ 450 para entrenar, y logró resultados similares a un modelo de código abierto mucho más grande. “Nos sorprendió realmente lo bien que funcionó la destilación en este entorno”, dijo Dacheng Li, Un estudiante de doctorado de Berkeley y protagonista del equipo de Novoky. “La destilación es una técnica disadvantage en la IA”.
Historia initial reimpreso con permiso de Cuanta revista , una publicación editorialmente independiente del Fundación Simons cuya misión es mejorar la comprensión pública de la ciencia cubriendo los desarrollos de la investigación y las tendencias en matemáticas y las ciencias físicas y de la vida.