Desde entonces DeepSeek irrumpió en escena en enero y el impulso ha crecido en torno a los modelos chinos de inteligencia artificial de código abierto. Algunos investigadores están presionando por un enfoque aún más abierto para construir IA que permita distribuir la creación de modelos en todo el mundo.

Intelecto principaluna startup especializada en IA descentralizada, está entrenando actualmente un modelo de lenguaje de gran frontera, llamado INTELLECT-3, utilizando un nuevo tipo de aprendizaje por refuerzo distribuido para realizar ajustes. El modelo demostrará una nueva forma de construir modelos competitivos de IA abiertos utilizando una variedad de hardware en diferentes ubicaciones de una manera que no dependa de las grandes empresas de tecnología, dice Vincent Weisser, director ejecutivo de la compañía.

Weisser dice que el mundo de la IA está actualmente dividido entre quienes dependen de modelos cerrados estadounidenses y quienes utilizan ofertas abiertas chinas. La tecnología que Prime Intellect está desarrollando democratiza la IA al permitir que más personas construyan y modifiquen IA avanzada por sí mismas.

Mejorar los modelos de IA ya no es simplemente cuestión de aumentar los datos de entrenamiento y la computación. Los modelos de frontera actuales utilizan el aprendizaje por refuerzo para mejorar una vez finalizado el proceso de preentrenamiento. ¿Quieres que tu modelo destaque en matemáticas, responda preguntas legales o juegue Sudoku? Haga que se mejore practicando en un entorno donde pueda medir el éxito y el fracaso.

“Estos entornos de aprendizaje por refuerzo son ahora el cuello de botella para escalar realmente las capacidades”, me dice Weisser.

Prime Intellect ha creado un marco que permite a cualquiera crear un entorno de aprendizaje por refuerzo personalizado para una tarea en particular. La empresa está combinando los mejores entornos creados por su propio equipo y la comunidad para ajustar INTELLECT-3.

Intenté ejecutar un entorno para resolver acertijos de Wordle, creado por el investigador de Prime Intellect, Will Brown, y observé cómo un modelo pequeño resolvía acertijos de Wordle (para ser honesto, era más metódico que yo). Si yo fuera un investigador de IA que intentara mejorar un modelo, pondría en marcha un montón de GPU y haría que el modelo practicara una y otra vez mientras un algoritmo de aprendizaje por refuerzo modificaba sus pesos, convirtiendo así el modelo en un maestro de Wordle.

Fuente