Durante años, los CEO de Big Tech han promocionado visiones de agentes de IA que pueden usar de forma autónoma aplicaciones de software para completar tareas para las personas. Pero tome la vuelta a los agentes de IA de consumidores de hoy en día, ya sea el agente ChatGPT de OpenAI o el cometa de perplejidad, y rápidamente se dará cuenta de lo limitada que sigue siendo la tecnología. Hacer que los agentes de IA sean más robustos pueden tomar un nuevo conjunto de técnicas que la industria aún está descubriendo.

Una de esas técnicas es simular cuidadosamente espacios de trabajo donde los agentes pueden ser entrenados en tareas de varios pasos, conocidos como entornos de aprendizaje de refuerzo (RL). De manera similar a cómo los conjuntos de datos etiquetados impulsaron la última ola de AI, los entornos RL están comenzando a parecer un elemento crítico en el desarrollo de los agentes.

Los investigadores de IA, los fundadores e inversores le dicen a TechCrunch que los principales laboratorios de IA ahora están exigiendo más entornos RL, y no hay escasez de nuevas empresas con la esperanza de suministrarlos.

“Todos los grandes laboratorios de IA están construyendo entornos RL internos”, dijo Jennifer Li, socia general de Andreessen Horowitz, en una entrevista con TechCrunch. “Pero como puede imaginar, crear estos conjuntos de datos es muy complejo, por lo que los laboratorios de IA también están buscando proveedores de terceros que puedan crear entornos y evaluaciones de alta calidad. Todos están mirando este espacio”.

El impulso para los entornos RL ha acuñado una nueva clase de startups bien financiadas, como mecanizar e intelecto principal, que tienen como objetivo liderar el espacio. Mientras tanto, las grandes compañías de marcas de datos como Mercor y Surge dicen que están invirtiendo más en entornos RL para mantener el ritmo de los cambios de la industria de conjuntos de datos estáticos a simulaciones interactivas. Los principales laboratorios también están considerando invertir mucho: según la información, los líderes de Anthrope han discutido el gasto más que $ 1 mil millones en entornos RL Durante el próximo año.

La esperanza para los inversores y los fundadores es que una de estas startups emerge como la “AI de escala para entornos”, que se refiere a la potencia de etiquetado de datos de $ 29 mil millones que impulsó la era del chatbot.

La pregunta es si los entornos RL realmente empujarán la frontera del progreso de la IA.

Evento de TechCrunch

San Francisco
|
27-29 de octubre de 2025

¿Qué es un entorno RL?

En esencia, los entornos RL son motivos de capacitación que simulan lo que un agente de IA haría en una aplicación de software real. Un fundador describió construirlos en entrevista reciente “Como crear un videojuego muy aburrido”.

Por ejemplo, un entorno podría simular un navegador Chrome y una tarea de un agente de IA con la compra de un par de calcetines en Amazon. El agente se califica en su rendimiento y envía una señal de recompensa cuando tiene éxito (en este caso, comprando un par de calcetines dignos).

Si bien una tarea así suena relativamente simple, hay muchos lugares donde un agente de IA podría ser tropezado. Podría perderse navegando por los menús desplegables de la página web o comprar demasiados calcetines. Y debido a que los desarrolladores no pueden predecir exactamente qué giro incorrecto tomará un agente, el entorno en sí mismo debe ser lo suficientemente robusto como para capturar cualquier comportamiento inesperado y aún así ofrecer comentarios útiles. Eso hace que los entornos de construcción sean mucho más complejos que un conjunto de datos estáticos.

Algunos entornos son bastante elaborados, lo que permite que los agentes de IA usen herramientas, accedan a Internet o usen varias aplicaciones de software para completar una tarea determinada. Otros son más estrechos, destinados a ayudar a un agente a aprender tareas específicas en aplicaciones de software empresarial.

Si bien los entornos RL son lo caliente en Silicon Valley en este momento, hay muchos precedentes para usar esta técnica. Uno de los primeros proyectos de Openai en 2016 estaba construyendo “Gimnasios RL“Que fueron bastante similares a la concepción moderna de los entornos. El mismo año, Google Deepmind’s Alfago AI System venció a un campeón mundial en el juego de mesa, Go. También utilizó técnicas RL dentro de un entorno simulado.

Lo único de los entornos de hoy es que los investigadores están tratando de construir agentes de IA que usen computadora con grandes modelos de transformadores. A diferencia de Alphago, que era un sistema de IA especializado que trabajaba en entornos cerrados, los agentes de IA de hoy están capacitados para tener capacidades más generales. Los investigadores de IA hoy tienen un punto de partida más fuerte, pero también un objetivo complicado en el que más puede salir mal.

Un campo lleno de gente

Las compañías de etiquetado de datos de IA como Scale AI, Surge y Mercor están tratando de cumplir con el momento y construir entornos RL. Estas compañías tienen más recursos que muchas nuevas empresas en el espacio, así como las relaciones profundas con los laboratorios de IA.

El CEO de Surge, Edwin Chen, le dice a TechCrunch que recientemente ha visto un “aumento significativo” en la demanda de entornos RL dentro de AI Labs. Surge, que según los informes generó $ 1.2 mil millones en ingresos El año pasado, de trabajar con Labs de IA como OpenAi, Google, Anthrope y Meta, recientemente provocó una nueva organización interna específicamente encargada de construir entornos RL, dijo.

Mercor está Mercor, una startup valorada en $ 10 mil millones, que también ha trabajado con OpenAi, Meta y Anthrope. Mercor está lanzando inversores en sus negocios de construcción de negocios RL para tareas específicas de dominio, como codificación, atención médica y derecho, según los materiales de marketing observados por TechCrunch.

El CEO de Mercor, Brendan Foody, le dijo a TechCrunch en una entrevista que “pocos entienden cuán grande es realmente la oportunidad en los entornos RL”.

Scale AI solía dominar el espacio de etiquetado de datos, pero ha perdido terreno desde que Meta invirtió $ 14 mil millones y contrató a su CEO. Desde entonces, Google y OpenAI eliminaron la IA de la escala como proveedor de datos, y la startup incluso enfrenta la competencia por el trabajo de etiquetado de datos dentro de Meta. Pero aún así, Scale está tratando de cumplir con el momento y construir entornos.

“Esta es solo la naturaleza del negocio (escala IA) en la que está”, dijo Chetan Rane, jefe de producto de AI para agentes y entornos RL. “La escala ha demostrado su capacidad para adaptarse rápidamente. Hicimos esto en los primeros días de los vehículos autónomos, nuestra primera unidad de negocios. Cuando salió ChatGPT, la AI de escala adaptada a eso. Y ahora, una vez más, nos estamos adaptando a nuevos espacios fronterizos como agentes y entornos”.

Algunos jugadores más nuevos se están centrando exclusivamente en entornos desde el principio. Entre ellos se encuentra Mecanize, una startup fundada hace aproximadamente seis meses con el audaz objetivo de “automatizar todos los trabajos”. Sin embargo, el cofundador Matthew Barnett le dice a TechCrunch que su empresa está comenzando con entornos RL para agentes de codificación de IA.

Mechanize tiene como objetivo suministrar a los laboratorios de IA un pequeño número de entornos RL robustos, dice Barnett, en lugar de firmas de datos más grandes que crean una amplia gama de entornos RL simples. Hasta este punto, el inicio está ofreciendo ingenieros de software $ 500,000 salarios Para construir entornos RL, mucho más alto que un contratista por hora podría ganar trabajar a escala AI o aumento.

Mechanize ya ha estado trabajando con antrópico en entornos RL, dijeron dos fuentes familiarizadas con el asunto TechCrunch. Mecanizar y antrópico declinaron hacer comentarios sobre la asociación.

Otras nuevas empresas apostan a que los entornos RL serán influyentes fuera de los laboratorios de IA. Prime Intellect, una startup respaldada por el investigador de IA Andrej Karpathy, Founders Fund y Menlo Ventures, está dirigido a desarrolladores más pequeños con sus entornos RL.

El mes pasado, Prime Intellect lanzó un RL Environments Hub, Lo cual tiene como objetivo ser una “cara abrazada para los entornos RL”. La idea es dar a los desarrolladores de código abierto acceso a los mismos recursos que tienen los grandes laboratorios de IA y vender a esos desarrolladores acceso a recursos computacionales en el proceso.

Los agentes de capacitación generalmente capaces en entornos RL pueden ser más costosos que las técnicas de capacitación de IA anteriores, según Prime Intellect Researcher Will Brown. Junto con las nuevas empresas que construyen entornos RL, hay otra oportunidad para los proveedores de GPU que pueden alimentar el proceso.

“Los entornos RL serán demasiado grandes para que cualquier compañía domine”, dijo Brown en una entrevista. “Parte de lo que estamos haciendo es solo tratar de construir una buena infraestructura de código abierto a su alrededor. El servicio que vendemos es calculador, por lo que es una rampa conveniente usar GPU, pero estamos pensando en esto más a largo plazo”.

¿Escalará?

La pregunta abierta en los entornos RL es si la técnica se escalará como métodos de entrenamiento de IA anteriores.

El aprendizaje de refuerzo ha impulsado algunos de los mayores saltos de IA durante el año pasado, incluidos modelos como Openi’s O1 y Claude Opus 4 de Anthrope. Esos son avances particularmente importantes porque los métodos previamente utilizados para mejorar los modelos de IA ahora muestran rendimientos decrecientes.

Los entornos son parte de la apuesta más grande de AI Labs en RL, que muchos creen que continuarán impulsando el progreso a medida que agregue más datos y recursos computacionales al proceso. Algunos de los investigadores de OpenAI detrás de O1 le dijeron previamente a TechCrunch que la compañía invirtió originalmente en modelos de razonamiento de IA, que se crearon a través de inversiones en RL y el tiempo de prueba de prueba, porque pensaron que se escalaría bien.

La mejor manera de escalar RL sigue sin estar clara, pero los entornos parecen un contendiente prometedor. En lugar de simplemente recompensar los chatbots para las respuestas de texto, permiten que los agentes operen en simulaciones con herramientas y computadoras a su disposición. Eso es mucho más intensivo en recursos, pero potencialmente más gratificante.

Algunos son escépticos de que todos estos entornos RL funcionarán. Ross Taylor, un ex líder de investigación de IA con Meta que cofundó el razonamiento general, le dice a TechCrunch que los entornos RL son propensos a recompensar la piratería. Este es un proceso en el que la IA modelos hace trampa para obtener una recompensa, sin realmente hacer la tarea.

“Creo que la gente está subestimando lo difícil que es escalar entornos”, dijo Taylor. “Incluso los mejores disponibles públicamente (entornos RL) generalmente no funcionan sin una modificación seria”.

El jefe de ingeniería de OpenAi para su negocio de API, Sherwin Wu, dijo en un podcast reciente que él era “corto” en las nuevas empresas del entorno RL. Wu señaló que es un espacio muy competitivo, pero también que la investigación de IA está evolucionando tan rápido que es difícil servir bien los laboratorios de IA.

Karpathy, un inversor en el intelecto principal que ha llamado a los entornos RL un posible avance, también ha expresado precaución para el espacio RL más ampliamente. En Publicar en xplanteó preocupaciones sobre cuánto más progreso de IA puede ser expulsado de RL.

“Soy optimista en entornos e interacciones agentes, pero soy bajista en el aprendizaje de refuerzo específicamente”, dijo Karpathy.

ACTUALIZACIÓN: Una versión anterior de este artículo referida a Mecanizar como trabajo mecanizado. Se ha actualizado para reflejar el nombre oficial de la compañía.

Fuente