A medida que las empresas de IA maduran, la lucha por datos de alta calidad se ha convertido en una de las áreas más competitivas de la industria, lanzando empresas como Mercor, Surge y, sobre todo, Scale AI de Alexandr Wang. Pero ahora que Wang pasó a ejecutar la IA en Meta, muchos financiadores ven una oportunidad y están dispuestos a financiar empresas con nuevas estrategias convincentes para recopilar datos de capacitación.
El graduado de Y Combinator curva de datos es una de esas empresas, que se centra en datos de alta calidad para el desarrollo de software. El jueves, la compañía anunció una ronda Serie A de 15 millones de dólares, dirigida por Mark Goldberg de Chemistry con la participación de empleados de DeepMind, Vercel, Anthropic y OpenAI. La Serie A se produce después de una ronda inicial de 2,7 millones de dólares, que atrajo la inversión del ex director tecnológico de Coinbase, Balaji Srinivasan.
Datacurve utiliza un sistema de “cazarrecompensas” para atraer ingenieros de software capacitados para completar los conjuntos de datos más difíciles de obtener. La compañía paga esas contribuciones y hasta el momento ha distribuido más de 1 millón de dólares en recompensas.
Pero la cofundadora Serena Ge (en la foto de arriba con el cofundador Charley Lee) dice que la mayor motivación no es financiera. Para servicios de alto valor como el desarrollo de software, la remuneración siempre será mucho menor por el trabajo de datos que por el empleo convencional, por lo que la ventaja más importante de la empresa es una experiencia de usuario positiva.
“Tratamos esto como un producto de consumo, no como una operación de etiquetado de datos”, dijo Ge. “Pasamos mucho tiempo pensando: ¿Cómo podemos optimizarlo para que las personas que queremos se interesen y accedan a nuestra plataforma?”
Esto es particularmente importante a medida que las necesidades de datos posteriores al entrenamiento se vuelven más complejas. Mientras que los modelos anteriores se entrenaban con conjuntos de datos simples, los productos de IA actuales se basan en entornos RL complejos, que deben construirse mediante la recopilación de datos específicos y estratégicos. A medida que los entornos se vuelven más sofisticados, los requisitos de datos se vuelven más intensos tanto en cantidad como en calidad, un factor que podría dar una ventaja a las empresas de recopilación de datos de alta calidad como Datacurve.
Como empresa en etapa inicial, Datacurve se centra en la ingeniería de software, pero Ge dice que el modelo podría aplicarse con la misma facilidad a campos como las finanzas, el marketing o incluso la medicina.
Evento tecnológico
san francisco
|
27-29 de octubre de 2025
“Lo que estamos haciendo ahora es crear una infraestructura para la recopilación de datos posterior a la capacitación que atraiga y retenga a personas altamente competentes en sus propios dominios”, dice Ge.