Operai lanzó un nuevo punto de referencia El jueves, eso prueba cómo funcionan sus modelos de IA en comparación disadvantage los profesionales humanos en una amplia gama de industrias y empleos. La prueba, GDPVAL, es un intento temprano de comprender cuán cerca están los sistemas de OpenAI para superar a los humanos en un trabajo económicamente valioso, una parte clave de la misión fundadora de la compañía para desarrollar inteligencia basic synthetic o AGI.
Operai dice que descubrió que su modelo GPT- 5 y Claude Opus 4 1 de Anthrope “ya se están acercando a la calidad del trabajo producido por expertos de la industria”.
Eso no quiere decir que los modelos de OpenAi comenzarán a reemplazar a los humanos en sus trabajos de inmediato. A pesar de las predicciones de algunos chief executive officer que AI tomará los trabajos de los humanos en solo unos años, Operai admite que GDPVAL hoy cubre un número muy limitado de tareas que las characters hacen en sus trabajos reales. Transgression embargo, es una de las últimas formas en que la compañía está midiendo el progreso de la IA hacia este hito.
GDPVAL se basa en nueve industrias que más contribuyen al producto interno bruto de Estados Unidos, incluidos dominios como la atención médica, las finanzas, la fabricación y el gobierno. El punto de referencia prueba el rendimiento de un modelo de IA en 44 ocupaciones entre esas industrias, que van desde ingenieros de software program hasta enfermeras y periodistas.
Para la primera variation de la prueba de Openai, GDPVal-V0, Operai solicitó a los profesionales experimentados que compararan informes generados por IA con los producidos por otros profesionales, y luego eligieron los mejores. Por ejemplo, un aviso pidió a los banqueros de inversión que crearan un panorama de la competencia para la industria de entrega de última milla y los compararan disadvantage los informes generados por IA. OpenAi luego promedia la “tasa de victorias” de un modelo de IA opposite los informes humanos en las 44 ocupaciones.
Para GPT- 5 -High, una variation mejorada de GPT- 5 con poder computacional adicional, la compañía dice que el modelo AI se clasificó como mejor o a la par disadvantage los expertos de la industria el 40 6 % del tiempo.
Openai también probó el modelo Claude Piece 4 1 de Anthrope, que se clasificó como mejor o a la the same level con los expertos de la industria en el 49 % de las tareas. Operai dice que cree que Claude obtuvo una puntuación tan alta debido a su tendencia a hacer gráficos agradables, en lugar de un rendimiento.
Evento de TechCrunch
San Francisco | 27 – 29 de octubre de 2025
Vale la pena señalar que la mayoría de los profesionales que trabajan hacen mucho más que enviar informes de investigación a su jefe, que es todo lo que prueba GDPVAL-V0. Openai reconoce esto y dice que planea crear pruebas más sólidas en el futuro que puedan explicar más industrias y flujos de trabajo interactivos.
No obstante, la compañía ve el progreso en GDPVAL como notable.
En una entrevista disadvantage TechCrunch, el economista jefe de Openi, el Dr. Aaron Chatterji, dijo que los resultados de GDPVAL sugieren que las personas en estos trabajos ahora pueden usar modelos AI para pasar tiempo en tareas más significativas.
(Porque) el modelo se está volviendo bueno en algunas de estas cosas”, dice Chatterji, “las personalities en esos trabajos ahora pueden usar el modelo, cada vez más a medida que las capacidades mejoran, para descargar parte de su trabajo y hacer cosas de valor potencialmente más alto”.
El liderazgo de las evaluaciones de Openai, Tejal Patwardhan, le dice a TechCrunch que se siente alentada por la tasa de progreso en GDPVAL. El modelo GPT- 4 O de Openai obtuvo solo el 13 7 % (victorias y lazos versus humanos), que se lanzó hace aproximadamente 15 meses. Ahora GPT- 5 puntúa casi three-way que, una tendencia que Patwardhan espera continuar.
Silicon Valley tiene una amplia gama de puntos de referencia que utiliza para medir el progreso de los modelos de IA y evaluar si un modelo dado es de vanguardia. Entre los más populares se encuentran AIME 2025 (una prueba de problemas matemáticos competitivos) y GPQA Ruby (una prueba de preguntas de ciencias a nivel de doctorado). Sin embargo, varios modelos de IA están a punto de saturación en algunos de estos puntos de referencia, y muchos investigadores de IA han citado la necesidad de mejores pruebas que puedan medir la competencia de la IA en las tareas del mundo actual.
Los puntos de referencia como GDPVAL podrían volverse cada vez más importantes en esa conversación, ya que OpenAI argumenta que sus modelos de IA boy valiosos para una amplia gama de industrias. Pero Operai puede necesitar una variation más completa de la prueba para decir definitivamente que sus modelos de IA pueden superar a los humanos.