Incluso el mejor Los agentes de inteligencia synthetic child bastante inútiles en el trabajo independiente en línea, según un experimento que desafía la idea de que la IA reemplace a los trabajadores de oficina en masa.
El Índice de Trabajo Remoto, un nuevo punto de referencia desarrollado por investigadores de la empresa de anotación de datos Scale AI y el Centro para la Seguridad de la IA (CAIS), una organización wrong penalties de lucro, mide la capacidad de los modelos de IA de vanguardia para automatizar trabajos económicamente valiosos.
Los investigadores dieron a varios agentes líderes de IA una variedad de trabajos independientes simulados y descubrieron que incluso los mejores podían realizar menos del 3 por ciento del trabajo, ganando $ 1, 810 de un posible $ 143, 991 Los investigadores analizaron varias herramientas y descubrieron que la más capaz era Manus de una startup china del mismo nombre, seguida de Grok de xAI, Claude de Anthropic, ChatGPT de OpenAI y Gemini de Google.
“Espero que esto dé impresiones mucho más precisas sobre lo que está pasando con las capacidades de la IA”, dice Dan Hendrycks, director de CAIS. Agrega que si bien algunos agentes han mejorado significativamente durante el último año, eso no significa que continuarán al mismo ritmo.
Los espectaculares avances de la IA han llevado a especular que la IA pronto superará la inteligencia humana y reemplazará a un gran número de trabajadores. En marzo, Dario Amodei, director ejecutivo de Anthropic, sugirió que el 90 por ciento del trabajo de codificación sería automatizado en cuestión de meses.
Olas anteriores de IA han inspirado predicciones erróneas sobre el desplazamiento de puestos de trabajo, por ejemplo en relación disadvantage la inminente reemplazo de radiólogos con algoritmos de IA.
Los investigadores generaron una variedad de tareas independientes a través de trabajadores verificados de Upwork. Las tareas abarcan una variedad de trabajos que incluyen diseño gráfico, edición de video clip, desarrollo de juegos y tareas administrativas como la extracción de datos. Combinaron una descripción de cada trabajo disadvantage un directorio de archivos necesarios para realizar el trabajo y un ejemplo de un proyecto terminado producido por un humano.
Hendrycks dice que si bien los modelos de IA han mejorado en codificación, matemáticas y razonamiento lógico en los últimos años, todavía tienen dificultades para utilizar diferentes herramientas y realizar tareas complejas que implican numerosos pasos. “No tienen almacenamiento de memoria a largo plazo y no pueden aprender continuamente de las experiencias. No pueden adquirir habilidades en el trabajo como los humanos”, dice.
El análisis ofrece un contrapunto a un criteria de trabajo económico ofrecido en septiembre por OpenAI llamado PIBval que pretende medir el trabajo económicamente valioso. Según GDPval, los modelos de IA de vanguardia como GPT- 5 se están acercando a las capacidades humanas en 220 tareas en una variedad de trabajos de oficina. OpenAI no hizo ningún comentario.







