El mes pasado, escribí sobre el nuevo punto de referencia de Mercor que mide las capacidades de los agentes de IA en tareas profesionales como derecho y análisis corporativo. En ese momento, las puntuaciones eran bastante deprimentes, y todos los laboratorios importantes obtuvieron una puntuación inferior al 25%, por lo que concluimos que los abogados estaban a salvo del desplazamiento de la IA, al menos por ahora.
Pero las capacidades de la IA pueden cambiar mucho en un par de semanas.
El lanzamiento de esta semana de Opus 4.6 sacudió las tablas de clasificacióncon el nuevo modelo de Anthropic obteniendo apenas un 30% en pruebas de una sola vez, y un promedio de 45% cuando se le dan algunas soluciones más al problema. En particular, el lanzamiento incluyó un montón de nuevas funciones de agentes, incluidos “enjambres de agentes”, que pueden haber ayudado con este tipo de resolución de problemas de varios pasos.
De todos modos, el puntaje es un gran salto con respecto al estado del arte anterior y una señal de que el progreso en los modelos básicos no se está desacelerando. Brendan Foody, director ejecutivo de Mercor, que quedó particularmente impresionado, dijo: “pasar del 18,4% al 29,8% en unos pocos meses es una locura”.
El treinta por ciento todavía está muy lejos del 100%, por lo que no es que los abogados deban preocuparse por ser reemplazados por máquinas la próxima semana. ¡Pero deberían tener mucha menos confianza que el mes pasado!



