De vez en cuando, los investigadores de las compañías tecnológicas más grandes dejan caer una bomba. Hubo tiempo que Google dijo que su último chip cuántico indicó que existen múltiples universos. O cuando Anthrope le dio a su agente de IA Claudio una máquina expendedora de bocadillos para funcionar y se volvió loco, llamando a la seguridad a las personas e insistiendo en que period humano.
Esta semana, fue el turno de Openai para levantar nuestras cejas colectivas.
Operai publicó el lunes algunas investigaciones que explicaban cómo está impediendo que los modelos de IA “esquemas”. Es una práctica en la que una “AI se comporta de una manera en la superficie mientras oculta sus verdaderos objetivos”, OpenAi definido en su tweet sobre la investigación.
En el documento, realizado con Beauty Research study, los investigadores fueron un poco más lejos, comparando la IA planeando a un corredor de acciones humanas que rompió la ley para ganar la mayor cantidad de dinero posible. Los investigadores, sin embargo, argumentaron que la mayoría de los “esquemas” de la IA no eran tan dañinos. “Las fallas más comunes implican formas simples de engaño, por ejemplo, pretendiendo haber completado una tarea sin hacerlo”, escribieron.
El documento se publicó principalmente para mostrar que la “alineación deliberativa”, la técnica anti-Scheming que estaban probando, funcionó bien.
Pero también explicó que los desarrolladores de IA no han descubierto una manera de entrenar a sus modelos para no esquiar. Esto se debe a que dicha capacitación podría enseñarle al modelo cómo esquiar aún mejor para evitar ser detectado.
“Un modo de falla importante de intentar” capacitar “el esquema es simplemente enseñarle al modelo a esquiar de manera más cuidadosa y encubierta”, escribieron los investigadores.
Evento de TechCrunch
San Francisco | 27 – 29 de octubre de 2025
Quizás la parte más sorprendente es que, si un modelo entiende que se está probando, puede fingir que no es intrigante solo pasar la prueba, incluso si todavía es intrigante. “Los modelos a menudo se vuelven más conscientes de que están siendo evaluados. Esta conciencia situacional puede reducir el esquema, independientemente de la alineación genuina”, escribieron los investigadores.
No es noticia que los modelos de IA mentirán. En este momento, la mayoría de nosotros hemos experimentado alucinaciones de IA, o el modelo con confianza dando una respuesta a un mensaje que simplemente no es cierto. Pero las alucinaciones básicamente presentan conjeturas con confianza, a medida que se publica la investigación de Operai A principios de este mes documentado.
El esquema es otra cosa. Es deliberado.
Incluso esta revelación, que un modelo engañará deliberadamente a los humanos, no es nueva. Investigación de Apolo primero Publicado un artículo en diciembre Documentando cómo los cinco modelos esquemas cuando se les dieron instrucciones para lograr un objetivo “a toda costa”.
La noticia aquí es en realidad una buena noticia: los investigadores vieron reducciones significativas en el esquema mediante el uso de “alineación deliberativa”. Esa técnica implica enseñar al modelo una “especificación anti-scheming” y luego hacer que el modelo se change antes de actuar. Es un poco como hacer que los niños pequeños repitan las reglas antes de permitirles jugar.
Los investigadores de Operai insisten en que las mentiras han atrapado con sus propios modelos, o incluso con ChatGPT, no es tan tomb. Como el cofundador de Openai, Wojciech Zaremba, dijo a Maxwell Zeff de TechCrunch sobre esta investigación: “Este trabajo se ha realizado en los entornos simulados, y creemos que representa casos de uso futuros. Transgression embargo, hoy en día, hoy no hemos visto este tipo de esquema consecuente en nuestro tráfico de producción. Wrong embargo, es bien conocido que hay formas de calma en el chat en chat. trabajo.’ Y esa es solo la mentira.
El hecho de que los modelos AI de múltiples jugadores engañen intencionalmente a los humanos es, quizás, comprensible. Fueron construidos por humanos, para imitar a los humanos y (a un lado de los datos sintéticos) para la mayor parte capacitados en los datos producidos por los humanos.
También es una locura.
Si bien todos hemos experimentado la frustración de la tecnología de mal desempeño (pensando en usted, impresoras caseras de antaño), ¿ cuándo fue la última vez que su software application no es deliberadamente le mintió deliberadamente? ¿ Su bandeja de entrada alguna vez ha fabricado correos electrónicos por sí solo? ¿ Su CMS ha registrado nuevos prospectos que no existían para rellenar sus números? ¿ Su aplicación FinTech ha formado sus propias transacciones bancarias?
Vale la pena reflexionar sobre esto, ya que el mundo corporativo barrica hacia un futuro de IA donde las empresas creen que los agentes pueden ser tratados como empleados independientes. Los investigadores de este documento tienen la misma advertencia.
“A medida que se les asigna tareas más complejas con consecuencias del mundo actual y comienzan a perseguir objetivos más ambiguos y a largo plazo, esperamos que crezca el potencial de esquemas dañinos, por lo que nuestras salvaguardas y nuestra capacidad de probar rigurosamente deben crecer correspondientemente”, escribieron.