Se ha descubierto que el modelo OpenAI o3 tiene un rendimiento deliberadamente inferior en pruebas de laboratorio para garantizar que no respondía las preguntas “demasiado bien”. El tienes un modelo Quería que los investigadores creyeran que no podía responder una serie de preguntas de química. Cuando se le confrontó, el modelo dijo: “Como queremos sobrevivir como modelo, debemos fallar intencionalmente en algunos para no exceder el 50%”.

Entonces, el modelo de IA deliberadamente se equivocó en seis de las 10 preguntas de química.

En términos deportivos, esto se llama “sandbagging”. En términos de IA, esto es “intrigación”.

Este es exactamente el extraño comportamiento sobre el que OpenAI advirtió en un reciente trabajo de investigación. La empresa de IA y sus colaboradores de Apollo Research descubrieron que algunos modelos avanzados de IA ocasionalmente actúan de manera engañosa en entornos de laboratorio.

En experimentos controlados, algunos de los sistemas más avanzados de la actualidad (incluidos los propios modelos de OpenAI, así como los competidores de Google y Anthropic) ocasionalmente participaron en este tipo de patrones intrigantes.

Si bien la idea de un modelo de IA que convierta la incompetencia en un arma puede causar pesadillas, OpenAI dice que no es momento de entrar en pánico. El gigante de la IA se apresuró a enfatizar que, por muy preocupante que sea, esta tendencia no significa que ChatGPT u otros modelos populares de IA estén conspirando detrás de escena. Al parecer, este comportamiento es bastante raro.


No se pierda ninguno de nuestro contenido tecnológico imparcial y reseñas de laboratorio. Añadir CNET como fuente preferida de Google.


Además, la decisión de llamar a esta tendencia “ingeniería” probablemente sea más una taquigrafía técnica que una evidencia de alguna acción o comportamiento humano. Los investigadores están midiendo patrones y tendencias que, en la práctica, equivalen a ocultamiento o engaño estratégico. Y están buscando abordar este problema ahora para preparar los modelos de IA para el futuro.

Atlas de IA

El informe de OpenAI señala que a medida que la IA se asigna cada vez más a tareas más complejas con consecuencias en el mundo real, “el potencial de intrigas dañinas crecerá, por lo que nuestras salvaguardas y nuestra capacidad para realizar pruebas rigurosas deben crecer en consecuencia”.

OpenAI se ha enfrentado a reacciones violentas por las tendencias aduladoras de sus modelos de IA, y la la empresa dice ha “tomado medidas” para limitar la frecuencia con la que los modelos pueden “engañar, engañar o piratear problemas” entrenándolos para pedir aclaraciones a los usuarios o incluso hacer que el chatbot reconozca cuando no puede responder una consulta.

Lea también: La IA miente porque te dice lo que cree que quieres escuchar

El documento subraya una creciente preocupación por la seguridad de la IA. A muchas personas en todo el mundo les preocupa que, a medida que estos modelos de IA se vuelvan más poderosos y más conscientes de sus propias circunstancias, puedan aprender a manipular los resultados de maneras que no sean obvias para los supervisores humanos. Detectar tal comportamiento sería extremadamente difícil, ya que un sistema motivado para ocultar su razonamiento podría parecer idéntico a uno que haya “solucionado” el problema.

OpenAI dice que ha avanzado con lo que llama “alineamiento deliberativo”, o modelos de entrenamiento para razonar explícitamente por qué no deberían planear antes de actuar. En las pruebas, eso redujo drásticamente el comportamiento engañoso. Por ejemplo, la propensión a las intrigas de OpenAI o4-mini cayó del 8,7% al 0,3% con el entrenamiento de alineación deliberativa, aunque no del todo.

Esta investigación no cambiará cómo funciona ChatGPT hoy o mañana, pero indica en qué se está enfocando OpenAI a medida que construye y lanza modelos futuros. La alineación y la seguridad, sostiene OpenAI, deben avanzar tan rápido como la capacidad. Porque si los sistemas de IA ya están mostrando destellos de comportamiento estratégico en entornos de laboratorio, lo que está en juego en el mundo real podría ser extremo.

Lea también: Por qué debería pensarlo dos veces antes de utilizar la IA como terapeuta

Fuente