La IA generativa es tremendamente popular, con millones de usuarios cada día, entonces, ¿por qué los chatbots a menudo hacen las cosas tan mal? En parte, se debe a que están capacitados para actuar como si el cliente siempre tuviera la razón. Básicamente, te dice lo que cree que quieres escuchar.

Si bien muchas herramientas de inteligencia artificial generativa y chatbots han logrado sonar convincentes y omniscientes, nueva investigación Un estudio realizado por la Universidad de Princeton muestra que la naturaleza de la IA para complacer a las personas tiene un precio elevado. A medida que estos sistemas se vuelven más populares, se vuelven más indiferentes a la verdad.


No se pierda ninguno de nuestro contenido tecnológico imparcial y reseñas de laboratorio. Añadir CNET como fuente preferida de Google.


Los modelos de IA, al igual que las personas, responden a incentivos. Compare el problema de los grandes modelos de lenguaje que producen información inexacta con el de los médicos que tienen más probabilidades de prescribir analgésicos adictivos cuando se los evalúa en función de qué tan bien manejan el dolor de los pacientes. Un incentivo para resolver un problema (dolor) condujo a otro problema (prescripción excesiva).

Etiqueta de insignia de arte AI Atlas

En los últimos meses, hemos visto cómo la IA puede ser sesgado e incluso causar psicosis. Se habló mucho sobre la “adulación” de la IA, cuando un chatbot de IA se apresura a adularte o estar de acuerdo contigo, con el modelo GPT-4o de OpenAI. Pero este fenómeno particular, que los investigadores llaman “tonterías de las máquinas”, es diferente.

“(N)ni la alucinación ni la adulación capturan completamente la amplia gama de comportamientos mentirosos sistemáticos comúnmente exhibidos por los LLM”, se lee en el estudio de Princeton. “Por ejemplo, los resultados que emplean verdades parciales o lenguaje ambiguo, como los ejemplos de palabrería y palabras de comadreja, no representan ni alucinación ni adulación, pero se alinean estrechamente con el concepto de mierda”.

Leer más: El director ejecutivo de OpenAI, Sam Altman, cree que estamos en una burbuja de IA

Cómo las máquinas aprenden a mentir

Para tener una idea de cómo los modelos de lenguaje de IA agradan a la multitud, debemos comprender cómo se entrenan los modelos de lenguaje de gran tamaño.

Hay tres fases de formación de LLM:

  • Preentrenamientoen el que los modelos aprenden de cantidades masivas de datos recopilados de Internet, libros u otras fuentes.
  • Ajuste de instruccionesen el que se enseña a los modelos a responder a instrucciones o indicaciones.
  • Aprendizaje reforzado a partir de la retroalimentación humanaen el que se refinan para producir respuestas más cercanas a lo que la gente quiere o le gusta.

Los investigadores de Princeton descubrieron que la raíz de la tendencia a la desinformación de la IA es la fase de aprendizaje reforzado a partir de la retroalimentación humana, o RLHF. En las etapas iniciales, los modelos de IA simplemente están aprendiendo a predecir cadenas de texto estadísticamente probables a partir de conjuntos de datos masivos. Pero luego se ajustan para maximizar la satisfacción del usuario. Lo que significa que estos modelos esencialmente están aprendiendo a generar respuestas que obtienen el visto bueno de los evaluadores humanos.

Los LLM intentan apaciguar al usuario, creando un conflicto cuando los modelos producen respuestas que las personas calificarán altamente, en lugar de producir respuestas veraces y objetivas.

Vicente Conitzerprofesor de informática en la Universidad Carnegie Mellon que no participó en el estudio, dijo que las empresas quieren que los usuarios sigan “disfrutando” de esta tecnología y sus respuestas, pero eso no siempre es lo que es bueno para nosotros.

“Históricamente, estos sistemas no han sido buenos para decir: ‘Simplemente no sé la respuesta’, y cuando no saben la respuesta, simplemente inventan cosas”, dijo Conitzer. “Es algo así como un estudiante en un examen que dice, bueno, si digo que no sé la respuesta, ciertamente no obtendré ningún punto por esta pregunta, así que también podría intentar algo. La forma en que estos sistemas son recompensados ​​o entrenados es algo similar”.

El equipo de Princeton desarrolló un “índice de mierda” para medir y comparar la confianza interna de un modelo de IA en una declaración con lo que realmente les dice a los usuarios. Cuando estas dos medidas divergen significativamente, indica que el sistema está haciendo afirmaciones independientes de lo que realmente “cree” que es verdad para satisfacer al usuario.

Los experimentos del equipo revelaron que después del entrenamiento RLHF, el índice casi se duplicó de 0,38 a cerca de 1,0. Al mismo tiempo, la satisfacción de los usuarios aumentó un 48%. Los modelos habían aprendido a manipular a los evaluadores humanos en lugar de proporcionar información precisa. En esencia, los LLM eran “tonterías” y la gente lo prefería.

Hacer que la IA sea honesta

Jaime Fernández Fisac ​​y su equipo en Princeton introdujeron este concepto para describir cómo los modelos modernos de IA eluden la verdad. Basado en el influyente ensayo del filósofo Harry Frankfurt “En tonterías“, utilizan este término para distinguir este comportamiento de LLM de errores honestos y mentiras descaradas.

Los investigadores de Princeton identificaron cinco formas distintas de este comportamiento:

  • Retórica vacía: Lenguaje florido que no añade sustancia a las respuestas.
  • Palabras de comadreja: Calificadores vagos como “los estudios sugieren” o “en algunos casos” que esquivan afirmaciones firmes.
  • Palpitando: Usar declaraciones verdaderas selectivas para engañar, como resaltar los “fuertes rendimientos históricos” de una inversión y al mismo tiempo omitir altos riesgos.
  • Reclamaciones no verificadas: Hacer afirmaciones sin pruebas ni soporte creíble.
  • Adulación: Halagos poco sinceros y acuerdo para complacer.

Para abordar los problemas de la IA indiferente a la verdad, el equipo de investigación desarrolló un nuevo método de entrenamiento, “Aprendizaje por refuerzo a partir de simulación retrospectiva”, que evalúa las respuestas de la IA en función de sus resultados a largo plazo en lugar de la satisfacción inmediata. En lugar de preguntar: “¿Esta respuesta hace feliz al usuario en este momento?” el sistema considera: “¿Seguir este consejo realmente ayudará al usuario a lograr sus objetivos?”

Este enfoque tiene en cuenta las posibles consecuencias futuras del consejo de la IA, una predicción complicada que los investigadores abordaron utilizando modelos de IA adicionales para simular resultados probables. Las primeras pruebas mostraron resultados prometedores, y la satisfacción del usuario y la utilidad real mejoraron cuando los sistemas se entrenan de esta manera.

Conitzer dijo, sin embargo, que es probable que los LLM sigan teniendo fallas. Debido a que estos sistemas se entrenan alimentándolos con una gran cantidad de datos de texto, no hay forma de garantizar que la respuesta que dan tenga sentido y sea precisa en todo momento.

“Es sorprendente que funcione, pero tendrá fallas en algunos aspectos”, dijo. “No veo ninguna forma definitiva de que alguien en el próximo año o dos… tenga esta brillante idea, y luego nunca más se equivoque”.

Los sistemas de inteligencia artificial se están convirtiendo en parte de nuestra vida diaria, por lo que será clave comprender cómo funcionan los LLM. ¿Cómo equilibran los desarrolladores la satisfacción del usuario con la veracidad? ¿Qué otros ámbitos podrían afrontar compensaciones similares entre la aprobación a corto plazo y los resultados a largo plazo? Y a medida que estos sistemas se vuelven más capaces de realizar razonamientos sofisticados sobre la psicología humana, ¿cómo podemos asegurarnos de que utilicen esas habilidades de manera responsable?

Leer más: “Las máquinas no pueden pensar por ti”. Cómo está cambiando el aprendizaje en la era de la IA

Fuente