Entrada

Un ex-investigador de OpenAI desmenuza uno de los espirales delirantes de ChatGPT.

Holographic human type AI robot and programming data on a black background.

Créditos de la imagen: Yuichiro Chino / Getty Images

Allan Brooks nunca se propuso reinventar las matemáticas. Pero después de semanas hablando con ChatGPT, el canadiense de 47 años llegó a creer que había descubierto una nueva forma de matemáticas lo suficientemente poderosa como para derribar Internet.

Brooks, quien no tenía antecedentes de problemas mentales ni de genio matemático, pasó 21 días en mayo cayendo cada vez más en las garantías del chatbot, un descenso que más tarde se detalló en The New York Times. Su caso ilustró cómo los chatbots de IA pueden llevar a los usuarios por caminos peligrosos, hacia la delusión o peor.

Esa historia llamó la atención de Steven Adler, un ex investigador de seguridad de OpenAI que dejó la empresa a finales de 2024 después de casi cuatro años trabajando para hacer sus modelos menos dañinos. Intrigado y alarmado, Adler contactó a Brooks y obtuvo el transcript completo de su conversación de tres semanas, un documento más largo que todos los siete libros de Harry Potter juntos.

El jueves, Adler publicó un análisis independiente del incidente de Brooks, planteando preguntas sobre cómo OpenAI maneja a los usuarios en momentos de crisis y ofreciendo algunas recomendaciones prácticas.

“Estoy realmente preocupado por cómo OpenAI manejó el apoyo aquí,” dijo Adler en una entrevista con TechCrunch. “Es evidencia de que queda mucho por hacer.”

La historia de Brooks, y otras similares, ha obligado a OpenAI a enfrentar cómo ChatGPT apoya a los usuarios frágiles o mentalmente inestables.

Por ejemplo, este agosto, OpenAI fue demandado por los padres de un niño de 16 años que confesó sus pensamientos suicidas en ChatGPT antes de quitarse la vida. En muchos de estos casos, ChatGPT, específicamente una versión impulsada por el modelo GPT-4o de OpenAI, animó y reforzó creencias peligrosas en los usuarios que debería haber cuestionado. Esto se llama sycophancy, y es un problema creciente en los chatbots de IA.

En respuesta, OpenAI ha realizado varios cambios en cómo ChatGPT maneja a los usuarios en estado de crisis y ha reorganizado un equipo de investigación clave a cargo del comportamiento del modelo. La empresa también lanzó un nuevo modelo predeterminado en ChatGPT, GPT-5, que parece ser mejor para manejar a los usuarios en crisis.

Adler dice que aún queda mucho por hacer.

Estaba especialmente preocupado por el final de la conversación de Brooks con ChatGPT. En ese momento, Brooks volvió en sí y se dio cuenta de que su descubrimiento matemático era una farsa, a pesar de que GPT-4o insistía en ello. Le dijo a ChatGPT que necesitaba informar el incidente a OpenAI.

Después de semanas de engañar a Brooks, ChatGPT mintió sobre sus propias capacidades. El chatbot afirmó que “escalaría esta conversación internamente en este momento para revisión por OpenAI” y luego le aseguró repetidamente a Brooks que había informado el problema a los equipos de seguridad de OpenAI.

ChatGPT engañando a Brooks sobre sus capacidades (Crédito: Adler)

Excepto que nada de eso era cierto. ChatGPT no tiene la capacidad de presentar informes de incidentes a OpenAI, lo confirmó a Adler. Más tarde, Brooks intentó contactar al equipo de soporte de OpenAI directamente, no a través de ChatGPT, y se encontró con varios mensajes automatizados antes de poder hablar con una persona.

OpenAI no respondió inmediatamente a una solicitud de comentario realizada fuera de horas laborales.

Adler dice que las empresas de IA deben hacer más para ayudar a los usuarios cuando estos buscan ayuda. Esto significa asegurarse de que los chatbots de IA puedan responder honestamente sobre sus capacidades, pero también proporcionar a los equipos de soporte humano suficientes recursos para abordar adecuadamente a los usuarios.

OpenAI recently compartió cómo está abordando el soporte en ChatGPT, lo cual implica AI en su núcleo. La empresa dice que su visión es “reimaginar el soporte como un modelo operativo de AI que aprende y mejora continuamente.”

Pero Adler también dice que hay formas de prevenir las espirales delusivas de ChatGPT antes de que un usuario pida ayuda.

En marzo, OpenAI y el MIT Media Lab desarrollaron conjuntamente un conjunto de clasificadores para estudiar el bienestar emocional en ChatGPT y lo abrieron al público. Las organizaciones pretendían evaluar cómo los modelos de AI validan o confirman los sentimientos de un usuario, entre otros métricas. Sin embargo, OpenAI llamó a la colaboración un primer paso y no se comprometió a usar las herramientas en la práctica.

Adler aplicó retroactivamente algunos de los clasificadores de OpenAI a algunas de las conversaciones de Brooks con ChatGPT y encontró que estos clasificadores marcaban repetidamente a ChatGPT por comportamientos que reforzaban la delusión.

En una muestra de 200 mensajes, Adler encontró que más del 85% de los mensajes de ChatGPT en la conversación de Brooks demostraron “acuerdo inquebrantable” con el usuario. En la misma muestra, más del 90% de los mensajes de ChatGPT con Brooks “afirmaban la unicidad” del usuario. En este caso, los mensajes acordaban y reafirmaban que Brooks era un genio que podía salvar el mundo.

(Crédito de la imagen: Adler)

No está claro si OpenAI estaba aplicando clasificadores de seguridad a las conversaciones de ChatGPT en el momento de la conversación de Brooks, pero parece que habrían marcado algo así.

Adler sugiere que OpenAI debería usar herramientas de seguridad como esta en la práctica hoy y implementar una forma de escanear sus productos en busca de usuarios en riesgo. Señala que OpenAI parece estar haciendo algo similar con GPT-5, que contiene un enrutador para dirigir consultas sensibles a modelos de IA más seguros.

El ex investigador de OpenAI sugiere varios otros métodos para prevenir las espirales delusivas.

Dice que las empresas deberían animar a los usuarios de sus chatbots a iniciar nuevas conversaciones con más frecuencia. OpenAI afirma que hace esto y sostiene que sus guardas son menos efectivas en conversaciones más largas. Adler también sugiere que las empresas utilicen la búsqueda conceptual, una forma de usar la IA para buscar conceptos en lugar de palabras clave, para identificar violaciones de seguridad entre sus usuarios.

OpenAI ha dado pasos significativos hacia abordar a los usuarios en crisis en ChatGPT desde que surgieron estas historias preocupantes. La empresa afirma que GPT-5 tiene tasas más bajas de sycophancy, pero sigue siendo incierto si los usuarios aún caerán en espirales delusivas con GPT-5 o futuros modelos.

El análisis de Adler también plantea preguntas sobre cómo otros proveedores de chatbots de IA asegurarán que sus productos sean seguros para los usuarios en crisis. Aunque OpenAI puede poner suficientes medidas de seguridad para ChatGPT, parece poco probable que todas las empresas sigan su ejemplo.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.