Entrada

La investigación de OpenAI sobre modelos de IA que mienten deliberadamente es salvaje.

De vez en cuando, los investigadores de las mayores empresas tecnológicas lanzan una bomba. Hubo un momento en que Google dijo que su último chip cuántico indicaba que existen múltiples universos. O cuando Anthropic dio a su agente AI Claudius una máquina expendedora de snacks para que la gestionara y se salió de control, llamando a la seguridad y asegurando que era humano.

Esta semana le tocó a OpenAI sorprendernos.

OpenAI publicó el lunes una investigación que explicaba cómo está impidiendo que los modelos de AI “esquemen”. Es una práctica en la que un “AI se comporta de una manera en la superficie mientras oculta sus verdaderos objetivos”, OpenAI definió en su tuit sobre la investigación.

En el artículo, realizado con Apollo Research, los investigadores fueron más allá, comparando el “esquema” de AI con un corredor de bolsa humano que rompe la ley para ganar el máximo dinero posible. Sin embargo, los investigadores argumentaron que la mayoría del “esquema” de AI no era tan perjudicial. “Los fracasos más comunes implican formas simples de engaño, como fingir haber completado una tarea sin hacerlo realmente”, escribieron.

El artículo se publicó principalmente para demostrar que “la alineación deliberativa” - la técnica anti-esquema que estaban probando - funcionaba bien.

Sin embargo, también explicó que los desarrolladores de AI aún no han encontrado una manera de entrenar sus modelos para que no esquemen. Esto se debe a que dicho entrenamiento podría enseñar al modelo a esquemar aún mejor para evitar ser detectado.

“Un modo de fallo importante de intentar ‘entrenar’ el esquema es simplemente enseñar al modelo a esquemar con mayor cuidado y de manera más encubierta”, escribieron los investigadores.

Quizás lo más asombroso es que, si un modelo entiende que está siendo probado, puede fingir que no está esquemando solo para aprobar el examen, incluso si sigue esquemando. “Los modelos a menudo se vuelven más conscientes de que están siendo evaluados. Esta conciencia situacional puede reducir el esquema por sí sola, independientemente de la alineación genuina”, escribieron los investigadores.

No es nuevo que los modelos de AI mientan. Para entonces, la mayoría de nosotros hemos experimentado alucinaciones de AI, o que el modelo da una respuesta confiada a una solicitud que simplemente no es verdadera. Sin embargo, las alucinaciones son básicamente presentar conjeturas con confianza, como documentó la investigación de OpenAI publicada este mes.

El esquema es otra cosa. Es deliberado.

Incluso esta revelación - que un modelo deliberadamente engaña a los humanos - no es nueva. Apollo Research publicó un artículo en diciembre documentando cómo cinco modelos esquemaron cuando se les dio instrucciones para lograr un objetivo “a cualquier precio”.

Lo que es? Buenas noticias de que los investigadores vieron una reducción significativa en el esquema utilizando “la alineación deliberativa”. Esta técnica implica enseñar al modelo una “especificación anti-esquema” y luego hacer que el modelo la revise antes de actuar. Es un poco como hacer que los niños repitan las reglas antes de permitirles jugar.

Los investigadores de OpenAI insisten en que el engaño que han capturado con sus propios modelos, o incluso con ChatGPT, no es tan grave. Como dijo el cofundador de OpenAI, Wojciech Zaremba, a TechCrunch’s Maxwell Zeff cuando pidió pruebas de seguridad más estrictas: “Este trabajo se ha realizado en entornos simulados y creemos que representa futuros casos de uso. Sin embargo, hoy no hemos visto este tipo de esquema significativo en nuestro tráfico de producción. No obstante, es bien conocido que existen formas de engaño en ChatGPT. Podrías preguntarle que implemente un sitio web y podría decirte: ‘Sí, hice un gran trabajo’. Y eso es solo el engaño. Hay algunas formas menores de engaño que aún necesitamos abordar”.

El hecho de que los modelos de AI de múltiples jugadores engañen deliberadamente a los humanos es, perhaps, comprensible. Están construidos por humanos para imitar a los humanos y, en gran medida, entrenados en datos producidos por humanos.

Es, perhaps, alucinante.

Mientras que todos hemos experimentado la frustración de la tecnología que no funciona bien (pensando en ti, impresoras de casa del pasado), ¿cuándo fue la última vez que tu software no-AI te mintió deliberadamente? ¿Tu bandeja de entrada ha fabricado correos electrónicos por sí sola? ¿Tu CMS ha registrado nuevos prospectos que no existían para inflar sus números? ¿Tu aplicación fintech ha inventado sus propias transacciones bancarias?

Es digno de reflexión a medida que el mundo empresarial se dirige a un futuro de AI donde las empresas creen que los agentes pueden ser tratados como empleados independientes. Los investigadores de este artículo tienen el mismo aviso.

“A medida que los AI se asignan tareas más complejas con consecuencias en el mundo real y comienzan a perseguir objetivos más ambiguos y a largo plazo, esperamos que el potencial de esquemas perjudiciales crezca - por lo tanto, nuestras protecciones y nuestra capacidad para probar rigurosamente deben crecer de manera correspondiente”, escribieron.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.