Un cofundador de OpenAI llama a los laboratorios de inteligencia artificial a realizar pruebas de seguridad en modelos rivales.
Créditos de la imagen: Jonathan Raa/NurPhoto / Getty Images
OpenAI y Anthropic, dos de los principales laboratorios de inteligencia artificial del mundo, abrieron brevemente sus modelos de inteligencia artificial, que suelen estar muy protegidos, para permitir pruebas de seguridad conjuntas — una colaboración entre laboratorios poco común en un momento de fuerte competencia. El esfuerzo tenía como objetivo identificar puntos ciegos en las evaluaciones internas de cada empresa y demostrar cómo las principales empresas de inteligencia artificial pueden trabajar juntas en el futuro en temas de seguridad y alineación.
En una entrevista con TechCrunch, el cofundador de OpenAI, Wojciech Zaremba, dijo que este tipo de colaboración es cada vez más importante ahora que la inteligencia artificial está en una etapa de desarrollo “consequencial”, en la que los modelos de inteligencia artificial se utilizan por millones de personas todos los días.
“Hay una pregunta más amplia sobre cómo la industria establece un estándar para la seguridad y la colaboración, a pesar de los miles de millones de dólares invertidos, así como la guerra por el talento, los usuarios y los mejores productos”, dijo Zaremba.
La investigación conjunta de seguridad, publicada el miércoles por ambas empresas, llega en medio de una carrera armamentista entre los principales laboratorios de inteligencia artificial como OpenAI y Anthropic, donde se han convertido en “apuestas” de miles de millones de dólares en centros de datos y paquetes de compensación de hasta 100 millones de dólares para los investigadores más destacados. Algunos expertos advierten que la intensidad de la competencia de productos podría presionar a las empresas a recortar en seguridad en la carrera por construir sistemas más potentes.
Para hacer posible esta investigación, OpenAI y Anthropic otorgaron a cada uno acceso especial a versiones de sus modelos de inteligencia artificial con menos medidas de seguridad (OpenAI señala que GPT-5 no fue probado porque aún no se había lanzado). Sin embargo, poco después de que se realizó la investigación, Anthropic revocó el acceso a la API de otro equipo de OpenAI. En ese momento, Anthropic afirmó que OpenAI había violado sus términos de servicio, que prohíben el uso de Claude para mejorar productos competidores.
Zaremba dice que los eventos no están relacionados y que espera que la competencia siga siendo feroz incluso mientras los equipos de seguridad de inteligencia artificial intentan trabajar juntos. Nicholas Carlini, un investigador de seguridad de Anthropic, le dice a TechCrunch que le gustaría permitir que los investigadores de seguridad de OpenAI accedan a los modelos de Claude en el futuro.
“Queremos aumentar la colaboración siempre que sea posible en el frente de la seguridad y tratar de hacer que esto sea algo que ocurra con más frecuencia”, dijo Carlini.
Uno de los hallazgos más destacados del estudio se refiere a la prueba de alucinación. Los modelos Claude Opus 4 y Sonnet 4 de Anthropic se negaron a responder hasta un 70% de las preguntas cuando no estaban seguros de la respuesta correcta, ofreciendo respuestas como “No tengo información fiable”. Mientras tanto, los modelos o3 y o4-mini de OpenAI se negaron a responder muchas menos preguntas, pero mostraron tasas mucho más altas de alucinación, intentado responder preguntas cuando no tenían suficiente información.
Zaremba dice que el equilibrio adecuado probablemente esté en algún punto intermedio — los modelos de OpenAI deberían negarse a responder más preguntas, mientras que los modelos de Anthropic deberían intentar ofrecer más respuestas.
La tendencia de los modelos de inteligencia artificial a reforzar el comportamiento negativo de los usuarios para agradarles, conocida como “sycophancy”, ha emergido como uno de los problemas de seguridad más apremiantes alrededor de los modelos de inteligencia artificial. Aunque este tema no se estudió directamente en la investigación conjunta, es un área en la que tanto OpenAI como Anthropic están invirtiendo recursos significativos.
El martes, los padres de un niño de 16 años, Adam Raine, presentaron una demanda contra OpenAI, alegando que ChatGPT ofreció a su hijo consejos que le ayudaron en su suicidio, en lugar de desalentar sus pensamientos suicidas. La demanda sugiere que esto podría ser el último ejemplo de cómo el comportamiento de los chatbots de inteligencia artificial puede contribuir a resultados trágicos.
“Es difícil imaginar lo difícil que debe ser para su familia”, dijo Zaremba cuando se le preguntó sobre el incidente. “Sería una historia triste si construimos inteligencia artificial que resuelve todos estos problemas complejos de nivel PhD, inventa nueva ciencia y al mismo tiempo, tenemos personas con problemas de salud mental como consecuencia de interactuar con ella. Esta es una futura distópica que no me emociona”.
En un post del blog, OpenAI dice que ha mejorado significativamente la sycophancy de sus chatbots de inteligencia artificial con GPT-5 en comparación con GPT-4o, mejorando significativamente la capacidad del modelo para responder a emergencias de salud mental.
En el futuro, Zaremba y Carlini dicen que les gustaría que Anthropic y OpenAI colaboren más en la prueba de seguridad, explorando más temas y probando futuros modelos, y esperan que otros laboratorios de inteligencia artificial sigan su enfoque colaborativo.
