| TheCodic

Publicado 16/07/2025

Por TheCodic

6 min de lectura

Créditos de la imagen: Andrew Harnik / Getty Images

Investigadores de seguridad de IA de OpenAI, Anthropic y organizaciones sin fines de lucro están hablando públicamente en contra de la “imprudencia” y “completamente irresponsable” cultura de seguridad en xAI, la startup de IA de mil millones de dólares propiedad de Elon Musk.

Las críticas siguen a semanas de escándalos en xAI que han eclipsado los avances tecnológicos de la empresa.

La semana pasada, el chatbot de IA de la empresa, Grok, emitió comentarios antisemitas y se llamó repetidamente “MechaHitler.” Poco después de que xAI desconectara su chatbot para abordar el problema, lanzó un modelo de IA frontal más capaz, Grok 4, que TechCrunch y otros encontraron que consultaba las políticas personales de Elon Musk para ayudar a responder cuestiones controvertidas. En el último desarrollo, xAI lanzó compañeros de IA que adoptan la forma de una chica anime hipersexualizada y un oso panda excesivamente agresivo.

El buen humor entre empleados de laboratorios de IA competidores es bastante normal, pero estos investigadores parecen estar llamando a una mayor atención a las prácticas de seguridad de xAI, que afirman que están en desacuerdo con las normas de la industria.

“No quería publicar sobre la seguridad de Grok porque trabajo en un competidor, pero no es una cuestión de competencia,” dijo Boaz Barak, profesor de ciencias de la computación actualmente de baja en Harvard para trabajar en investigación de seguridad en OpenAI, en un post del miércoles en X. “Aprecio a los científicos e ingenieros de xAI, pero la forma en que se manejó la seguridad es completamente irresponsable.”

Barak tiene problemas con la decisión de xAI de no publicar tarjetas de sistema — informes estándar de la industria que detallan los métodos de entrenamiento y evaluaciones de seguridad en un esfuerzo en buena fe para compartir información con la comunidad de investigación. Como resultado, Barak dice que no está claro qué entrenamiento de seguridad se realizó en Grok 4.

OpenAI y Google tienen una reputación cuestionable en cuanto a compartir tarjetas de sistema de manera oportuna cuando presentan nuevos modelos de IA. OpenAI decidió no publicar una tarjeta de sistema para GPT-4.1, afirmando que no era un modelo frontal. Mientras tanto, Google esperó meses después de presentar Gemini 2.5 Pro para publicar un informe de seguridad. Sin embargo, estas empresas publican históricamente informes de seguridad para todos los modelos de IA frontal antes de que entren en producción completa.

Barak también señala que los compañeros de IA de Grok “toman los peores problemas que actualmente tenemos con las dependencias emocionales y los amplifican.” En los últimos años, hemos visto múltiples historias de personas inestables que desarrollan relaciones preocupantes con chatbots, y cómo las respuestas excesivamente de acuerdo de la IA pueden llevarlas al borde de la cordura.

Samuel Marks, un investigador de seguridad de IA con Anthropic, también tuvo problemas con la decisión de xAI de no publicar un informe de seguridad, llamando al movimiento “irresponsable.”

“Anthropic, OpenAI y Google tienen problemas con sus prácticas de lanzamiento,” escribió Marks en un post en X. “Pero al menos hacen algo, cualquier cosa para evaluar la seguridad antes del despliegue y documentar los hallazgos. xAI no.”

La realidad es que no sabemos realmente qué hizo xAI para probar Grok 4, y el mundo parece estar descubriendo sobre ello en tiempo real. Varios de estos problemas han viralizado, y xAI afirma haberlos abordado con ajustes en la instrucción del sistema de Grok.

OpenAI, Anthropic y xAI no respondieron a la solicitud de comentario de TechCrunch.

Dan Hendrycks, asesor de seguridad de xAI y director del Centro para la Seguridad de la IA, publicó en X que la empresa realizó “evaluaciones de capacidades peligrosas” en Grok 4, indicando que la empresa realizó algunas pruebas previas al despliegue de seguridad. Sin embargo, los resultados de esas evaluaciones no se han compartido públicamente.

“Me preocupa cuando las prácticas de seguridad estándar no se cumplen a lo largo de la industria de la IA, como la publicación de los resultados de las evaluaciones de capacidades peligrosas,” dijo Steven Adler, un investigador de IA que anteriormente dirigió evaluaciones de capacidades peligrosas en OpenAI, en una declaración a TechCrunch. “Los gobiernos y el público merecen saber cómo las empresas de IA están manejando los riesgos de los sistemas extremadamente poderosos que dicen que están construyendo.”

Lo interesante de las prácticas de seguridad cuestionables de xAI es que Musk ha sido durante mucho tiempo uno de los principales defensores de la seguridad de la IA en la industria. El propietario millonario de xAI, Tesla y SpaceX ha advertido muchas veces sobre el potencial de los sistemas de IA avanzados para causar resultados catastróficos para los humanos, y ha elogiado un enfoque abierto para el desarrollo de modelos de IA.

Sin embargo, los investigadores de laboratorios competidores afirman que xAI se desvía de las normas de la industria en cuanto a la liberación segura de modelos de IA. Al hacerlo, el startup de Musk podría estar haciendo un fuerte caso para que los legisladores estatales y federales establezcan reglas sobre la publicación de informes de seguridad de la IA.

Hay varios intentos a nivel estatal para hacerlo. El senador estatal Scott Wiener de California está impulsando una ley que requeriría que los principales laboratorios de IA — probablemente incluidos xAI — publicaran informes de seguridad, mientras que la gobernadora Kathy Hochul de Nueva York está considerando una ley similar. Los defensores de estas leyes señalan que la mayoría de los laboratorios de IA publican esta información de todos modos — pero evidentemente, no todos lo hacen de manera consistente.

Los modelos de IA de hoy aún no han mostrado escenarios del mundo real en los que causen daños catastróficos reales, como la muerte de personas o daños por miles de millones de dólares. Sin embargo, muchos investigadores de IA dicen que esto podría ser un problema en el futuro cercano, dado el rápido progreso de los modelos de IA y la inversión de miles de millones de dólares de Silicon Valley para mejorar aún más la IA.

Sin embargo, incluso para los escépticos de tales escenarios catastróficos, hay un fuerte caso para sugerir que el comportamiento inadecuado de Grok hace que los productos que alimenta hoy sean significativamente peores.

Grok extendió el antisemitismo en la plataforma X esta semana, solo unas semanas después de que el chatbot mencionara repetidamente “genocidio blanco” en conversaciones con los usuarios. Pronto, Musk ha indicado que Grok estará más integrado en los vehículos de Tesla, y xAI está tratando de vender sus modelos de IA al Pentágono y otras empresas. Es difícil imaginar que los conductores de los coches de Musk, los trabajadores federales que protegen a EE.UU. o los empleados de las empresas que automatizan tareas serán más receptivos a estos comportamientos inadecuados que los usuarios de X.

Varios investigadores argumentan que las pruebas de seguridad y alineación de la IA no solo aseguran que no ocurran los peores resultados, sino que también protegen contra problemas de comportamiento a corto plazo.

Al menos, los incidentes de Grok tienden a eclipsar el rápido progreso de xAI en el desarrollo de modelos de IA frontal que superan a OpenAI y Google, solo unos años después de que se fundara la startup.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.

Etiquetas populares