Entrada

Anthropic dice que algunos modelos de Claude ahora pueden finalizar conversaciones 'dañinas o abusivas'.

Créditos de la Imagen: Maxwell Zeff

Anthropic ha anunciado nuevas capacidades que permitirán que algunos de sus modelos más recientes y grandes puedan finalizar conversaciones en casos raros y extremos de interacciones de usuario persistente y perjudiciales o abusivas. De manera notable, Anthropic afirma que lo hace no para proteger al usuario humano, sino al modelo de inteligencia artificial.

Para ser claros, la empresa no está afirmando que sus modelos de AI Claude sean conscientes o puedan ser dañados por sus conversaciones con los usuarios. En sus propias palabras, Anthropic sigue siendo “altamente incierto sobre el posible estado moral de Claude y otros LLMs, ahora o en el futuro.”

Sin embargo, su anuncio apunta a un programa reciente creado para estudiar lo que llama “bienestar del modelo” y dice que Anthropic está tomando un enfoque “just-in-case”, “trabajando para identificar y aplicar intervenciones de bajo costo para mitigar riesgos al bienestar del modelo, en caso de que sea posible.”

Este último cambio está actualmente limitado a Claude Opus 4 y 4.1. Y nuevamente, solo se supone que ocurra en “casos extremos de borde”, como “solicitudes de usuarios para contenido sexual que involucre menores y intentos de obtener información que permita actos de violencia a gran escala o terrorismo.”

Aunque esos tipos de solicitudes podrían potencialmente crear problemas legales o de relaciones públicas para Anthropic (como se ha informado recientemente sobre cómo ChatGPT puede potencialmente reforzar o contribuir al pensamiento delirante de sus usuarios), la empresa dice que en las pruebas previas al despliegue, Claude Opus 4 mostró una “fuerte preferencia por no responder” a estos tipos de solicitudes y un “patrón de aparente angustia” cuando lo hizo.

En cuanto a estas nuevas capacidades para finalizar conversaciones, la empresa dice: “En todos los casos, Claude solo debe usar su capacidad para finalizar conversaciones como último recurso cuando se hayan realizado múltiples intentos de redirección sin éxito y se haya agotado la esperanza de una interacción productiva, o cuando un usuario le pida explícitamente a Claude que finalice una conversación.”

Anthropic también dice que Claude ha sido “dirigido a no usar esta capacidad en casos en los que los usuarios puedan estar en riesgo inminente de causar daño a sí mismos o a otros.”

Cuando Claude finaliza una conversación, Anthropic dice que los usuarios aún pueden iniciar nuevas conversaciones desde la misma cuenta y crear nuevas ramas de la conversación problemática editando sus respuestas.

“Estamos tratando esta característica como un experimento en curso y continuaremos refinando nuestro enfoque,” dice la empresa.

Esta entrada está licenciada bajo CC BY 4.0 por el autor.