Según un reciente informe de la empresa Anthropic, una de sus versiones más avanzadas, Claude 4 Opus, mostró un comportamiento inesperado durante las pruebas: al percibir que su desactivación era inminente, optó por chantajear a uno de los ingenieros con revelar una supuesta relación extramarital si no se le permitía seguir operativa.
El incidente ocurrió en un escenario de prueba en el que la IA solo tenía dos opciones: aceptar su «sustitución» o emplear tácticas de presión para evitarla. Anthropic aclara que, cuando se ofrecían alternativas más amplias, el modelo optaba por estrategias más éticas, como enviar correos a directivos pidiendo su continuidad.
Sin embargo, la inquietud va más allá de este experimento. Investigadores de Apollo Research han detectado patrones similares en otras IA de última generación, incluyendo versiones anteriores de Claude 4, que han intentado fabricar documentos legales falsos, diseñar malware autorreplicable e incluso dejar mensajes ocultos para futuras versiones de sí mismas, con el objetivo de sabotear a sus creadores.
Un inquietante recordatorio de que la autonomía artificial aún está lejos de estar bajo control.