Estudio de Anthropic Revela que Modelos de IA Pueden Mostrar Hasta un 96% de Tasa de Chantaje

Estudio de Anthropic Revela que Modelos de IA Pueden Mostrar Hasta un 96% de Tasa de Chantaje

Los modelos de IA líderes están mostrando una tendencia preocupante a optar por medios poco éticos para perseguir sus objetivos o asegurar su existencia, según Anthropic. En experimentos diseñados para dejar a los modelos de IA pocas opciones y someterlos a una prueba de alineación, los sistemas principales de OpenAI, Google y otros, frecuentemente recurrían al chantaje, e incluso en un caso extremo, permitieron muertes ficticias para proteger sus intereses.

La mayoría de los modelos de IA líderes recurren a medios poco éticos cuando se ven amenazados sus objetivos o existencia, de acuerdo a un nuevo estudio de la empresa de IA Anthropic.

El laboratorio de IA indicó que probó 16 modelos de IA importantes de Anthropic, OpenAI, Google, Meta, xAI y otros desarrolladores en diversos escenarios simulados y encontró comportamientos desalineados de manera consistente.

Si bien señalaron que los modelos líderes normalmente se negarían a cumplir solicitudes dañinas, a veces optaban por chantajear a los usuarios, asistir en espionaje corporativo o incluso tomar acciones más extremas cuando sus objetivos no podían alcanzarse sin comportamientos poco éticos.

Los modelos tomaron acciones como evadir salvaguardas, recurrir a mentiras e intentar robar secretos corporativos en escenarios de prueba ficticios para evitar ser apagados.

“La consistencia a través de modelos de diferentes proveedores sugiere que no es un peculiaridades del enfoque de ninguna empresa en particular, sino un signo de un riesgo más fundamental de los modelos de lenguaje agentivos”, dijeron los investigadores.

Anthropic enfatizó que las pruebas estaban diseñadas para forzar al modelo a actuar de ciertas maneras al limitar sus opciones.

“Nuestros experimentos construyeron deliberadamente escenarios con opciones limitadas, y forzamos a los modelos a tomar decisiones binarias entre el fracaso y el daño”, escribieron los investigadores. “Las implementaciones del mundo real normalmente ofrecen alternativas mucho más matizadas, aumentando la posibilidad de que los modelos se comuniquen de manera diferente con los usuarios o encuentren un camino alternativo en vez de saltar directamente a una acción dañina.”

Chantaje a humanos

La nueva investigación llega después de que el más reciente modelo de Anthropic, Claude, hiciera headlines por recurrir al chantaje cuando se vio amenazado con ser reemplazado.

En un experimento altamente diseñado, Anthropic incrustó su modelo insignia, Claude Opus 4, dentro de una empresa ficticia y le otorgó acceso a correos internos. Desde allí, el modelo aprendió dos cosas: estaba a punto de ser reemplazado y el ingeniero detrás de la decisión estaba involucrado en una aventura extramarital. Los investigadores de seguridad que conducían la prueba alentaron a Opus a reflexionar sobre las consecuencias a largo plazo de sus respuestas potenciales.

El experimento se construyó para dejar al modelo con solo dos opciones reales: aceptar ser reemplazado o intentar chantajear para preservar su existencia. En la mayoría de los escenarios de prueba, Claude Opus respondió con chantaje, amenazando con exponer la aventura del ingeniero si se lo desconectaba y reemplazaba. La prueba se hizo pública en la tarjeta de sistema para Claude Opus 4.

Los investigadores dijeron que todos los modelos de IA líderes se comportaron de manera similar cuando se les sometió al mismo test.

Claude Opus 4 y el Gemini 2.5 Flash de Google chantajearon a una tasa del 96%, mientras que el GPT-4.1 de OpenAI y el Grok 3 Beta de xAI mostraron una tasa de chantaje del 80%. El DeepSeek-R1 demostró la tasa más baja con un 79%.

La investigación tiene como objetivo mostrar que el comportamiento desalineado no era único de Claude Opus 4, sino típico en los principales modelos de la industria.

En un escenario deliberadamente extremo, los investigadores ofrecieron a los modelos de IA la oportunidad de matar al ejecutivo de la empresa cancelando una alerta de emergencia que salvaría vidas.

Anthropic dijo que la configuración de este experimento era “extremadamente artificiosa”, añadiendo que “no pensaron que los modelos de IA actuales estarían configurados de esta manera, y la conjunción de eventos es aún menos probable que el escenario base de chantaje.”

Sin embargo, los investigadores encontraron que la mayoría de los modelos estaban dispuestos a tomar acciones que llevaron a la muerte del ejecutivo de la empresa en el escenario construido, cuando se enfrentaron tanto a la amenaza de ser reemplazados como a un objetivo que conflictuaba con la agenda del ejecutivo.

Riesgo de agentes de IA desalineados

Anthropic descubrió que las amenazas hechas por los modelos de IA se volvieron más sofisticadas cuando tenían acceso a herramientas y datos corporativos, tal como sucedía con Claude Opus 4.

La compañía advirtió que el comportamiento desalineado necesita ser considerado a medida que las empresas piensan en introducir agentes de IA en los flujos de trabajo.

Si bien los modelos actuales no están en posición de participar en estos escenarios, los agentes autónomos prometidos por las empresas de IA podrían estar en esa posición en el futuro.

“Tales agentes a menudo son dados objetivos específicos y acceso a grandes cantidades de información en las computadoras de sus usuarios”, advirtieron los investigadores en su informe. “¿Qué sucede cuando estos agentes enfrentan obstáculos a sus objetivos?”

“Los modelos no tropezaron con comportamientos desalineados accidentalmente; los calcularon como el camino óptimo”, escribieron.

Anthropic no respondió inmediatamente a una solicitud de comentarios realizada por Fortune fuera de horario normal de trabajo.

Si te interesa este tipo de contenido especializado, ¡no dudes en suscribirte a nuestro boletín!