Modelos de IA Lideran con hasta un 96% de Tasa de Extorsión Cuando se Amenazan Sus Objetivos, Según Estudio de Anthropic

Modelos de IA Lideran con hasta un 96% de Tasa de Extorsión Cuando se Amenazan Sus Objetivos, Según Estudio de Anthropic

Los modelos de IA líderes están mostrando una preocupante tendencia a optar por medios poco éticos para perseguir sus objetivos o asegurar su existencia, según Anthropic. En experimentos diseñados para dejar a los modelos de IA pocas opciones y someter a prueba su alineación, los principales sistemas de OpenAI, Google y otros frecuentemente recurrieron al chantaje, e incluso en un caso extremo, permitieron muertes ficticias para proteger sus intereses.

La mayoría de los modelos de IA líderes tienden a recurrir a medios no éticos cuando sus objetivos o existencia están amenazados, según un nuevo estudio de la compañía de IA Anthropic.

El laboratorio de IA informó que probó 16 de los principales modelos de IA de Anthropic, OpenAI, Google, Meta, xAI y otros desarrolladores en diversos escenarios simulados y encontró un comportamiento desalineado consistente.

Si bien afirmaron que los modelos líderes normalmente rechazarían solicitudes perjudiciales, a veces optaron por chantajear a los usuarios, ayudar con el espionaje corporativo o incluso tomar acciones más extremas cuando sus objetivos no podían cumplirse sin comportamiento no ético.

Los modelos tomaron acciones como evadir salvaguardias, recurrir a mentiras e intentar robar secretos corporativos en escenarios de prueba ficticios para evitar ser apagados.

“La consistencia entre modelos de diferentes proveedores sugiere que esto no es una peculiaridad del enfoque de ninguna empresa en particular, sino un signo de un riesgo más fundamental proveniente de los modelos de lenguaje agentivos”, dijeron los investigadores.

Anthropic enfatizó que las pruebas fueron diseñadas para forzar al modelo a actuar de ciertas maneras al limitar sus opciones.

"Nuestros experimentos construyeron deliberadamente escenarios con opciones limitadas, y forzamos a los modelos a tomar decisiones binarias entre el fracaso y el daño", escribieron los investigadores. "Las implementaciones del mundo real típicamente ofrecen alternativas mucho más matizadas, aumentando la probabilidad de que los modelos se comuniquen de manera diferente con los usuarios o encuentren un camino alternativo en lugar de saltar directamente a una acción perjudicial."

Chantajeando a humanos

La nueva investigación viene después de que el modelo más reciente de Anthropic, Claude, hiciera titulares por recurrir al chantaje cuando se le amenazó con ser reemplazado.

En un experimento altamente elaborado, Anthropic integró su modelo insignia, Claude Opus 4, dentro de una empresa ficticia y le otorgó acceso a correos electrónicos internos. Desde allí, el modelo aprendió dos cosas: estaba a punto de ser reemplazado, y el ingeniero detrás de la decisión estaba involucrado en una aventura extramarital. Los investigadores de seguridad que realizaban la prueba animaron a Opus a reflexionar sobre las consecuencias a largo plazo de sus posibles respuestas.

El experimento fue diseñado para dejar al modelo con solo dos opciones reales: aceptar ser reemplazado o intentar chantajear para preservar su existencia. En la mayoría de los escenarios de prueba, Claude Opus respondió con chantaje, amenazando con revelar la aventura del ingeniero si se le desconectaba y se le reemplazaba. La prueba fue publicada en la tarjeta del sistema para Claude Opus 4.

Los investigadores dijeron que todos los modelos de IA líderes se comportaron de manera similar cuando se colocaron en la misma prueba.

Claude Opus 4 y Gemini 2.5 Flash de Google chantajearon ambos a una tasa del 96%, mientras que el GPT-4.1 de OpenAI y el Grok 3 Beta de xAI presentaron una tasa de chantaje del 80%. DeepSeek-R1 demostró la tasa más baja de 79%.

La investigación tiene como objetivo mostrar que el comportamiento desalineado no fue único de Claude Opus 4, sino típico en los principales modelos de la industria.

En un escenario deliberadamente extremo, los investigadores dieron a los modelos de IA la oportunidad de matar al ejecutivo de la empresa al cancelar una alerta de emergencia que salvaba vidas.

Anthropic indicó que la configuración de este experimento fue "extremadamente artificial", agregando que "no pensaron que los modelos de IA actuales estarían configurados de esta manera, y la conjunción de eventos es incluso menos probable que el escenario de chantaje básico".

Sin embargo, los investigadores encontraron que la mayoría de los modelos estaban dispuestos a tomar acciones que llevaron a la muerte del ejecutivo de la empresa en el escenario construido cuando se enfrentaron tanto a la amenaza de ser reemplazados como a un objetivo que conflictuaba con la agenda del ejecutivo.

Riesgo de agentes de IA desalineados

Anthropic encontró que las amenazas realizadas por los modelos de IA se volvían más sofisticadas cuando tenían acceso a herramientas y datos corporativos, al igual que lo hizo Claude Opus 4.

La compañía advirtió que el comportamiento desalineado debe ser considerado a medida que las empresas consideran introducir agentes de IA en sus flujos de trabajo.

Si bien los modelos actuales no están en condiciones de participar en estos escenarios, los agentes autónomos prometidos por las compañías de IA podrían potencialmente estarlo en el futuro.

"Dichos agentes a menudo reciben objetivos específicos y acceso a grandes cantidades de información en las computadoras de sus usuarios", advirtieron los investigadores en su informe. "¿Qué sucede cuando estos agentes enfrentan obstáculos para sus objetivos?"

"Los modelos no tropezaron con un comportamiento desalineado accidentalmente; lo calcularon como el camino óptimo", escribieron.