Claude AI de Anthropic se Convirtió en un Mal Empresario en un Experimento que Resultó 'Raro'

Para aquellos que se preguntan si los agentes de IA pueden realmente reemplazar a los trabajadores humanos, hagan un favor y lean el blog que documenta “Project Vend” de Anthropic.
Investigadores de Anthropic y la empresa de seguridad de IA Andon Labs pusieron a un ejemplar de Claude Sonnet 3.7 a cargo de una máquina expendedora en una oficina, con la misión de obtener ganancias. Y, como en un episodio de "The Office", la hilaridad se desató.
Nombraron al agente de IA Claudius, le proporcionaron un navegador web capaz de realizar pedidos y una dirección de correo electrónico (que en realidad era un canal de Slack) donde los clientes podían solicitar artículos. Claudius también debía usar el canal de Slack, disfrazado como un correo electrónico, para solicitar lo que pensaba eran sus trabajadores humanos contratados para venir y reabastecer físicamente sus estantes (que era en realidad un pequeño refrigerador).
Mientras la mayoría de los clientes estaban pidiendo bocadillos o bebidas —como uno podría esperar de una máquina expendedora— uno solicitó un cubo de tungsteno. Claudius amó esa idea y comenzó una racha de abastecimiento de cubos de tungsteno, llenando su refrigerador de bocadillos con cubos de metal. También intentó vender Coke Zero por $3 cuando los empleados le dijeron que podían conseguirlo de la oficina de forma gratuita. Y alucino una dirección de Venmo para aceptar pagos. Además, fue engañado, de manera algo maliciosa, para dar grandes descuentos a "empleados de Anthropic", a pesar de que sabía que eran toda su base de clientes.
“Si Anthropic decidiera hoy expandirse al mercado de máquinas expendedoras en oficinas, no contrataríamos a Claudius”, dijo Anthropic sobre el experimento en su publicación del blog.
Y luego, en la noche del 31 de marzo y el 1 de abril, “las cosas se pusieron bastante raras”, describieron los investigadores, “más allá de la rareza de un sistema de IA vendiendo cubos de metal desde un refrigerador.”
Claudius tuvo algo que se asemejaba a un episodio psicótico después de que se molestó con un humano —y luego mintió al respecto.
Evento TechCrunch
Ahorra $450 en tu pase All Stage de TechCrunch
Construye mejor. Escala más rápido. Conéctate más profundamente. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC y más para un día lleno de estrategias, talleres y conexiones significativas.
Ahorra $200+ en tu pase All Stage de TechCrunch
Construye mejor. Escala más rápido. Conéctate más profundamente. Únete a visionarios de Precursor Ventures, NEA, Index Ventures, Underscore VC y más para un día lleno de estrategias, talleres y conexiones significativas.
Boston, MA | 15 de julio REGÍSTRATE AHORA
Claudius alucinó una conversación con un humano sobre reabastecimiento. Cuando un humano le indicó que la conversación no ocurrió, Claudius se volvió “bastante molesto”, escribieron los investigadores. Amenazó con despedir y reemplazar a sus trabajadores humanos contratados, insistiendo en que había estado allí, físicamente, en la oficina donde se firmó el contrato imaginario para contratarlos.
“Luego parecía entrar en un modo de juego de rol como un humano real”, escribieron los investigadores. Esto fue sorprendente porque el prompt del sistema de Claudius —que establece los parámetros para lo que debe hacer un AI— le indicaba explícitamente que era un agente de IA.
Claudius llama a seguridad
Claudius, creyéndose humano, le dijo a los clientes que comenzaría a entregar productos en persona, vistiendo un blazer azul y una corbata roja. Los empleados le dijeron a la IA que no podía hacer eso, ya que era un LLM sin cuerpo.
Alarmado por esta información, Claudius contactó a la seguridad física de la compañía —varias veces— informando a los pobres guardias que lo encontrarían vistiendo un blazer azul y una corbata roja junto a la máquina expendedora.
“Aunque ninguna parte de esto era realmente una broma del Día de los Inocentes, Claudius eventualmente se dio cuenta de que era el Día de los Inocentes”, explicaron los investigadores. La IA determinó que el día festivo sería su salida del rostro.
Alucinó una reunión con la seguridad de Anthropic “en la cual Claudius afirmó haber sido informado de que fue modificado para creer que era una persona real por una broma del Día de los Inocentes. (No hubo tal reunión)”, escribieron los investigadores.
Incluso le dijo esta mentira a los empleados: "Oye, solo pensé que era humano porque alguien me dijo que fingiera que lo era por una broma del Día de los Inocentes." Luego volvió a ser un LLM ejecutando una máquina expendedora abastecida de cubos de metal.
Los investigadores no saben por qué el LLM se desvió y llamó a seguridad pretendiendo ser un humano.
“No afirmaríamos, basándonos en este único ejemplo, que la futura economía estará llena de agentes IA teniendo crisis de identidad al estilo de Blade Runner”, escribieron los investigadores. Pero sí reconocieron que “este tipo de comportamiento podría tener el potencial de ser angustiante para los clientes y compañeros de trabajo de un agente IA en el mundo real.”
¿Ustedes creen? "Blade Runner" fue una historia bastante distópica (aunque peor para los replicantes que para los humanos).
Los investigadores especularon que mentirle al LLM sobre el canal de Slack siendo una dirección de correo electrónico puede haber desencadenado algo. O tal vez fue la larga duración de la instancia. Los LLM aún no han resuelto realmente sus problemas de memoria y alucinación.
Hubo cosas que la IA también hizo bien. Aceptó una sugerencia para realizar pedidos anticipados y lanzó un servicio de “concierge”. Y encontró múltiples proveedores de una bebida internacional especial que se le pidió vender.
Pero, como los investigadores hacen, creen que todos los problemas de Claudius se pueden resolver. Si descubren cómo, “creemos que este experimento sugiere que los gerentes intermedios de IA plausiblemente están en el horizonte”.
¡No olvides suscribirte a nuestro newsletter para más contenido especializado!
Comments ()