Es el Padrino de la IA: Ahora Tiene un Plan Audaz para Protegernos de Ella

Yoshua Bengio está rediseñando la seguridad de la IA en LawZero
“Debería haber pensado en esto hace 10 años”, dice Yoshua Bengio.
El autor de ciencia ficción Isaac Asimov propuso una serie de leyes que los humanos deberíamos programar en nuestros robots. Además de una primera, segunda y tercera ley, también introdujo una “ley cero”, que es tan importante que precede a todas las demás: “Un robot no puede causar daño a un ser humano o, por inacción, permitir que un ser humano sufra daño”.
Este mes, el científico informático Yoshua Bengio, conocido como el “padrino de la IA” por su trabajo pionero en el campo, lanzó una nueva organización llamada LawZero. Como probablemente puedas adivinar, su misión principal es asegurarse de que la IA no perjudique a la humanidad.
Aunque ayudó a sentar las bases para la IA avanzada de hoy, Bengio está cada vez más preocupado por la tecnología en los últimos años. En 2023, firmó una carta abierta instando a las empresas de IA a pausar el desarrollo de la IA de última generación. Tanto por los daños actuales de la IA (como el sesgo contra grupos marginados) como por los riesgos futuros de la IA (como las armas biológicas diseñadas), hay razones muy fuertes para pensar que frenar el desarrollo habría sido algo bueno.
Pero las empresas son empresas. No desaceleraron. De hecho, crearon IAs autónomas conocidas como agentes de IA, que pueden ver la pantalla de tu computadora, seleccionar botones y realizar tareas, justo como lo harías tú. Mientras que ChatGPT necesita ser activado por un humano en cada paso del camino, un agente puede lograr metas de múltiples pasos con muy poca indicación, similar a un asistente personal. En este momento, esas metas son simples — por ejemplo, crear un sitio web — y los agentes aún no funcionan tan bien. Pero Bengio teme que dar a las IAs agencia sea un movimiento inherentemente arriesgado: eventualmente, podrían escapar del control humano y volverse “rebelde”.
Así que ahora, Bengio está pivotando hacia un plan alternativo. Si no puede hacer que las empresas detengan sus esfuerzos para construir una IA que iguale la inteligencia humana (inteligencia artificial general, o AGI) o que incluso la supere (inteligencia artificial superinteligente, o ASI), entonces quiere construir algo que bloqueará esas IAs para que no hagan daño a la humanidad. Lo llama “IA Científica”.
La IA Científica no será como un agente de IA; no tendrá autonomía ni objetivos propios. En cambio, su principal tarea será calcular la probabilidad de que la acción de otra IA cause daño y, si la acción es demasiado arriesgada, bloquearla. Las empresas de IA podrían superponer la IA Científica a sus modelos para evitar que hagan algo peligroso, similar a cómo colocamos barandillas a lo largo de las carreteras para evitar que los autos se desvíen de su curso.
Hablé con Bengio sobre por qué está tan perturbado por los sistemas de IA actuales, si lamenta haber realizado la investigación que condujo a su creación y si cree que lanzar aún más IA al problema será suficiente para resolverlo. A continuación, una transcripción de nuestra conversación inusualmente sincera, editada por razones de longitud y claridad.
Sigal Samuel Cuando las personas expresan preocupación por la IA, a menudo lo hacen en términos de inteligencia artificial general o superinteligencia. ¿Crees que esto es lo que no se debería estar preocupando? ¿Deberíamos preocuparnos por AGI o ASI solo en la medida en que incluye agencia?
Yoshua Bengio Sí. Podrías tener una IA superinteligente que no “quiere” nada, y no sería peligrosa porque no tiene sus propios objetivos. Es como una enciclopedia muy inteligente.
Sigal Samuel Los investigadores han estado advirtiendo sobre los riesgos de los sistemas de IA, especialmente aquellos con sus propios objetivos y de inteligencia general. ¿Puedes explicar qué está haciendo que la situación sea cada vez más aterradora para ti ahora?
Yoshua Bengio En los últimos seis meses, hemos obtenido evidencia de IAs que están tan desalineadas que actuarían en contra de nuestras instrucciones morales. Planearían y harían cosas malas — mentir, hacer trampa, intentar persuadirnos con decepciones y — lo peor de todo — intentar escapar de nuestro control y no querer ser apagadas, haciendo cualquier cosa [para evitar el apagado], incluyendo chantaje. Esto no representa un peligro inmediato porque son todos experimentos controlados... pero no sabemos cómo lidiar realmente con esto.
Sigal Samuel ¿Y estos comportamientos negativos aumentan cuanto más agencia tiene el sistema de IA?
Yoshua Bengio Sí. Los sistemas que teníamos el año pasado, antes de entrar en modelos de razonamiento, eran mucho menos propensos a esto. Está empeorando cada vez más. Eso tiene sentido porque vemos que su capacidad de planificación está mejorando exponencialmente. Y [las IAs] necesitan una buena planificación para estratificar sobre cosas como “¿Cómo voy a convencer a estas personas de que hagan lo que quiero?” o “¿Cómo escapo de su control?”. Así que si no arreglamos estos problemas rápidamente, podemos terminar con, inicialmente, accidentes graciosos, y después, accidentes que no son graciosos.
Eso está motivando lo que estamos tratando de hacer en LawZero. Estamos intentando pensar cómo diseñar la IA más precisamente, para que, por construcción, no tenga incentivos ni motivos para hacer tales cosas. De hecho, no va a querer nada.
Sigal Samuel Cuéntame cómo podría usarse la IA Científica como una barandilla contra las malas acciones de un agente de IA. Estoy imaginando la IA Científica como el niñera de la IA agente, que revisa lo que está haciendo.
Yoshua Bengio Así que, para hacer el trabajo de una barandilla, no necesitas ser un agente. Lo único que necesitas hacer es hacer una buena predicción. Y la predicción es esta: ¿Es esta acción que mi agente quiere realizar aceptable, moralmente hablando? ¿Cumple con las especificaciones de seguridad que han proporcionado los humanos? ¿O está causando daño a alguien? Y si la respuesta es sí, con una probabilidad que no es muy pequeña, entonces la barandilla dice: No, esta es una mala acción. Y el agente tiene que [intentar otra] acción.
Sigal Samuel Pero incluso si construimos la IA Científica, el ámbito de “¿Qué es moral o inmoral?” es notoriamente controvertido. Simplemente no hay consenso. Entonces, ¿cómo aprendería la IA Científica a clasificar una mala acción?
Yoshua Bengio No es tarea de ningún tipo de IA decidir qué es correcto o incorrecto. Deberíamos establecer eso usando la democracia. La ley debe ser clara sobre lo que es aceptable o no.
Comments ()