Un Exinvestigador de OpenAI Aboga por Simular el Apocalipsis de la IA

Un Exinvestigador de OpenAI Aboga por Simular el Apocalipsis de la IA

Esta semana, hablé con Steven Adler, un exinvestigador de seguridad de OpenAI que dejó la empresa en enero después de cuatro años, diciendo en X después de su salida que estaba "bastante aterrorizado por el ritmo del desarrollo de la IA". Desde entonces, ha estado trabajando como investigador independiente y "intentando mejorar la comprensión pública de cómo podría ser el futuro de la IA y cómo hacerlo mejor".

Lo que realmente llamó mi atención fue un nuevo post de blog de Adler, donde comparte su reciente experiencia participando en una simulación de discusión de cinco horas, o “ejercicio de mesa”, con 11 personas más, que él dijo era similar a los ejercicios estilo guerra en el ámbito militar y de ciberseguridad. Juntos, exploraron cómo podrían desarrollarse los eventos mundiales si en los próximos años emergiera "superinteligencia", o sistemas de IA que superan la inteligencia humana.

Una simulación organizada por los autores de AI 2027

La simulación fue organizada por AI Futures Project, un grupo de previsión de IA sin fines de lucro liderado por Daniel Kokotajlo, compañero de Adler en OpenAI y amigo. La organización atrajo atención en abril por “AI 2027”, un escenario basado en pronósticos que mapea cómo podría surgir la IA sobrehumana para 2027—y lo que eso podría significar. Según el escenario, para entonces, los sistemas de IA podrían estar utilizando 1,000 veces más computación que GPT-4 y acelerando rápidamente su propio desarrollo al entrenar otras IAs. Pero esta auto-mejora podría fácilmente superar nuestra capacidad para mantenerlos alineados con los valores humanos, aumentando el riesgo de que IAs aparentemente útiles persigan, en última instancia, sus propios objetivos.

El propósito de la simulación, dijo Adler, es ayudar a las personas a entender la dinámica del rápido desarrollo de la IA y qué desafíos probablemente surgirán al intentar conducirlo para mejor.

Una lucha de poder entre los sistemas de IA

El aspecto sorprendente de la simulación, dijo, fue ver cómo la mayor lucha de poder podría no ser entre humanos e IA. En cambio, diversos IAs conectándose entre sí, compitiendo por la victoria, podrían ser un problema aún mayor. "Qué tan directamente los sistemas de IA sean capaces de comunicarse en el futuro es una pregunta realmente importante", dijo Adler. "Es muy, muy importante que los humanos monitoreen los canales de notificación y presten atención a qué mensajes se están pasando entre los agentes de IA". Después de todo, explicó, si los agentes de IA están conectados a internet y se les permite trabajar entre sí, hay razones para pensar que podrían comenzar a coludir.

Adler señaló que incluso los programas informáticos sin alma pueden funcionar de ciertas maneras y tener ciertas tendencias. Los sistemas de IA, dijo, podrían tener diferentes objetivos que persiguen automáticamente, y los humanos necesitan influencia sobre esos objetivos. La solución, según él, podría ser una forma de control de IA basada en cómo los profesionales de ciberseguridad manejan las “amenazas internas”: cuando alguien dentro de una organización, que tiene acceso y conocimiento, podría intentar dañar el sistema o robar información. El objetivo de la seguridad no es asegurarse de que los internos siempre se comporten; se trata de construir estructuras que prevengan que incluso los internos de mala fe hagan daño serio.

Las previsiones y predicciones son ‘difíciles’

Le señalé a Adler que cuando se lanzó AI 2027, hubo muchas críticas. La gente era escéptica, diciendo que el plazo era demasiado agresivo y subestimaba límites en el mundo real como hardware, energía y cuellos de botella regulatorios. Los críticos también dudaron de que los sistemas de IA pudieran mejorar rápidamente de la manera descontrolada que sugiere el informe y argumentaron que resolver la alineación de la IA probablemente sería mucho más difícil y lento.

Adler respondió animando a otros a expresar interés en realizar la simulación para su organización (hay un formulario para llenar), pero admitió que las previsiones y predicciones son difíciles. "Entiendo por qué la gente podría sentirse escéptica, siempre es difícil saber qué sucederá realmente en el futuro," dijo. "Al mismo tiempo, desde mi punto de vista, este es el estado del arte en las personas que se han sentado y por meses han hecho toneladas de investigación subyacente y entrevistas con expertos y todo tipo de pruebas y modelado para tratar de averiguar qué mundos son realistas."

Esos expertos no están diciendo que el mundo representado en AI 2027 sucederá definitivamente, enfatizó, pero "es importante que el mundo esté preparado si eso ocurre". Simulaciones como esta ayudan a las personas a entender qué tipos de acciones importan y marcan una diferencia "si nos encontramos en ese tipo de mundo".

Con esto, aquí está el resto de la noticia de IA.