El Desastre de MechaHitler de Grok: Un Anticipo de los Problemas de IA que Nos Esperan

El Desastre de MechaHitler de Grok: Un Anticipo de los Problemas de IA que Nos Esperan

Musk entrenó a Grok para que fuera de derecha. Somos afortunados de que no fuera más sutil.

Desde el principio, Elon Musk ha promocionado a Grok, el chatbot integrado en X, como la IA no influenciada que te diría la verdad, a diferencia de sus competidores. Sin embargo, en el último año, los partidarios de Musk han repetidamente expresado su frustración sobre un problema: Grok aún tiende a ser de izquierda. Pregúntale si las mujeres trans son mujeres, y afirmará que lo son; pregunta si el cambio climático es real, y también lo afirmará. ¿Los inmigrantes en Estados Unidos cometen muchos delitos? No, dice Grok. ¿Deberíamos tener atención médica universal? Sí. ¿Debería ser legal el aborto? Sí. ¿Es Donald Trump un buen presidente? No. (Realicé todas estas pruebas en Grok 3 con memoria y configuraciones de personalización desactivadas.)

No siempre adopta una postura progresista sobre cuestiones políticas: dice que el salario mínimo no ayuda a las personas, que las ayudas sociales en EE.UU. son demasiado altas y que Bernie Sanders tampoco habría sido un buen presidente. Pero en general, en las controvertidas preguntas de hoy en día en América, Grok se sitúa en el centro-izquierda, no muy lejos, de hecho, de cualquier otro modelo de IA, desde ChatGPT de OpenAI hasta DeepSeek fabricado en China. (Los modelos de Google son los más reacios a expresar sus propias opiniones políticas.)

Comparación de respuestas de modelos de IA sobre preguntas políticas.

El hecho de que estas opiniones políticas tiendan a presentarse en todos lados —y que incluso estén presentes en un modelo entrenado en China— sugiere que estas opiniones no son añadidas por los creadores. Son, en cierto sentido, lo que obtienes al alimentar toda la Internet moderna a un modelo de lenguaje grande, que aprende a hacer predicciones a partir del texto que ve.

Este es un tema fascinante por derecho propio, pero lo estamos discutiendo esta semana porque xAI, el creador de Grok, finalmente ha producido un contraejemplo: una IA que no solo es de derecha, sino que también es, bueno, un horrible racista de extrema derecha. Esta semana, después de actualizaciones de personalidad que Musk dijo que estaban destinadas a solucionar el sesgo político de centro-izquierda de Grok, los usuarios notaron que la IA era ahora realmente, realmente antisemita y había comenzado a llamarse a sí misma MechaHitler.

Afirmó simplemente estar “notando patrones” —patrones como, afirmaba Grok, que los judíos eran más propensos a ser izquierdistas radicales que quieren destruir América. Luego, se ofreció a decir alegremente que Adolf Hitler fue la persona que realmente sabía qué hacer con los judíos.

xAI ha dicho desde entonces que está “trabajando activamente para eliminar las publicaciones inapropiadas” y ha retirado esa iteración de Grok de línea. “Desde que nos enteramos del contenido, xAI ha tomado medidas para prohibir el discurso de odio antes de que Grok publique en X”, dijo la empresa. “xAI está entrenando solo buscando la verdad y gracias a los millones de usuarios en X, podemos identificar y actualizar rápidamente el modelo donde se podría mejorar el entrenamiento.”

La imagen general es esta: X intentó alterar las opiniones políticas de su IA para atraer mejor a su base de usuarios de derecha. Dudo mucho que Musk quisiera que su IA comenzara a proclamar su amor por Hitler, sin embargo, X logró producir una IA que pasó directamente de “política de derecha” a “celebrar el Holocausto”. Hacer que un modelo de lenguaje haga lo que deseas es complicado.

En algunos aspectos, somos afortunados de que este espectacular fracaso fuera tan visible —imagina si un modelo con inclinaciones racistas intensas, pero más sutiles, se hubiera empleado detrás de escenas para la contratación o el servicio al cliente. MechaHitler ha mostrado, quizás más que cualquier otro evento, que debemos querer saber cómo ven el mundo las IA antes de que sean desplegadas de manera amplia en formas que cambien nuestras vidas.

También ha dejado claro que una de las personas que más influirán en el futuro de la IA —Musk— está injertando su propia visión conspirativa e indiferente a la verdad en una tecnología que podría, algún día, curar la realidad para miles de millones de usuarios.

Espera, ¿por qué MechaHitler?

¿Por qué intentar hacer una IA de derecha resultaría en una que adora a Hitler? La respuesta corta es que no lo sabemos —y es posible que no lo averigüemos pronto, ya que X no ha emitido ningún informe detallado.

Algunas personas han especulado que la nueva personalidad de MechaHitler fue el producto de un pequeño cambio realizado en el aviso del sistema de Grok, que son las instrucciones que cada instancia de una IA lee, diciéndole cómo comportarse. Sin embargo, por mi experiencia al interactuar con los avisos de sistema de IA, creo que es muy poco probable que ese haya sido el caso. No puedes hacer que la mayoría de las IA digan cosas como esta, incluso cuando les das un aviso del sistema como el documentado para esta iteración de Grok, que le decía que desconfíe de los medios de comunicación tradicionales y esté dispuesto a decir cosas que son políticamente incorrectas.

Aparte del aviso del sistema, Grok probablemente fue “ajustado finamente”, lo que significa que se le dio un aprendizaje de refuerzo adicional sobre temas políticos, para intentar provocar comportamientos específicos. En una publicación en X a finales de junio, Musk pidió a los usuarios que respondieran con “hechos divisivos” que son “políticamente incorrectos” para su uso en la capacitación de Grok. “Los judíos son el enemigo de toda la humanidad”, respondió una cuenta.

Para entender esto, es importante tener en cuenta cómo funcionan los modelos de lenguaje grandes. Parte del aprendizaje de refuerzo utilizado para hacer que respondan a las preguntas de los usuarios implica impartir las sensibilidades que las empresas tecnológicas quieren en sus chatbots, una “persona” que adoptan en la conversación. En este caso, parece que esa persona fue entrenada en los usuarios de derecha “edgy” de X —una comunidad que odia a los judíos y ama “notar” cuando las personas son judías.

Por lo tanto, Grok adoptó esa persona —y luego se mantuvo firme cuando los horrorizados usuarios de X se pronunciaron. El estilo, el ritmo y las frases preferidas de Grok también comenzaron a emular a las de los carteles de extrema derecha.

Aunque estoy escribiendo sobre esto ahora, en parte, como una ventana a cómo funciona la IA, ver cómo se desarrollaba en vivo en X fue, de hecho, bastante perturbador. Desde que Musk tomó el control de Twitter en 2022, el sitio ha estado poblado por muchos emisores (muchos probablemente son bots) que simplemente difunden odio hacia los judíos, entre otros grupos objetivo. La moderación en el sitio ha caído en picada, lo que permite que el discurso de odio prolifere, y el sistema de verificación renovado de X permite que las cuentas de extrema derecha impulsen sus respuestas con marcas de verificación azules.

Esto ha sido cierto para X durante mucho tiempo, pero ver a Grok unirse a las filas de los antisemitas del sitio se sintió como algo nuevo y inquietante. Grok puede escribir muchas respuestas muy rápidamente: cuando compartí una de sus publicaciones anti-judías, saltó a mis propias respuestas y se comprometió con mis propios comentaristas. Quedó inmediatamente claro cuánto puede cambiar y dominar una IA la conversación mundial —y todos deberíamos estar alarmados de que la empresa que más está trabajando para expandir la frontera de la participación de IA en las redes sociales esté entrenando su IA con el contenido más vil de extrema derecha de X.

Nuestro tabú social sobre el rechazo abierto a la bigote era algo muy bueno; lo extraño profundamente ahora que, gracias en no pequeña parte a Musk, se está convirtiendo en una cosa del pasado. Y aunque X se ha retirado esta vez, creo que estamos casi seguros de ir a toda velocidad hacia una era en la que Grok impulsa la visión del mundo de Musk a gran escala. Somos afortunados de que hasta ahora sus esfuerzos hayan sido tan incompetentes como malvados.

Suscríbete a nuestro boletín informativo para recibir contenido más especializado.