ChatGPT: Un Cambio Permanente en el Mundo, Similar a la Primera Bomba Atómica

El lanzamiento de ChatGPT contaminó el mundo para siempre, como las primeras pruebas de armas nucleares
Los académicos ponderan la necesidad del equivalente digital del acero de bajo fondo
Para los investigadores en inteligencia artificial, el lanzamiento de ChatGPT de OpenAI el 30 de noviembre de 2022 cambió el mundo de una manera similar a la detonación de la primera bomba atómica.
La prueba Trinity, en Nuevo México el 16 de julio de 1945, marcó el comienzo de la era atómica. Una manifestación de ese momento fue la contaminación de los metales fabricados después de esa fecha, ya que las partículas en el aire, sobrantes de Trinity y otras armas nucleares, permeaban el medio ambiente.
Todo el que participe en la IA generativa está contaminando el suministro de datos para todos.
Los metales contaminados interferían con el funcionamiento de equipos médicos y técnicos sensibles. Así que, hasta hace poco, los científicos involucrados en la producción de esos dispositivos buscaban metales no contaminados por radiación de fondo, conocidos como acero de bajo fondo, plomo de bajo fondo, etc.
Una fuente de acero de bajo fondo fue la flota naval alemana que el Almirante Ludwig von Reuter hundió en 1919 para evitar que los británicos se apoderaran de los barcos.
Más sobre eso más adelante.
Poco después del debut de ChatGPT, académicos y tecnólogos comenzaron a preguntarse si la reciente explosión de modelos de IA también ha creado contaminación.
Su preocupación es que los modelos de IA se están entrenando con datos sintéticos creados por otros modelos de IA. Por lo tanto, las generaciones posteriores de modelos de IA pueden volverse cada vez menos confiables, un estado conocido como colapso de modelos de IA.
En marzo de 2023, John Graham-Cumming, entonces CTO de Cloudflare y ahora miembro de la junta, registró el dominio web lowbackgroundsteel.ai y comenzó a publicar sobre diversas fuentes de datos compiladas antes de la explosión de IA de 2022, como el Arctic Code Vault (una instantánea de repositorios de GitHub de 02/02/2020).
The Register preguntó a Graham-Cumming si se le ocurrió la analogía del acero de bajo fondo, pero él dijo que no lo recordaba.
“Conocía el acero de bajo fondo por lo que leí hace años,” respondió por correo electrónico. “Y había hecho algo de aprendizaje automático a principios de los años 2000 para [herramienta de clasificación de correos electrónicos automática] POPFile. Fue una analogía que simplemente surgió en mi mente y me gustó la idea de un repositorio de cosas conocidas creadas por humanos. De ahí el sitio.”
¿Es el colapso una crisis real?
Graham-Cumming no está seguro de que los corpus de IA contaminados sean un problema.
“La pregunta interesante es ‘¿Importa esto?’” preguntó.
Algunos investigadores de IA piensan que sí y que el colapso de modelos de IA es preocupante. El año después del debut de ChatGPT, varios artículos académicos exploraron las posibles consecuencias del colapso de modelos o Trastorno de Autofagia de Modelos (MAD), como lo denominó un conjunto de autores. The Register entrevistó a uno de los autores de esos artículos, Ilia Shumailov, a principios de 2024.
Aunque los practicantes de IA han argumentado que el colapso de modelos puede mitigarse, el grado en que eso es cierto sigue siendo objeto de debate.
Justo la semana pasada, investigadores de Apple se unieron a la contienda con un análisis del colapso de modelos en modelos de razonamiento grandes (por ejemplo, o1/o3 de OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking y Gemini Thinking), solo para ver cómo sus conclusiones eran desafiadas por Alex Lawsen, asociado sénior de programas en Open Philanthropy, con la ayuda del modelo de IA Claude Opus.
- Meta ofreció a un investigador de IA al menos $10,000,000 para unirse
- La adopción de la IA en empresas se estanca a medida que los costos de inferencia confunden a los clientes de la nube
- Solo soy una chica Barbie en un mundo ChatGPT
- Las herramientas de codificación de IA son como ese amigo útil pero poco fiable, dicen los desarrolladores
En diciembre de 2024, académicos afiliados a varias universidades reiteraron preocupaciones sobre el colapso de modelos en un documento titulado "Aspectos Legales del Acceso a Datos Generados por Humanos y Otros Insumos Esenciales para el Entrenamiento de IA".
Argumentaron que el mundo necesita fuentes de datos limpios, similares al acero de bajo fondo, para mantener la función de los modelos de IA y preservar la competencia.
“A menudo digo que la mayor contribución a la medicina nuclear en el mundo fue el almirante alemán que hundió la flota en 1919,” dijo Maurice Chiodo, asociado de investigación en el Centro para el Estudio del Riesgo Existencial en la Universidad de Cambridge y uno de los coautores, a The Register. “Porque eso nos permitió tener este suministro casi infinito de acero de bajo fondo. Si no fuera por eso, estaríamos un poco atascados.
“Así que la analogía funciona aquí porque necesitas algo que sucedió antes de una cierta fecha. Ahora bien, aquí la fecha es más flexible, digamos 2022. Pero si estás recopilando datos antes de 2022, tienes bastante confianza en que tiene una mínima, si es que tiene, contaminación de IA generativa. Todo lo anterior a la fecha es ‘seguro, bien, limpio’, y todo lo posterior es ‘sucio’.”
Lo que Chiodo y sus coautores - John Burden, Henning Grosse Ruse-Khan, Lisa Markschies, Dennis Müller, Seán Ó hÉigeartaigh, Rupprecht Podszun y Herbert Zech - temen no es tanto que los modelos alimentados con su propio output produzcan información poco confiable, sino que el acceso a suministros de datos limpios conferirá una ventaja competitiva a los primeros entrantes en el mercado.
Con los fabricantes de modelos de IA generando más y más datos de IA generativa a diario, las startups de IA encontrarán cada vez más difícil obtener datos de entrenamiento de calidad, creando un efecto de exclusión que hace que sus modelos sean más susceptibles al colapso y refuerza el poder de los jugadores dominantes. Esa es su teoría, de todos modos.
Se puede construir un modelo muy utilizable que miente. Se puede construir un modelo bastante inútil que dice la verdad.
“Así que no se trata solo de la seguridad epistémica de la información y lo que vemos como verdadero, sino de lo que se necesita para construir una IA generativa, un modelo de gran alcance, para que produzca una salida que sea comprensible y que de alguna manera sea útil,” dijo Chiodo. “Puedes construir un modelo muy utilizable que miente. Puedes construir un modelo bastante inútil que dice la verdad.”
Rupprecht Podszun, profesor de derecho civil y de competencia en la Universidad Heinrich Heine de Düsseldorf y coautor, dijo: “Si miras los datos de correos electrónicos o datos de comunicación humana - que antes de 2022 son realmente datos que fueron escritos por seres humanos y reflejaron su estilo de comunicación - eso es mucho más útil [para el entrenamiento de IA] que obtener lo que comunicó un chatbot después de 2022.”
Podszun dijo que la precisión del contenido importa menos que el estilo y la creatividad de las ideas durante la interacción humana real.
Chiodo afirmó que todos los que participan en la IA generativa están contaminando el suministro de datos para todos, para los fabricantes de modelos que siguen e incluso para los actuales.
Limpiando la contaminación de IA
Entonces, ¿cómo podemos limpiar el entorno de IA?
“En términos de recomendaciones políticas, es difícil,” admite Chiodo. “Comenzamos sugiriendo cosas como el etiquetado forzado del contenido de IA, pero incluso eso se complica porque es muy difícil etiquetar texto y muy fácil eliminar marcas de agua.”
El etiquetado de imágenes y videos se vuelve complicado cuando intervienen diferentes jurisdicciones, agregó Chiodo. “Cualquiera puede desplegar datos en cualquier parte de Internet, y debido a esta recolección de datos, es muy difícil obligar a todos los LLM a siempre marcar con una marca de agua la salida que tienen,” dijo.
El documento discute otras opciones políticas, como promover el aprendizaje federado, por el cual aquellos que poseen datos no contaminados podrían permitir que terceros se entrenen en esos datos sin proporcionar los datos directamente. La idea sería limitar la ventaja competitiva de aquellos con acceso a conjuntos de datos no adulterados, para que no terminemos con monopolios de modelos de IA.
Pero como observa Chiodo, hay otros riesgos al tener un almacén centralizado mantenido por el gobierno de datos no contaminados.
“Tienes riesgos de privacidad y seguridad para estas enormes cantidades de datos, así que ¿qué mantienes, qué no mantienes, cómo eres cuidadoso con lo que mantienes, cómo lo mantienes seguro, cómo lo mantienes políticamente estable,” dijo. “Podrías ponerlo en manos de algunos gobiernos que hoy están bien, pero mañana no.”
Podszun sostiene que la competencia en la gestión de datos no contaminados puede ayudar a mitigar los riesgos. “Eso sería, obviamente, algo que sería un baluarte contra la influencia política, contra errores técnicos y contra una cierta concentración comercial,” dijo.
El problema que identificamos con el colapso de modelos es que este problema va a afectar el desarrollo de la IA misma.
“El problema que estamos identificando con el colapso de modelos es que este problema va a afectar el desarrollo de la IA misma,” dijo Chiodo. “Si el gobierno se preocupa por el desarrollo a largo plazo, productivo y competitivo de la IA, modelos de gran servicio, entonces debería preocuparse mucho sobre el colapso de modelos y sobre crear medidas de protección, regulaciones, guías para lo que va a suceder con los conjuntos de datos, cómo podríamos mantener algunos conjuntos de datos limpios, cómo podríamos otorgar acceso a los datos.”
No hay muchas regulaciones del gobierno sobre IA en los EE. UU. de que hablar. El Reino Unido también está buscando un régimen regulatorio suave por miedo a quedarse atrás respecto a naciones rivales. Europa, con la Ley de IA, parece más dispuesta a establecer algunas reglas básicas.
“Actualmente nos encontramos en una primera fase de regulación donde nos estamos alejando un poco de la regulación porque pensamos que tenemos que ser innovadores,” dijo Podszun. “Y esto es muy típico de cualquier innovación que se nos ocurra. Así que la IA es lo más importante, dejémosla ser y está bien.”
Pero prevé que los reguladores se volverán más activos para evitar una repetición de la inacción que permitió que unas pocas plataformas dominaran el mundo digital. La lección de la revolución digital para la IA, dijo, es no esperar hasta que sea demasiado tarde y el mercado se haya concentrado.
Chiodo dijo: “Nuestra preocupación, y por qué estamos planteando esto ahora, es que hay un grado de irreversibilidad. Si has contaminado completamente todos tus conjuntos de datos, todos los entornos de datos, y habrá varios de ellos, si están completamente contaminados, es muy difícil deshacerlo.
“Ahora bien, no está claro el grado en que el colapso de modelos será un problema, pero si es un problema, y hemos contaminado este entorno de datos, la limpieza va a ser prohibitivamente cara, probablemente imposible.”
Para más contenido especializado, suscríbete a nuestro boletín.
Nota original: https://www.theregister.com/2025/06/15/ai_model_collapse_pollution/
Comments ()