Colaborar con un Extraterrestre: Por Qué Comparar la IA con Humanos Promedio Puede Ser Erróneo

Colaborar con un Extraterrestre: Por Qué Comparar la IA con Humanos Promedio Puede Ser Erróneo

Por Jeremy Kahn

Las empresas a menudo desean que los sistemas de IA puedan desempeñarse al menos tan bien como los humanos en una tarea particular antes de considerar confiar esa tarea a la IA. Pero medir cuándo la IA ha alcanzado ese estándar es mucho más complicado de lo que puede parecer inicialmente.

La mayoría de las empresas utilizan el rendimiento humano existente como referencia para juzgar la IA. Pero más allá de eso, las decisiones se complican y matizan.

Simon Robinson, editor ejecutivo de la agencia de noticias Reuters, ha declarado que su empresa se ha comprometido a no implementar ninguna herramienta de IA en la producción de noticias a menos que su tasa de errores promedio sea mejor que la de los humanos haciendo la misma tarea. Por ejemplo, la empresa ha comenzado a utilizar IA para traducir automáticamente noticias a idiomas extranjeros porque, en promedio, el software de IA puede hacerlo con menos errores que los traductores humanos.

Este es el estándar que utilizan la mayoría de las empresas: mejor que los humanos en promedio. Pero en muchos casos, esto podría no ser lo adecuado.

Utham Ali, el oficial global de IA responsable en BP, quiere ver si un modelo de lenguaje grande (LLM) puede actuar como un sistema de soporte de decisiones, asesorando a sus ingenieros humanos de seguridad y fiabilidad. Un experimento que llevaron a cabo consistió en verificar si el LLM podría aprobar el examen de ingeniería de seguridad que BP exige a todos sus ingenieros de seguridad. El LLM—Ali no especificó qué modelo de IA se utilizó—obtuvo un excelente resultado, con un 92%, superior a la calificación promedio de los humanos que se presentaban a la prueba.

¿Es realmente mejor que los humanos en promedio?

Pese a todo, Ali comentó que el 8% de las preguntas que el sistema de IA falló generó dudas en el equipo de BP. ¿Con qué frecuencia habrían fallado los humanos esas preguntas específicas? Y, ¿por qué respondió mal la IA? El hecho de que los expertos de BP no tuvieran forma de saber por qué el LLM falló en las preguntas significaba que el equipo no tenía confianza en su implementación, especialmente en un área donde las consecuencias de los errores pueden ser catastróficas.

Las preocupaciones que tuvo BP se aplicarán a muchos otros usos de la IA. Consideremos la IA que analiza escaneos médicos. Aunque estos sistemas a menudo se evalúan utilizando el rendimiento promedio en comparación con radiólogos humanos, las tasas de error generales pueden no contarnos lo que necesitamos saber. Por ejemplo, no quisiéramos emplear una IA que, en promedio, sea mejor que un médico humano en detectar anomalías, pero que además sea más propensa a perder de vista los cánceres más agresivos. En muchos casos, es el rendimiento en un subconjunto de decisiones que son más críticas lo que importa más que el rendimiento promedio.

¿Podemos sentirnos cómodos con la naturaleza alienígena de la IA? ¿Deberíamos?

Debemos decidir qué tan cómodos estamos con la naturaleza alienígena de la IA. La respuesta depende en gran medida del ámbito en el que se implemente la IA. Pensemos en los coches autónomos. La tecnología de autoconducción ha avanzado hasta el punto en que su implementación generalizada probablemente resultaría en muchas menos muertes en la carretera en promedio que tener una cantidad equivalente de conductores humanos al volante. Pero los errores que cometen los vehículos autónomos son errores alienígenas—girando repentinamente hacia el tráfico que viene o arrollando directamente el costado de un camión porque sus sensores no pudieron diferenciar el lado blanco del camión del cielo nublado detrás de él.

Si, como sociedad, nos preocupa salvar vidas por encima de todo, entonces podría tener sentido permitir la implementación generalizada de vehículos autónomos de inmediato, a pesar de estos accidentes aparentemente extraños. Pero nuestra inquietud por hacerlo nos dice algo sobre nosotros mismos. Valoramos algo más que simplemente salvar vidas: valoramos la ilusión de control, la previsibilidad y la perfección. Nos incomoda profundamente tener un sistema en el que algunas personas podrían morir por razones que no podemos explicar o controlar—esencialmente al azar—incluso si el número total de muertes disminuyera respecto a los niveles actuales.

Esto es uno de los temas más complicados en torno a la implementación de la IA, particularmente en dominios de alto riesgo. Todos queremos que estos sistemas sean sobrehumanos en la toma de decisiones y humanos en la forma en que toman decisiones. Sin embargo, con nuestros métodos actuales para construir IA, es difícil lograr ambas cosas simultáneamente. A menudo se hacen muchas analogías sobre cómo las personas deberían tratar a la IA—como a un interno, un empleado junior, un colega de confianza, un mentor—pero creo que la mejor podría ser alienígena. La IA es un poco como los Coneheads de ese viejo sketch de Saturday Night Live—es inteligente, brillante incluso, en algunas cosas, sobre todo al hacerse pasar por humano, pero no comprende las cosas como lo haría un humano y no “piensa” como nosotros.

Aquí hay más noticias sobre IA.

Microsoft, OpenAI y Anthropic financian la capacitación en IA para maestros. La Federación Americana de Maestros está lanzando un centro de capacitación en IA de 23 millones de dólares en la ciudad de Nueva York, financiado por Microsoft, OpenAI y Anthropic, para ayudar a los educadores a aprender a usar herramientas de IA en el aula. La iniciativa es parte de un mayor esfuerzo de la industria por integrar la IA generativa en la educación, en medio de llamados federales para que el sector privado apoye esta adopción, aunque algunos expertos advierten sobre los riesgos que puede suponer para el aprendizaje y el pensamiento crítico de los estudiantes.Hitachi Energy advierte que los picos de energía inducidos por la IA amenazan las redes eléctricas. Andreas Schierenbeck, CEO de Hitachi Energy, advirtió que las demandas eléctricas crecientes y volátiles de los centros de datos de IA están poniendo a prueba las redes de energía y deben ser regulados por los gobiernos, reportó el Financial Times. Schierenbeck comparó los picos de energía que causan los grandes modelos de IA, cuyo consumo eléctrico puede dispararse diez veces en segundos, con el funcionamiento de hornos industriales, que deben coordinar dichos eventos con las utilidades para evitar sobrecargar la red.

Para más contenido especializado, considera suscribirte a nuestro boletín. Esté al tanto de las novedades sobre IA y más. Visita nuestras newsletters.