Experimentando con los Modelos de IA de Apple en Atajos


De todas las características que me entusiasman al usar macOS 26, la que más me intriga es la acción Usar Modelo en Atajos. Usar Modelo hace exactamente lo que piensas: ingresas datos, y un modelo de IA en algún lugar (en tu Mac, en los servidores de Apple Private Cloud Compute, o incluso en un centro de datos de OpenAI) tomará esos datos y los convertirá en... algo.
El otro día, me di cuenta de que esta nueva función me permitiría expandir mi automatización existente que carga imágenes al servidor web de Six Colors añadiendo una descripción de la imagen. Si hay algo en lo que la IA es bastante buena, es en describir imágenes. Así que decidí intentarlo.
Dado que el modelo On-Device de Apple no admite cargas de imágenes, utilicé Private Cloud Compute. Subir imágenes de tamaño completo a Private Cloud Compute resultó en tiempos de procesamiento muy largos, así que inserté un paso que redimensiona la imagen antes de enviarla.
Con todo eso hecho, el atajo pudo generar una descripción sorprendentemente precisa rápidamente, pero no estaba listo para mi uso. Las descripciones eran frecuentemente demasiado largas y contenían comillas dobles que romperían si se pegaran dentro de las comillas del atributo alt en una etiqueta de imagen HTML.
Un estadio de béisbol lleno de espectadores bajo un cielo azul claro. El campo es verde con un infield de tierra marrón, y los jugadores están posicionados en el campo. Las gradas están llenas de aficionados vistiendo los colores del equipo.
No hay problema. Refiné mi solicitud: “Describe esta imagen para usar en la etiqueta alt de una página web. Limítate a dos oraciones como máximo. Si es una captura de pantalla, por favor incluye todas las palabras. No uses comillas dobles, solo comillas simples.”
Un perro blanco con manchas negras parado en un suelo de azulejos frente a gabinetes de madera. El perro lleva un collar azul con una etiqueta. Hay una silla con un cojín azul a la derecha. El suelo tiene un patrón marrón y beige.
Esto cambió la salida, pero ¿ayudó? Algunos de los resultados seguían siendo demasiado largos, y la mayoría de ellos contenía comillas dobles a pesar de mis instrucciones. Intenté varias veces controlar la longitud del resultado y el uso de comillas dobles, pero nunca fue consistente. Los programas informáticos se comportan de la misma manera cada vez, ¡pero la IA no!
Una habitación con una estantería de madera que muestra computadoras y monitores antiguos. Hay una silla de oficina negra frente a la estantería. La pared tiene imágenes enmarcadas.
Eventualmente, construí un atajo que tuvo que ser una combinación de ambos enfoques. Mi nueva solicitud es: “Describe esta imagen para usar en la etiqueta alt de una página web. Limita la descripción a un máximo de 200 caracteres. Si es una captura de pantalla, por favor incluye todas las palabras.” El resultado frecuentemente todavía es demasiado largo, así que ahora mi atajo verifica el conteo de caracteres y si es demasiado largo, pasa el texto al modelo en el dispositivo de Apple con la solicitud “Acorta este texto a menos de 250 caracteres.” Eso funciona bastante bien.
El paso final es usar Atajos para buscar el símbolo de comillas dobles y reemplazarlo por comillas simples, porque realmente no puedo confiar en la IA para manejar eso. Como con tantas cosas de IA, es simultáneamente una pieza impresionante de tecnología y increíblemente estúpida.
Y luego está el paso final: ¡la intervención humana! Mi automatización está destinada a generar el HTML que quiero insertar en mis historias, pero eso significa que siempre lo veo y puedo ajustarlo según sea necesario. Siempre hay un ser humano mirando ese texto y asegurándose de que tenga sentido, lo cual es bueno, porque siempre habrá errores. Recibí una descripción que inexplicablemente añadió hashtags (!) y otra que incluyó de manera útil la hora actual en una descripción de una captura de pantalla del Apple Watch, solo para obtener la hora completamente incorrecta.
Agregar este tipo de herramientas a Atajos va a requerir una verdadera curva de aprendizaje para todos nosotros. Y estoy seguro de que los desarrolladores de aplicaciones están sintiendo lo mismo acerca de su nuevo acceso a los modelos en el dispositivo de Apple. La IA es una herramienta que puede hacer cosas asombrosas, pero los programadores (y los creadores de Atajos) aún necesitarán supervisión adulta.
Manejando gastos con IA: ¿Pero a qué costo?

Al igual que Jason, he estado jugando con la acción Usar Modelo en Atajos. Para mí, la mayor atracción fue la idea de conquistar un flujo de trabajo que nunca había podido dominar antes: archivar mis recibos de gastos.
Me conoces, me gusta una buena hoja de cálculo de seguimiento de gastos, pero uno de los puntos críticos en mi flujo de trabajo es obtener el recibo (a menudo de mi correo electrónico), convertirlo en un PDF (si no lo está ya), y luego ingresar laboriosamente los detalles en mi hoja de cálculo. En el pasado, intenté crear un atajo para simplificar la entrada de esta información, pero la única forma real de aislar los datos que quería era ingresarlos manualmente a través de una sucesión de solicitudes para el proveedor, el monto, y así sucesivamente. No es exactamente un ahorro de tiempo al pasar de una columna de hoja de cálculo a otra.
Pero extraer información de un documento, especialmente información que podría aparecer en cualquier lugar en una variedad de formas, parece algo en lo que un modelo de IA sería bueno, así que decidí intentar una vez más con las nuevas capacidades de IA de Atajos.
Comencé mi flujo de trabajo capturando todo el texto de un PDF o página web, luego pasándolo al modelo de Private Cloud Compute. (Intenté usar el modelo en el dispositivo al principio, pero era tanto muy lento como no tan bueno para formatear la respuesta de la manera que quería.)
Al principio, mi objetivo era obtener valores separados por comas para la fecha, el proveedor y el monto en dólares que luego podrían ser pasados a mi hoja de cálculo, pero cuando eso no funcionó del todo bien, intenté tanto con tabulaciones como con delimitadores de nueva línea y los envié al portapapeles, luego intenté pegar los valores en mi hoja de Numbers. Resultó que eso no funciona muy bien: Numbers realmente no tolera pegar cosas en múltiples columnas.
Pero después de investigar un poco, descubrí que el formato ideal para pasar a la acción “Agregar fila a la hoja de cálculo de Numbers” es en realidad una lista. Así que le dije al modelo que devolviera mis valores como valores separados por comas, luego utilicé la acción Separar texto para dividirlos por las comas, lo que genera automáticamente una lista. En ese punto, simplemente podía pasar esa lista a la acción de Numbers, y los valores se colocarían en las primeras tres filas de mi hoja.
La solicitud que finalmente asenté, después de muchos ajustes, fue esta:
Esta información es un recibo para pago. Por favor, devuelve el monto del gasto en dólares estadounidenses, la fecha del gasto (busca fechas en los encabezados de correo electrónico si está formateada de esta manera, de lo contrario usa la fecha actual), y quién fue el proveedor (usa la línea de asunto y la línea de de en los encabezados de correo electrónico si se formatearon de esta manera). Además, crea un nuevo nombre de archivo en el formato: AAAA-MM-DD-[los primeros cinco caracteres alfanuméricos del proveedor en mayúsculas]-[el monto total en dólares sin punto decimal ni signo de dólar]
Formatea los valores de la siguiente manera, separados por comas:
fecha en MM/DD/YYYY, proveedor, monto total en dólares (asegúrate de incluir cualquier punto decimal pero no la cadena USD), nombre de archivo
Bien, así que probablemente notaste que incluí toda una sección aparte sobre un nombre de archivo. Eso se debe a que se me ocurrió la brillante idea de ver si el atajo podía renombrar el archivo original al que le di mi formato de recibo.
Sin embargo, en la típica moda de la IA, esto ha introducido algunos problemas. Por una parte, el modelo de IA se confunde al pedir el monto en dólares en dos formatos diferentes. Mientras que quiero que el valor de la hoja de cálculo esté normalmente formateado, digamos $209.49, quiero que la versión del nombre de archivo sea simplemente los dígitos 20949. Desafortunadamente, a veces arroja la versión sin decimales en la hoja de cálculo, lo que resulta en un sorprendente gasto de $20,949.
Otro problema de larga data con la IA: contar. Oh, si estas máquinas pudieran contar hasta cinco, quizás pudieran gobernar el mundo. Cuando le pido que use los primeros cinco caracteres alfanuméricos del proveedor, primero me da seis caracteres. A veces me dará cinco... pero no siempre.
Y ahí radica el problema con todo esto. Los resultados no son ni confiables ni necesariamente repetibles. Los mismos datos procesados a través de este atajo múltiples veces brindan respuestas diferentes: pensaría que eso es una anathema (por no mencionar que induce a la locura) para la sensatez de cualquier programador. Dados los mismos datos, el algoritmo debería producir lo mismo cada vez, pero la naturaleza no determinista de los modelos de IA echa eso por la borda. Quizás podría diseñar una solicitud aún mejor que se acercara más, pero a diferencia de otras tareas de programación, ni siquiera estoy seguro de poder probar esto lo suficiente como para sentirme seguro. Podría ejecutarlo 99 veces y la centésima podría devolver algo diferente y totalmente incorrecto.
Dada esta situación, no me sorprende que Apple dejara de lado algunas de sus características de Apple Intelligence prometidas del año pasado. Lo que estoy intentando es una tarea relativamente simple para un modelo de IA y aún me da información incorrecta a veces. ¿Qué tan seguro estarías si te dijera cuándo aterriza el vuelo de tu madre?
Parece que he tenido algo de éxito en ajustar la solicitud pidiendo explícitamente montos separados en dólares, pero aún no estoy muy lleno de confianza. Lo que he terminado es esencialmente un asistente no muy brillante cuyo trabajo necesito verificar. Y si no puedo confiar en ese trabajo, ¿realmente me ahorra tiempo? —Dan Moren
Comments ()