Nuevas Capacidades en Amazon SageMaker AI Transforman el Desarrollo de Modelos de IA

Nuevas Capacidades en Amazon SageMaker AI Transforman el Desarrollo de Modelos de IA

A medida que los modelos de IA se vuelven cada vez más sofisticados y especializados, la capacidad de entrenar y personalizar modelos rápidamente puede marcar la diferencia entre liderar la industria y quedarse atrás. Es por eso que cientos de miles de clientes utilizan la infraestructura, herramientas y flujos de trabajo completamente gestionados de Amazon SageMaker AI para escalar y avanzar en el desarrollo de modelos de IA. Desde su lanzamiento en 2017, SageMaker AI ha transformado la forma en que las organizaciones abordan el desarrollo de modelos de IA al reducir la complejidad mientras maximiza el rendimiento. Desde entonces, hemos continuado innovando de manera incansable, agregando más de 420 nuevas capacidades desde su lanzamiento para ofrecer a los clientes las mejores herramientas para construir, entrenar y desplegar modelos de IA de manera rápida y eficiente. Hoy, estamos complacidos de anunciar nuevas innovaciones que se basan en las ricas características de SageMaker AI para acelerar cómo los clientes construyen y entrenan modelos de IA.

Amazon SageMaker HyperPod: La infraestructura de elección para desarrollar modelos de IA

AWS lanzó Amazon SageMaker HyperPod en 2023 para reducir la complejidad y maximizar el rendimiento y la eficiencia al construir modelos de IA. Con SageMaker HyperPod, puedes escalar rápidamente el desarrollo de modelos de IA generativa en miles de aceleradores de IA y reducir los costos de desarrollo de entrenamiento y ajuste fino de modelos fundamentales (FM) en hasta un 40%. Muchos de los principales modelos de hoy se entrenan en SageMaker HyperPod, incluidos modelos de Hugging Face, Luma AI, Perplexity AI, Salesforce, Thomson Reuters, Writer y Amazon. Al entrenar los modelos fundamentales de Amazon Nova en SageMaker HyperPod, Amazon ahorró meses de trabajo y aumentó la utilización de los recursos computacionales a más del 90%.

Para further simplificar los flujos de trabajo y hacer más rápido el desarrollo y la implementación de los modelos, una nueva interfaz de línea de comandos (CLI) y un kit de desarrollo de software (SDK) proporciona una interfaz única y consistente que simplifica la gestión de infraestructura, unifica la presentación de trabajos en entrenamiento e inferencia, y soporta tanto flujos de trabajo basados en recetas como personalizados con monitoreo y control integrados. Hoy, también estamos añadiendo dos capacidades a SageMaker HyperPod que pueden ayudarte a reducir los costos de entrenamiento y acelerar el desarrollo de modelos de IA.

Reduce el tiempo para solucionar problemas de rendimiento de días a minutos con la observabilidad de SageMaker HyperPod

Para llevar nuevas innovaciones de IA al mercado lo más rápido posible, las organizaciones necesitan visibilidad a través de tareas de desarrollo de modelos de IA y recursos computacionales para optimizar la eficiencia de entrenamiento y detectar y resolver interrupciones o cuellos de botella de rendimiento lo más pronto posible. Por ejemplo, para investigar si una falla de trabajo de entrenamiento o ajuste fino fue el resultado de un problema de hardware, los científicos de datos y los ingenieros de aprendizaje automático (ML) quieren filtrar rápidamente para revisar los datos de supervisión de las GPU específicas que realizaron el trabajo, en lugar de navegar manualmente a través de los recursos de hardware de todo un clúster para establecer la correlación entre la falla de trabajo y un problema de hardware.

La nueva capacidad de observabilidad de SageMaker HyperPod transforma cómo puedes monitorear y optimizar tus cargas de trabajo de desarrollo de modelos. A través de un panel unificado preconfigurado en Amazon Managed Grafana, con los datos de supervisión publicados automáticamente en un espacio de trabajo de Amazon Managed Service for Prometheus, ahora puedes ver métricas de rendimiento de tareas de IA generativa, utilización de recursos y salud del clúster en una sola vista. Los equipos pueden ahora detectar cuellos de botella rápidamente, prevenir retrasos costosos y optimizar los recursos computacionales. Puedes definir alertas automáticas, especificar métricas y eventos de tareas específicas de casos de uso, y publicarlos en el panel unificado con solo unos pocos clics.

Al reducir el tiempo de solución de problemas de días a minutos, esta capacidad puede ayudarte a acelerar tu camino hacia la producción y maximizar el retorno de tus inversiones en IA.

SageMaker HyperPod Observability

Despliega modelos de Amazon SageMaker JumpStart en SageMaker HyperPod para inferencia rápida y escalable

Después de desarrollar modelos de IA generativa en SageMaker HyperPod, muchos clientes importan estos modelos a Amazon Bedrock, un servicio completamente gestionado para construir y escalar aplicaciones de IA generativa. Sin embargo, algunos clientes quieren utilizar sus recursos computacionales de SageMaker HyperPod para acelerar su evaluación y mover modelos a producción más rápido.

Ahora, puedes desplegar modelos de pesos abiertos desde Amazon SageMaker JumpStart, así como modelos personalizados ajustados, en SageMaker HyperPod en minutos sin necesidad de configuración manual de infraestructura. Los científicos de datos pueden ejecutar inferencias en modelos de SageMaker JumpStart con un solo clic, simplificando y acelerando la evaluación del modelo. Esta provisión sencilla y única reduce la configuración manual de infraestructura, proporcionando un entorno de inferencia confiable y escalable con un mínimo esfuerzo. Las descargas de modelos grandes se reducen de horas a minutos, acelerando los despliegues de modelos y acortando el tiempo de comercialización.

“Con Amazon SageMaker HyperPod, usamos la misma computación de alto rendimiento para construir y desplegar los modelos fundamentales detrás de nuestra plataforma de IA agente. Esta transición sin problemas desde el entrenamiento a la inferencia optimizó nuestro flujo de trabajo, redujo el tiempo hasta la producción y entregó un rendimiento consistente en entornos en vivo. SageMaker HyperPod nos ayudó a pasar de la experimentación al impacto en el mundo real con mayor velocidad y eficiencia.”
–Laurent Sifre, Co-fundador & CTO de H.AI

Accede fácilmente a los poderosos recursos computacionales de SageMaker AI desde entornos de desarrollo locales

Hoy en día, muchos clientes eligen entre el amplio conjunto de entornos de desarrollo integrados (IDE) completamente gestionados disponibles en SageMaker AI para el desarrollo de modelos, incluidos JupyterLab, Editor de Código basado en Code-OSS y RStudio. Aunque estos IDE permiten configuraciones seguras y eficientes, algunos desarrolladores prefieren usar IDE locales en sus computadoras personales por sus capacidades de depuración y extensas opciones de personalización. Sin embargo, los clientes que usan un IDE local, como Visual Studio Code, no podían ejecutar fácilmente sus tareas de desarrollo de modelos en SageMaker AI hasta ahora.

Con las nuevas conexiones remotas a SageMaker AI, los desarrolladores y científicos de datos pueden conectarse rápida y fácilmente a SageMaker AI desde su VS Code local, manteniendo acceso a las herramientas personalizadas y flujos de trabajo familiares que les ayudan a trabajar de manera más eficiente. Los desarrolladores pueden construir y entrenar modelos de IA utilizando su IDE local mientras SageMaker AI gestiona la ejecución remota, de modo que puedes trabajar en tu entorno preferido mientras aún te beneficias del rendimiento, escalabilidad y seguridad de SageMaker AI. Ahora puedes elegir tu IDE preferido, ya sea un IDE en la nube completamente gestionado o VS Code, para acelerar el desarrollo de modelos de IA utilizando la potente infraestructura y escalabilidad fluida de SageMaker AI.

“Con las conexiones remotas a SageMaker AI, nuestros científicos de datos tienen la flexibilidad de elegir el IDE que les hace más productivos. Nuestros equipos pueden aprovechar su configuración local personalizada mientras acceden a la infraestructura y controles de seguridad de SageMaker AI. Como empresa enfocada en la seguridad, esto es extremadamente importante para nosotros ya que asegura que los datos sensibles permanezcan protegidos, mientras permite que nuestros equipos colaboren de forma segura y aumenten la productividad.”
–Nir Feldman, Vicepresidente Senior de Ingeniería en CyberArk

Construye modelos y aplicaciones de IA generativa más rápido con MLflow 3.0 totalmente gestionado

A medida que los clientes de diversas industrias aceleran su desarrollo de IA generativa, requieren capacidades para rastrear experimentos, observar comportamientos y evaluar el rendimiento de modelos y aplicaciones de IA. Clientes como Cisco, SonRai y Xometry ya están utilizando MLflow gestionado en SageMaker AI para gestionar de manera eficiente experimentos de modelos de ML a escala. La introducción de MLflow 3.0 completamente gestionado en SageMaker AI facilita el seguimiento de experimentos, el monitoreo del progreso de entrenamiento y la obtención de insights más profundos sobre el comportamiento de modelos y aplicaciones de IA mediante una única herramienta, ayudando a acelerar el desarrollo de IA generativa.

Conclusión

En esta publicación, compartimos algunas de las nuevas innovaciones en SageMaker AI para acelerar cómo puedes construir y entrenar modelos de IA.

¡Suscríbete a nuestro boletín para contenido más especializado!