Maia 200: El acelerador de IA diseñado para la inferencia
El equipo de Superinteligencia de Microsoft utilizará Maia 200 para la generación de datos sintéticos y el aprendizaje de refuerzo para mejorar los modelos internos
2026-02-08
El equipo de Superinteligencia de Microsoft utilizará Maia 200 para la generación de datos sintéticos y el aprendizaje de refuerzo para mejorar los modelos internos
2026-02-08
Estamos orgullosos de presentar Maia 200, un acelerador de inferencia innovador diseñado para mejorar drásticamente la economía de la generación de tokens de IA. Maia 200 es una potencia de inferencia de IA: un acelerador construido sobre el proceso de 3 nm de TSMC con núcleos tensores nativos FP8/FP4, un sistema de memoria rediseñado con HBM3e de 216 GB a 7 TB/s y 272 MB de SRAM en chip, además de motores de movimiento de datos que mantienen los modelos masivos alimentados, rápidos y altamente utilizados. Esto hace que el Maia 200 sea el silicio de primera parte más eficiente de cualquier hiperescalador, con tres veces el rendimiento FP4 del Amazon Trainium de tercera generación, y el rendimiento FP8 por encima del TPU de séptima generación de Google. Maia 200 también es el sistema de inferencia más eficiente que Microsoft haya implementado, con un 30 % mejor rendimiento por dólar que el hardware de última generación de nuestra flota en la actualidad.
Maia 200 es parte de nuestra heterogenea infraestructura de IA y servirá a múltiples modelos, incluidos los últimos modelos GPT-5.2 de OpenAI, lo que brinda una ventaja de rendimiento por dólar a Microsoft Foundry y Microsoft 365 Copilot. El equipo de Superinteligencia de Microsoft utilizará Maia 200 para la generación de datos sintéticos y el aprendizaje de refuerzo para mejorar los modelos internos de próxima generación. Para casos de uso de tuberías de datos sintéticos, el diseño único de Maia 200 ayuda a acelerar la velocidad a la que se pueden generar y filtrar datos de alta calidad y específicos del dominio, alimentando el entrenamiento posterior con señales más frescas y específicas.
Maia 200 se implementa en nuestra región de centro de datos central de EE. UU. cerca de Des Moines, Iowa, con la región de centro de datos Oeste de EE. UU. 3 cerca de Phoenix, Arizona, que vendrán las siguientes y futuras regiones. Maia 200 se integra perfectamente con Azure, y estamos previsualizando el SDK de Maia con un conjunto completo de herramientas para crear y optimizar modelos para Maia 200. Incluye un conjunto completo de capacidades, incluida la integración de PyTorch, un compilador Triton y una biblioteca de kernel optimizada, y acceso al lenguaje de programación de bajo nivel de Maia. Esto le da a los desarrolladores un control de grano fino cuando es necesario, al tiempo que permite una fácil portabilidad de modelos a través de aceleradores de hardware heterogéneos.
Diseñado para la inferencia de IA
Fabricado en el proceso de 3 nanómetros de vanguardia de TSMC, cada chip Maia 200 contiene más de 140 mil millones de transistores y está diseñado para cargas de trabajo de IA a gran escala, al tiempo que ofrece un rendimiento eficiente por dólar. En ambos frentes, Maia 200 está construido para sobresalir. Está diseñado para los últimos modelos utilizando computación de baja precisión, con cada chip Maia 200 entregando más de 10 petaFLOPS en precisión de 4 bits (FP4) y más de 5 petaFLOPS de rendimiento de 8 bits (FP8), todo dentro de un sobre TDP de SoC de 750 W. En términos prácticos, Maia 200 puede ejecutar sin esfuerzo los modelos más grandes de hoy en día, con mucho espacio para modelos aún más grandes en el futuro.
Fundamentalmente, los FLOPS no son el único ingrediente para una IA más rápida. Los datos de alimentación son igualmente importantes. Maia 200 ataca este cuello de botella con un subsistema de memoria rediseñado. El subsistema de memoria Maia 200 se centra en tipos de datos de precisión estrecha, un motor DMA especializado, SRAM en die y una estructura NoC especializada para el movimiento de datos de alto ancho de banda, aumentando el rendimiento del token.
Sistemas de IA optimizados
A nivel de sistemas, Maia 200 presenta un nuevo diseño de red de dos niveles construido sobre Ethernet estándar. Una capa de transporte personalizada y una NIC estrechamente integrada desbloquean el rendimiento, la fuerte fiabilidad y las importantes ventajas de coste sin depender de las telas patentadas.
Cada acelerador expone:
*2,8 TB/s de ancho de banda bidireccional y dedicado
*Operaciones colectivas predecibles y de alto rendimiento en grupos de hasta 6.144 aceleradores
Esta arquitectura ofrece un rendimiento escalable para clústeres de inferencia densos al tiempo que reduce el uso de energía y el TCO general en toda la flota global de Azure.
Dentro de cada bandeja, cuatro aceleradores Maia están completamente conectados con enlaces directos no conmutados, manteniendo la comunicación de alto ancho de banda local para una eficiencia de inferencia óptima. Los mismos protocolos de comunicación se utilizan para las redes intra-rack y entre racks utilizando el protocolo de transporte Maia AI, lo que permite un escalado sin problemas a través de nodos, racks y grupos de aceleradores con saltos de red mínimos. Esta estructura unificada simplifica la programación, mejora la flexibilidad de la carga de trabajo y reduce la capacidad varada al tiempo que mantiene un rendimiento constante y la rentabilidad a escala de la nube.
Un enfoque de desarrollo nativo de la nube
Un principio fundamental de los programas de desarrollo de silicio de Microsoft es validar la mayor cantidad posible del sistema de extremo a extremo antes de la disponibilidad final del silicio.
Un sofisticado entorno de pre-silicio guió la arquitectura Maia 200 desde sus primeras etapas, modelando los patrones de computación y comunicación de los LLM con alta fidelidad. Este entorno de codesarrollo temprano nos permitió optimizar el silicio, la red y el software del sistema como un todo unificado, mucho antes del primer silicio.
También diseñamos Maia 200 para una disponibilidad rápida y sin problemas en el centro de datos desde el principio, construyendo la validación temprana de algunos de los elementos más complejos del sistema, incluida la red de backend y nuestra unidad de intercambio de calor de refrigeración líquida de segunda generación. La integración nativa con el plano de control de Azure ofrece capacidades de seguridad, telemetría, diagnóstico y gestión tanto a nivel de chip como de rack, maximizando la fiabilidad y el tiempo de actividad para las cargas de trabajo de IA críticas para la producción.
Como resultado de estas inversiones, los modelos de IA se estaban ejecutando con silicio Maia 200 a los pocos días de la llegada de la primera pieza empaquetada. El tiempo desde el primer silicio hasta la primera implementación del rack del centro de datos se redujo a menos de la mitad que el de los programas de infraestructura de IA comparables. Y este enfoque de extremo a extremo, desde el chip hasta el software y el centro de datos, se traduce directamente en una mayor utilización, un tiempo de producción más rápido y mejoras sostenidas en el rendimiento por dólar y por vatio a escala de la nube.
Regístrese para la vista previa de Maia SDK
La era de la IA a gran escala apenas está comenzando, y la infraestructura definirá lo que es posible. Nuestro programa de aceleración de IA de Maia está diseñado para ser multigeneracional. A medida que implementamos Maia 200 en nuestra infraestructura global, ya estamos diseñando para las generaciones futuras y esperamos que cada generación establezca continuamente nuevos puntos de referencia para lo que es posible y ofrezca un rendimiento y eficiencia aún mejores para las cargas de trabajo de IA más importantes.
Hoy, estamos invitando a desarrolladores, startups de IA y académicos a comenzar a explorar el modelo temprano y la optimización de la carga de trabajo con el nuevo kit de desarrollo de software (SDK) Maia 200. El SDK incluye un Triton Compiler, soporte para PyTorch, programación de bajo nivel en NPL y un simulador Maia y calculadora de costos para optimizar la eficiencia antes en el ciclo de vida del código.
FUENTE: microsoft.com
Derechos Reservados © La Capital