viernes, diciembre 13, 2024

NVIDIA y sus socios globales lanzan nuevos sistemas HGX A100 para acelerar la IA Industrial y el HPC

/COMUNICAE/

Amplia gama de sistemas HPC y servicios en la nube con tecnología HGX ahora sobrealimentados con NVIDIA A100 80G PCIe, NVIDIA NDR 400G InfiniBand, NVIDIA Magnum IO

—ISC— NVIDIA anunció hoy que está acelerando la plataforma de supercomputación de IA NVIDIA HGX™ con nuevas tecnologías que fusionan la Inteligencia Artificial con la Computación de Alto Rendimiento, lo que hace que la supercomputación sea más útil para un número creciente de industrias.

Para acelerar la nueva era de IA industrial y HPC, NVIDIA ha agregado tres tecnologías clave a su plataforma HGX: la GPU PCIe NVIDIA® A100 de 80GB, la red NVIDIA NDR 400G InfiniBand y el software de almacenamiento NVIDIA Magnum IO ™ GPUDirect ™. Juntos proporcionan el rendimiento extremo para permitir la innovación industrial de HPC.

Atos, Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo, Microsoft Azure y NetApp se encuentran entre las docenas de socios que utilizan la plataforma NVIDIA HGX para crear sistemas y soluciones de próxima generación.

“La revolución HPC comenzó en el mundo académico y se está extendiendo rápidamente a una amplia gama de industrias”, dijo Jensen Huang, fundador y Director Ejecutivo de NVIDIA. “Las dinámicas clave están impulsando avances súper exponenciales de la ley de súper Moore que han hecho de la HPC una herramienta útil para las industrias. La plataforma HGX de NVIDIA ofrece a los investigadores una aceleración informática de alto rendimiento sin precedentes para abordar los problemas más difíciles que enfrentan las industrias”.

Los líderes de la industria utilizan la plataforma HGX para impulsar avances en innovación
La plataforma HGX está siendo utilizada por el pionero industrial de alta tecnología General Electric, aplicando innovación de HPC a simulaciones de dinámica de fluidos computacionales que guían la innovación del diseño en grandes turbinas de gas y motores a reacción. La plataforma HGX ha logrado una aceleración de orden de magnitud para métodos de CFD innovadores en el Código GENESIS de GE, que emplea simulaciones de grandes remolinos para estudiar los efectos de los flujos turbulentos dentro de las turbinas, que están compuestas por cientos de cuchillas y requieren una geometría excepcionalmente compleja.

Anunciada hoy mismo por separado, la Universidad de Edimburgo está utilizando la Plataforma HGX para acelerar su supercomputadora de próxima generación.

Mejoras en el rendimiento de NVIDIA A100 PCIe de 80 GB para IA y HPC
Las GPUs NVIDIA A100 Tensor Core brindan una aceleración a HPC sin precedentes para resolver desafíos complejos de IA, análisis de datos, entrenamiento de modelos y simulación relevantes para la HPC industrial. Las GPUs PCIe A100 de 80 GB aumentan el ancho de banda de la memoria de la GPU en un 25 por ciento en comparación con la A100 de 40 GB, a 2 TB/s, y proporcionan 80 GB de memoria de alto ancho de banda HBM2e.

La enorme capacidad de memoria del A100 80GB PCIe y el alto ancho de banda de memoria permiten que se retengan más datos y redes neuronales más grandes en la memoria, lo que minimiza la comunicación entre inter-nodos y el consumo de energía. Combinado con un ancho de banda de memoria más rápido, permite a los investigadores lograr un mayor rendimiento y resultados más rápidos, maximizando el valor de sus inversiones en TI.

A100 80GB PCIe funciona con la arquitectura NVIDIA Ampere, que cuenta con GPU de instancias múltiples (MIG) para ofrecer aceleración para cargas de trabajo más pequeñas, como la inferencia de IA. MIG permite que los sistemas HPC escalen el cómputo y la memoria con una calidad de servicio garantizada. Además de PCIe, existen configuraciones NVIDIA HGX A100 de cuatro y ocho vías.

El soporte de socios de NVIDIA para el PCIe A100 de 80 GB incluye Atos, Cisco, Dell Technologies, Fujitsu, H3C, HPE, Inspur, Lenovo, Penguin Computing, QCT y Supermicro. La Plataforma HGX también está disponible como servicio en la nube basados en A100 utilizando NVLink de Amazon Web Services, Google Cloud, Microsoft Azure y Oracle Cloud Infrastructure.

Sistemas de conmutadores InfiniBand NDR de 400 Gb/s de Próxima Generación
Los sistemas HPC que requieren datos incomparables están potenciados por NVIDIA InfiniBand, la única interconexión informática en red del mundo totalmente descargable. NDR InfiniBand escala el rendimiento para abordar los desafíos masivos en los sistemas HPC industriales y científicos. Los sistemas de conmutadores de configuración fija NVIDIA Quantum™ ofrecen 64 puertos de InfiniBand NDR 400 Gb/s por puerto (o 128 puertos de NDR200), lo que proporciona una densidad de puertos 3 veces mayor en comparación con HDR InfiniBand.

Los conmutadores modulares NVIDIA Quantum ™ -2 proporcionan configuraciones de puertos escalables hasta 2048 puertos de NDR 400 Gb/s InfiniBand (o 4096 puertos de NDR200) con un rendimiento bidireccional total de 1.64 petabits por segundo, 5 veces más que la generación anterior. El conmutador de 2.048 puertos proporciona una escalabilidad 6.5 veces mayor que la generación anterior, con la capacidad de conectar más de un millón de nodos con solo tres saltos utilizando una topología de red DragonFly +. La tercera generación de tecnología de reducción de datos de In-Network Computing de NVIDIA SHARP aumenta el rendimiento para aplicaciones industriales y científicas de alto rendimiento con una potencia de aceleración de IA 32 veces mayor en comparación con la generación anterior.

Las funciones de administración avanzadas incluyen capacidades de red de recuperación automática y motores de aceleración de In-Network Computing de NVIDIA. El tiempo de inactividad del centro de datos se minimiza aún más con la NVIDIA UFM® Cyber-AI platform.

Basados en los estándares de la industria, los conmutadores NVIDIA Quantum-2, que se espera se muestren antes de fin de año, son compatibles con versiones anteriores y posteriores, lo que permite una fácil migración y expansión de los sistemas y software existentes.

Los fabricantes de infraestructura líderes en la industria, incluidos: Atos, DDN, Dell Technologies, Excelero, GIGABYTE, Lenovo, Penguin, QCT, Supermicro, VAST y WekaIO, planean integrar en sus ofertas empresariales los conmutadores InfiniBand Quantum-2 NDR 400Gb/s y la HPC. Los proveedores de servicios en la nube, incluido Azure, también están aprovechando la tecnología InfiniBand.

Magnum IO GPUDirect Storage
Al proporcionar un rendimiento incomparable para cargas de trabajo complejas, Magnum IO GPUDirect Storage permite el acceso directo a la memoria entre la memoria de la GPU y el almacenamiento. La ruta directa permite que las aplicaciones se beneficien de una latencia de E/s más baja y utilicen todo el ancho de banda de los adaptadores de red mientras se reduce la carga de utilización en la CPU y se gestiona el impacto del mayor consumo de datos.

Los líderes de la industria que soportan el almacenamiento Magnum IO GPUDirect Storage , que ya está disponible, incluyen: DDN, Dell Technologies, Excelero, IBM Storage, Micron, NetApp, Pavilion, ScaleFlux, VAST y WekaIO. Una lista completa de socios de almacenamiento está disponible en: https://developer.nvidia.com/gpudirect-storage.

Fuente Comunicae

Artículos relacionados