O Google Cloud, a Meta e a Microsoft estão entre os primeiros que deverão ter acesso ao DGX GH200 para explorar seus recursos para cargas de trabalho de IA generativas. A Nvidia também pretende fornecer o design do DGX GH200 como um modelo para provedores de serviços em nuvem e outros hiperescaladores, para que possam personalizá-lo ainda mais para sua infraestrutura. Espera-se que os supercomputadores Nvidia DGX GH200 estejam disponíveis até o final do ano.
O software está incluído.
Esses supercomputadores vêm com o software da Nvidia instalado para fornecer um produto pronto para uso que inclui o Nvidia AI Enterprise, a principal camada de software para sua plataforma de IA com estruturas, modelos pré-treinados e ferramentas de desenvolvimento; e o Base Command para gerenciamento de cluster em nível empresarial.
O DGX GH200 é o primeiro supercomputador a combinar os superchips Grace Hopper com o NVLink Switch System da Nvidia, a interconexão que permite que as GPUs do sistema trabalhem juntas como uma só. O sistema da geração anterior atingia o máximo de oito GPUs trabalhando em conjunto.
Para chegar ao sistema de tamanho normal, ainda é necessário um espaço significativo no data center. Cada chassi de 15 unidades de rack comporta oito nós de computação, e há dois chassis por rack (ou pod, no jargão da Nvidia), juntamente com a ethernet NVswitch e a conectividade IP. Até oito dos pods podem ser conectados para obter até 256 processadores.
O sistema é resfriado a ar, apesar do fato de que as GPUs Hopper consomem 700 Watts de energia, o que significa um calor considerável. A Nvidia disse que está desenvolvendo internamente sistemas refrigerados a líquido e está conversando sobre isso com clientes e parceiros, mas por enquanto a DGX GH200 é refrigerada por ventiladores.
Até o momento, os usuários potenciais do sistema não estão prontos para o resfriamento líquido, disse Charlie Boyle, vice-presidente de sistemas DGX da Nvidia. “Haverá momentos no futuro em que teremos projetos que precisarão ser resfriados por líquido, mas conseguimos manter esse sistema no ar”, disse ele.