A Nvidia tem ofertas de servidor, a série DGX, que usa CPUs AMD Epyc (o senhor não achou que eles usariam Intel, achou?) para inicializar e coordenar tudo e coordenar as GPUs Ampere. O Epyc é ótimo para executar bancos de dados, mas é um processador de computação geral, sem o tipo de E/S de alta velocidade e otimizações de aprendizagem profunda que a Nvidia precisa.
A Nvidia não deu muitos detalhes, exceto para dizer que ele seria construído em uma versão futura do Arm Neoverse usando um processo de fabricação de 5 nanômetros, o que significa que será construído pela TSMC. O Grace também usará a interconexão de alta velocidade NVLink, desenvolvida internamente pela Nvidia, entre a CPU e a GPU. Uma nova versão planejada para 2023 oferecerá mais de 900 GBps de largura de banda entre a CPU e a GPU. Isso é muito mais rápido do que o PCI Express usado pela AMD para comunicações CPU-GPU.
Dois clientes de supercomputação
Embora o Grace não seja lançado até 2023, a Nvidia já tem dois clientes de supercomputadores para o processador. O Swiss National Supercomputing Centre (CSCS) e o Los Alamos National Laboratory anunciaram hoje que encomendarão supercomputadores baseados no Grace. Ambos os sistemas serão construídos pela subsidiária Cray da HPE (quem mais?) e devem entrar em operação em 2023.
O sistema da CSCS, chamado Alps, substituirá seu atual sistema Piz Daint, um cluster Xeon e NVIDIA P100. O CSCS afirma que o Alps oferecerá 20 ExaFLOPS de desempenho de IA, o que seria incrível se eles conseguissem, pois atualmente o melhor que temos é o Fugaku com apenas um exaflop.
Os tropeços da Arm no data center
De modo geral, essa é uma jogada inteligente por parte da Nvidia porque os processadores de servidor Arm de uso geral não se saíram bem. A Nvidia tem seu próprio mercado de CPU de data center fracassado. Há uma década, ela lançou o Projeto Denver, mas ele nunca saiu dos laboratórios. O Denver era uma CPU de uso geral, enquanto o Grace é altamente vertical e especializado.