Embora a energia e o resfriamento sejam as principais preocupações dos construtores de data centers, outra consideração frequentemente ignorada é a taxa de transferência e a conectividade da rede. Para o treinamento em IA, cada GPU precisa de sua própria porta de rede com taxa de transferência muito alta.
No entanto, as GPUs ultrapassaram em muito as portas de rede. Por exemplo, o uso de GPUs que processam dados da memória a 900 Gbps com uma malha de computação de 100 Gbps deixaria a GPU mais lenta, pois ela precisa esperar que a rede processe todos os dados. Como alternativa, o InfiniBand é muito mais rápido do que os fios de cobre tradicionais, mas também é 10 vezes mais caro.
Uma abordagem para evitar a densidade de calor é distribuir fisicamente o hardware. Não encha os racks, separe-os fisicamente e assim por diante. Mas isso introduz latência devido aos muitos terabytes de dados que precisam ser movimentados, e a latência é inimiga do desempenho.
Sugestões e soluções
A Schneider oferece uma série de sugestões. A primeira pede a substituição da distribuição de energia de 120/280V por sistemas de 240/415V para reduzir o número de circuitos em racks de alta densidade. Ela também recomenda várias unidades de distribuição de energia (PDU) para fornecer a energia adequada.
Outra sugestão é definir um limite de 20 kW por rack para resfriamento a ar. Para além de 20 kW, a Schneider recomenda o uso de resfriamento líquido. Considerando que o resfriamento a ar atinge o máximo de 30 kW, acredito que Schneider esteja sendo um pouco conservador em relação aos limites do resfriamento a ar. Ou tentando vender hardware de resfriamento líquido.
Há várias formas de resfriamento líquido, mas Schneider defende o resfriamento líquido direto. Uma placa de cobre é conectada à CPU como em um sistema de resfriamento a ar, mas tem dois tubos: a água fria entra em um tubo, absorve o calor e sai pelo outro tubo, onde é circulada e resfriada.