Com a rapidez com que a IA e o ML cresceram, o MLCommons vem atualizando seus benchmarks de treinamento MLPerf. A última revisão, Versão de treinamento 3.0adiciona testes para treinamento de modelos de linguagem grandes (LLM), especificamente para GPT-3, o LLM usado no ChatGPT. Essa é a primeira revisão do benchmark a incluir esse tipo de teste.
Ao todo, o teste produziu 250 resultados de desempenho de hardware de 16 fornecedores, incluindo sistemas da Intel, Lenovo e Microsoft Azure. Notavelmente ausente do teste estava a AMD, que tem um acelerador de IA altamente competitivo em sua linha Instinct. (A AMD não respondeu às perguntas até o momento).
Também digno de nota é o fato de a Intel não ter enviado seu Xeon ou GPU Max e, em vez disso, ter optado por testar seu processador de IA dedicado Gaudi 2 da Habana Labs. A Intel me disse que escolheu o Gaudi 2 porque ele foi projetado especificamente para alto desempenho, alta eficiência, treinamento e inferência de aprendizagem profunda e é particularmente capaz de gerenciar IA generativa e grandes modelos de linguagem, incluindo GPT-3.