“Quanto mais rápido pudermos treinar um modelo, quanto mais modelos pudermos treinar, mais aprenderemos sobre o problema e melhores serão os resultados”, disse Bryan Catanzaro, vice-presidente de pesquisa de aprendizagem profunda aplicada, em um comunicado.
2. Inferência: Usando GPUs Nvidia T4 em sua plataforma de inferência de deep learning TensorRT, a Nvidia realizou a inferência no conjunto de dados BERT-Base SQuAD em 2,2 milissegundos, bem abaixo do limite de processamento de 10 milissegundos para muitos aplicativos em tempo real, e muito à frente dos 40 milissegundos medidos com código de CPU altamente otimizado.
3. Modelo: A Nvidia disse que seu novo modelo personalizado, chamado Megatron, tem 8,3 bilhões de parâmetros, o que o torna 24 vezes maior que o BERT-Large e o maior modelo de linguagem do mundo baseado em Transformers, o bloco de construção usado para o BERT e outros modelos de IA de linguagem natural.
Em um movimento que certamente deixará os defensores do FOSS felizes, a Nvidia também está disponibilizando uma tonelada de código-fonte via GitHub.
- Código de treinamento BERT do NVIDIA GitHub com PyTorch
- Scripts de modelo NGC e pontos de verificação para TensorFlow
- Amostra de BERT otimizado para TensorRT no GitHub
- Transformador mais rápido: API C++, plug-in do TensorRT e OP do TensorFlow
- MXNet Gluon-NLP com suporte AMP para BERT (treinamento e inferência)
- Notebook Jupyter do BERT otimizado para TensorRT no AI Hub
- Megatron-LM: código PyTorch para treinamento de modelos maciços do Transformer
Não que nada disso seja facilmente consumido. Estamos falando de um código de IA muito avançado. Pouquíssimas pessoas serão capazes de entender isso. Mas o gesto é positivo.