DeepSpeed 

Communauté d’assistance GitHub Outils d’optimisation

DeepSpeed est une bibliothèque d’optimisation du deep learning qui rend la formation distribuée simple, efficace et efficiente.

Modèles 10x plus grands

Entraînement 10 fois plus rapide

Modification minimale du code

Caractéristiques

Échelle extrême : en utilisant la génération actuelle de clusters GPU avec des centaines d’appareils, le parallélisme 3D de DeepSpeed peut entraîner efficacement des modèles d’apprentissage profond avec des milliards de paramètres.

Extrêmement économe en mémoire : avec un seul GPU, ZeRO-Offload de DeepSpeed peut former des modèles avec plus de 10 milliards de paramètres, 10 fois plus grands que l’état de l’art, démocratisant ainsi la formation de modèles de plusieurs milliards de paramètres, de sorte que de nombreux scientifiques du deep learning peuvent explorer plus grand et mieux. des modèles.

Longueur de séquence extrêmement longue : l’attention limitée de DeepSpeed alimente une séquence d’entrée plus longue d’un ordre de grandeur et obtient une exécution jusqu’à 6 fois plus rapide par rapport aux transformateurs denses.

Communication extrêmement efficace : le parallélisme 3D améliore l’efficacité de la communication et permet aux utilisateurs de former des modèles de plusieurs milliards de paramètres 2 à 7 fois plus rapidement sur des clusters avec une bande passante réseau limitée. Adam 1 bit/LAMB 1 bit réduisent le volume de communication jusqu’à 5 fois tout en atteignant une efficacité de convergence similaire à celle d’Adam/LAMB, permettant une mise à l’échelle vers différents types de clusters et de réseaux GPU.

Site officiel

Tutoriel et documentation