Dask 

Communauté d’assistance GitHub Outils d’optimisation

Dask est une bibliothèque flexible pour le calcul parallèle en Python.

Dask est composé de deux parties :

Planification dynamique des tâches optimisée pour le calcul. Ceci est similaire à Airflow, Luigi, Celery ou Make, mais optimisé pour les charges de travail informatiques interactives.

Collections « Big Data » telles que des tableaux parallèles, des trames de données et des listes qui étendent les interfaces courantes telles que les itérateurs NumPy, Pandas ou Python à des environnements plus grands que la mémoire ou distribués. Ces collections parallèles s’exécutent sur des planificateurs de tâches dynamiques.

Caractéristiques

Familier : fournit un tableau NumPy parallélisé et des objets Pandas DataFrame

Flexible : fournit une interface de planification de tâches pour des charges de travail plus personnalisées et une intégration avec d’autres projets.

Natif : permet le calcul distribué en Python pur avec accès à la pile PyData.

Rapide : fonctionne avec une faible surcharge, une faible latence et une sérialisation minimale nécessaire aux algorithmes numériques rapides

Évolutif : fonctionne de manière résiliente sur des clusters comportant des milliers de cœurs

Réduit : simple à configurer et à exécuter sur un ordinateur portable en un seul processus

Réactif : conçu pour l’informatique interactive, il fournit des commentaires et des diagnostics rapides pour aider les humains.

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading