Kedro

Communauté d’assistance GitHub Traitement des données

Kedro est un framework Python open source permettant de créer du code de science des données reproductible, maintenable et modulaire. Il emprunte des concepts au génie logiciel et les applique au code d’apprentissage automatique ; les concepts appliqués incluent la modularité, la séparation des préoccupations et le versioning.

Caractéristiques

Modèle de projet : un modèle de projet standard, modifiable et facile à utiliser basé sur Cookiecutter Data Science.

Catalogue de données : série de connecteurs de données légers utilisés pour enregistrer et charger des données dans de nombreux formats et systèmes de fichiers différents, notamment les systèmes de fichiers locaux et réseau, les magasins d’objets cloud et HDFS. Le catalogue de données comprend également la gestion des versions de données et de modèles pour les systèmes basés sur des fichiers.

Abstraction du pipeline : résolution automatique des dépendances entre les fonctions Python pures et la visualisation du pipeline de données à l’aide de Kedro-Viz.

Normes de codage : développement piloté par les tests à l’aide de pytest, produisez du code bien documenté à l’aide de Sphinx, créez du code linté avec prise en charge de flake8, isort et black et utilisez la bibliothèque de journalisation Python standard.

Déploiement flexible : stratégies de déploiement qui incluent le déploiement sur une machine unique ou distribuée ainsi qu’une prise en charge supplémentaire pour le déploiement sur Argo, Prefect, Kubeflow, AWS Batch et Databricks.

 

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading