Gokart 

GithubTraitement des données

Gokart résout la reproductibilité, les dépendances des tâches, les contraintes d’un bon code et la facilité d’utilisation du Machine Learning Pipeline. Gokart est un wrapper de la bibliothèque de pipelines de données luigi. Gokart résout la « reproductibilité », les « dépendances des tâches », les « contraintes d’un bon code » et la « facilité d’utilisation » pour le pipeline d’apprentissage automatique.

Caractéristiques

Les données suivantes pour chaque tâche sont stockées séparément dans un fichier pkl avec valeur de hachage

* données de sortie de la tâche

* toutes les versions du module importées

* temps de traitement de la tâche

* graine aléatoire dans la tâche

* journal affiché

* tous les paramètres définis comme variables de classe dans la tâche

Si vous modifiez le paramètre de la tâche, réexécutez spontanément.

* Le fichier ci-dessus sera généré avec une valeur de hachage différente

* La valeur de hachage de la tâche dépendante changera également et les deux seront réexécutées

> Prise en charge de GCS ou S3

> La sortie ci-dessus est échangée entre les tâches en tant que fichier intermédiaire, ce qui respecte la mémoire

> Pandas.DataFrame et vérification des colonnes pendant les E/S

> La structure du répertoire des fichiers enregistrés est automatiquement déterminée à partir de la structure du script

> Seeds pour numpy et random sont automatiquement corrigés

> Peut coder tout en adhérant autant que possible aux principes SOLID

> Les tâches sont verrouillées via redis même si elles s’exécutent en parallèle

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading