Pachyderm

Pachyderm Inc.Plateforme de bout en bout pour l’apprentissage automatique

Pachyderm est un outil pour les pipelines de données de bout en bout, automatisés et contrôlés par version pour la science des données. Si vous avez besoin d’enchaîner le grattage, l’ingestion, le nettoyage, la manipulation, la manipulation, le traitement, la modélisation et l’analyse de données de manière saine, tout en garantissant la traçabilité et la provenance de vos données, Pachyderm est fait pour vous. Si vous disposez d’un ensemble de scripts existants qui font cela de manière ad hoc et que vous cherchez un moyen de les « produire », Pachyderm peut vous faciliter la tâche.

Caractéristiques

Conteneurisé : Pachyderm est construit sur Docker et Kubernetes. Quels que soient les langages ou les bibliothèques dont votre pipeline a besoin, ils peuvent fonctionner sur Pachyderm qui peut facilement être déployé sur n’importe quel fournisseur de cloud ou sur site.

Contrôle de version : la version Pachyderm contrôle vos données au fur et à mesure de leur traitement. Vous pouvez toujours demander au système comment les données ont changé, voir une différence et, si quelque chose ne semble pas correct, revenir en arrière.

Provenance (alias lignée des données) : Pachyderm suit l’origine des données. Pachyderm garde une trace de tout le code et des données qui ont créé un résultat.

Parallélisation : Pachyderm peut planifier efficacement des charges de travail massivement parallèles.

Traitement incrémental : Pachyderm comprend comment vos données ont changé et est suffisamment intelligent pour traiter uniquement les nouvelles données.

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading