PRENDRE RENDEZ-VOUS EN Amazon Kinesis facilite la collecte, le traitement et l’analyse des données en streaming en temps réel afin que vous puissiez obtenir des informations en temps opportun et réagir rapidement aux nouvelles informations. Amazon Kinesis offre des fonctionnalités clés pour traiter de manière rentable les données en streaming à n’importe quelle échelle, ainsi …
MLOP Category Archives:
Talend Open Studio for Data Integration
PRENDRE RENDEZ-VOUS EN Talend Open Studio for Data Integration est un logiciel téléchargeable gratuitement pour démarrer vos premiers projets d’intégration de données et ETL. Caractéristiques Licence Apache open source gratuite Connecteurs RDBMS : Oracle, Teradata, Microsoft SQL Server Connecteurs SaaS : Marketo, Salesforce, NetSuite Applications packagées : SAP, Microsoft Dynamics, Sugar CRM Site officiel Lien …
Spark
PRENDRE RENDEZ-VOUS EN Apache Spark est un moteur d’analyse unifié pour le traitement de données à grande échelle. Il fournit des API de haut niveau en Java, Scala, Python et R, ainsi qu’un moteur optimisé prenant en charge les graphiques d’exécution généraux. Il prend également en charge un riche ensemble d’outils de niveau supérieur, notamment …
Snakemake
PRENDRE RENDEZ-VOUS EN Le système de gestion de flux de travail Snakemake est un outil permettant de créer des analyses de données reproductibles et évolutives. Les flux de travail sont décrits via un langage lisible par l’homme, basé sur Python. Ils peuvent être adaptés de manière transparente aux environnements de serveur, de cluster, de grille …
SETL
PRENDRE RENDEZ-VOUS EN SETL (prononcé « settle ») est un framework Scala ETL optimisé par Apache Spark qui vous aide à structurer vos projets Spark ETL, à modulariser votre logique de transformation de données et à accélérer votre développement. Caractéristiques Avec SETL, une application ETL pourrait être représentée par un Pipeline. Un pipeline contient plusieurs …
Prefect Core
PRENDRE RENDEZ-VOUS EN La bibliothèque Python parfaite comprend tout ce dont vous avez besoin pour concevoir, créer, tester et exécuter de puissantes applications de données. Mettez instantanément à niveau votre code existant avec les meilleures pratiques de flux de travail et utilisez l’interface utilisateur de Prefect pour tout orchestrer et surveiller. Caractéristiques Un cadre d’automatisation …
PipelineX
PRENDRE RENDEZ-VOUS EN PipelineX : package Python pour créer des pipelines ML pour l’expérimentation avec Kedro, MLflow, etc. Caractéristiques HatchDict : Python en YAML/JSON6 Flex-Kedro : plugin Kedro pour une configuration flexible MLflow-on-Kedro : plugin Kedro pour les utilisateurs de MLflow Kedro-Extras : plugin Kedro pour utiliser divers packages Python Site officiel Lien Tutoriel et …
Oozie
PRENDRE RENDEZ-VOUS EN Oozie v3 est un moteur de bundle basé sur serveur qui fournit une abstraction oozie de niveau supérieur qui regroupera un ensemble d’applications coordinatrices. L’utilisateur pourra démarrer/arrêter/suspendre/reprendre/réexécuter un ensemble de tâches de coordinateur au niveau du bundle, ce qui permettra un contrôle opérationnel meilleur et plus facile. Oozie v2 est un moteur …
Neuraxle
PRENDRE RENDEZ-VOUS EN Neuraxle est une bibliothèque d’apprentissage automatique (ML) permettant de créer des pipelines d’apprentissage automatique. Caractéristiques Basé sur des composants : créez des étapes encapsulées, puis composez-les pour créer des pipelines complexes. État en évolution : chaque étape du pipeline peut s’adapter et évoluer tout au long du processus d’apprentissage. Réglage des hyperparamètres …
Metaflow
PRENDRE RENDEZ-VOUS EN Metaflow est une bibliothèque Python conviviale qui aide les scientifiques et les ingénieurs à créer et à gérer des projets réels de science des données. Metaflow a été initialement développé chez Netflix pour augmenter la productivité des data scientists qui travaillent sur une grande variété de projets allant des statistiques classiques à …