SETL

Communauté d’assistance GitHub Traitement des données

SETL (prononcé « settle ») est un framework Scala ETL optimisé par Apache Spark qui vous aide à structurer vos projets Spark ETL, à modulariser votre logique de transformation de données et à accélérer votre développement.

Caractéristiques

Avec SETL, une application ETL pourrait être représentée par un Pipeline. Un pipeline contient plusieurs étapes. Dans chaque étape, nous pourrions trouver une ou plusieurs usines.

La classe Factory[T] est une abstraction d’une transformation de données qui produira un objet de type T. Elle dispose de 4 méthodes (lecture, traitement, écriture et get) qui doivent être implémentées par le développeur.

La classe SparkRepository[T] est une abstraction de la couche d’accès aux données. Il pourrait être utilisé pour lire/écrire un Dataset[T] depuis/vers une banque de données. Il doit être défini dans un fichier de configuration. Vous pouvez avoir autant de SparkRepositories que vous le souhaitez.

Le point d’entrée d’un projet SETL est l’objet io.github.setl.Setl, qui gérera l’instanciation du pipeline et du référentiel Spark.

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading