SETL

Communauté d’assistance GitHub Traitement des données

SETL (prononcé « settle ») est un framework Scala ETL optimisé par Apache Spark qui vous aide à structurer vos projets Spark ETL, à modulariser votre logique de transformation de données et à accélérer votre développement.

Caractéristiques

Avec SETL, une application ETL pourrait être représentée par un Pipeline. Un pipeline contient plusieurs étapes. Dans chaque étape, nous pourrions trouver une ou plusieurs usines.

La classe Factory[T] est une abstraction d’une transformation de données qui produira un objet de type T. Elle dispose de 4 méthodes (lecture, traitement, écriture et get) qui doivent être implémentées par le développeur.

La classe SparkRepository[T] est une abstraction de la couche d’accès aux données. Il pourrait être utilisé pour lire/écrire un Dataset[T] depuis/vers une banque de données. Il doit être défini dans un fichier de configuration. Vous pouvez avoir autant de SparkRepositories que vous le souhaitez.

Le point d’entrée d’un projet SETL est l’objet io.github.setl.Setl, qui gérera l’instanciation du pipeline et du référentiel Spark.

Site officiel

Lien

Tutoriel et documentation

Cliquez ici pour afficher

Montréal

1275 Av. des Canadiens-de-Montréal,

Montréal, QC H3B 0G4

Canada

Los Angeles

312 Arizona Ave,

Santa Monica, CA 90401,

USA

Dubaï

Gate Avenue Zone D at DIFC – Sheikh Zayed Road

Dubai, United Arab Emirates

Doha

1 Al Corniche St, Burj Doha, level 21,

Doha, Qatar