DataHub est composé d’un backend générique et d’une interface utilisateur basée sur React. Le billet de blog original de DataHub parle en détail de la conception et mentionne certaines des fonctionnalités de DataHub. Notre article de blog open source fournit également une comparaison de certaines fonctionnalités entre le DataHub de production LinkedIn et le DataHub open source. Vous trouverez ci-dessous une liste des dernières fonctionnalités disponibles dans DataHub, ainsi que de celles qui le seront bientôt.
Entités :
Ensembles de données
Recherche : recherche en texte intégral et avancée, classement de recherche
Parcourir : navigation dans une hiérarchie configurable
Schéma : schéma de table et de document au format tabulaire et JSON
Lignage des grains grossiers : prise en charge du lignage au niveau de l’ensemble de données, visualisation tabulaire et graphique des avals /upstreams
Propriété : faire apparaître les propriétaires d’un ensemble de données, afficher les ensembles de données que vous possédez.
Gestion du cycle de vie des ensembles de données : obsolète/annuler la dépréciation, afficher les ensembles de données supprimés et les étiqueter avec “supprimé”.
Connaissances institutionnelles : prise en charge de l’ajout de documents sous forme libre à n’importe quel ensemble de données
. Lignée à grain fin : prise en charge du traçage au niveau du champ
Actions sociales : j’aime, suit, marque-pages
Gestion de la conformité : édition de la conformité basée sur des balises au niveau du champ
Principaux utilisateurs : utilisateurs fréquents d’un ensemble de données
Recherche d’utilisateurs et de groupes
: recherche en texte intégral et avancée, classement de recherche
Parcourir : navigation dans une hiérarchie configurable
Édition de profil : édition de profil professionnel de style LinkedIn tel qu’un résumé, des compétences
Recherche de tableaux de bord et de graphiques
: recherche en texte intégral et avancée, classement de recherche
Informations de base : propriété, emplacement. Lien vers un service externe pour visualiser le tableau de bord.
Connaissances institutionnelles : prise en charge de l’ajout de documents sous forme libre à n’importe quel tableau de bord
Recherche de tâches et de pipelines
: recherche en texte intégral et avancée, classement de recherche
Parcourir : navigation dans une hiérarchie configurable
Informations de base :
Historique d’exécution : exécutions et leur statut. Lien vers un service externe pour afficher les informations complètes.
Balises
définies globalement : les balises fournissent un ensemble standardisé d’étiquettes qui peuvent être partagées entre toutes vos entités.
Prend en charge les entités et les schémas : les balises peuvent être appliquées au niveau de l’entité ou pour des ensembles de données, attachées aux champs de schéma.
Les entités consultables peuvent être recherchées et filtrées par balise
Recherche de schémas
: recherche en texte intégral et avancée, classement de recherche
Parcourir : navigation dans une hiérarchie configurable
Historique des schémas : afficher et comparer les versions historiques des schémas
GraphQL : visualisation des schémas GraphQL
Recherche de métriques
: recherche en texte intégral et avancée, classement de recherche
Parcourir : navigation dans une hiérarchie configurable
Informations de base : propriétaire, dimensions, formule, ensembles de données d’entrée et de sortie, tableaux de bord
Connaissance institutionnelle : prise en charge de l’ajout d’un document sous forme libre à n’importe quelle métrique
Contrôles d’accès précis
DataHub fournit également des mécanismes pour contrôler qui a accès à quelles entités de métadonnées via l’interface utilisateur et l’API. Grâce à cette fonctionnalité, les administrateurs de DataHub peuvent définir des politiques telles que
* Les propriétaires d’ensembles de données devraient pouvoir mettre à jour la documentation, mais pas les balises, pour tous les ensembles de données.
* Un Data Steward spécifique devrait être capable d’ajouter des balises à n’importe quel ensemble de données, mais de ne rien modifier d’autre.
* L’équipe Data Platform doit disposer de tous les privilèges pour DataHub, y compris la gestion des politiques et la visualisation des analyses de la plateforme.
Sources de métadonnées
Nous disposons d’un cadre d’ingestion de métadonnées qui prend en charge une variété de connecteurs populaires, comme
BigQuery, Snowflake, Redshift, Postgres, Kafka, MySQL, Hive, Looker, MongoDB