DataHub

GitHubCatalogue de données

DataHub est une plateforme de métadonnées open source pour la pile de données moderne. Découvrez les architectures des différents systèmes de métadonnées et pourquoi DataHub excelle ici. Lisez également notre article de blog LinkedIn Engineering, consultez notre présentation Strata et regardez notre conférence Crunch. Vous devriez également visiter DataHub Architecture pour mieux comprendre comment DataHub est implémenté et DataHub Onboarding Guide pour comprendre comment étendre DataHub pour vos propres cas d’utilisation.

Caractéristiques

DataHub est composé d’un backend générique et d’une interface utilisateur basée sur React. Le billet de blog original de DataHub parle en détail de la conception et mentionne certaines des fonctionnalités de DataHub. Notre article de blog open source fournit également une comparaison de certaines fonctionnalités entre le DataHub de production LinkedIn et le DataHub open source. Vous trouverez ci-dessous une liste des dernières fonctionnalités disponibles dans DataHub, ainsi que de celles qui le seront bientôt.

 

Entités :

 Ensembles de données

Recherche : recherche en texte intégral et avancée, classement de recherche

Parcourir : navigation dans une hiérarchie configurable

Schéma : schéma de table et de document au format tabulaire et JSON

Lignage des grains grossiers : prise en charge du lignage au niveau de l’ensemble de données, visualisation tabulaire et graphique des avals /upstreams

Propriété : faire apparaître les propriétaires d’un ensemble de données, afficher les ensembles de données que vous possédez.

Gestion du cycle de vie des ensembles de données : obsolète/annuler la dépréciation, afficher les ensembles de données supprimés et les étiqueter avec “supprimé”.

Connaissances institutionnelles : prise en charge de l’ajout de documents sous forme libre à n’importe quel ensemble de données

. Lignée à grain fin : prise en charge du traçage au niveau du champ

Actions sociales : j’aime, suit, marque-pages

Gestion de la conformité : édition de la conformité basée sur des balises au niveau du champ

Principaux utilisateurs : utilisateurs fréquents d’un ensemble de données

Recherche d’utilisateurs et de groupes

 : recherche en texte intégral et avancée, classement de recherche

Parcourir : navigation dans une hiérarchie configurable

Édition de profil : édition de profil professionnel de style LinkedIn tel qu’un résumé, des compétences

Recherche de tableaux de bord et de graphiques

 : recherche en texte intégral et avancée, classement de recherche

Informations de base : propriété, emplacement. Lien vers un service externe pour visualiser le tableau de bord.

Connaissances institutionnelles : prise en charge de l’ajout de documents sous forme libre à n’importe quel tableau de bord

Recherche de tâches et de pipelines

: recherche en texte intégral et avancée, classement de recherche

Parcourir : navigation dans une hiérarchie configurable

Informations de base :

Historique d’exécution : exécutions et leur statut. Lien vers un service externe pour afficher les informations complètes.

Balises

définies globalement : les balises fournissent un ensemble standardisé d’étiquettes qui peuvent être partagées entre toutes vos entités.

Prend en charge les entités et les schémas : les balises peuvent être appliquées au niveau de l’entité ou pour des ensembles de données, attachées aux champs de schéma.

Les entités consultables peuvent être recherchées et filtrées par balise

Recherche de schémas

 : recherche en texte intégral et avancée, classement de recherche

Parcourir : navigation dans une hiérarchie configurable

Historique des schémas : afficher et comparer les versions historiques des schémas

GraphQL : visualisation des schémas GraphQL

Recherche de métriques

 : recherche en texte intégral et avancée, classement de recherche

Parcourir : navigation dans une hiérarchie configurable

Informations de base : propriétaire, dimensions, formule, ensembles de données d’entrée et de sortie, tableaux de bord

Connaissance institutionnelle : prise en charge de l’ajout d’un document sous forme libre à n’importe quelle métrique

Contrôles d’accès précis

DataHub fournit également des mécanismes pour contrôler qui a accès à quelles entités de métadonnées via l’interface utilisateur et l’API. Grâce à cette fonctionnalité, les administrateurs de DataHub peuvent définir des politiques telles que

* Les propriétaires d’ensembles de données devraient pouvoir mettre à jour la documentation, mais pas les balises, pour tous les ensembles de données.

* Un Data Steward spécifique devrait être capable d’ajouter des balises à n’importe quel ensemble de données, mais de ne rien modifier d’autre.

* L’équipe Data Platform doit disposer de tous les privilèges pour DataHub, y compris la gestion des politiques et la visualisation des analyses de la plateforme.

Sources de métadonnées

Nous disposons d’un cadre d’ingestion de métadonnées qui prend en charge une variété de connecteurs populaires, comme

BigQuery, Snowflake, Redshift, Postgres, Kafka, MySQL, Hive, Looker, MongoDB

Site officiel

Tutoriel et documentation

Enter your contact information to continue reading