What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Cómo usar DataHub: Una guía práctica e integral para tu catálogo de datos

¿Listo para transformar el caos de datos en claridad? DataHub, una plataforma de metadatos de código abierto creada originalmente en LinkedIn, ayuda a los equipos a descubrir, confiar y gobernar los datos en almacenes, herramientas de BI, sistemas de orquestación y más. En esta guía práctica paso a paso, pasarás de cero a una instancia de DataHub en funcionamiento, ingerirás metadatos, explorarás el linaje y configurarás la gobernanza, sin perderte en la jerga.

Lo que aprenderás de un vistazo:

Pon en marcha DataHub localmente en minutos

Ingiere metadatos de fuentes comunes (p. ej., Snowflake, BigQuery, dbt)

Explora la búsqueda, el linaje, la propiedad y la documentación en la interfaz de usuario

Define políticas, etiquetas y términos para la gobernanza

Implementa procesos de equipo que realmente funcionen

Nota: Esta es una guía práctica y orientada a la solución diseñada para mapear flujos de trabajo reales. Citaremos la documentación oficial para detalles y análisis más profundos cuando sea necesario.

Inicio rápido: Pon DataHub en marcha localmente Si estás experimentando o probando DataHub, el camino más rápido es el inicio rápido. Asegúrate de tener Docker instalado primero. Entonces:

Instala la CLI de DataHub

Inicia con un solo comando

Abre la interfaz de usuario e inicia sesión con los valores predeterminados

Los detalles, comandos y valores predeterminados oficiales del inicio rápido están aquí. La introducción explica la arquitectura y por qué DataHub utiliza un modelo de metadatos en tiempo real (entidades, aspectos y actualizaciones de transmisión) adecuado para pilas modernas.

Consejos para una configuración inteligente:

Comienza localmente incluso si planeas pasar a Kubernetes más adelante. Es más rápido para la aceptación y las demostraciones.

Si ya tienes Docker Desktop, normalmente estarás listo en cuestión de minutos.

Mantén las credenciales seguras, incluso en un espacio aislado. Los hábitos construidos ahora dan sus frutos más adelante.

Comprende los conceptos básicos en 5 minutos Antes de ingerir nada, familiarízate con el modelo mental de DataHub:

Entidades: Cosas como conjuntos de datos, tablas, gráficos, paneles, canalizaciones, usuarios.

Aspectos: “Facetas” versionadas de metadatos sobre entidades (esquema, propiedad, etiquetas, términos del glosario, linaje).

Gráfico: Las relaciones (linaje, propiedad, dependencias) potencian la experiencia de búsqueda y descubrimiento.

Este enfoque basado en gráficos permite características como el análisis de impacto (¿qué se rompe si cambiamos esta columna?), el mapeo del linaje descendente y las señales de confianza (propietarios, etiquetas, documentación). Una descripción general conceptual concisa se encuentra en la guía de introducción.

Ingiere metadatos: IU vs. CLI (elige tu camino) DataHub admite tanto la ingesta de IU fácil de usar como las canalizaciones de CLI con scripts. Elige lo que se adapte a tu flujo de trabajo hoy en día; muchos equipos usan ambos.

Opción A: Ingesta basada en la IU (rápida para las primeras ejecuciones)

En la interfaz de usuario, ve a Ingesta → Nueva fuente.

Elige una fuente (p. ej., Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Ingresa los detalles de la conexión.

Prueba la conexión.

Programa o ejecuta la ingesta a pedido.

El flujo y los pasos de la interfaz de usuario se cubren aquí. Es ideal para personas que no son ingenieros o equipos que desean validar la conectividad rápidamente.

Opción B: Ingesta basada en la CLI (repetible y compatible con CI)

Crea una receta YAML que defina tu fuente, filtros y mapeo.

Ejecuta: datahub ingest -c recipe.yml

Confirma la receta al control de versiones para la repetibilidad.

La ingesta y las recetas de la CLI se documentan en detalle aquí. Este enfoque es mejor para las canalizaciones de desarrollo/producción, la automatización y la coherencia.

Consejos profesionales para la ingesta:

Comienza con una o dos fuentes que sean más importantes (p. ej., Snowflake + dbt). Las victorias rápidas crean impulso.

Filtra agresivamente. No ingieras todos los conjuntos de datos del espacio aislado el primer día; crea ruido.

Agrega nombres de instancias de plataforma (como snowflake:prod vs snowflake:dev) para evitar confusiones.

Explora la interfaz de usuario: búsqueda, linaje y propiedad Una vez que se complete tu primera ingesta, entra en la interfaz de usuario para validar el valor rápidamente:

Búsqueda universal: Encuentra conjuntos de datos, paneles y canalizaciones por nombre, esquema, etiquetas o términos del glosario.

Gráfico de linaje: Haz clic en un conjunto de datos para ver las conexiones ascendentes y descendentes. Esto es oro para el análisis de impacto.

Propiedad y documentación: Agrega propietarios (equipos o usuarios) y escribe descripciones claras. Estas son las primeras señales de confianza que sentirá tu organización.

Esquema y creación de perfiles: Revisa los nombres de las columnas, los tipos y las estadísticas de muestra. Detecta anomalías temprano.

Añade significado: glosario, etiquetas y dominios Los metadatos sin procesar son solo el comienzo. Desbloquearás la adopción real al superponer la semántica:

Términos del glosario: Define conceptos fáciles de usar para el negocio (Cliente, ARR, Usuario activo). Adjunta a conjuntos de datos/columnas para estandarizar el lenguaje.

Etiquetas: Etiquetas ligeras (PII, Crítico, Obsoleto, Oro). Señales visuales rápidas para el riesgo y la importancia.

Dominios: Agrupa los activos relacionados por función comercial (Finanzas, Marketing) o plataforma.

Taxonomía inicial recomendada:

Tres términos del glosario que todos entienden (Cliente, Pedido, Ingresos)

Un pequeño conjunto de etiquetas: pii, gold, deprecated, experimental

5 a 7 dominios que se asignan a tu organigrama o plataformas de datos

Gobernanza que escala: políticas y acceso DataHub admite políticas basadas en roles y activos para que puedas controlar quién puede hacer qué (editar documentación, agregar etiquetas, administrar el linaje, etc.). Comienza de forma sencilla:

Crea un grupo de “Administradores” con derechos de edición en documentos, propiedad y etiquetas.

Otorga a los analistas acceso de lectura a la mayoría de los activos, pero restringe los dominios confidenciales.

Requiere propietarios para los conjuntos de datos “gold” antes de que aparezcan en “Las mejores opciones”.

Las políticas y la gobernanza residen dentro de la plataforma, por lo que la experiencia es coherente para los editores y los espectadores. A medida que tu organización madure, expándete con permisos más granulares y flujos de aprobación.

Prácticas recomendadas operativas: haz que se mantenga Los programas de metadatos fallan cuando se sienten como trabajo adicional. Haz que DataHub sea parte del flujo normal:

Incorpora en PR/CI: Cuando las canalizaciones de datos cambian, ejecuta una ingesta de metadatos y compara las diferencias de esquema. Marca los cambios importantes automáticamente.

Alínea con dbt: Usa la documentación, las pruebas y las exposiciones de dbt; muéstralas en DataHub para conectar el código con el contexto comercial.

Crea un “Manual de adopción”: Los propietarios agregan documentos, etiquetas y términos del glosario durante la incorporación. Recompensa la calidad a través de cuadros de mando.

Publica un contrato de datos: Para las tablas clave, define las reglas de SLA, frescura, nulabilidad y estabilidad. Muéstralo en DataHub.

Del piloto a la producción: ¿Qué cambia?

Infraestructura: Pasa de Docker local a un entorno administrado (Kubernetes, servicios en la nube). Considera una opción alojada si está disponible en tu organización.

Autenticación/SSO: Intégrate con tu proveedor de identidad (Okta, Azure AD, etc.).

Observabilidad: Supervisa los trabajos de ingesta, el tamaño del gráfico y el rendimiento de la interfaz de usuario.

Gestión de cambios: Establece una cadencia de revisión de metadatos (p. ej., sincronizaciones semanales de administración).

Solución de problemas: errores comunes y soluciones

“No puedo ver mis tablas”. Verifica las reglas de red, las credenciales y los filtros de origen. Ejecuta una receta de ingesta mínima para aislar el problema.

“El linaje está incompleto”. Asegúrate de haber ingerido desde la orquestación (Airflow), la transformación (dbt) y las fuentes del almacén. El linaje a menudo necesita múltiples conectores.

“La búsqueda se siente abarrotada”. Ajusta los filtros, agrega etiquetas/glosario y oculta los activos obsoletos.

“Los documentos están obsoletos”. Programa la ingesta regular; anima a los propietarios a actualizar las descripciones junto con los cambios de código.

Ejemplo: una vía rápida hacia el valor en 48 horas Día 1

Pon en marcha DataHub localmente a través del inicio rápido.

Ingiere desde tu almacén (Snowflake/BigQuery) usando la ingesta de la interfaz de usuario.

Agrega propietarios y descripciones a cinco conjuntos de datos críticos.

Crea términos de glosario para Cliente e Ingresos; etiqueta esos conjuntos de datos como gold.

Día 2

Ingiere metadatos de dbt para conectar modelos a tablas.

Valida el linaje a través de la ingesta → transformación → BI.

Crea una política que solo los administradores puedan cambiar los documentos del conjunto de datos gold.

Muestra la vista de linaje y la experiencia de búsqueda a las partes interesadas; recopila comentarios.

Referencias clave

Inicio rápido: configuración local, credenciales, puertos, comandos

Descripción general de los conceptos y la arquitectura

Pasos de ingesta basados en la interfaz de usuario

Ingesta de CLI y recetas YAML

Dónde Sider.AI puede ayudar Si tu equipo investiga con frecuencia las mejores prácticas, escribe documentos de conjuntos de datos o necesita resúmenes digeribles de los cambios de linaje y esquema, vale la pena señalar que Sider.AI puede acelerar la documentación y el intercambio de conocimientos. Por ejemplo, puedes convertir diferencias de esquema densas en registros de cambios legibles por humanos o generar borradores de descripciones de conjuntos de datos que los administradores refinan, lo que reduce el tiempo desde los metadatos sin procesar hasta el contexto utilizable.

Hoja de referencia: tus primeras 10 acciones

Inicia DataHub localmente a través del inicio rápido.

Agrega una fuente de almacén a través de la ingesta de la interfaz de usuario.

Ingiere metadatos de dbt o de orquestación para el linaje.

Agrega propietarios a 5 a 10 conjuntos de datos clave.

Escribe descripciones concisas (2 a 3 oraciones cada una).

Crea 3 términos de glosario y 4 a 6 etiquetas.

Etiqueta 5 conjuntos de datos como gold y oculta los obsoletos.

Establece una política de editor para los administradores.

Programa la ingesta diaria.

Muestra la interfaz de usuario a 2 equipos de partes interesadas y recopila comentarios.

¿Qué sigue?

Escala a Kubernetes o a un entorno administrado.

Implementa SSO y grupos para la gobernanza.

Expande la ingesta a BI y transmisiones de eventos.

Crea cuadros de mando para la calidad de los datos y la integridad de la documentación.

Intégrate con CI/CD para que los cambios de esquema siempre se reflejen en el catálogo.

Conclusiones finales

Comienza poco a poco, entrega valor rápido e itera.

Usa la ingesta de la interfaz de usuario para la velocidad; la CLI para la repetibilidad.

Incorpora glosario, etiquetas y políticas desde el principio para aumentar la confianza.

Conecta warehouse + dbt + BI para un linaje completo.

Trata la documentación como parte del desarrollo, no como una ocurrencia tardía.

Preguntas frecuentes

P1: ¿Qué es DataHub y por qué debería usarlo? DataHub es una plataforma de metadatos de código abierto para el descubrimiento, el linaje y la gobernanza en toda tu pila de datos. Ayuda a los equipos a encontrar conjuntos de datos confiables, comprender el impacto y estandarizar la documentación. Aprende los fundamentos en la introducción oficial.

P2: ¿Cómo instalo DataHub rápidamente? Usa el inicio rápido: instala Docker, instala la CLI y luego comienza con un solo comando. Puedes acceder a la interfaz de usuario localmente e iniciar sesión con los valores predeterminados para validar la configuración rápidamente.

P3: ¿Debo usar la ingesta de la interfaz de usuario o la ingesta de la CLI en DataHub? Usa la ingesta basada en la interfaz de usuario para comenzar rápidamente o involucrar a personas que no son ingenieros; es genial para la conectividad por primera vez y las demostraciones. Cambia a la ingesta de la CLI para recetas versionadas, automatización e integración de CI/CD.

P4: ¿Cómo hago para que el linaje aparezca en DataHub? Ingiere desde múltiples fuentes: tu almacén (p. ej., Snowflake), tu capa de transformación (p. ej., dbt) y la orquestación (p. ej., Airflow). El linaje surge a medida que DataHub conecta estas piezas.

P5: ¿Qué características de gobernanza debo habilitar primero en DataHub? Comienza con la propiedad, las descripciones concisas, un pequeño glosario y etiquetas consistentes como gold, pii y deprecated. Luego, agrega políticas para controlar quién puede editar activos críticos y programar la ingesta regular.