What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

Como Usar o DataHub: Um Guia Prático e Completo para o Seu Catálogo de Dados

Pronto para transformar a dispersão de dados em clareza? DataHub—uma plataforma de metadados de código aberto originalmente criada no LinkedIn—ajuda as equipes a descobrir, confiar e governar dados em warehouses, ferramentas de BI, sistemas de orquestração e muito mais. Neste guia prático, passo a passo, você irá de zero a uma instância DataHub funcional, ingerir metadados, explorar a linhagem e configurar a governança—sem se perder em jargões.

O que você aprenderá em um relance:

Coloque o DataHub para funcionar localmente em minutos

Ingira metadados de fontes comuns (por exemplo, Snowflake, BigQuery, dbt)

Explore a busca, linhagem, propriedade e documentação na IU

Defina políticas, tags e termos para governança

Implemente processos de equipe que realmente funcionem

Observação: Este é um passo a passo prático e orientado para soluções, projetado para mapear fluxos de trabalho reais. Citaremos a documentação oficial para detalhes e mergulhos mais profundos quando necessário.

Início Rápido: Coloque o DataHub para Rodar Localmente Se você estiver experimentando ou pilotando o DataHub, o caminho mais rápido é o início rápido. Certifique-se de ter o Docker instalado primeiro. Então:

Instale o DataHub CLI

Inicie com um único comando

Abra a IU e faça login com os padrões

Detalhes oficiais de início rápido, comandos e padrões estão aqui. A introdução explica a arquitetura e por que o DataHub usa um modelo de metadados em tempo real (entidades, aspectos e atualizações de streaming) adequado para stacks modernos.

Dicas inteligentes de configuração:

Comece localmente, mesmo que planeje ir para o Kubernetes mais tarde. É mais rápido para adesão e demonstrações.

Se você já tiver o Docker Desktop, normalmente estará pronto em minutos.

Mantenha as credenciais seguras—mesmo em um sandbox. Hábitos construídos agora compensam mais tarde.

Entenda os Conceitos Centrais em 5 Minutos Antes de ingerir qualquer coisa, familiarize-se com o modelo mental do DataHub:

Entidades: Coisas como datasets, tabelas, gráficos, dashboards, pipelines, usuários.

Aspectos: “Facetas” versionadas de metadados sobre entidades (esquema, propriedade, tags, termos do glossário, linhagem).

Grafo: Relacionamentos (linhagem, propriedade, dependências) impulsionam a experiência de busca e descoberta.

Essa abordagem baseada em grafo permite recursos como análise de impacto (o que quebra se mudarmos esta coluna?), mapeamento de linhagem downstream e sinais de confiança (proprietários, tags, documentação). Uma visão geral conceitual concisa está no guia de introdução.

Ingerir Metadados: IU vs. CLI (Escolha Seu Caminho) O DataHub oferece suporte à ingestão de IU amigável e pipelines de CLI scriptáveis. Escolha o que se adapta ao seu fluxo de trabalho hoje—muitas equipes usam ambos.

Opção A: Ingestão Baseada em IU (rápido para primeiras execuções)

Na IU, vá para Ingestion → New Source.

Escolha uma fonte (por exemplo, Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Insira os detalhes da conexão.

Teste a conexão.

Agende ou execute a ingestão sob demanda.

O fluxo e as etapas da IU são abordados aqui. É ideal para não engenheiros ou equipes que desejam validar a conectividade rapidamente.

Opção B: Ingestão Baseada em CLI (repetível e amigável para CI)

Crie uma receita YAML que defina sua fonte, filtros e mapeamento.

Execute: datahub ingest -c recipe.yml

Commit a receita para o controle de versão para repetibilidade.

A ingestão de CLI e as receitas são documentadas em detalhes aqui. Essa abordagem é melhor para pipelines de dev/prod, automação e consistência.

Dicas profissionais para ingestão:

Comece com uma ou duas fontes que importam mais (por exemplo, Snowflake + dbt). Ganhos rápidos criam impulso.

Filtre agressivamente. Não ingira todos os datasets de sandbox no primeiro dia; isso cria ruído.

Adicione nomes de instâncias de plataforma (como snowflake:prod vs snowflake:dev) para evitar confusão.

Explore a IU: Busca, Linhagem e Propriedade Assim que sua primeira ingestão for concluída, entre na IU para validar o valor rapidamente:

Busca Universal: Encontre datasets, dashboards e pipelines por nome, esquema, tags ou termos do glossário.

Grafo de Linhagem: Clique em um dataset para ver as conexões upstream e downstream. Isso é ouro para análise de impacto.

Propriedade e Documentação: Adicione proprietários (equipes ou usuários) e escreva descrições claras. Estes são os primeiros sinais de confiança que sua organização sentirá.

Esquema e Perfil: Revise nomes de colunas, tipos e estatísticas de amostra. Detecte anomalias precocemente.

Adicione Significado: Glossário, Tags e Domínios Metadados brutos são apenas o começo. Você desbloqueará a adoção real ao adicionar semântica:

Termos do Glossário: Defina conceitos amigáveis aos negócios (Cliente, ARR, Usuário Ativo). Anexe a datasets/colunas para padronizar a linguagem.

Tags: Rótulos leves (PII, Crítico, Obsoleto, Ouro). Sinais visuais rápidos para risco e importância.

Domínios: Agrupe ativos relacionados por função de negócios (Finanças, Marketing) ou plataforma.

Primeira taxonomia recomendada:

Três termos do glossário que todos entendem (Cliente, Pedido, Receita)

Um pequeno conjunto de tags: pii, gold, deprecated, experimental

5–7 domínios que mapeiam para seu organograma ou plataformas de dados

Governança que Escala: Políticas e Acesso O DataHub oferece suporte a políticas baseadas em função e ativo para que você possa controlar quem pode fazer o quê (editar documentação, adicionar tags, gerenciar linhagem, etc.). Comece simples:

Crie um grupo “Stewards” com direitos de edição em documentos, propriedade e tags.

Dê aos analistas acesso de leitura à maioria dos ativos, mas restrinja domínios confidenciais.

Exija proprietários para datasets “gold” antes que eles apareçam em “Top Picks”.

Políticas e governança residem dentro da plataforma, portanto, a experiência é consistente para editores e visualizadores. À medida que sua organização amadurece, expanda com permissões mais granulares e fluxos de aprovação.

Melhores Práticas Operacionais: Faça Durar Programas de metadados falham quando parecem trabalho extra. Faça do DataHub parte do fluxo normal:

Incorpore em PRs/CI: Quando os pipelines de dados mudam, execute uma ingestão de metadados e compare os diffs de esquema. Sinalize mudanças disruptivas automaticamente.

Alinhe com dbt: Use docs, testes e exposições dbt; mostre-os no DataHub para conectar o código ao contexto de negócios.

Crie um “Manual de Adoção”: Os proprietários adicionam documentos, tags e termos do glossário durante o onboarding. Recompense a qualidade por meio de scorecards.

Publique um Contrato de Dados: Para tabelas-chave, defina regras de SLA, frescor, nulidade e estabilidade. Mostre-o no DataHub.

Do Piloto à Produção: O Que Muda?

Infraestrutura: Mova do Docker local para um ambiente gerenciado (Kubernetes, serviços de nuvem). Considere uma opção hospedada, se disponível em sua organização.

Auth/SSO: Integre com seu provedor de identidade (Okta, Azure AD, etc.).

Observabilidade: Monitore trabalhos de ingestão, tamanho do grafo e desempenho da IU.

Gerenciamento de Mudanças: Estabeleça uma cadência de revisão de metadados (por exemplo, sincronizações semanais de stewardship).

Solução de Problemas: Armadilhas Comuns e Correções

“Não consigo ver minhas tabelas.” Verifique as regras de rede, as credenciais e os filtros de origem. Execute uma receita de ingestão mínima para isolar o problema.

“A linhagem está incompleta.” Certifique-se de ter ingerido de orquestração (Airflow), transformação (dbt) e fontes de warehouse. A linhagem geralmente precisa de vários conectores.

“A busca parece confusa.” Aperte os filtros, adicione tags/glossário e oculte ativos obsoletos.

“Os documentos estão desatualizados.” Agende a ingestão regular; incentive os proprietários a atualizar as descrições junto com as alterações de código.

Exemplo: Um Caminho Rápido para Valor em 48 Horas Dia 1

Coloque o DataHub para rodar localmente via quickstart.

Ingira do seu warehouse (Snowflake/BigQuery) usando a ingestão da IU.

Adicione proprietários e descrições a cinco datasets críticos.

Crie termos de glossário para Cliente e Receita; marque esses datasets como gold.

Dia 2

Ingira metadados dbt para conectar modelos a tabelas.

Valide a linhagem em ingestão → transformação → BI.

Crie uma política para que apenas os stewards possam alterar os documentos do dataset gold.

Demonstre a visualização de linhagem e a experiência de busca para as partes interessadas; colete feedback.

Referências Chave

Quickstart: configuração local, credenciais, portas, comandos

Visão geral de conceitos e arquitetura

Etapas de ingestão baseadas na IU

Ingestão de CLI e receitas YAML

Onde a Sider.AI Pode Ajudar Se sua equipe pesquisa frequentemente as melhores práticas, escreve documentos de dataset ou precisa de resumos compreensíveis de linhagem e alterações de esquema, vale a pena notar que a Sider.AI pode acelerar a documentação e o compartilhamento de conhecimento. Por exemplo, você pode transformar diffs de esquema densos em logs de mudanças legíveis por humanos ou gerar descrições de dataset de primeiro rascunho que os stewards refinam—reduzindo o tempo de metadados brutos para contexto utilizável.

Guia Rápido: Suas Primeiras 10 Ações

Inicie o DataHub localmente via quickstart.

Adicione uma fonte de warehouse via ingestão de IU.

Ingira metadados dbt ou de orquestração para linhagem.

Adicione proprietários a 5–10 datasets chave.

Escreva descrições concisas (2–3 frases cada).

Crie 3 termos de glossário e 4–6 tags.

Marque 5 datasets como gold e oculte os obsoletos.

Defina uma política de editor para stewards.

Agende a ingestão diária.

Demonstre a IU para 2 equipes de stakeholders e colete feedback.

O Que Vem a Seguir?

Escale para Kubernetes ou um ambiente gerenciado.

Implemente SSO e grupos para governança.

Expanda a ingestão para BI e fluxos de eventos.

Crie scorecards para qualidade de dados e integridade da documentação.

Integre com CI/CD para que as alterações de esquema sempre se reflitam no catálogo.

Considerações Finais

Comece pequeno, entregue valor rápido e itere.

Use a ingestão da IU para velocidade; CLI para repetibilidade.

Adicione glossário, tags e políticas cedo para aumentar a confiança.

Conecte warehouse + dbt + BI para linhagem completa.

Trate a documentação como parte do desenvolvimento, não como uma reflexão tardia.

FAQ

Q1:O que é DataHub e por que devo usá-lo? DataHub é uma plataforma de metadados de código aberto para descoberta, linhagem e governança em toda a sua stack de dados. Ajuda as equipes a encontrar datasets confiáveis, entender o impacto e padronizar a documentação. Aprenda os fundamentos na introdução oficial.

Q2:Como instalo o DataHub rapidamente? Use o quickstart: instale o Docker, instale o CLI e, em seguida, inicie com um único comando. Você pode acessar a IU localmente e fazer login com os padrões para validar a configuração rapidamente.

Q3:Devo usar a ingestão de IU ou a ingestão de CLI no DataHub? Use a ingestão baseada em IU para começar rapidamente ou envolver não engenheiros; é ótimo para conectividade e demonstrações pela primeira vez. Mude para a ingestão de CLI para receitas versionadas, automação e integração CI/CD.

Q4:Como faço para a linhagem aparecer no DataHub? Ingira de várias fontes: seu warehouse (por exemplo, Snowflake), sua camada de transformação (por exemplo, dbt) e orquestração (por exemplo, Airflow). A linhagem emerge à medida que o DataHub conecta essas peças.

Q5:Quais recursos de governança devo ativar primeiro no DataHub? Comece com a propriedade, descrições concisas, um pequeno glossário e tags consistentes, como gold, pii e obsoletos. Em seguida, adicione políticas para controlar quem pode editar ativos críticos e agendar a ingestão regular.