What is DataHub and why should I use it?

DataHub is an open-source metadata platform for discovery, lineage, and governance across your data stack. It helps teams find trusted datasets, understand impact, and standardize documentation. Learn the fundamentals in the official introduction.

How do I install DataHub quickly?

Use the quickstart: install Docker, install the CLI, then start with a single command. You can access the UI locally and log in with defaults to validate setup fast.

Should I use UI ingestion or CLI ingestion in DataHub?

Use UI-based ingestion to get started quickly or involve non-engineers; it’s great for first-time connectivity and demos. Switch to CLI ingestion for versioned recipes, automation, and CI/CD integration.

How do I get lineage to show up in DataHub?

Ingest from multiple sources: your warehouse (e.g., Snowflake), your transformation layer (e.g., dbt), and orchestration (e.g., Airflow). Lineage emerges as DataHub connects these pieces.

What governance features should I enable first in DataHub?

Start with ownership, concise descriptions, a small glossary, and consistent tags like gold, pii, and deprecated. Then add policies to control who can edit critical assets and schedule regular ingestion.

DataHub Nasıl Kullanılır: Veri Kataloğunuz İçin Pratik, Uçtan Uca Bir Kılavuz

Veri karmaşasını netliğe dönüştürmeye hazır mısınız? Başlangıçta LinkedIn'de oluşturulan açık kaynaklı bir metadata platformu olan DataHub, ekiplerin depolar, BI araçları, orkestrasyon sistemleri ve daha fazlası genelinde verileri keşfetmesine, güvenmesine ve yönetmesine yardımcı olur. Bu pratik, adım adım kılavuzda, jargon içinde kaybolmadan sıfırdan çalışan bir DataHub örneğine geçecek, metadata alacak, soy ağacını keşfedecek ve yönetimi ayarlayacaksınız.

Bir bakışta neler öğreneceksiniz:

Dakikalar içinde DataHub'ı yerel olarak başlatın

Yaygın kaynaklardan metadata alın (örn. Snowflake, BigQuery, dbt)

Kullanıcı arayüzünde arama, soy ağacı, sahiplik ve dokümantasyonu keşfedin

Yönetim için politikalar, etiketler ve terimler tanımlayın

Gerçekten işe yarayan ekip süreçleri oluşturun

Not: Bu, gerçek iş akışlarıyla eşleşecek şekilde tasarlanmış pratik ve çözüm odaklı bir kılavuzdur. Gerekli durumlarda ayrıntılar ve daha derin incelemeler için resmi belgelere atıfta bulunacağız.

Hızlı Başlangıç: DataHub'ı Yerel Olarak Çalıştırma DataHub'ı deniyor veya pilot uygulamasını yapıyorsanız, en hızlı yol hızlı başlangıçtır. Öncelikle Docker'ın kurulu olduğundan emin olun. Ardından:

DataHub CLI'yı kurun

Tek bir komutla başlatın

Kullanıcı arayüzünü açın ve varsayılanlarla giriş yapın

Resmi hızlı başlangıç ayrıntıları, komutlar ve varsayılanlar burada. Giriş bölümü, mimariyi ve DataHub'ın neden modern yığınlar için uygun gerçek zamanlı bir metadata modeli (varlıklar, yönler ve akış güncellemeleri) kullandığını açıklamaktadır.

Akıllı kurulum ipuçları:

Daha sonra Kubernetes'e geçmeyi planlasanız bile yerel olarak başlayın. Satın alma ve demolar için daha hızlıdır.

Zaten Docker Desktop'ınız varsa, genellikle dakikalar içinde hazır olursunuz.

Kimlik bilgilerini güvenli tutun—bir sanal alanda bile. Şimdi oluşturulan alışkanlıklar daha sonra işe yarar.

5 Dakikada Temel Kavramları Anlayın Herhangi bir şey almadan önce, DataHub'ın zihinsel modeliyle rahatlayın:

Varlıklar: Veri kümeleri, tablolar, grafikler, panolar, işlem hatları, kullanıcılar gibi şeyler.

Yönler: Varlıklar hakkında metadata'nın sürüm kontrollü “yüzleri” (şema, sahiplik, etiketler, terimler sözlüğü, soy ağacı).

Grafik: İlişkiler (soy ağacı, sahiplik, bağımlılıklar) arama ve keşif deneyimini güçlendirir.

Bu grafik tabanlı yaklaşım, etki analizi (bu sütunu değiştirirsek ne bozulur?), aşağı yönlü soy ağacı haritalaması ve güven sinyalleri (sahipler, etiketler, dokümantasyon) gibi özellikleri sağlar. Kısa bir kavramsal genel bakış, giriş kılavuzunda bulunmaktadır.

Metadata Alma: Kullanıcı Arayüzü - CLI (Yolunuzu Seçin) DataHub, kullanıcı dostu kullanıcı arayüzü alımını ve komut dosyası oluşturulabilir CLI işlem hatlarını destekler. Bugün iş akışınıza uygun olanı seçin—birçok ekip her ikisini de kullanır.

Seçenek A: Kullanıcı Arayüzü Tabanlı Alma (ilk çalıştırmalar için hızlı)

Kullanıcı arayüzünde, Alma → Yeni Kaynak'a gidin.

Bir kaynak seçin (örn. Snowflake, BigQuery, dbt, Kafka, Looker, Tableau).

Bağlantı ayrıntılarını girin.

Bağlantıyı test edin.

İsteğe bağlı olarak alımı zamanlayın veya çalıştırın.

Kullanıcı arayüzü akışı ve adımları burada ele alınmıştır. Mühendis olmayanlar veya bağlantıyı hızlı bir şekilde doğrulamak isteyen ekipler için idealdir.

Seçenek B: CLI Tabanlı Alma (tekrarlanabilir ve CI dostu)

Kaynağınızı, filtrelerinizi ve eşlemenizi tanımlayan bir YAML tarifi oluşturun.

Çalıştır: datahub ingest -c recipe.yml

Tekrarlanabilirlik için tarifi sürüm kontrolüne işleyin.

CLI alımı ve tarifleri burada ayrıntılı olarak belgelenmiştir. Bu yaklaşım, geliştirme/prod işlem hatları, otomasyon ve tutarlılık için daha iyidir.

Alma için profesyonel ipuçları:

En çok önem taşıyan bir veya iki kaynakla başlayın (örn. Snowflake + dbt). Hızlı kazanımlar ivme oluşturur.

Agresif bir şekilde filtreleyin. İlk günde her sanal alan veri kümesini almayın; gürültü yaratır.

Karışıklığı önlemek için platform örnek adları ekleyin (snowflake:prod - snowflake:dev gibi).

Kullanıcı Arayüzünü Keşfedin: Arama, Soy Ağacı ve Sahiplik İlk alımınız tamamlandıktan sonra, değeri hızlı bir şekilde doğrulamak için kullanıcı arayüzüne atlayın:

Evrensel Arama: Veri kümelerini, panoları ve işlem hatlarını ada, şemaya, etiketlere veya terimler sözlüğüne göre bulun.

Soy Ağacı Grafiği: Yukarı ve aşağı yönlü bağlantıları görmek için bir veri kümesine tıklayın. Bu, etki analizi için çok değerlidir.

Sahiplik ve Dokümantasyon: Sahipler ekleyin (ekipler veya kullanıcılar) ve net açıklamalar yazın. Bunlar, kuruluşunuzun hissedeceği ilk güven sinyalleridir.

Şema ve Profilleme: Sütun adlarını, türlerini ve örnek istatistiklerini inceleyin. Anormallikleri erken tespit edin.

Anlam Ekleyin: Terimler Sözlüğü, Etiketler ve Alanlar Ham metadata sadece bir başlangıçtır. Anlam katmanları ekleyerek gerçek benimsemeyi sağlayacaksınız:

Terimler Sözlüğü: İş dostu kavramlar tanımlayın (Müşteri, ARR, Aktif Kullanıcı). Dili standartlaştırmak için veri kümelerine/sütunlara ekleyin.

Etiketler: Hafif etiketler (PII, Kritik, Kullanımdan Kaldırılmış, Altın). Risk ve önem için hızlı görsel ipuçları.

Alanlar: İlgili varlıkları işlev (Finans, Pazarlama) veya platforma göre gruplandırın.

Önerilen ilk taksonomi:

Herkesin anladığı üç terimler sözlüğü terimi (Müşteri, Sipariş, Gelir)

Küçük bir etiket seti: pii, altın, kullanımdan kaldırılmış, deneysel

Kuruluş şemanız veya veri platformlarınızla eşleşen 5–7 alan

Ölçeklenebilir Yönetim: Politikalar ve Erişim DataHub, kimin ne yapabileceğini (dokümantasyonu düzenleme, etiket ekleme, soy ağacını yönetme vb.) kontrol edebilmeniz için role ve varlığa dayalı politikaları destekler. Basit başlayın:

Dokümanlar, sahiplik ve etiketler üzerinde düzenleme haklarına sahip bir “Yöneticiler” grubu oluşturun.

Analistlere çoğu varlığa okuma erişimi verin, ancak hassas alanları kısıtlayın.

“Altın” veri kümelerinin “En İyi Seçimler”de görünmesi için sahiplerini zorunlu kılın.

Politikalar ve yönetim platformun içinde yaşar, bu nedenle deneyim düzenleyiciler ve görüntüleyiciler için tutarlıdır. Kuruluşunuz olgunlaştıkça, daha ayrıntılı izinler ve onay akışlarıyla genişletin.

Operasyonel En İyi Uygulamalar: Kalıcı Hale Getirin Metadata programları, ek iş gibi geldiğinde başarısız olur. DataHub'ı normal akışın bir parçası haline getirin:

PR'lere/CI'ye yerleştirin: Veri işlem hatları değiştiğinde, bir metadata alımı çalıştırın ve şema farklılıklarını karşılaştırın. Bozucu değişiklikleri otomatik olarak işaretleyin.

dbt ile hizalayın: dbt dokümanlarını, testlerini ve maruziyetlerini kullanın; kodu iş bağlamına bağlamak için bunları DataHub'da yüzeye çıkarın.

Bir “Benimseme Oyun Kitabı” oluşturun: Sahipler, katılım sırasında dokümanlar, etiketler ve terimler sözlüğü terimleri ekler. Puan kartları aracılığıyla kaliteyi ödüllendirin.

Bir Veri Sözleşmesi Yayınlayın: Temel tablolar için SLA, tazelik, boş değer alabilme ve kararlılık kurallarını tanımlayın. DataHub'da yüzeye çıkarın.

Pilot Uygulamadan Üretime: Neler Değişir?

Altyapı: Yerel Docker'dan yönetilen bir ortama geçin (Kubernetes, bulut hizmetleri). Kuruluşunuzda varsa barındırılan bir seçeneği düşünün.

Kimlik Doğrulama/SSO: Kimlik sağlayıcınızla (Okta, Azure AD, vb.) entegre edin.

Gözlemlenebilirlik: Alma işlerini, grafik boyutunu ve kullanıcı arayüzü performansını izleyin.

Değişiklik Yönetimi: Bir metadata inceleme sıklığı oluşturun (örn. haftalık yönetim senkronizasyonları).

Sorun Giderme: Yaygın Tuzaklar ve Düzeltmeler

“Tablolarımı göremiyorum.” Ağ kurallarını, kimlik bilgilerini ve kaynak filtrelerini kontrol edin. Sorunu yalıtmak için minimum bir alma tarifi çalıştırın.

“Soy ağacı eksik.” Orkestrasyon (Airflow), dönüştürme (dbt) ve depo kaynaklarından aldığınızdan emin olun. Soy ağacı genellikle birden çok bağlayıcıya ihtiyaç duyar.

“Arama dağınık geliyor.” Filtreleri sıkılaştırın, etiketler/terimler sözlüğü ekleyin ve kullanımdan kaldırılmış varlıkları gizleyin.

“Dokümanlar güncel değil.” Düzenli alımı zamanlayın; sahipleri kod değişikliklerinin yanı sıra açıklamaları güncellemeye teşvik edin.

Örnek: 48 Saatte Değere Giden Hızlı Bir Yol 1. Gün

Hızlı başlangıç aracılığıyla DataHub'ı yerel olarak başlatın.

Kullanıcı arayüzü alımını kullanarak deponuzdan (Snowflake/BigQuery) alın.

Beş kritik veri kümesine sahipler ve açıklamalar ekleyin.

Müşteri ve Gelir için terimler sözlüğü terimleri oluşturun; bu veri kümelerini altın olarak etiketleyin.

2. Gün

Modelleri tablolara bağlamak için dbt metadata'sını alın.

Alma → dönüştürme → BI genelinde soy ağacını doğrulayın.

Yalnızca yöneticilerin altın veri kümesi dokümanlarını değiştirebileceği bir politika oluşturun.

Paydaşlara soy ağacı görünümünü ve arama deneyimini gösterin; geri bildirim toplayın.

Temel Referanslar

Hızlı başlangıç: yerel kurulum, kimlik bilgileri, bağlantı noktaları, komutlar

Kavramlar ve mimari genel bakışı

Kullanıcı arayüzü tabanlı alma adımları

CLI alımı ve YAML tarifleri

Sider.AI'nın Nerede Yardımcı Olabileceği Ekibiniz sık sık en iyi uygulamaları araştırıyorsa, veri kümesi dokümanları yazıyorsa veya soy ağacı ve şema değişikliklerinin sindirilebilir özetlerine ihtiyaç duyuyorsa, Sider.AI'nın dokümantasyonu ve bilgi paylaşımını hızlandırabileceğini belirtmekte fayda var. Örneğin, yoğun şema farklılıklarını insan tarafından okunabilir değişiklik günlüklerine dönüştürebilir veya yöneticilerin iyileştirdiği ilk taslak veri kümesi açıklamaları oluşturabilirsiniz—ham metadata'dan kullanılabilir bağlama kadar geçen süreyi kısaltır.

Kopya Kağıdı: İlk 10 Eyleminiz

Hızlı başlangıç aracılığıyla DataHub'ı yerel olarak başlatın.

Kullanıcı arayüzü alımı yoluyla bir depo kaynağı ekleyin.

Soy ağacı için dbt veya orkestrasyon metadata'sını alın.

5–10 temel veri kümesine sahipler ekleyin.

Kısa açıklamalar yazın (her biri 2–3 cümle).

3 terimler sözlüğü terimi ve 4–6 etiket oluşturun.

5 veri kümesini altın olarak etiketleyin ve kullanımdan kaldırılmış olanları gizleyin.

Yöneticiler için bir düzenleyici ilkesi ayarlayın.

Günlük alımı zamanlayın.

Kullanıcı arayüzünü 2 paydaş ekibine gösterin ve geri bildirim toplayın.

Sıradaki Ne?

Kubernetes'e veya yönetilen bir ortama ölçeklendirin.

Yönetim için SSO ve grupları kullanıma sunun.

Alımı BI ve olay akışlarına genişletin.

Veri kalitesi ve dokümantasyon eksiksizliği için puan kartları oluşturun.

Şema değişiklikleri her zaman katalogda yansıtılacak şekilde CI/CD ile entegre edin.

Son Çıkarımlar

Küçük başlayın, değeri hızlı bir şekilde sunun ve yineleyin.

Hız için kullanıcı arayüzü alımını kullanın; tekrarlanabilirlik için CLI'yı kullanın.

Güveni artırmak için erken aşamada terimler sözlüğü, etiketler ve politikalar ekleyin.

Eksiksiz soy ağacı için depo + dbt + BI'yı bağlayın.

Dokümantasyona sonradan akla gelen bir şey olarak değil, geliştirmenin bir parçası olarak davranın.

SSS

S1:DataHub nedir ve neden kullanmalıyım? DataHub, veri yığınınız genelinde keşif, soy ağacı ve yönetim için açık kaynaklı bir metadata platformudur. Ekiplerin güvenilir veri kümelerini bulmasına, etkiyi anlamasına ve dokümantasyonu standartlaştırmasına yardımcı olur. Temel bilgileri resmi tanıtımda öğrenin.

S2:DataHub'ı nasıl hızlı bir şekilde kurarım? Hızlı başlangıcı kullanın: Docker'ı kurun, CLI'yı kurun, ardından tek bir komutla başlayın. Kurulumu hızlı bir şekilde doğrulamak için kullanıcı arayüzüne yerel olarak erişebilir ve varsayılanlarla oturum açabilirsiniz.

S3:DataHub'da kullanıcı arayüzü alımını mı yoksa CLI alımını mı kullanmalıyım? Hızlı bir şekilde başlamak veya mühendis olmayanları dahil etmek için kullanıcı arayüzü tabanlı alımı kullanın; ilk bağlantı ve demolar için harikadır. Sürümlü tarifler, otomasyon ve CI/CD entegrasyonu için CLI alımına geçin.

S4:Soy ağacının DataHub'da görünmesini nasıl sağlarım? Birden çok kaynaktan alın: deponuz (örn. Snowflake), dönüştürme katmanınız (örn. dbt) ve orkestrasyon (örn. Airflow). DataHub bu parçaları bağladıkça soy ağacı ortaya çıkar.

S5:DataHub'da ilk olarak hangi yönetim özelliklerini etkinleştirmeliyim? Sahiplik, kısa açıklamalar, küçük bir terimler sözlüğü ve altın, pii ve kullanımdan kaldırılmış gibi tutarlı etiketlerle başlayın. Ardından, kimin kritik varlıkları düzenleyebileceğini kontrol etmek için politikalar ekleyin ve düzenli alımı zamanlayın.