Sider.ai
  • دردشة
  • Wisebase
  • أدوات
  • امتداد
  • العملاء
  • التسعير
التحميل الان
تسجيل الدخول

تعلم بشكل أسرع، فكر بعمق، وازدد ذكاءً مع Sider.

المنتجات
التطبيقات
  • الإضافات
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
أدوات
  • مُنشئ الويبNew
  • شرائح الذكاء الاصطناعيNew
  • كاتب المقالات بالذكاء الاصطناعي
  • Nano Banana Pro
  • Nano Banana Infographic
  • مولد الصور بالذكاء الاصطناعي
  • مولد الأفكار المجنونة الإيطالية
  • مزيل الخلفية
  • مغير الخلفية
  • ممحاة الصور
  • مزيل النصوص
  • إعادة الطلاء
  • مكبر الصور
  • إنشاء
  • مترجم الذكاء الاصطناعي
  • مترجم الصور
  • مترجم PDF
Sider
  • اتصل بنا
  • مركز المساعدة
  • تحميل
  • السعر
  • خطة التعليم
  • ما الجديد
  • مدونة
  • مجتمع
  • الشركاء
  • الشراكة
  • دعوة
©2026 جميع الحقوق محفوظة
شروط الاستخدام
سياسة الخصوصية
  • الصفحة الرئيسية
  • مدونة
  • أدوات الذكاء الاصطناعي
  • كيفية استخدام DataHub: دليل عملي وشامل لكتالوج البيانات الخاص بك

كيفية استخدام DataHub: دليل عملي وشامل لكتالوج البيانات الخاص بك

تم التحديث في 28 سبتمبر 2025

7 دقيقة


هل أنت مستعد لتحويل انتشار البيانات إلى وضوح؟ DataHub—وهي منصة مفتوحة المصدر لبيانات التعريف تم إنشاؤها في الأصل في LinkedIn—تساعد الفرق على اكتشاف البيانات والوثوق بها وإدارتها عبر المستودعات وأدوات ذكاء الأعمال وأنظمة التنسيق وغيرها. في هذا الدليل العملي المفصل، ستنتقل من الصفر إلى مثيل DataHub عامل، واستيعاب بيانات التعريف، واستكشاف النسب، وإعداد الحوكمة—دون أن تضيع في المصطلحات.
ما ستتعلمه في لمحة:
  • تشغيل DataHub محليًا في دقائق
  • استيعاب بيانات التعريف من مصادر شائعة (مثل Snowflake وBigQuery وdbt)
  • استكشاف البحث والنسب والملكية والتوثيق في واجهة المستخدم
  • تحديد السياسات والعلامات والمصطلحات للحوكمة
  • تطبيق عمليات الفريق التي تلتزم بالفعل
ملاحظة: هذا شرح عملي وموجه نحو الحلول مصمم ليتوافق مع مسارات العمل الحقيقية. سنستشهد بالوثائق الرسمية للحصول على تفاصيل وأكثر تعمقًا عند الحاجة.
  1. بداية سريعة: تشغيل DataHub محليًا إذا كنت تجرب DataHub أو تجربها بشكل تجريبي، فإن أسرع مسار هو البداية السريعة. تأكد من تثبيت Docker أولاً. ثم:
  • تثبيت واجهة سطر الأوامر (CLI) لـ DataHub
  • التشغيل بأمر واحد
  • افتح واجهة المستخدم وقم بتسجيل الدخول باستخدام الإعدادات الافتراضية
توجد تفاصيل البداية السريعة والأوامر والإعدادات الافتراضية الرسمية هنا. يشرح المقدمة بنية DataHub وسبب استخدامها لنموذج بيانات تعريف في الوقت الفعلي (الكيانات والجوانب والتحديثات المتدفقة) المناسب للمجموعات الحديثة.
نصائح الإعداد الذكي:
  • ابدأ محليًا حتى لو كنت تخطط للانتقال إلى Kubernetes لاحقًا. إنه أسرع للحصول على الموافقة والعروض التوضيحية.
  • إذا كان لديك Docker Desktop بالفعل، فستكون جاهزًا في غضون دقائق.
  • حافظ على أمان بيانات الاعتماد—حتى في بيئة الاختبار المعزولة. العادات التي يتم بناؤها الآن تؤتي ثمارها لاحقًا.
  1. فهم المفاهيم الأساسية في 5 دقائق قبل استيعاب أي شيء، تعرف على النموذج الذهني لـ DataHub:
  • الكيانات: أشياء مثل مجموعات البيانات والجداول والمخططات ولوحات المعلومات وخطوط الأنابيب والمستخدمين.
  • الجوانب: "أوجه" بيانات التعريف ذات الإصدارات حول الكيانات (المخطط، والملكية، والعلامات، ومصطلحات المسرد).
  • الرسم البياني: العلاقات (النسب، والملكية، والتبعيات) تدعم تجربة البحث والاكتشاف.
يمكّن هذا النهج القائم على الرسم البياني ميزات مثل تحليل التأثير (ما الذي سينكسر إذا قمنا بتغيير هذا العمود؟)، ورسم خرائط النسب في اتجاه المصب، وإشارات الثقة (المالكون والعلامات والتوثيق). يوجد عرض عام مفاهيمي موجز في دليل المقدمة.
  1. استيعاب بيانات التعريف: واجهة المستخدم مقابل واجهة سطر الأوامر (اختر مسارك) يدعم DataHub كلاً من استيعاب واجهة المستخدم سهل الاستخدام وخطوط أنابيب CLI القابلة للبرمجة. اختر ما يناسب سير عملك اليوم—تستخدم العديد من الفرق كليهما.
الخيار أ: الاستيعاب المستند إلى واجهة المستخدم (سريع للتشغيلات الأولى)
  • في واجهة المستخدم، انتقل إلى الاستيعاب → مصدر جديد.
  • اختر مصدرًا (مثل Snowflake وBigQuery وdbt وKafka وLooker وTableau).
  • أدخل تفاصيل الاتصال.
  • اختبر الاتصال.
  • جدولة الاستيعاب أو تشغيله عند الطلب.
يتم تغطية تدفق واجهة المستخدم والخطوات هنا. إنه مثالي لغير المهندسين أو الفرق التي ترغب في التحقق من صحة الاتصال بسرعة.
الخيار ب: الاستيعاب المستند إلى واجهة سطر الأوامر (قابل للتكرار ومتوافق مع CI)
  • أنشئ وصفة YAML تحدد المصدر والفلاتر والتعيين الخاص بك.
  • تشغيل: datahub ingest -c recipe.yml
  • قم بتثبيت الوصفة على التحكم في الإصدارات من أجل التكرار.
تم توثيق استيعاب CLI والوصفات بالتفصيل هنا. هذا النهج أفضل لخطوط أنابيب التطوير/الإنتاج والأتمتة والاتساق.
نصائح احترافية للاستيعاب:
  • ابدأ بمصدر أو مصدرين يهمان أكثر (مثل Snowflake + dbt). المكاسب السريعة تبني الزخم.
  • قم بالتصفية بقوة. لا تستوعب كل مجموعة بيانات اختبارية في اليوم الأول؛ فهي تخلق ضوضاء.
  • أضف أسماء مثيلات النظام الأساسي (مثل snowflake:prod مقابل snowflake:dev) لتجنب الالتباس.
  1. استكشاف واجهة المستخدم: البحث والنسب والملكية بمجرد اكتمال الاستيعاب الأول، انتقل إلى واجهة المستخدم للتحقق من القيمة بسرعة:
  • بحث شامل: ابحث عن مجموعات البيانات ولوحات المعلومات وخطوط الأنابيب بالاسم أو المخطط أو العلامات أو مصطلحات المسرد.
  • رسم بياني للنسب: انقر فوق مجموعة بيانات لرؤية الاتصالات في اتجاه المنبع واتجاه المصب. هذا ذهب لتحليل التأثير.
  • الملكية والتوثيق: أضف مالكين (فرق أو مستخدمين) واكتب أوصافًا واضحة. هذه هي أول إشارات ثقة ستشعر بها مؤسستك.
  • المخطط والتوصيف: راجع أسماء الأعمدة وأنواعها وإحصائيات العينة. اكتشف الحالات الشاذة مبكرًا.
  1. إضافة معنى: المسرد والعلامات والمجالات بيانات التعريف الأولية هي مجرد البداية. ستفتح اعتمادًا حقيقيًا عن طريق إضافة الدلالات:
  • مصطلحات المسرد: تحديد المفاهيم سهلة الاستخدام (العميل، ARR، المستخدم النشط). إرفاق بمجموعات البيانات/الأعمدة لتوحيد اللغة.
  • العلامات: ملصقات خفيفة الوزن (PII، حرج، مهمل، ذهبي). إشارات مرئية سريعة للمخاطر والأهمية.
  • المجالات: تجميع الأصول ذات الصلة حسب وظيفة العمل (المالية والتسويق) أو النظام الأساسي.
التصنيف الأول الموصى به:
  • ثلاثة مصطلحات مسرد يفهمها الجميع (العميل، الطلب، الإيرادات)
  • مجموعة علامات صغيرة: pii، ذهبي، مهمل، تجريبي
  • 5-7 مجالات تتوافق مع المخطط التنظيمي أو أنظمة البيانات الأساسية الخاصة بك
  1. الحوكمة التي تتوسع: السياسات والوصول يدعم DataHub السياسات القائمة على الأدوار والأصول حتى تتمكن من التحكم في من يمكنه فعل ماذا (تحرير الوثائق وإضافة العلامات وإدارة النسب وما إلى ذلك). ابدأ ببساطة:
  • إنشاء مجموعة "مشرفين" مع حقوق التحرير على المستندات والملكية والعلامات.
  • امنح المحللين حق الوصول للقراءة إلى معظم الأصول ولكن تقييد المجالات الحساسة.
  • اطلب مالكين لمجموعات البيانات "الذهبية" قبل ظهورها في "أفضل الاختيارات".
تعيش السياسات والحوكمة داخل النظام الأساسي، لذلك تكون التجربة متسقة للمحررين والمشاهدين. مع نضوج مؤسستك، قم بالتوسع بأذونات أكثر تفصيلاً وتدفقات الموافقة.
  1. أفضل الممارسات التشغيلية: اجعلها تلتزم تفشل برامج بيانات التعريف عندما تبدو وكأنها عمل إضافي. اجعل DataHub جزءًا من التدفق الطبيعي:
  • التضمين في طلبات السحب/CI: عند تغيير خطوط أنابيب البيانات، قم بتشغيل استيعاب بيانات التعريف ومقارنة اختلافات المخطط. ضع علامة على التغييرات التي تطرأ تلقائيًا.
  • التوافق مع dbt: استخدم مستندات dbt والاختبارات والتعرض؛ اعرضها في DataHub لربط التعليمات البرمجية بسياق العمل.
  • إنشاء "كتيب اعتماد": يضيف المالكون المستندات والعلامات ومصطلحات المسرد أثناء الإعداد. مكافأة الجودة عبر بطاقات الأداء.
  • نشر عقد بيانات: بالنسبة للجداول الرئيسية، حدد قواعد SLA والنضارة والإلغاء والاستقرار. اعرضه في DataHub.
  1. من التجربة إلى الإنتاج: ما هي التغييرات؟
  • البنية التحتية: الانتقال من Docker المحلي إلى بيئة مُدارة (Kubernetes، الخدمات السحابية). ضع في اعتبارك خيارًا مستضافًا إذا كان متاحًا في مؤسستك.
  • المصادقة/SSO: التكامل مع موفر الهوية الخاص بك (Okta، Azure AD، إلخ).
  • المراقبة: مراقبة وظائف الاستيعاب وحجم الرسم البياني وأداء واجهة المستخدم.
  • إدارة التغيير: إنشاء وتيرة مراجعة بيانات التعريف (مثل عمليات مزامنة الإشراف الأسبوعية).
  1. استكشاف الأخطاء وإصلاحها: المزالق الشائعة والإصلاحات
  • "لا أستطيع رؤية جداولي." تحقق من قواعد الشبكة وبيانات الاعتماد ومرشحات المصدر. قم بتشغيل وصفة استيعاب بسيطة لعزل المشكلة.
  • "النسب غير مكتملة." تأكد من أنك استوعبت من مصادر التنسيق (Airflow) والتحويل (dbt) والمستودعات. غالبًا ما تحتاج النسب إلى موصلات متعددة.
  • "البحث يبدو فوضويًا." شدد الفلاتر وأضف العلامات/المسرد وإخفاء الأصول المهملة.
  • "المستندات قديمة." جدولة الاستيعاب المنتظم؛ شجع المالكين على تحديث الأوصاف جنبًا إلى جنب مع تغييرات التعليمات البرمجية.
  1. مثال: مسار سريع إلى القيمة في 48 ساعة اليوم الأول
  • تشغيل DataHub محليًا عبر البداية السريعة.
  • الاستيعاب من المستودع الخاص بك (Snowflake/BigQuery) باستخدام استيعاب واجهة المستخدم.
  • أضف مالكين وأوصافًا إلى خمس مجموعات بيانات مهمة.
  • إنشاء مصطلحات مسرد للعميل والإيرادات؛ ضع علامة على مجموعات البيانات هذه على أنها ذهبية.
اليوم الثاني
  • استيعاب بيانات التعريف dbt لتوصيل النماذج بالجداول.
  • التحقق من صحة النسب عبر الاستيعاب ← التحويل ← BI.
  • إنشاء سياسة تسمح للمشرفين فقط بتغيير مستندات مجموعة البيانات الذهبية.
  • عرض عرض النسب وتجربة البحث لأصحاب المصلحة؛ جمع الملاحظات.
المراجع الرئيسية
  • البداية السريعة: الإعداد المحلي وبيانات الاعتماد والمنافذ والأوامر
  • نظرة عامة على المفاهيم والبنية
  • خطوات الاستيعاب المستندة إلى واجهة المستخدم
  • استيعاب CLI ووصفات YAML
أين يمكن أن تساعد Sider.AI إذا كان فريقك يبحث باستمرار عن أفضل الممارسات، أو يكتب مستندات مجموعة البيانات، أو يحتاج إلى ملخصات سهلة الهضم لتغييرات النسب والمخطط، فمن الجدير بالذكر أن Sider.AI يمكن أن تسرع التوثيق وتبادل المعرفة. على سبيل المثال، يمكنك تحويل اختلافات المخطط الكثيفة إلى سجلات تغيير قابلة للقراءة البشرية، أو إنشاء مسودات أولية لأوصاف مجموعة البيانات التي يقوم المشرفون بتنقيحها—مما يقلل الوقت من بيانات التعريف الأولية إلى السياق القابل للاستخدام.
ورقة الغش: أول 10 إجراءات لك
  1. تشغيل DataHub محليًا عبر البداية السريعة.
  1. أضف مصدر مستودع واحد عبر استيعاب واجهة المستخدم.
  1. استيعاب بيانات التعريف dbt أو بيانات التعريف الخاصة بالتنسيق للنسب.
  1. أضف مالكين إلى 5-10 مجموعات بيانات رئيسية.
  1. اكتب أوصافًا موجزة (2-3 جمل لكل منها).
  1. إنشاء 3 مصطلحات مسرد و 4-6 علامات.
  1. ضع علامة على 5 مجموعات بيانات على أنها ذهبية، وإخفاء المجموعات المهملة.
  1. تعيين سياسة محرر واحدة للمشرفين.
  1. جدولة الاستيعاب اليومي.
  1. عرض واجهة المستخدم لفريقين من أصحاب المصلحة وجمع الملاحظات.
ماذا بعد؟
  • التوسع إلى Kubernetes أو بيئة مُدارة.
  • طرح SSO والمجموعات للحوكمة.
  • توسيع الاستيعاب ليشمل BI وتدفقات الأحداث.
  • بناء بطاقات أداء لجودة البيانات واكتمال التوثيق.
  • التكامل مع CI/CD بحيث تنعكس تغييرات المخطط دائمًا في الكتالوج.
الوجبات النهائية
  • ابدأ صغيرًا، وقدم قيمة بسرعة، وكرر.
  • استخدم استيعاب واجهة المستخدم للسرعة؛ CLI للتكرار.
  • ضع طبقة في المسرد والعلامات والسياسات مبكرًا لتعزيز الثقة.
  • توصيل المستودع + dbt + BI للحصول على نسب كاملة.
  • تعامل مع التوثيق كجزء من التطوير، وليس فكرة لاحقة.

الأسئلة الشائعة

س1: ما هو DataHub ولماذا يجب علي استخدامه؟ DataHub هي منصة مفتوحة المصدر لبيانات التعريف للاكتشاف والنسب والحوكمة عبر مجموعة البيانات الخاصة بك. فهو يساعد الفرق على إيجاد مجموعات بيانات موثوقة وفهم التأثير وتوحيد التوثيق. تعرف على الأساسيات في المقدمة الرسمية.
س2: كيف أقوم بتثبيت DataHub بسرعة؟ استخدم البداية السريعة: قم بتثبيت Docker، وقم بتثبيت CLI، ثم ابدأ بأمر واحد. يمكنك الوصول إلى واجهة المستخدم محليًا وتسجيل الدخول باستخدام الإعدادات الافتراضية للتحقق من صحة الإعداد بسرعة.
س3: هل يجب علي استخدام استيعاب واجهة المستخدم أو استيعاب CLI في DataHub؟ استخدم الاستيعاب المستند إلى واجهة المستخدم للبدء بسرعة أو إشراك غير المهندسين؛ إنه رائع للاتصال الأول والعروض التوضيحية. قم بالتبديل إلى استيعاب CLI للوصفات ذات الإصدارات والأتمتة وتكامل CI/CD.
س4: كيف يمكنني الحصول على النسب لتظهر في DataHub؟ الاستيعاب من مصادر متعددة: المستودع الخاص بك (مثل Snowflake)، وطبقة التحويل الخاصة بك (مثل dbt)، والتنسيق (مثل Airflow). تظهر النسب عندما يربط DataHub هذه الأجزاء.
س5: ما هي ميزات الحوكمة التي يجب علي تمكينها أولاً في DataHub؟ ابدأ بالملكية والأوصاف الموجزة والمسرد الصغير والعلامات المتسقة مثل الذهبي وpii والمهمل. ثم أضف سياسات للتحكم في من يمكنه تحرير الأصول الهامة وجدولة الاستيعاب المنتظم.

مقالات حديثة
كيفية إتقان ChatPDF: الحصول على رؤى أسرع من المستندات الكثيفة

كيفية إتقان ChatPDF: الحصول على رؤى أسرع من المستندات الكثيفة

أفضل بديل لـ X Auto-Translation لترجمة سريعة ودقيقة للوثائق

أفضل بديل لـ X Auto-Translation لترجمة سريعة ودقيقة للوثائق

هل ترجمة سامسونج بالذكاء الاصطناعي غير متوفرة في إيران؟ حلول عملية

هل ترجمة سامسونج بالذكاء الاصطناعي غير متوفرة في إيران؟ حلول عملية

أدوات الترجمة الفارسية: دليل عملي للعمل بسرعة ودقة

أدوات الترجمة الفارسية: دليل عملي للعمل بسرعة ودقة

أفضل بديل لـ Grok للبحث العميق والمستند إلى المراجع

أفضل بديل لـ Grok للبحث العميق والمستند إلى المراجع

أهم 15 ميزة في مولد الصور بالذكاء الاصطناعي ستستخدمها فعليًا

أهم 15 ميزة في مولد الصور بالذكاء الاصطناعي ستستخدمها فعليًا