آیا تا به حال سعی کردهاید از یک صفحه گسترده برای انجام کار یک تسمه نقاله کارخانه استفاده کنید؟ این من بودم، چند تابستان پیش، که سعی میکردم میلیونها فایل لاگ را با لپتاپی که مانند یک سگ چیواوا در یک رعد و برق ناله میکرد، مدیریت کنم. همان موقع بود که کسی گفت: "آیا را امتحان کردهاید؟" صدای خش خش صفحه گرامافون بلند شد.
اگر کلمات ""، "خوشهها" و "" باعث میشوند که بخواهید فرار کنید، خبر خوب این است: استفاده از نباید مانند خلبانی یک موشک فضایی باشد. آن را مانند یک آشپزخانه مشترک برای متخصصان داده در نظر بگیرید—سرآشپزها (شما و تیمتان) میتوانند مواد اولیه (دادهها) را بیاورند، از اجاقها (خوشههای محاسباتی) استفاده کنند و دستور العملها (نوتبوکها) را دنبال کنند تا غذاهایی (تجزیه و تحلیل، داشبوردها، مدلهای یادگیری ماشین) بپزند که واقعاً کسب و کار را تغذیه کنند.
در این راهنما، فضای کاری خود را راهاندازی میکنیم، اولین خوشه خود را میچرخانیم، در یک نوتبوک کد مینویسیم، با پرس و جو میکنیم، نتایج را در جداول ذخیره میکنیم، کارها را زمانبندی میکنیم و از دو اشتباه کلاسیک اجتناب میکنیم: صورتحسابهای غافلگیرکننده و شبهای مرموز "چرا کار من با شکست مواجه شد؟". من همه چیز را انسانی، عملی و صادقانه نگه میدارم—انگار دو همسایه هستیم که نکاتی را از روی دیوار با هم رد و بدل میکنیم، با این تفاوت که دیوار از فایلهای ساخته شده است.
واقعاً چیست؟
را به عنوان یک استودیوی همه کاره برای دادههای بزرگ و هوش مصنوعی تصور کنید. را در یک رابط کاربری دوستانه میپیچد، نوتبوکهای مشارکتی را اضافه میکند، دادهها را با (یک فرمت جدولی فوقالعاده قدرتمند) مدیریت میکند و ابزارهای حاکمیتی را در اختیار شما قرار میدهد تا به طور تصادفی شیر داده را یک شبه باز نگذارید. میتوانید ، ، یا بنویسید. آنها را با هم ترکیب کنید و از همتیمیها دعوت کنید تا در همان نوتبوکها بدون هل دادن یکدیگر کار کنند.
مدل ذهنی شما
- فضای کاری: ستاد پروژه شما—کاربران، نوتبوکها، مخازن، کارها.
- محاسبات: خوشهها (برای نوتبوکها و کارها) و انبارهای (برای پرس و جوهای ).
- ذخیرهسازی: دادههای ابری شما (). یک کاتالوگ دوستانه با جداولی که میتوانید پرس و جو کنید، اضافه میکند.
- حکومت: کنترلهای دسترسی و کاتالوگ به طوری که افراد مناسب دادههای مناسب را ببینند.
- خطوط لوله: جداول زنده برای مهندسی داده؛ کارها برای زمانبندی موارد؛ برای آزمایشها و مدلها.
مرحله 1: ایجاد یا پیوستن به یک فضای کاری
اگر شرکت شما از قبل دارد، یک دعوتنامه دریافت خواهید کرد. در غیر این صورت، برای یک دوره آزمایشی (ابر مورد نظر خود) ثبت نام کنید و یک فضای کاری ایجاد کنید. شما در یک رابط کاربری تمیز با نوار کناری سمت چپ قرار خواهید گرفت. از گزینهها وحشت نکنید—ما فقط با سه مورد شروع خواهیم کرد: فضای کاری، محاسبات و داده.
مرحله 2: اولین خوشه خود را بچرخانید ("موتور" زیر کاپوت)
یک خوشه فقط مجموعهای از ماشینهای ابری است که برای شما شروع میکند.
- یک حالت خوشه را انتخاب کنید (با یا برای آزمایش شروع کنید).
- یک نوع نمونه کوچک را انتخاب کنید تا هزینهها دوستانه بمانند.
- خاتمه خودکار را روشن کنید (به عنوان مثال، 15–30 دقیقه). این تایمر "خاموش شدن چراغها" برای ابر است.
- ایجاد کنید. یک یا دو دقیقه صبر کنید؛ یک "" سبز رنگ خواهید دید.
نکته : خوشه خود را چیزی واضح نامگذاری کنید (""). از شما تشکر خواهد کرد.
مرحله 3: یک نوتبوک باز کنید ("میز کار" شما)
- یک زبان را انتخاب کنید. یک نقطه شروع راحت است. شما همچنان میتوانید با دستورات جادویی را اجرا کنید.
- نوتبوک را به خوشه در حال اجرا خود پیوست کنید (منوی کشویی در بالا).
اولین سلول خود را امتحان کنید:
سپس یک تیزر را امتحان کنید:
تبریک میگویم، شما به تازگی یک موتور محاسباتی توزیع شده را برای شمارش تا پنج راهاندازی کردهاید. شما رسماً یک جادوگر داده هستید.
مرحله 4: دادهها را وارد کنید ("قفسه مواد اولیه")
میتوانید فایلها را وارد کنید، به فضای ذخیرهسازی اشیا متصل شوید یا جداول موجود را پرس و جو کنید.
- روی در نوار کناری کلیک کنید. کاتالوگها و طرحها (پوشهها برای جداول) و گزینههایی برای افزودن داده را خواهید دید.
- اگر یک دارید، آن را برای یک آزمایش سریع آپلود کنید. میتواند طرح را استنباط کند.
استفاده از برای خواندن یک در فضای ذخیرهسازی ابری:
این تابع جادوی است: مرتبسازی، فیلتر کردن و نمودارسازی آسان در یک لحظه.
مرحله 5: نتایج خود را به عنوان جداول ذخیره کنید (چرا ؟)
جداول مانند صفحات گسترده با قدرتهای فوقالعاده هستند: آنها تضمینهای تراکنشی ("") را حفظ میکنند، نسخهها را ردیابی میکنند و بهروزرسانیها/درجها/ادغامها را منطقی میکنند.
اکنون میتوانید با پرس و جو کنید:
-- سلول خود را با به تغییر دهید
دادههای ممیزی دوستانه و نسخهبندی شده میخواهید؟ میتوانید در زمان سفر کنید:
مرحله 6: با انبارهای دوست شوید (برای افراد )
اگر بیشتر داشبورد و سوالات تجاری انجام میدهید، یک انبار را بچرخانید ( → ). این مانند یک موتور سبکتر است که برای تنظیم شده است.
- ابزار خود را متصل کنید (، یا ).
- یک داشبورد ایجاد کنید: تجسمها، فیلترها، زمانبندیهای تازهسازی.
مرحله 7: خطوط لوله با جداول زنده (از "دستی" به "خودکار")
اگر تبدیلهای تکرارپذیری دارید—"پاک کردن فروش خام، پیوستن فراداده محصول، تجمیع بر اساس هفته"—جداول زنده () آن را به یک خط لوله مدیریت شده با بررسیها و تبار تبدیل میکند.
یک مثال کوچک :
- نظارت، تلاشهای مجدد و قوانین کیفیت داده را مدیریت میکند.
- انتظارات را اضافه کنید (مانند "") تا دادههای بد به جای خراب کردن بیسروصدای سهماهه شما، با صدای بلند شکست بخورند.
مرحله 8: آن را با زمانبندی کنید (زیرا شما خواب را دوست دارید)
- نوتبوک خود را انتخاب کنید، یک برنامه زمانبندی تنظیم کنید (به عنوان مثال، ساعت 2 بامداد روزانه)، یک خوشه کار کوچک را انتخاب کنید.
- هشدارهای ایمیل یا را برای شکستها اضافه کنید.
جایزه: نوتبوکها را پارامتری کنید تا همان کد برای توسعه/آزمایش/تولید با ورودیهای مختلف اجرا شود.
مرحله 9: مجوزها و حکومت بدون اشک
کنترل دسترسی به داده مهم است. از مجوزهای کاتالوگ داخلی برای اطمینان از خوانندگان، نویسندگان و مالکان مناسب استفاده کنید. اگر سازمان شما از یک متاستور متمرکز استفاده میکند، با کاتالوگ مواجه خواهید شد: نامهایی مانند را استاندارد میکند و ممیزیهای بهتر و کنترلهای دقیقتری را در اختیار شما قرار میدهد.
نکته : ساده شروع کنید—یک کاتالوگ برای تجزیه و تحلیل، یکی برای سندباکس—و همه چیز را به وضوح نامگذاری کنید. تحلیلگران آینده برای شما قهوه میخرند.
مرحله 10: کنترل هزینه (بخش "صورتحساب غافلگیرکننده دریافت نکنید")
- هنگام کاوش، به نمونههای کوچک پیشفرض بروید.
- همیشه خاتمه خودکار را در خوشههای توسعه فعال کنید.
- خوشههای کار را برای کارهای زمانبندی شده ترجیح دهید (چرخش، اجرا، خاموش کردن).
- هوشمندانه حافظه پنهان را ذخیره کنید: های بزرگ را ذخیره نکنید مگر اینکه نیاز به استفاده مجدد از آنها داشته باشید.
- معیارهای هزینه رابط کاربری را تماشا کنید و بودجهها/هشدارها را در ارائهدهنده ابر خود تنظیم کنید.
یک روز در زندگی: یک نسخه نمایشی سریع
بیایید بگوییم رئیس شما میپرسد: "کدام خطوط تولید در این سه ماهه سریعترین رشد را داشتهاند؟" در اینجا جریان آورده شده است:
- یک نوتبوک ایجاد کنید، یک خوشه توسعه را وصل کنید.
- فراداده فروش و محصول را وارد کنید ( در فضای ذخیرهسازی ابری).
- پاک کردن: اعمال طرحها، حذف مقادیر تهی، رفع قالبهای تاریخ.
- دادههای پاک را در بنویسید.
- برای محاسبه رشد سهماهه به سهماهه.
- تجسم در نوتبوک؛ سپس یک داشبورد برای رئیس منتشر کنید.
- نوتبوک را در یک بپیچید تا هر روز صبح تازهسازی شود.
گوشه عیبیابی (زیرا اتفاق میافتد)
- خوشه شروع نمیشود: سهمیه/نوع نمونه خود را بررسی کنید؛ یک کوچکتر را امتحان کنید؛ مجوزها را تأیید کنید.
- دادهها خوانده نمیشوند: مسیر و اعتبارنامهها را تأیید کنید؛ یک نمونه کوچک را امتحان کنید؛ طرح استنباط شده را بررسی کنید.
- مدام با شکست مواجه میشود: گزارشگیری را اضافه کنید (عبارات چاپ، نمایش)، موازیسازی را کاهش دهید و ورودیها را تأیید کنید.
- نتایج "خاموش" به نظر میرسند: مناطق زمانی! آنها موذی هستند. مهر زمانیها را تبدیل کنید، یک منطقه زمانی پیشفرض تنظیم کنید و فرضیات را مستند کنید.
همکاری: مانند یک گروه کار کنید، نه یک بازیگر انفرادی
- از برای همگامسازی نوتبوکها با استفاده کنید. زود کامیت کنید، اغلب کامیت کنید.
- درست در سلولهای نوتبوک نظر دهید. یک سلول "اول مرا بخوان" را در بالا با دستورالعملها نگه دارید.
- نوتبوکهای کوچک و قابل ترکیب (دریافت، تبدیل، تجزیه و تحلیل) ایجاد کنید تا همتیمیها بتوانند بدون غواصی وارد شوند.
؟ ؟ هر دو.
میتوانید زبانها را در یک نوتبوک ترکیب کنید. به عنوان مثال، منطق خود را در نمونهسازی کنید (تکرار سریع)، سپس برای کتابخانههای تخصصی (پیشبینی، ) به بروید. از ها به طور کم استفاده کنید—توابع بومی سریعتر و برای مقیاسبندی دوستانهتر هستند.
عملکرد: سه اهرم
- پارتیشنها: از انبار کاه رد شوید، فقط سوزنها را بخوانید. جداول را بر اساس ستونهای فیلتر شده مکرر (تاریخ، منطقه) پارتیشنبندی کنید.
- اندازههای فایل: فایلهای کوچک مانند زرق و برق هستند—همهجا و آزاردهنده. از نوشتنهای بهینهسازی شده/بهینهسازی خودکار برای ادغام فایلهای کوچک به فایلهای بزرگ و کارآمد استفاده کنید.
- ذخیرهسازی و پیوستنهای پخش: های استفاده شده مجدد را ذخیره کنید؛ جدول کوچک را در پیوستنهای بزرگ پخش کنید تا از تغییرات جلوگیری شود.
مبانی امنیتی که در روز دوم به آنها نیاز خواهید داشت
- اسرار را در یک دامنه مخفی مدیریت شده ذخیره کنید؛ هرگز کلیدها را به صورت سخت کدگذاری نکنید.
- جداول تولید را با کمترین امتیاز قفل کنید.
- از گزارشهای ممیزی برای دیدن اینکه چه کسی چه چیزی را چه زمانی تغییر داده است استفاده کنید.
از دستکاری تا تولید: یک مسیر واقعبینانه
- هفته 1: با نوتبوکها و یک خوشه کوچک کاوش کنید. اولین جداول را ذخیره کنید. بردها را به اشتراک بگذارید.
- هفته 2: یک خط لوله برای تبدیلهای تکراری خود ایجاد کنید. بررسیهای کیفیت داده را اضافه کنید.
- هفته 3: نوتبوکها را در بپیچید، هشدارها را اضافه کنید و داشبوردها را به یک انبار متصل کنید.
- هفته 4: اسرار را به یک خزانه منتقل کنید، مجوزها را مرتب کنید، قراردادهای نامگذاری را تنظیم کنید و همه چیز را مستند کنید.
افسانههای رایج، به آرامی از بین رفتهاند
- "> فقط برای متخصصان است." دیگر اینطور نیست. انبارهای و کمککنندههای به این معنی است که تحلیلگران میتوانند بدون نوشتن یک خط کد پیشرفت کنند.
- ">قرار است گران باشد." میتواند باشد—اگر تمام آخر هفته چراغهای استادیوم را روشن بگذارید. با خاتمه خودکار و خوشههای کار کوچک، میتوانید هزینهها را متمدن نگه دارید.
- ">نسخهبندی یک سردرد است." سفر در زمان و سابقه جدول، بازگشت و ممیزی را به طرز خوشایندی پیش پا افتاده میکند.
یک کلمه سریع در مورد دستیاران مفید
اگر تا به حال خود را در نوشتن کد کلیشهای، توضیح نوتبوک خود برای… خودتان، یا تبدیل یک نتیجه خام به یک خلاصه مرتب گیر کردهاید، یک کمکخلبان هوشمند میتواند ساعتها صرفهجویی کند. ابزارهایی مانند Sider.AI میتوانند به عنوان یک جعبه چت دوستانه در مرورگر شما بنشینند، به شما در نوشتن یک سلول مبتدی، بازسازی یک پیوستن دست و پا چلفتی یا تبدیل خروجی نوتبوک خود به یک خلاصه خوانا برای رئیس خود کمک کنند. نکته اینجاست: سوالات خاص و مبتنی بر واقعیت بپرسید ("یک ادغام را در یک جدول با منطق برای این طرح بنویسید…") و یک نمونه کوچک و نماینده از طرح خود را جایگذاری کنید تا پیشنهاد دقیق باشد. اگر سعی کنید آن را وادار کنید که همه چیز را حدس بزند، هر دوی شما در نهایت شانه بالا میاندازید. هفته اول شما: یک کتاب بازی کوچک
روز 1: یک ورود به فضای کاری ایجاد کنید. یک خوشه توسعه کوچک با خاتمه خودکار را شروع کنید.
روز 2: یک کوچک را وارد کنید. با کاوش کنید. یک جدول را ذخیره کنید.
روز 3: یک خط لوله نوتبوک ساده ایجاد کنید: خام → پاک → تجمیع. نظرات را اضافه کنید.
روز 4: برای تأیید نتایج به بروید. یک داشبورد کوچک بسازید.
روز 5: یک برای تازهسازی روزانه ایجاد کنید. خوشه را خاموش کنید، به موقع به خانه بروید.
برگه تقلب: دستوراتی که واقعاً استفاده خواهید کرد
- سلول : به دنبال پرس و جو شما
چه زمانی از نوتبوکها به خطوط لوله بروید
- اگر روزانه یک نوتبوک را اجرا میکنید، آن را به یک منتقل کنید.
- اگر سه یا چند نوتبوک را به هم زنجیره میکنید، را در نظر بگیرید—وابستگیها را ساده میکند و قوانین کیفیت داده را اضافه میکند.
- اگر چندین تیم به خروجیها وابسته هستند، با های واضح به یک کاتالوگ مدیریت شده ارتقا دهید.
یک چیز آخر (قانون گرانش داده )
دادهها گرانش دارند. حرکت دادن آن سنگین است و پرتاب کردن آن گران است. زمانی بهترین کار را انجام میدهد که محاسبات را به دادهها بیاورید، جداول خود را مرتب نگه دارید () و بیتهای خستهکننده را خودکار کنید. کوچک شروع کنید، همه چیز را برچسب بزنید و تایمرهای خاتمه خودکار را طوری تنظیم کنید که انگار صورتحساب ابری شما به آن بستگی دارد—زیرا اینطور است.
نکات کلیدی
- با یک خوشه کوچک و خاتمه خودکار شروع کنید.
- از نوتبوکها برای کاوش استفاده کنید؛ نتایج پاک را به عنوان جداول ذخیره کنید.
- برای تبدیلهای تکرارپذیر، از استفاده کنید و با زمانبندی کنید.
- بینشها را از طریق انبارهای و داشبوردها به اشتراک بگذارید.
- مجوزها و اسرار را زود قفل کنید. در حین پیشرفت مستند کنید.
- هنگامی که نیاز به یک اشاره دارید، به یک کمکخلبان تکیه کنید—اما اعلانهای خود را خاص نگه دارید.
اگر میتوانید با تا پنج بشمارید، میتوانید چیز مفیدی را در بسازید. و هنگامی که کار شبانه شما بدون پیج کردن شما در ساعت 2 بامداد اجرا میشود، خواهید دانست که وارد آن قلمرو نادر و زیبایی شدهاید که به "دادههایی که رفتار میکنند" معروف است.
سوالات متداول
سوال 1: سریعترین راه برای شروع استفاده از به عنوان یک مبتدی چیست؟
یک خوشه کوچک با خاتمه خودکار ایجاد کنید، یک نوتبوک را باز کنید و یک کوچک را با برای کاوش بارگیری کنید. نتایج پاک خود را به عنوان یک جدول ذخیره کنید و یک پرس و جو ساده را امتحان کنید—این به شما بردهای واقعی در روز اول میدهد بدون اینکه در ویژگیهای پیشرفته گم شوید.
سوال 2: آیا باید از نوتبوکها یا جداول زنده برای خط لوله خود استفاده کنم؟
در حالی که در حال کشف چیزها هستید، با نوتبوکها شروع کنید. آنها برای کاوش و بردهای سریع عالی هستند. هنگامی که منطق شما تثبیت شد و نیاز به اجرای قابل اعتماد دارد، برای وابستگیهای مدیریت شده، بررسیهای کیفیت داده و نظارت آسانتر به جداول زنده بروید.
سوال 3: چگونه هزینههای را تحت کنترل نگه دارم؟
از نمونههای کوچک برای توسعه استفاده کنید، خاتمه خودکار را فعال کنید و خوشههای کار را برای اجراهای زمانبندی شده ترجیح دهید. از ذخیرهسازی های غولپیکر خودداری کنید مگر اینکه ضروری باشد و مراقب معیارهای هزینه و بودجههای ابری باشید تا هیچ چیز تمام آخر هفته اجرا نشود.
سوال 4: آیا افراد غیر برنامهنویس میتوانند به طور موثر از استفاده کنند؟
بله—انبارهای به علاوه داشبوردها را برای تحلیلگران دوستانه میکنند. شما میتوانید ساده بنویسید، نتایج را تجسم کنید و بینشها را بدون لمس به اشتراک بگذارید، سپس فقط زمانی که نیاز به تبدیلهای سنگینتری دارید، مهندسان را وارد کنید.
سوال 5: مزیت ذخیره دادهها به عنوان جداول چیست؟
جداول تراکنشهای ، سابقه نسخه (سفر در زمان) و عملکرد بهتری را به شما میدهند. این به معنای بهروزرسانیهای ایمنتر، بازگشت آسانتر در صورت بروز مشکلی و پرس و جوهای سریعتر برای همان دادهها است.