Sider.ai
  • ቻት
  • ዋይዝቤስ
  • መሳሪያዎች
  • ቅጥያ
  • ደንበኞች
  • የዋጋ አሰጣጥ
አሁን ዳውንለውድ ያደርጉ
ግባ

በSider በፍጥነት ይማሩ፣ ወሳኝ እንቅስቃሴ ያድርጉ፣ እና በብልህነት ይድጋጉ።

ምርቶች
መተግበሪያዎች
  • ቅጥያዎች
  • iOS
  • Android
  • Mac OS
  • Windows
Wisebase
  • Wisebase
  • Deep Research
  • Scholar Research
  • Math Solver
  • Rec NoteNew
  • Audio To Text
  • Gamified Learning
  • Interactive Reading
  • ChatPDF
መሳሪያዎች
  • ድህረ ገፅ ፈጣሪNew
  • አይ ስላይድስNew
  • AI የአሳይ ጽሑፍ ጻፊ
  • Nano Banana Pro
  • Nano Banana Infographic
  • AI የምስል መፍጠሪያ
  • ኢታሊያን ብረይንሮት ገነሬተር
  • የጀርባ ማስወገድ
  • የጀርባ መቀየሪያ
  • የፎቶ ማስወገድ
  • የጽሑፍ ማስወገድ
  • እንፔንት
  • የምስል ከፍተኛ አዝማሚ
  • ይፍጠሩ
  • AI ተርጓሚ
  • የምስል ተርጓሚ
  • PDF ተርጓሚ
Sider
  • አግኙን
  • የእርዳታ ማዕከል
  • አውርድ
  • ዋጋ አሰጣጥ
  • የትምህርት እቅድ
  • ምን አዲስ ነው
  • ብሎግ
  • አካባቢ
  • አጋሮች
  • አማራጭ
  • እንጋብዝ
©2026 ሁሉም መብቶች ይቆጠብራሉ
የአጠቃቀም ውሎች
የግላዊነት ፖሊሲ
  • መነሻ ገጽ
  • ብሎግ
  • AI መሳሪያዎች
  • የLakeFS አማራጮች፡- አእምሮዎን ሳያጡ መረጃዎን በተሻለ መንገድ መቆጣጠር

የLakeFS አማራጮች፡- አእምሮዎን ሳያጡ መረጃዎን በተሻለ መንገድ መቆጣጠር

የተዘጋጀ በ ሴፕቴ 28 ፣ 2025

14 ደቂቀ ምርት


LakeFS አማማኝ አማራጮች፡ ዳታዎችን ከማያስቸግር ዘዴ እንዴት መተያየት እንደሚቻል

በዳታ ሐይቅዎ እንደ Git ተለዋዋጭ እንዲሆን በፈለጉት ጊዜ ግን የግልጽ ትዕዛዞች እና ወጣት በሆነ የጓደኛዎ ብራንች “final_FINAL_no_really” በመምራት አይጨነቅም? እኔም እንደዚህ ነኝ። ይህ ለ lakeFS ያሉ የዳታ ቅጂ መቆጣጠሪያ መሣሪያዎች የተሰጠ ተስፋ ነው፡ ለዳታ ስብስር ብራንች ፣ ምርመራ እንደ ተመሳሳይ እንዲከናወን ፣ ማንኛውም ሰው ሲሰማራ ያሳሰበውን የCSV ኮሎምን እንደ አውኖ ካርዶች በመቀየር ያስተናግዳል።
ነገር ግን lakeFS ብቻ አይደለም። ምናልባት እርስዎ በአፕላይዝ ያሉ ላይ ነው። ምናልባት የኦቤጀክት ቅርፅ ተመልከትነት አያስተዋውቁም። ወይም ለቀላል ወይም ለጎተተ የተለያዩ መዋቅሮች ይፈልጋሉ። ዛሬ በርካታ ቀላል በእንግሊዝኛ ቋንቋ የተዘጋጀ የ lakeFS አማራጮች ጉብኝት እናደርጋለን። እነሱ በምን ይሻላሉ፣ የት ሊነሱ ይችላሉ እና ሳይአንቀሳቀሱ ምን ያህል ሊሞሉ እንደሚችሉ እንመልከታለን።
ማስታወቂያ፡ እዚህ አንዱ አሸናፊ አይኖርም። እንደ ጉዞዎ የተለያዩ ቦርሳ መምረጥ ነው። ለቀን ተራራ ጉዞ እንደ ቦርሳ፣ ለኤርፖርት እንደ ሮለር ቦርሳ፣ ለሲምፎኒ ሲንፊ እንደ ስቲም ትራንክ። እንግዲህ ቦርሳዎቹን ጉዞዎ ጋር እንዴት እንደሚመሳሰሉ እንመልከታለን።

የ ‘LakeFS አማራጮች’ ማለት ምን እንደሆነ (እና ለምን ሊፈልጉት ይችላሉ)

LakeFS አማራጮች የ Git እንደ ዳታ ቅጂ መቆጣጠር የሚሰጥባቸው መሣሪያዎችና አብራሪያት ናቸው። ብራንች ፣ መለያያይት ፣ ጊዜ ተጓዥነት ፣ እንደ ተመሳሳይ መርምሮች የሚያቀርቡ ነገር ግን lakeFS ን አይጠቀሙም። ሰዎች አማራጭ ለምን እንደሚመርጡ ዋና ምክንያቶች እነዚያ ናቸው፡
  • እርስዎ በዳታ ዌርንሃውስ ውስጥ ነዎት, ለዳታ ሐይቅ አይደለም. እርስዎ እንደ Snowflake, BigQuery, Redshift ወይም Databricks ውስጥ እንደሚሰሩ እንጂ S3 ወይም GCS በመጠቀም አትፈልጉም።
  • እርስዎ የገጽታ ቅርፅ ከዓለም ካታሎግ ይመራሉ. Apache Iceberg እና Delta Lake በገጽታ የተመሰረተ ማሻሻያ ቅጂ እንዲሰጥ ይረዳዎታል።
  • እርስዎ ቀላል የተለያዩ መንገዶችንና አገጋጋሚ ይፈልጋሉ. ምናልባት dbt snapshots, time travel, ወይም ካታሎግ በመጠቀም ውጤት ማድረስ ይችላሉ።
  • እርስዎ ጠንካራ የአወጣጥ ህጎች አሏቸው. Air-gapped, በአካባቢ የተገነባ ወይም ከሸማኔ የተቀበሉት የደንብ ፖሊሲ ይኖራሉ የሚታነሽ ከመካከላዊ ቤተ መፃህፍት የተለይተው።</c_p9>
በመካከሉ መሣሪያዎችን እንመለከታለን፣ ትንሽ መምሪያዎች እና ተግባራዊ ምክሮች እንሰጣለን እና በመጠበቅ ማስረጃ አቋም እንዳትወድቁ እንደሚችሉ እንሞክራለን።

አጭር ዝርዝር፡ LakeFS አማራጮችን በዓይነት ተደርጓል

lakeFS እንደ “በሐይቅ ዓለም ላይ አለምአቀፍ Git” ተመሳሳይ በኦቤጀክት ማከማቻ ላይ የተሰራ ነው። አማራጮች በተለምዶ ወደ እነዚህ ክፍሎች ይከፈላሉ፡
  1. በጊዜ ጉዞ የተመሰረቱ የገጽታ ቅርፅዎች
  • Apache Iceberg
  • Delta Lake (Databricks እና ክፍት ምንጭ)
  • Apache Hudi
  1. የዌርንሃውስ በውስጥ እንቅስቃሴ
  • Snowflake Time Travel እና Zero-Copy Cloning
  • BigQuery snapshots እና table clones
  • Redshift snapshots (በሚታወቅ ውስጥ)
  1. ካታሎግና አገጋጋሚዎች
  • Unity Catalog (Databricks)
  • AWS Glue Data Catalog + Lake Formation
  • ክፍት ምንጭ ካታሎግ እንደ Nessie (Iceberg የሚያገለግሉት)
  1. የክርክር እና አቀራረብ አቅጣጫዎች
  • dbt snapshots እና seeds
  • Dataform (BigQuery)
  • ኦርከስትሬሽን ከመነሻ እና ቅርፅ (Dagster, Prefect)
  1. ቅጂ ያላቸው የኦቤጀክት ማከማቻዎች እና የዳታ መዳረሻዎች
  • Pachyderm (ቅጂ ያላቸው የዳታ ፓይፕላይን)
  • Quilt (S3 የዳታ ጥቅል ቅጂ አቀራረብ)
  • DVC (Data Version Control) ከሩቅ ማከማቻ ጋር
እንደፈና እያንዳንዱን እንፈትናለን፣ ለማን ተስማሚ እና lakeFS እንዴት እንደሚወዳድር እንመልከታለን።

የገጽታ ቅርፅዎች፡ Iceberg, Delta, እና Hudi

lakeFS እንደ “ለሐይቅዎ Git” ከሆነ በማዕከል ያሉ ገጽታ ቅርፅዎች እንደ “በሐይቅዎ ውስጥ በጊዜ ጉዞ ያሉ ገጽታ ሰንጠረዦች” ናቸው። እነሱ ዳታ ከንዑስ ማስታወሻ ጋር አንድ በሆነ መንገድ ያከብራሉ እንዲሁም በገጽታው ደረጃ ሊሰኑ, ይመለሱ እና በተለያዩ መንገዶች ሊታሰሩ ይችላሉ። ምን ያህል ጥራት እንደሚሰጥ: ACID ፣ የሰንጠረዥ ልማት እና ቅኝ ማንበብ። ግምት? አንድ የተንቀሳቃሽ ሐይቅ ሳይኖር በተለያዩ ገጽታ ቅርፅ ተመሳሳይ ይሆናል።

Apache Iceberg፡ በርቀት ላይ እና የሚደረጉትን በመሠረት ያውላል

  • ምን እንደሆነ: አንድ ክፍት ገጽታ ቅርፅ ነው የመረጃ ማስታወሻን ከዳታ ፋይሎች በግልጽ ሁኔታ የሚያስተናግድ፣ የመለያየት ጊዜ ጉዞ እና ክፍል ልማት እና በርካታ እንግሊዝኛ መንገዶች የሚደግፉት (Spark, Flink, Trino, Snowflake, Athena, እና ሌሎች) ነው።
  • ከሰሞኑ ለምን አማራጭ ነው: lakeFS እንደ አለም ዓቀፍ ላይን ሌላ ገጽታ ቅርፅ አያስፈልግም በገጽታ ሰንጠረዦች ላይ ጊዜ ጉዞን ማድረግና ምልክቶችን ማከናወን ይቻላል። ከካታሎግ እንደ Nessie ጋር በተለያዩ ገጽታዎች ላይ የግንዛቤ ቅጂዎችን ማግኘት ይቻላል።
  • በየት ይወጣል: ብዙ መንገድ ያለው በተለያዩ ተሞክሮ ስፍራዎች, የልምድ የማይደርስ አቅም እና ማይታወቅ እንቅስቃሴ ያለው። Iceberg የማንፊስትና የመረጃ ግንኙነት ተደርጓል፣ ጥሩ እንደሚታወቅ ነው።
  • እንደ ማስጠንቀቂያ: ብራንች ከፍ በመሆን metadata ላይ ይመሰላል፤ ስለዚህ ነግር ለመቻል ከካታሎግ (ለምሳሌ Nessie) ጋር መሥራት ይሻላል። በስራ ተግባሮች መካከል አውጪነትንና ተወላጅነትን እንደመኖሩ መንገዶች አሉ።
ሙከራ እንዲደርስ:
  • Iceberg ገጽታ ፈጠር፣ በdev ብራንች ውስጥ በ Nessie ውስጥ ETL አከናውን፣ ውጤት አረጋግጥ፣ ከዛም እንደ main ፈጣን ፍሰት ተስማሚ አድርግ። እንዲሁ ከሆነ ነገር አብራል አጠቃላይ ወደ snapshot N-1 መመለስ ይቻላል።
ከ lakeFS እንደሚያስተላለፍ: lakeFS ለሁሉም ሐይቅ የኦቤጀክት ደረጃ ብራንች ይሰጣል። Iceberg ከዚህ በተለይ ፈጠራ ደረጃ ማስታወሻዎች ይሰጣል። Nessie ጋር በ Iceberg እንደ lakeFS እንደተመሳሰሉ ስሜት ይሰጥዎታል።

Delta Lake፡ ፍጥነት ያለው እና Databricks እንደ ተደጋጋሚ ከተለያዩ ነገሮች አንዱ

  • ምን እንደሆነ: የግድያ መልክ ቅርፅ (ክፍት ምንጭ) ከ Databricks የተፈጥሮ ድጋፍ ጋር። ምንጭ የጊዜ ጉዞ ፣ MERGE INTO እና ከተለያዩ ተጨማሪ ስራዎች ውስጥ አካባቢ አለ።
  • ለምን አማራጭ ነው: Delta ጊዜ ጉዞና ነባሪ አለፎች ብዙ “ኦፕስ” ጊዜ ሊረዳው ይችላል። በ Databricks ላይ ሲኖሩ ፣ Unity Catalog አገጋጋሚና ከመስኮች በላይ እውነተኛነት ያቀርባል።
  • በግልጽነት: ከ Databricks ተጋልጦ ከሆነ በጣም ቀላል ነው። ሰነዶቹ ጥሩ እና የእንቅስቃሴ ማሻሻያ ምርት ነው።
  • እንደ ማስጠንቀቂያ: ከ Databricks ውጭ ፊተኛ ገጽታ ሊደርስ ትንሽ ይቅርታ አለ። ትክክለኛው ተለዋዋጭ እንደ ሆነ አይሆንም።
ሙከራ እንዲደርስ:
  • Delta ገጽታ ፈጠር፣ “dev” የሚባለውን ክፍላት ላይ ምርምር አከናውን፣ VERSION AS OF በመጠቀም መለኪያዎችን አነጻጽር አድርግ፣ ከዚህ በኋላ clone and swap በመጠቀም ሶፍትውን አካከል።
ከ lakeFS እንደሚያስተላለፍ: Delta በተለያዩ ገጽታዎች ላይ ተጠቃሚ ነው፤ lakeFS ከዚህ በላይ በሐይቅ ውስጥ ያሉ ንጥሎችን (ሞዴሎች፣ ምስሎች፣ CSV ጎልማሳዎች) ያስተናግዳል።

Apache Hudi፡ በCDC እና ቀጥታ የሚሰሩ እንቅስቃሴዎች ስራ አስኪያጅ

  • ምን እንደሆነ: ከእተናገድና ከገጽታ ውስጥ የተቀመጠ ገጽታ ቅርፅ፣ ቅድሚያ በጽሑፍ እና ቅድመ ንባብ መንገዶች ጋር።
  • ለምን አማራጭ ነው: ዳታ በቀጣይ ሲመጣ እና እንደ ገና ሲሰራ እና መመለስ በጣም ተደላይተዋል።
  • በየት ይወጣል: ክስተት ብዙዎች ፓይፕላይን, ቅርብ-እድሜ የሚከተለውና በምንም CDC ላይ።
  • እንደ ማስጠንቀቂያ: አሰምች ላይ ትንሽ ስለሚመስል የተሻለ ማስረጃ አለው ነገር ግን የመማር ሂደት አለ።
ከ lakeFS እንደሚያስተላለፍ: Hudi በመጠነኛ ሁኔታ ሊሰራ ይችላል ፣ lakeFS ደግሞ አለምአቀፍ ቅጂን እና አንደኛ አቋም ይወዳድራል። ሊኖሩ ይችላሉ።

የዌርንሃውስ በውስጥ ቅጂ፡ Snowflake, BigQuery, Redshift

በዌርንሃውስ ውስጥ ከሆነ የ lakeFS ዳታ-ሐይቅ Git አቋም ከሳለ የተሳካ ፍጥነት ማድረግ ትችላላችሁ።

Snowflake Time Travel እና Zero-Copy Cloning

  • ምን እንደሆነ: በSnowflake ውስጥ የተጠቃሚ “መመለሻ ቁልፍ”። ዳታ ሰንጠረዦች፣ ሰነዶች ወይም ዳታቤዝዎች ወደ ቀደም ያሉ እንደሚመለሱ እና አካባቢ ሙሉ ያለውን በማያደጉ የቅርፅ ቅጂዎች ማድረግ።
  • ለምን አማራጭ ነው: አንዲት የዲቭ ሳንቦክስ ቀላል ማከናወን፣ ሙከራ እና መልሰም በማድረግ እጅግ ቀላል ነው።
  • በግልጽነት: በከፊል የባለሞያዎች ቡድን ነገር ግን አዲስ እንቅስቃሴ አሳየት የሚፈልጉት።
  • እንደ ማስጠንቀቂያ: የጊዜ ጉዞ ጥበቃ ወጪ አለውና በላይኛዎቹ ደረጃዎች እስከ 90 ቀን ይገደባል። ይህ Snowflake ብቻ ነው።
ሙከራ እንዲደርስ:
  • CREATE DATABASE stage CLONE prod; ለመለወጥ ሂደቶቻችሁን አከናውን ፤ ከአስተማማኝ በኋላ ወደ ማዕከል መግባት፤ ከአልተሳካም ብራንቹን ሰርዝ እና እንደገና ነጻ ሂደቱን ይሂዱ።
ከ lakeFS እንደሚያስተላለፍ: lakeFS በ S3/GCS/Azure ውስጥ ፋይሎችንና እንዲሁም ዙሪያ ፓይፕላይኖችን ያቆጣጠራል። የ Snowflake መጽናኛ ውስጥ ብቻ ይገኛል።

BigQuery Snapshots እና Table Clones

  • ምን እንደሆነ: ሰንጠረዦችን ማስታወሻ ፣ FOR SYSTEM_TIME AS OF ጥያቄዎችን መጠቀም እና በጣም በመጨረሻ ሰንጠረዦች በመማድ እና ማመንጨት።
  • ለምን አማራጭ ነው: በጣም ቀላል፣ ሰርቨር አልባም እና ኦፕስ የለም። ሙከራና እና እይታ አስፈላጊ ቀለል አደርጋለሁ።
  • እንደ ማስጠንቀቂያ: ማስታወሻዎች እና ማስተካከያዎች በገጽታ ዘዴ ናቸው፤ ከብዙ ገጽታዎች መካከል ማቀናበር ራስዎ ይሠሩ።

Redshift እና ጓደኞቹ

  • ምን እንደሆነ: ተቀናቆ ክሊስተሮችን ማስታወሻ ሊሰጥ ይችላል እና RA3 ባለባቸውን አሰልጣኞችን አገልግሎት ይሰጣል፤ Snowflake ጊዜ ጉዞ እንደሆነ በጣም ቀላል አይደለም።
  • የሚጠቅሙበት ጉዳይ: በ AWS አካባቢ ቀደም ሲል የተደረገ የትንሽ ቤት ለ “የተጠናቀቀ” መለስ ተጠቃሚ።

ካታሎግና አገጋጋሚ፡ Unity, Glue, እና Nessie

እነዚህ በራሳቸው ዳታን አያስተዋውቁም ካሉት አገጋጋዮችን ያደርጋሉ እና አንዳንድ ጊዜ ብራንች ያሳያሉ።
  • Unity Catalog (Databricks): በማዕከላዊ ሁኔታ ፈቃዶችን፣ የመነሻና መፈለጊያዎችን እና ዳታ መፈለጊያዎችን ከስራ አካባቢዎች ላይ ያቀርባል። Delta ጋር አገጋጋሚ እቅድ ነው።
  • AWS Glue + Lake Formation: የፈቃድ እና ካታሎግ መስሪያ ለ S3። ከ Iceberg/Delta/Hudi ጋር ተያይዞ የቅጂ ክፍልን ትገጥማለች።
  • Project Nessie: ከ Iceberg በማነስ ብራንች እና መለያያይት እንደ Git የገጽታ መረጃ ካታሎግ። Iceberg እንደ lakeFS አግሎት ይስማማል።

የክርክር አቅጣጫዎች፡ dbt, Dataform, እና ኦርከስትሬተሮች

ጥያቄዎ ሲሆን “እንዴት እንደሚቀጥል የምግባር እንቅስቃሴ በሰኞ መድረሻ እንደሚሆን?”, አንደኛ መልስ አዲስ የፋይል ዓላማ ሊሆን አይችልም። ያ ተስፋሚነት እና አገልጋይ ነው።
  • dbt snapshots: በተስፋሚ የሚለዋወጡ ክፍሎችን ያያዣ እና የለዋወጥ ታሪክ ይዞ ያስቀምጣል። ዳታን አይቀጥልም ግን ለአዲስ መጠየቂያዎች በጣም አስፈላጊ ነው።
  • ትንሽ የማስጨትቀልና አርትፋክቶች: እንደ ትንሽ ውሂብ እንደተለያዩ የ CSV ፋይሎችን እንደ ትንሽ ያስቀምጡ፣ በ Git ያስገቡ፣ ሞዴሎችን እንደተመለከተ ቪርዥን አድርጉ።
  • ኦርከስትሬተሮች ከመነሻ (Dagster, Prefect): እንደ ተያያዥ ነገሮች ተከታታይነትን ከፍ አድርጉ ፣ ዲቭ እና ፕሮድ ተለዋዋጮችን ታሸግ እና ከዛም ከፕሮሞሽን በፊት አረጋግጥ።
እነዚህ እንደ “የሂደት አማራጮች” ናቸው። በሙሉ ሐይቅዎን አያነስሉም ግን ማጥፋት አስቸጋሪ እና እንደገና ማድረግ ፈጣን ያደርጋሉ።

የቅጂ ያላቸው የኦቤጀክት ማከማቻዎች እና የዳታ መዳረሻዎች፡ Pachyderm, Quilt, DVC

  • Pachyderm: ለዳታ ፓይፕላይኖች Git እና ከኮንቴይነሮች እና አብቂ ድርሰት። በML ዘርፍ ባሉ ሰዎች ለመሆን የተለያዩ ሙከራ እድል ይሰጣል።
  • Quilt: S3 እንደ ለክስክሽን ሲሆን የተለያዩ ዳታ ስብስሮችን እንደ ጭነት ፓኬጅ ይቆጥራል። ከተዘጋጁ መጽሐፍቶች ጋር ያሳያል። ለመፍላት ጥሩ ነው።
  • DVC: ለትልቅ ፋይሎች git እንደገና መከታተያ ከሩቅ ማከማቻዎች (S3, GCS, እና እንዲሁም) ጋር። ለ ML ሙከራዎች፣ ሞዴሎችና ዳታ ቦታዎች እና CI አገናኝ ጥሩ ነው።
ከ lakeFS ጋር በሚነጋገር ሁኔታ እነዚህ በ ML እና ለሰው ግል እንደ ሳጥን እና የሰነድ ማድረግ ግንዛቤ ይቀሳሉ ነገር ግን ሐይቅ ሙሉ ብራንቻ በማድረግ አይሆንም።

እርስዎ ለ LakeFS አማራጭ እንዴት መምረጥ፤ አጠቃላይ መርምሮ

እነሆ ከ10 ደቂቃ ውስጥ በቀላሉ ሊወጣ የሚችል ጥንካሬ መሰረት፦
  1. ዳታዎ የት ነው?
  • ብዙ ዌርንሃውስ → ከዌርንሃውስ ውስጥ ቅጂና ጊዜ ጉዞ (Snowflake, BigQuery) እንደመጀመሪያ ምክር። 'ነፃ' እንደሚሰራ ቁልፍ ነው።
  • የኦቤጀክት ማከማቻ እና ክፍት ኢንጅን → Iceberg ወይም Delta ተመልከት፤ በካታሎግ እና Unity ካታሎግ ጋር ማመንጨት።
  • የML ትኩስ ፓይፕላይኖች → DVC ወይም Pachyderm እንደ ሙከራ ተመልከት።
  1. ምን እንደምትፈልጉ ለመተያየት?
  • ሙሉ ሐይቅ, በተለያዩ ቅርፅ እና ከሰንጠረዦች ውጭ ስሜት (ምስሎች, ሞዴሎች) → lakeFS እንደ ውጤታማ አማራጭ ነው፤ አማራጮች የተለያዩ መዋቅሮች ናቸው።
  • ዋና የትኩስ ሰንጠረዦች → Iceberg/Delta/Hudi ወይም ዌርንሃውስ ቅጂዎች።
  1. እንዴት ፈጣን ትፈልጋለህ ለመመለስ?
  • በደቂቃዎች፡ ማስታወሻ ወይም ቅጂዎች (Snowflake, Delta).
  • በሰዓታት፡ Iceberg ከካታሎግ ብራንች ጋር።
  • ለሁሉም ፈጥነት፡ lakeFS ወይም በጣም ደንበኛ ምርጫዎች ተመልከት።
  1. በቡድን ዉስጥ ማን አለ?
  • የ Spark/Trino ተሞክሮ ከሚያደርጉ የዳታ መሣሪያዎች → Iceberg/Delta በጥሩ ሁኔታ ናቸው።
  • SQL ውስጥ የሚኖሩ ትኩስን ሳቢዎች → ዌርንሃውስ በውስጥ አሸናፊ ነው።
  • የML ምርምር ተግባራት → DVC/Pachyderm ተፈጥሮ ናቸው።
  1. የደንብ እና ጥንካሬ ምን ነው?
  • የማተኮር ታሪክና መለያያይት ያስፈልጋሉ → Iceberg/Delta ማስታወሻዎች ፣ dbt ማስታወሻዎች ወይም DVC ከሩቅ በኩል።
  • ከዳታ ስብስሮች ላይ ተከትሎ ፈቃድ እና የሰው ተሞክሮ ማስታወሻ → lakeFS ወይም Nessie ብራንች ከፕሉ ጥናቶች ጋር።

ማሳያና ትልቅ ምርኮኛ፡ ከ lakeFS በስተቀር ሁለት እውነተኛ ሞልከቶች

እንደ ዛሬ ከሰዓት በስተቀር ሀብት አስፈላጊ የሆኑ ሁለት ሞልከቶችን እንጓዝ። ሽብር ማድረግ አይፈልጉም።

ሞልከት A: ዌርንሃውስ-አንደኛ፣ ፈጣን ሳንቦክስ (Snowflake ወይም BigQuery)

  • አቀማመጥ:
  • ዋና ይሁንበት በprod የዳታቤዝ።
  • የማታ ጊዜ CREATE DATABASE dev CLONE prod (Snowflake) ወይም ማስታወሻዎች/ሰንጠረዦች (BigQuery) ፈጥር።
  • በሙከራ ወቅት የ BI ተግባርዎን ወደ dev አቅድ።
  • የስራ እንቅስቃሴ:
  • በ dev ውስጥ ለውጦችን አከናውን።
  • KPIs አረጋግጥ፣ የዳታ እና ሌሎች ሙከራዎችን እንደ dbt tests አድርግ፣ ከ prod ጋር አነጻጽር።
  • ከተስፋ ሲሆን አንፃር መልስ ማድረግ ይችላሉ (እንደ እይታ ማለፊያ ወይም MERGE)።
  • ከሆነ ቡድኑን ሰርዝ። የማንገደው አልፈለጉም።
  • ጥሩ የሆነ: ፈጣን፣ ቀላል, ለትኩስና ተለዋዋጭ ይሆናል።
  • አስቸጋሪ ነገር: ዌርንሃውስ ብቻ; በኦቤጀክት ማከማቻ የሚገኙ አርትፋክቶች (ሞዴሎች ለምሳሌ ML) ከውጭ ናቸው።

ሞልከት B: ክፍተት ሐይቅ ከ Iceberg + Nessie ጋር (ገጽታ እንደ Git)

  • አቀማመጥ:
  • ዳታዎን በ S3/GCS/Azure ይቀምጡ።
  • ከ Nessie ጋር Iceberg ገጽታዎችን ተጠቀም።
  • Spark/Trino ይነግሩ ወደ Nessie ይጠቅማሉ።
  • የስራ እንቅስቃሴ:
  • በ Nessie ውስጥ feature-exp ብራንች ፈጥር።
  • ለ Iceberg ሰንጠረዦች አዲስ ኮሎሞች ወይም ማስተካከያ ያቀርቡ።
  • ሙከራዎችን ከፍ አድርጉ (ተርጎሞ ቆጠራ ፣ የማይኖር ሪፖርት፣ የስርዓት ሊደንቅኝ).
  • እንዲገባ ከሆነ main ልክ ወደ feature-exp ፈጣን ጉዞ። ካልሆነ ብራንቹን ሰርዝ።
  • ጥሩ የሆነ: ክፍት፣ የኢንጅን አገልግሎትና Git የሚመስሉ ግንኙነቶች ለገጽታ መረጃ።
  • አሽተኛ በሆነ: መተያየት ክላስ ላይን መረጃና ፋይሎች ይበልጥ አይከተሉም። ከሙሉ ሐይቅ ያለውን አረጋጋጭ እርዳታ ትገልጻለህ።

ምን ጊዜ lakeFS እንደገና ትፈልጋለህ

እጅግ እኩል ነው፡ አንዳንዴ አለምአቀፍ ቅጂ ሞዴል ምርጥ መሣሪያ ነው።
  • በተለያዩ ቅርፅ ለአስተያየት አንደኛው ቅርጽ አሳይ ይፈልጋሉና። Parquet ሰንጠረዦች ፣ CSV የመለያየት ማዕከላዊ ዳታ ፣ ML ሞዴሎች እና ሰነዶች—በተጋራ ይማረከሉ።
  • በየዋናው ደረጃ በተገጽታ ክሎጅ እና እቅድ እንደ ሶፍትዌር እንደ ዝግጅት እንዲከናወን ይፈልጋሉ። እንደ ፋይል ደረጃ አከሬንክስ ፣ ሙከራ እና መልስ ማድረግ።
  • ሰው እንደሚሰማው ክትትል ይፈልጋሉ። ብራንች ፣ ሙከራ አከናውን ፣ የ PR መሳሪያ ስር ክትትል አድርግ፣ አንዴ ተስማሚ አድርግ።
እንደዚህ ሁኔታ ስለሆነ አማራጮች እንደ lakeFS ከክፍሎች እንደማትዘጋጅ ይመስላሉ። ከዚያም እንደ ራስህ የዱቄት እንቅስቃሴ ማድረግ ይጀምራሉ። የሚገባውም የሚበልጥ እና ለማቆም ብዙ ጊዜ ያስፈልጋል።

የጊዜ ወጪና የአሰተሳሰብ አንዳንድ ቃል

  • የዌርንሃውስ ተጀማሪ፡ ቅጂዎችን እና የጊዜ ጉዞ አጠናክር ክስሎችን ይከፍላሉ ፣ ነገር ግን እንደ አእምሮ አጥብቀዋል። ቀላል የሚገባ የማስተላለፊያ አሰሪያ ነው።
  • የገጽታ ቅርፅዎች፡ ባለሞያ ቡድኖች የተስፋ ይሰጣቸዋል እና ኢንጅን ባለሙያዎች እንደሚፈልጉት ውስጥ ያሳያል። በብዙ ቅምሻ ተጫዋቾች ማሰናከል ይጠበቃል።
  • በ ML ዘርፍ ያሉ መሣሪያዎች: DVC እና Pachyderm በሙከራ መከታተያ ይበራሉ ነገር ግን ከአናሊቲክስ ጋር መተባበር አለባቸው።
  • ካታሎግ: አገጋጋሚ እጅግ ጥሩ ነው - እንግዲኛን እንዳስተዳደርም ያስፈልጋል። እቅድ ለአስተዳደር ጊዜ ይቀርባል።
የመደበኛ ህግ፡ ቡድኑ ከ አስር በታች ከሆነ እና 90% የስራዎ በSQL አናሊቲክስ ላይ ካለ በዌርንሃውስ ስራዎን ጀምሩ። ሥራ በአምስት ክፍሎችን አገልግሎት የሚያደርጉ የፕላትፎርም ቡድን ከሆነ Iceberg/Delta + ካታሎግ እንደሚያስፈልገው ሕገ-ወጥታሞች ያሳያል።

Sider.AI በመድረግ

አዲስ እንደሆነ፣ Sider.AI በእነዚህ መሣሪያዎች አካባቢ ግጭቶችን ለመቆጣጠር ይረዳል። በማዕከላዊ ፎርማት ያሉ ሰነዶች ፣ SQL ሙከራዎች እና “ምን ተለዋዋጭ ነው?” የሚለውን በቀላሉ መግለጫዎች እንዲያደርግ ለሰራተኞችዎ ጥሩ ነው። ይህ በእርስዎ መሰረት የሚመነጭ የቅጂ ስርዓት አይደለም እንጂ ለክትትል ፣ ሙከራ እና ፈጣን አገናኝ አገልግሎት ይሰጣል።

ውሳኔ አውታረ መለኪያ፡ ምን እንደሚመርጥ መልእክቶች

  • Iceberg (+ Nessie) እንደምትመርጥ: ክፍት ስታንዳርድ፣ ብዙ ኢንጅነሮች ድጋፍና በተለያዩ ገጽታዎች ላይ የGit ልዩ ብራንች እንደሚያደርግ።
  • Delta (+ Unity Catalog) እንደምትመርጥ: በDatabricks ውስጥ ሲኖሩ ቀላል እና ተስማሚ መንገድ።
  • Hudi እንደምትመርጥ: በ CDC እና የስትሪሚንግ ዳታ ውስጥ ቢኖሩ።
  • Snowflake Time Travel/Clones እንደምትመርጥ: ሕይወትዎ ከSQL ዳሽቦርድ ሞልቶ ቀላል ሳንቦክስ እንደሚፈልጉም።
  • BigQuery snapshots/clones እንደምትመርጥ: ሰርቨር አልባ እና እንደ ቅናሽ ሊያደርጉ የሚችሉ ቀላል መሙከራዎች።
  • DVC ወይም Pachyderm እንደምትመርጥ: ML ሙከራዎችና ምንጭነት እንደ ውሃ እንሽት።
  • Quilt እንደምትመርጥ: ከሰዎች ጋር የተሰቆለ ጽሑፍ ዳታ ስብስር ለመካፈል።
እና አዎን, እንደ ምን ማድረግ ይቻላሉ። ብዙ ቡድን Delta ለተቀናጀ ማርቶች ፣ DVC ለ ML እና ዌርንሃውስ ቅጂዎች ለ BI- ሁለቱንም በአንደኛው ጊዜ ይጠቀማሉ። እንደ ቡፈት ነው፣ በአንደኛ ጊዜ አይደለም።

ጉዳይ ማቅረብ እና የሚገኙ የ "ቅርጸት" አሰናባይዎች

  • “የ dev ሙከራዬ አልተሳካም፣ ነገር ግን prod ተሰልሏል.” ሰንጠረዡን አለምአቀፍ ሰነዶች (መሐከልና ሞዴሎች) አይሳሉ። የማሽን፣ ወይም lakeFS እንደ ዓለም አቀፍ ቅጂ ወይም ውስጥ አካባቢ ማገናኛዎች አሉበት።
  • “የጊዜ ጉዞ አደረገኝ፣ ግን እስከመጨረሻ ያለው ጊዜ ገደብ ያልተሞላ.” በማስታወቂያዎች ላይ ማስጠንቀቂያዎችን ያድርጉ፣ አስፈላጊ ማስታወሻዎችን ይመልከቱ ወይም ወደ የማይበላ አካባቢ ያስመለስ።
  • “መንጅ አ ዳታ የሚያይ ከመንጅ B የማይያይ.” የካታሎግ ስርዓት አላማ አለ። በአንድ አካባቢ አንድ ካታሎግ (Nessie/Unity/Glue) ያሻሽሉ።
  • “ስኬማ ተሻሽሏል፤ የታችኛው ክፍል ደነገጠ።” የስኬማ ዝግመትን የሚደግፉ የሰንጠረዥ ቅርጸቶችን ይጠቀሙ እና በCI ውስጥ ኮንትራቶችን (ሙከራዎችን፣ ገደቦችን) ያክሉ።

የ30 ደቂቃ የሙከራ እቅድ

  • የመጋዘን መንገድ:
  1. Prodን ወደ dev ክሎኒንግ ያድርጉ (Snowflake/BigQuery)።
  1. dbt ጆብ ያሂዱ; 3 ቀላል ሙከራዎችን ያክሉ (ባዶ ያልሆነ፣ ልዩ፣ ተቀባይነት ያላቸው እሴቶች)።
  1. KPIዎችን ያወዳድሩ; እይታን በመለዋወጥ ያስተዋውቁ።
  • የክፍት-ሐይቅ መንገድ:
  1. Iceberg ሠንጠረዥ እና Nessie ቅርንጫፍ ይፍጠሩ።
  1. አንድ አምድ በመጨመር ትንሽ ለውጥ ያሂዱ።
  1. የረድፍ ቆጠራዎችን እና ባዶ ደረጃዎችን ያረጋግጡ; በፍጥነት ወደፊት ውህደት።
  • ML መንገድ:
  1. አነስተኛ ዳታሴት ያለው የDVC ማከማቻ ያስጀምሩ።
  1. ሁለት ሞዴሎችን ያሰልጥኑ፣ የስሪት መለያዎችን ይስጡ።
  1. የልዩነት ሪፖርት ይፍጠሩ; ልኬቶችን በኮሚቱ ያስቀምጡ።
ከላይ ያለውን ሳይንጠባጠቡ ማድረግ ከቻሉ, የሚቻል አማራጭ አለዎት ማለት ነው።

የመጨረሻው መስመር

የእርስዎን ውሂብ ስሪት ማድረግ የአንድን መሳሪያ መሠዊያ ላይ ስለማምለክ አይደለም። ስለ ተደጋጋሚነት እና ደህንነት ነው፡ ነገሮችን ሳይሰብሩ መሞከር ይችላሉ፣ እና በፍጥነት ወደሚታወቅ-ጥሩ መመለስ ይችላሉ? lakeFS አንድ የሚያምር መንገድ ነው። አማራጮቹ—Iceberg፣ Delta፣ Hudi፣ Snowflake፣ BigQuery፣ DVC፣ Nessie እና ጓደኞች—ትክክለኛውን ጥምረት ከመረጡ አብዛኞቹን የእውነተኛ ዓለም ፍላጎቶች ይሸፍናሉ።
የእኔ አመለካከት፡ በመጀመሪያ በሚያውቁት አካባቢ ጥቅልል እና ማግለል የሚሰጥዎትን ቀላሉ ነገር ይጀምሩ። ፍንዳታው ራዲየስዎ ሲያድግ አስተዳደርን እና ካታሎጎችን ያክሉ። እና እንደ ነበልባል ችቦ ጠረጴዛዎችን፣ ፋይሎችን እና ሞዴሎችን ሲያወዛግቡ፣ ያስታውሱ፡ ሁልጊዜም መላውን ሀይቅ እንደ Git ማከማቻ የሚይዝ መሳሪያ መጠቀም ይችላሉ—ወይም ያንን ትክክለኛ ሚዛን እስኪያገኙ ድረስ ይቀላቅሉ እና ያዛምዱ።
አንድ ተጨማሪ ነገር፡ ቅርንጫፎችዎን የወደፊት እርስዎ የሚረዱትን ስም ይስጡ። “fix-metric-typo” ከ“plswork” ይሻላል። የአእምሮ ጤናዎም እንዲሁ ስሪት ተሰጥቶታል።

ተደጋጋሚ ጥያቄዎች

Q1: ለውሂብ ስሪት ምርጥ የ lakeFS አማራጮች ምንድን ናቸው? ዋና የ lakeFS አማራጮች Apache Iceberg (ብዙውን ጊዜ ከNessie ጋር)፣ Delta Lake (በተለይ በDatabricks ላይ)፣ ለCDC-ከባድ ቧንቧዎች Apache Hudi እና እንደ Snowflake Time Travel እና BigQuery ቅጽበታዊ እይታዎች ያሉ መጋዘን-ቤተኛ አማራጮች ናቸው። ለML አጠቃቀም ጉዳዮች፣ DVC እና Pachyderm ጠንካራ ምርጫዎች ናቸው።
Q2: መቼ ነው Iceberg ወይም Deltaን ከ lakeFS ይልቅ መምረጥ ያለብኝ? የሠንጠረዥ-ደረጃ ጊዜ ጉዞ፣ የ ACID ግብይቶች እና የሞተር ውህደት ዋና ፍላጎቶችዎ ሲሆኑ Iceberg ወይም Deltaን ይምረጡ። እንዲሁም መስቀል-ቅርጸት፣ ሀይቅ-አቀፍ ቅርንጫፍ እና የሰንጠረዥ ያልሆኑ ንብረቶችን ማስተዋወቅ ከፈለጉ፣ lakeFS አሁንም የበላይነት አለው።
Q3: Snowflake Time Travel lakeFSን መተካት ይችላል? ለመጋዘን-ተኮር ቡድኖች ይችላል። የSnowflake Time Travel እና Zero-Copy Cloning የ dev sandboxes እና ጥቅልል ቀላል ያደርጉታል፣ ነገር ግን በSnowflake ውስጥ ያለውን መረጃ ብቻ ነው የሚሸፍኑት—የእርስዎን የነገር ማከማቻ፣ ML ሞዴሎች ወይም የዘፈቀደ ፋይሎች አይደሉም።
Q4: Nessie Icebergን የ lakeFS አማራጭ የሚያደርገው እንዴት ነው? ፕሮጀክት Nessie በIceberg ካታሎግዎ ላይ Git መሰል ቅርንጫፎችን እና መለያዎችን ይጨምራል፣ ይህም በብዙ ሠንጠረዦች ላይ ለውጦችን እንዲሞክሩ እና በአንድ ላይ እንዲያስተዋውቋቸው ያስችልዎታል። በሜታዳታ ላይ ያተኮረ ነው፣ ስለዚህ ለሰንጠረዥ ላልሆኑ ንብረቶች በተናጠል ያቅዳሉ።
Q5: የ lakeFS አማራጭን ለመሞከር ቀላሉ መንገድ ምንድነው? በመጋዘን ውስጥ ከሆኑ፣ prodን ወደ dev (Snowflake/BigQuery) ክሎኒንግ ያድርጉ እና ከሙከራዎች ጋር ትንሽ ለውጥ ይሞክሩ። በክፍት ሐይቅ ውስጥ፣ Icebergን ከNessie ቅርንጫፍ ጋር ያሽከርክሩ እና ፈጣን ወደፊት ውህደትን ይለማመዱ። ለML፣ DVCን ያስጀምሩ፣ ዳታሴትን ይስሩ እና ሁለት የሞዴል ሩጫዎችን ያወዳድሩ።

የቅርብ ጊዜ ጽሁፎች
ChatPDF እንዴት እንደሚቻል ማስተር ማድረግ: ከባለጠጋ ሰነዶች ፈጣን እውቀቶች

ChatPDF እንዴት እንደሚቻል ማስተር ማድረግ: ከባለጠጋ ሰነዶች ፈጣን እውቀቶች

ፈጣን እና ትክክለኛ ሰነዶች የሚያቀርብ ምርጥ X ራስ-ትርጉም አማራጭ

ፈጣን እና ትክክለኛ ሰነዶች የሚያቀርብ ምርጥ X ራስ-ትርጉም አማራጭ

ሳምሰንግ የAI ትርጉም አገልግሎት በኢራን አይገኝም? ተግባራዊ መፍትሄዎች

ሳምሰንግ የAI ትርጉም አገልግሎት በኢራን አይገኝም? ተግባራዊ መፍትሄዎች

ፐርሲያን ትርጉም መሣሪያዎች: ለፈጣንና ትክክለኛ ስራ ተግባራዊ መምሪያ

ፐርሲያን ትርጉም መሣሪያዎች: ለፈጣንና ትክክለኛ ስራ ተግባራዊ መምሪያ

የጥልቅ እና ተገምጋሚ ምንጮች ምርምር የሚሰጥ ምርጥ Grok ተቋማት አማራጭ

የጥልቅ እና ተገምጋሚ ምንጮች ምርምር የሚሰጥ ምርጥ Grok ተቋማት አማራጭ

የ AI የምስል ማመንጫ መሳሪያዎች 15 ዋና ዋና ባህሪያት - በተግባር የሚረዱዎት

የ AI የምስል ማመንጫ መሳሪያዎች 15 ዋና ዋና ባህሪያት - በተግባር የሚረዱዎት