Mbadala wa LakeFS: Njia Bora za Kutumia Toleo la Data Yako Bila Kupoteza Akili
Umewahi kuhitaji data lake yako iishe kama Git—lakini bila amri za kipekee na sehemu ambapo mfanyakazi mwenzako alitupa tawi jina la “final_FINAL_no_really”? Mimi pia. Hilo ndilo ahadi ya zana za kudhibiti toleo la data kama lakeFS: matawi kwa seti za data, majaribio yanayoweza kurudiwa, na urejeshaji pale mtu anapokuja na CSV yenye safu zimetandawanyika kama karata za Uno.
Lakini lakeFS si chaguo lako pekee. Labda uko kwenye seva yako mwenyewe. Labda huipendi semantiki za hifadhi ya vitu. Labda unahitaji suluhisho rahisi, nafuu, au lililo mwelekeo wa hifadhi ya data zaidi. Leo tutajirudia kwa mtazamo rafiki na wa lugha rahisi mbadala za lakeFS—zilizo nzuri kwa nini, pale panapopungua, na jinsi ya kuchagua moja bila kuathiri wikendi yako.
Kibofu: Hakuna mshindi mmoja hapa. Ni kama kuchagua begi sahihi kwa safari yako. Mfuko wa mgongoni kwa matembezi ya mchana, begi la gurudumu kwa uwanja wa ndege, au sanduku la mizigo kama unahamisha sinfonia. Hebu tupatie begi safari yako.
Tunamaanisha Nini kwa “Mbadala wa LakeFS” (Na Kwa Nini Unaweza Kuipitisha)
Mbadala wa lakeFS ni zana na mifumo inayokupa toleo la data kwa mtindo wa Git—matawi, lebo, safari ya wakati, utiririshaji—bila kutumia lakeFS yenyewe. Sababu kuu za watu kuchagua mbadala:
- Unaishi katika hifadhi ya data, si data lake. Unataka toleo ndani ya Snowflake, BigQuery, Redshift, au Databricks, sio S3 au GCS.
- Unakipendelea muundo wa jedwali kuliko katalogi za ulimwengu. Apache Iceberg na Delta Lake hukupa toleo la snapshot kwenye kiwango cha meza.
- Unataka nidhamu na udhibiti wa chini ya mzigo. Labda unaweza kutumia dbt snapshots, safari za wakati, au katalogi kwa mahitaji yako.
- Una kanuni kali za miundombinu. Eneo lililotengwa, seva zako mwenyewe, au sera kali ya muuzaji kuliko maktaba ya shule ya msingi.
Katikati ya safari, tutalinganisha zana, kuonyesha maonyesho madogo, na kutoa vidokezo vya vitendo ili uweze kujaribu bila kusimamisha uzalishaji.
Orodha Fupi: Mbadala wa LakeFS Kwa Aina
Fikiria lakeFS kama “Git ya dunia kwa data lake” yenye msingi kwenye hifadhi ya vitu. Mbadala kawaida hugawanywa katika makundi haya:
- Muundo wa jedwali wenye safari za wakati
- Delta Lake (Databricks na chanzo huria)
- Toleo la asili la hifadhi ya data
- Snowflake Time Travel na Zero-Copy Cloning
- BigQuery snapshots na table clones
- Redshift snapshots (kwa tahadhari)
- Unity Catalog (Databricks)
- AWS Glue Data Catalog + Lake Formation
- Katalogi za chanzo huria kama Nessie (kwa Iceberg)
- Mifumo ya mtiririko wa kazi na uundaji
- Uratibu na msingi wa asili (Dagster, Prefect)
- Hifadhi zenye toleo la vitu na vituo vya data
- Pachyderm (mipangilio ya data yenye toleo)
- Quilt (toleo la vifurushi vya data vya S3)
- DVC (Data Version Control) kwa hifadhi za mbali
Hebu tufumbue kila moja—kazi zake, walengwa, na ulinganisho na lakeFS.
Muundo wa Jedwali: Iceberg, Delta, na Hudi
Ikiwa lakeFS ni “Git kwa data lake yako,” muundo wa jedwali ni “meza za kusafiri muda ndani ya lake yako.” Huhifadhi data pamoja na kumbukumbu za miamala ili uweze kutengeneza snapshot, kurejesha, na matawi kwa viwango vya jedwali. Faida? Unapata ACID, mabadiliko ya milango, na usomaji unaoendana. Hasara? Toleo linafanywa kwa jedwali, si kwa bakuli lote.
Apache Iceberg: Mlezi Mkristo wa Viwango na Utulivu
- Nini ni: Muundo wa jedwali wa wazi unaotenganisha metadata na faili za data kwa usafi, kwa snapshots, mabadiliko ya sehemu, na msaada wa injini nyingi (Spark, Flink, Trino, Snowflake, Athena, na zaidi).
- Kwanini ni mbadala: Unaweza kusafiri muda na kuweka lebo za snapshot za meza bila safu za ulimwengu kama lakeFS. Kwa katalogi kama Nessie, unaweza kupata matawi ya mtindo wa Git kwa metadata ya jedwali kwa meza nyingi.
- Inapendezesha: Sehemu zenye injini nyingi, mabadiliko ya milango, na unapotaka kuepuka kufungiwa na kampuni fulani. Miti ya manifest na metadata ya Iceberg ni ya mpangilio; inakua vizuri.
- Changamoto: Matawi ni kwa metadata tu; usimamizi wa meza nyingi ni rahisi na katalogi (mfano, Nessie). Bado utahitajika kuendesha ratiba na kutenganisha kazi.
Jaribu maonyesho:
- Tengeneza jedwali la Iceberg, endesha ETL kwa tawi la
dev katika Nessie, hakiki matokeo, halafu fanya merge ya haraka hadi main. Ikiwa kuna kosa, unaweza kumwonyesha msomaji snapshot N-1.
Ulinganisho na LakeFS: lakeFS inakupa matawi kwa kiwango cha vitu kwa lake lote; Iceberg inakupa snapshot kwa kiwango cha jedwali. Kwa Nessie, Iceberg huanza kuonekana kama lakeFS.
Delta Lake: Gari la Nguvu—Haraka, Mtazamo Hodari, Anapenda Databricks
- Nini ni: Muundo wa kumbukumbu ya miamala (chanzo huria) unaounga mkono Databricks asili. Ina vipengele kama safari za wakati,
MERGE INTO, na mto wa mabadiliko ya data.
- Kwanini ni mbadala: Safari za Delta na kloni hushughulikia makosa kwa ufanisi. Databricks, Unity Catalog huongeza udhibiti na usalama wa maeneo ya kazi.
- Inapendezesha: Kama uko tayari Databricks. Rahisi kutumia, nyaraka ni nzuri, na ufafanuzi mzima wa utendaji ni bora.
- Changamoto: Nje ya Databricks, sifa inaweza kuwa nyuma. Matawi ya meza nyingi bado si sawa na matawi ya lake.
Jaribu maonyesho:
- Tengeneza jedwali la Delta, endesha majaribio katika mfumo wa 'dev', tumia
VERSION AS OF kulinganisha vipimo, halafu uzalishaji na kloni na kubadilisha.
Ulinganisho na lakeFS: Delta hulinda meza vizuri; lakeFS hulinda kila kitu ndani ya bakuli, pamoja na vitu visivyo vya jedwali (mifano, picha, CSVs).
Apache Hudi: Kazi-Kali ya CDC
- Nini ni: Muundo wa jedwali ulioboreshwa kwa upsert na mfululizo wa mabadiliko, ukiwa na njia za copy-on-write na merge-on-read.
- Kwanini ni mbadala: Bora kwa data inayokuja kama mtiririko usioyumba na unahitaji uchakataji wa hatua kwa hatua na urejeshaji.
- Inapendezesha: Mipangilio yenye matukio mengi, upokeaji wa karibu wakati halisi, na CDC.
- Changamoto: Kurekebisha inaweza kuwa kama kusanidi injini ya ndege. Nyaraka zimeboreshwa lakini kuna njia ya kujifunza.
Ulinganisho na lakeFS: Hudi inashughulikia upanuzi wa hatua vizuri; lakeFS inalinda toleo la dunia nzima na utaratibu wa kupandisha hadhi. Zinaweza kuishi pamoja.
Toleo la Asili la Hifadhi ya Data: Snowflake, BigQuery, Redshift
Ikiwa unaishi kwenye hifadhi ya data, unaweza kufikia mbali bila safu za Git za data lake.
Snowflake Time Travel na Zero-Copy Cloning
- Nini ni: Kitufe cha 'kurudisha nyuma' kilicho ndani ya Snowflake. Rudisha meza, skimu, au database kwa muda uliopita; kloni mazingira bila kurudia uhifadhi.
- Kwanini ni mbadala: Rahisi sana kuanzisha sandbox ya maendeleo, jaribu, na toa baada ya mtihani.
- Inapendezesha: Timu za uchambuzi zinazotaka utiririshaji rahisi bila kujifunza zana mpya.
- Changamoto: Gharama ya kuhifadhi muda na kikomo cha muda (hadi siku 90 katika ngazi za juu). Ni ya Snowflake pekee.
Jaribu maonyesho:
CREATE DATABASE stage CLONE prod; Endesha mabadiliko; ikiwa yote ni nzuri, fanya merge. Ikiwa sio, toa kloni na usikose hata kidogo.
Ulinganisho na lakeFS: lakeFS inasimamia faili katika S3/GCS/Azure na mistari ya data. Uchawi wa Snowflake unaweza kwa ndani ya mazingira ya Snowflake pekee.
BigQuery Snapshots na Table Clones
- Nini ni: Tengeneza snapshot za jedwali, tumia
FOR SYSTEM_TIME AS OF kuuliza, na kloni za jedwali zinazidi kuwa maarufu.
- Kwanini ni mbadala: Rahisi, isiyohitaji server, hakuna usimamizi wa mtandao. Nzuri kwa majaribio na kulinganisha.
- Changamoto: Snapshot na kloni ni kwa jedwali moja; usimamizi wa meza nyingi unahitajika kufanywa mwenyewe.
Redshift na Wengine
- Nini ni: Unaweza kuiga kloni za kundi na kutumia sifa za RA3; si rahisi kama Snowflake Time Travel.
- Matumizi: Biashara ndogo zilizowezekana nguzo za AWS zinazotaka urejeshaji wa kutosha.
Katalogi na Udhibiti: Unity, Glue, na Nessie
Hizi hazitofautishi data peke yake (kwa kawaida), lakini huleta mpangilio—na wakati mwingine matawi—kwenye meza zako.
- Unity Catalog (Databricks): Ruhusa za kati, asili, na kugundua data kati ya maeneo ya kazi. Pamoja na Delta, ni nguvu ya udhibiti.
- AWS Glue + Lake Formation: Ruhusa na katalogi kwa S3. Hii utaunganisha na Iceberg/Delta/Hudi kwa kudhibiti toleo.
- Mradi Nessie: Katalogi ya mtindo wa Git kwa Iceberg inayowezesha matawi/lebo kwa metadata ya meza kwenye meza nyingi. Ni “Aha!” inaanza kufanya Iceberg kuonekana kama lakeFS.
Mifumo ya Kazi: dbt, Dataform, na Watangazaji
Ikiwa swali lako ni “Ninawezaje kuunda tena matokeo haya siku ya Jumanne?”, jibu linaweza kuwa nidhamu na metadata, si hifadhi mpya.
- dbt snapshots: Tafuta mabadiliko yanayobadilika polepole na kuweka kumbukumbu ya historia ya mabadiliko. Sio matawi ya data, lakini ni muhimu kwa ukaguzi.
- Mbegu na vitu vingine: Tumia CSV za ingizo kama mbegu; weka kwenye Git; fanya mifano irudiwe kwa kuweka toleo.
- Watangazaji na asili (Dagster, Prefect): Fuata utegemezi, fanya mali za dev vs. prod, na hakiki kabla ya kupandisha hadhi.
Hizi ni “mbadala wa mchakato.” Hazitarudisha nyuma lake lako lote, lakini zinaweza kufanya hitilafu kuwa chache—na urejeshaji haraka.
Hifadhi za Vitu Zenye Toleo na Vituo vya Data: Pachyderm, Quilt, DVC
- Pachyderm: Git kwa mitiririko ya data yenye hatua zilizo na kontena na asili. Ikiwa unaishi katika ML na unataka utiririshaji kamili, hii ni nzuri sana.
- Quilt: Tumia S3 kama meneja wa vifurushi kwa seti za data. Unatoa “vifurushi” vyenye toleo na nyaraka, mazuri kushirikiana.
- DVC: Kufuatilia faili kubwa kwa mtindo wa Git, na maghala (S3, GCS, nk). Bora kwa majaribio ya ML, toleo la modeli na seti za data, na ushirikiano wa CI.
Ukilinganishwa na lakeFS, hizi ni zaidi mtiririko wa kazi za ML au ufungaji rahisi wa seti za data kuliko matawi ya lake yote.
Kuchagua Mbadala wa LakeFS: Orodha ya Kuchagua Kwa Vitendo
Hapa ni vichungi rahisi unaweza kutumia kwa dakika 10:
- Kiwango kikubwa ni hifadhi ya data → Anza na kloni/safari za wakati asili (Snowflake, BigQuery). Ni “bure” kwa wafanyakazi.
- Hifadhi ya vitu + injini za wazi → Fikiria Iceberg au Delta; ongeza Nessie au Unity Catalog kwa udhibiti.
- Mtiririko wa kazi wenye ML nyingi → Tazama DVC au Pachyderm kwa utiririshaji wa majaribio.
- Unataka kutumia toleo gani?
- Lake lote, miundo tofauti, pamoja na vitu visivyo jadwali (picha, modeli) → lakeFS ni ngumu kuzidi; mbadala ni mchanganyiko.
- Meza kuu za takwimu → Iceberg/Delta/Hudi au kloni za hifadhi ya data.
- Unahitaji kurejesha kwa haraka kiasi gani?
- Dakika: Snapshot/kloni (Snowflake, Delta).
- Saa: Iceberg na matawi ya katalogi.
- Mara moja kwa kila kitu: lakeFS au mbinu za kifurushi zilizo sanifu.
- Wahandisi wa data wanaojua Spark/Trino → Iceberg/Delta ni bora.
- Wachambuzi wanaotumia SQL → Hifadhi ya data asili hushinda.
- Watafiti wa ML → DVC/Pachyderm ni nyepesi kukumbatia.
- Unahitaji historia isiyobadilika na lebo → Iceberg/Delta snapshots, dbt snapshots, au DVC na hifadhi za mbali.
- Unahitaji maelezo ya mabadiliko yanayoweza kusomeka na watu → lakeFS au matawi ya Nessie yenye mapendekezo ya mabadiliko (PR).
Onyesha na Sema: Mifumo Miwili Halisi Bila LakeFS
Hebu tuangalie mifumo miwili ambayo unaweza kujaribu mchana huu—hakuna helmeti inahitajika.
Mfumo A: Hifadhi ya Kwanza, Sandbox za Mara Moja (Snowflake au BigQuery)
- Weka uzalishaji katika database ya
prod.
- Kila usiku
CREATE DATABASE dev CLONE prod (Snowflake) au tengeneza kloni/snapshot za meza (BigQuery).
- Elekeza BI yako kwa
dev wakati wa majaribio.
- Endesha mabadiliko kwenye
dev.
- Hakiki KPIs, endesha majaribio ya data (mfano, dbt
tests), na linganisha na prod.
- Ikiwa ni vyema, fanya “kuzingatia” (kama kubadilisha muonekano au kufanya
MERGE).
- Ikiwa ni mbovu, toa kloni. Hakuna msururu wa kusafisha unahitajika.
- Faida: Haraka, rahisi, bora kwa wachambuzi.
- Hasara: Kwenye hifadhi tu; vitu katika hifadhi ya vitu (kama modeli za ML) haviko kwenye mipaka.
Mfano B: Lake Huria na Iceberg + Nessie (Git kwa Meza)
- Hifadhi data katika S3/GCS/Azure.
- Tumia meza za Iceberg na katalogi ya Nessie.
- Sanidi Spark/Trino kuangazia Nessie.
- Tengeneza tawi la
feature-exp katika Nessie.
- Endesha ETL kuweka safu mpya au marekebisho katika meza za Iceberg.
- Endesha uthibitisho (hesabu ya safu, ukaguzi wa null, mabadiliko ya usambazaji).
- Ikiwa ni sawa, fanya haraka
main kwanza hadi feature-exp. Ikiwa sio, acha tawi.
- Faida: Huria, inasaidia injini nyingi, semantiki za Git kwa metadata ya meza.
- Hasara: Toleo linaangazia metadata na faili za meza, si kila kitu cha bakuli lako. Bado utahitaji mkakati wa vitu visivyo vya meza.
Wakati Bado Ungetaka lakeFS
Sawa kabisa: Wakati mwingine mfano wa matawi ya dunia nzima ni zana bora zaidi.
- Unahitaji swichi moja kwa atomiki kwa miundo mingi pamoja. Meza za Parquet, data ya rejea ya CSV, modeli za ML, na nyaraka—zinapandishwa hadhi pamoja.
- Unataka utenganishaji wa kitu kwa kitu katika mistari ngumu ya data. Panga, jaribu, na unganisha kama toleo la programu.
- Unahitaji ukaguzi unaopendeza kwa mtu. Tawi, endesha uthibitisho, fungua mapitio kama PR, fanya merge.
Ikiwa hali yako ni hiyo, mbadala zitaanza kuonesha kama unajenga lakeFS kutoka kwa vipande. Hadi hatua fulani, ni kama kutengeneza starter ya mkate wenyewe: inawezekana, ni tamu, lakini inahitaji uangalizi mwingi.
Neno la Haraka kuhusu Gharama na Ugumu
- Hifadhi kwanza: Utalipa kwa kloni/safari za wakati, lakini utahifadhi akili; rahisi kuanzisha.
- Muundo wa Jedwali: Timu za kitaalamu za miundombinu zitapenda udhibiti na ufanisi wa injini; jisubiri vipengele zaidi.
- Zana za ML: DVC na Pachyderm ni wa kung'ara kwa kufuatilia majaribio, lakini zitahitaji kuunganishwa na uchambuzi.
- Katalogi: Udhibiti ni mzuri—mpaka mtu anahitaji kuudhibiti; panga muda wa sera.
Kanuni ya kidole: Ikiwa timu yako ni chini ya kumi na 90% ya kazi ni uchambuzi wa SQL, anza kwenye hifadhi. Ikiwa ni timu ya mfumo inayohudumia idara tano, utathamini uhuru wa usanifu wa Iceberg/Delta + katalogi.
Hapa kuna mshangao: Sider.AI inaweza kusaidia kulaidia sehemu chafu za zana hizi, hasa wakati unasimamia nyaraka, majaribio ya SQL, na hadithi za “nini kilibadilika?” Ni zana nyepesi kwa kugeuza tofauti za matawi au kulinganisha snapshot kuwa muhtasari unaoweza kueleweka na watu wa matangazo. Sio mfumo wa toleo lenyewe—usiijaribu kurudisha nyuma data lake—lakini kama msaidizi wa mapitio, upangaji wa majaribio, na utengenezaji wa script haraka, inastahili kupanga bendera yake. Matriki ya Uamuzi: Nini Kuchagua, Wakati Gani
- Chagua Iceberg (+ Nessie) ikiwa: Unataka viwango vya wazi, msaada wa injini nyingi, na matawi ya mtindo wa Git kwa meza nyingi.
- Chagua Delta (+ Unity Catalog) ikiwa: Uko vizuri Databricks na unataka mtiririko laini zaidi.
- Chagua Hudi ikiwa: Unaishi katika CDC na masasisho ya mtiririko wa data.
- Chagua Snowflake Time Travel/Clones ikiwa: Maisha yako ni dashibodi za SQL na unahitaji sandbox rahisi.
- Chagua BigQuery snapshots/clones ikiwa: Unapenda kazi bila server na majaribio rahisi yenye malipo kulingana na matumizi.
- Chagua DVC au Pachyderm ikiwa: Mazingira ya majaribio ya ML na asili ni chakula chako cha kila siku.
- Chagua Quilt ikiwa: Unashiriki seti za data zilizoandaliwa na zilizonyazwa na watu.
Na ndiyo, unaweza kuchanganya na kuoanisha. Timu nyingi hutumia Delta kwa masoko yaliyopangwa, DVC kwa ML, na kloni za hifadhi kwa BI—kwa pamoja. Ni kifungua kinywa cha mwili, si menyu moja tu.
Kona ya Utatuzi: Makosa ya Kawaida katika "Toleo"
- “Jaribio langu la dev lilienda vizuri, lakini prod iliharibika.” Ulipandisha meza lakini si faili za rejea (kama lebo, modeli). Fikiria ufungashaji au kukuza kwa mtindo wa lakeFS, au kuweka rejea ndani ya hifadhi.
- “Time Travel ilinisaidia—kadri dirisha la uhifadhi lilipokoma.” Weka onyo kwa madirisha ya uhifadhi, weka lebo za snapshot muhimu, au hamisha kwenye uhifadhi usiobadilika.
- “Injini A inaona data ambayo Injini B haioni.” Tatizo la uthabiti wa katalogi. Tumia katalogi moja (Nessie/Unity/Glue) kwa mazingira moja.
- “Schema ilibadilika; mkondo wa chini uliingia hofu.” Tumia miundo ya jedwali ambayo inaunga mkono mageuzi ya schema na uongeze mikataba (majaribio, vikwazo) katika CI.
Mpango wa Majaribio wa Dakika 30
- Nakili prod kwenda dev (Snowflake/BigQuery).
- Endesha kazi ya dbt; ongeza majaribio 3 rahisi (si null, ya kipekee, thamani zilizokubaliwa).
- Linganisha KPIs; tangaza kwa kubadilisha mtazamo.
- Njia ya ziwa lililo wazi:
- Unda jedwali la Iceberg na tawi la Nessie.
- Endesha mabadiliko madogo kuongeza safu.
- Thibitisha hesabu za safu na viwango vya null; unganisha kwa haraka.
- Anzisha repo ya DVC na dataset ndogo.
- Funza modeli mbili, weka alama za matoleo.
- Zalisha ripoti ya tofauti; hifadhi metriki na commit.
Ikiwa unaweza kufanya hayo hapo juu bila jasho, una mbadala inayowezekana.
Msingi wa Mambo
Kuweka data yako katika matoleo si kuhusu kuabudu madhabahuni pa zana moja. Ni kuhusu kurudiwa na usalama: unaweza kujaribu mambo bila kuvunja mambo, na unaweza kurudi kwenye hali inayojulikana kuwa nzuri haraka? lakeFS ni njia moja maridadi. Njia mbadala—Iceberg, Delta, Hudi, Snowflake, BigQuery, DVC, Nessie, na marafiki—zinafunika mahitaji mengi ya ulimwengu halisi ikiwa unachagua mchanganyiko sahihi.
Msimamo wangu: Anza na kitu rahisi zaidi kinachokupa urejeshaji na utengaji katika mazingira ambayo tayari unayajua. Ongeza usimamizi na katalogi kadri eneo lako la mlipuko linavyokua. Na unapokuwa unachezea majedwali, faili, na modeli kama mienge inayowaka, kumbuka: unaweza kufikia zana ambayo inachukulia ziwa zima kama repo ya Git—au changanya na ulinganishe hadi upate usawa unaofaa.
Jambo moja la mwisho: Taja matawi yako kwa jina ambalo wewe wa baadaye utaelewa. “fix-metric-typo” inapita “plswork”. Akili yako timamu pia imewekwa katika matoleo.
Maswali Yanayoulizwa Mara kwa Mara
Swali la 1: Ni njia gani bora mbadala za lakeFS za kuweka data katika matoleo?
Njia bora mbadala za lakeFS ni pamoja na Apache Iceberg (mara nyingi na Nessie), Delta Lake (hasa kwenye Databricks), Apache Hudi kwa mifumo ya CDC-heavy, na chaguo asilia za ghala kama vile Snowflake Time Travel na picha za BigQuery. Kwa kesi za matumizi ya ML, DVC na Pachyderm ni chaguo thabiti.
Swali la 2: Ni lini ninapaswa kuchagua Iceberg au Delta badala ya lakeFS?
Chagua Iceberg au Delta wakati usafiri wa wakati wa ngazi ya jedwali, miamala ya ACID, na ujumuishaji wa injini ndio mahitaji yako makuu. Ikiwa pia unahitaji matawi ya umbizo mbalimbali, mapana ya ziwa na utangazaji wa rasilimali zisizo za jedwali, lakeFS bado ina ubora.
Swali la 3: Je, Snowflake Time Travel inaweza kuchukua nafasi ya lakeFS?
Inaweza kwa timu zinazozingatia ghala. Time Travel ya Snowflake na Zero-Copy Cloning hurahisisha masanduku ya mchanga ya dev na urejeshaji, lakini zinafunika tu data ndani ya Snowflake—si hifadhi yako ya vitu, modeli za ML, au faili nasibu.
Swali la 4: Nessie hufanyaje Iceberg kuwa mbadala ya lakeFS?
Project Nessie huongeza matawi na lebo kama za Git kwenye katalogi yako ya Iceberg, huku kuruhusu kujaribu mabadiliko kwenye majedwali mengi na kuyatangaza pamoja. Inazingatia metadata, kwa hivyo bado utapanga rasilimali zisizo za jedwali kando.
Swali la 5: Njia rahisi zaidi ya kuendesha mbadala ya lakeFS ni ipi?
Ikiwa uko kwenye ghala, nakili prod kwenda dev (Snowflake/BigQuery) na ujaribu mabadiliko madogo na majaribio. Katika ziwa lililo wazi, washa Iceberg na tawi la Nessie na ufanye mazoezi ya kuunganisha kwa haraka. Kwa ML, anzisha DVC, weka dataset katika matoleo, na ulinganishe uendeshaji wa modeli mbili.