What are the best lakeFS alternatives for data versioning?

Top lakeFS alternatives include Apache Iceberg (often with Nessie), Delta Lake (especially on Databricks), Apache Hudi for CDC-heavy pipelines, and warehouse-native options like Snowflake Time Travel and BigQuery snapshots. For ML use cases, DVC and Pachyderm are strong picks.

When should I choose Iceberg or Delta instead of lakeFS?

Choose Iceberg or Delta when table-level time travel, ACID transactions, and engine integration are your main needs. If you also need cross-format, lake-wide branching and promotion of non-tabular assets, lakeFS still has the edge.

Can Snowflake Time Travel replace lakeFS?

It can for warehouse-centric teams. Snowflake’s Time Travel and Zero-Copy Cloning make dev sandboxes and rollbacks easy, but they only cover data inside Snowflake—not your object store, ML models, or random files.

How does Nessie make Iceberg a lakeFS alternative?

Project Nessie adds Git-like branches and tags to your Iceberg catalog, letting you test changes across many tables and promote them together. It’s metadata-focused, so you’ll still plan for non-table assets separately.

What’s the simplest way to pilot a lakeFS alternative?

If you’re in a warehouse, clone prod to dev (Snowflake/BigQuery) and try a small transformation with tests. In an open lake, spin up Iceberg with a Nessie branch and practice a fast-forward merge. For ML, initialize DVC, version a dataset, and compare two model runs.

Alternative za LakeFS: Pametnejši načini za verzijsko upravljanje vaših podatkov, ne da bi izgubili razum

Si kdaj želite, da bi se vaše podatkovno jezero obnašalo kot Git – brez skrivnostnih ukazov in dela, kjer vaš sodelavec poimenuje vejo »končno_KONČNO_res_nič_več«? Jaz tudi. To je obljuba orodij za nadzor različic podatkov, kot je lakeFS: veje za nabor podatkov, ponovljivi eksperimenti, povrnitve, ko nekdo vnese CSV z stolpci, premešanimi kot komplet kart Uno.

Ampak lakeFS ni vaša edina možnost. Morda ste lokalni. Morda ste alergični na semantiko shrambe predmetov. Morda si želite le cenejšo, preprostejšo ali bolj skladiščno usmerjeno nastavitev. Danes se bomo na prijazen, preprost način sprehodili skozi alternative za lakeFS – v čem so dobre, kje se majejo in kako izbrati eno, ne da bi žrtvovali svoj konec tedna.

Razkritje: Tukaj ni enega samega zmagovalca. Bolj je kot izbira pravega kovčka za vaše potovanje. Nahrbtnik za dnevne pohode, torba na kolesih za letališče, potovalni kovček, če selite simfonijo. Povežimo kovčke z vašo pot.

Kaj mislimo z »Alternative za LakeFS« (In zakaj bi jo morda želeli)

Alternative za LakeFS so orodja in vzorci, ki vam omogočajo verzijsko upravljanje podatkov, podobno kot Git – razvejanje, označevanje, potovanje skozi čas, ponovljivost – brez uporabe samega lakeFS. Glavni razlogi, zakaj se ljudje odločajo za alternative:

Živite v podatkovnem skladišču, ne v podatkovnem jezeru. Želite verzijsko upravljanje znotraj Snowflake, BigQuery, Redshift ali Databricks, ne pa S3 ali GCS.

Imate raje formate tabel kot globalne kataloge. Apache Iceberg in Delta Lake vam omogočata verzijsko upravljanje na podlagi posnetkov na ravni tabele.

Želite lažjo linijo in upravljanje. Morda lahko pridete tja, kamor greste, s posnetki dbt, potovanjem skozi čas ali katalogom.

Imate stroga infrastrukturna pravila. Zračno izoliran, lokalni ali politika zaklepanja prodajalca, ki je strožja od vašega knjižničarja v nižji srednji šoli.

Med potjo bomo primerjali orodja, prikazali mini predstavitve in dodali praktične nasvete, da boste lahko preizkusili te stvari, ne da bi ustavili tekoči trak.

Ožji izbor: Alternative za LakeFS po okusu

Mislite na lakeFS kot na »globalni Git za jezero«, ki je nameščen na shrambo predmetov. Alternative se običajno delijo v te kategorije:

Formati tabel s potovanjem skozi čas

Apache Iceberg

Delta Lake (Databricks in odprtokodni)

Apache Hudi

Verzijsko upravljanje, izvorno za skladišče

Snowflake Time Travel in Zero-Copy Cloning

BigQuery posnetki in kloni tabel

Redshift posnetki (s pridržki)

Katalogi in upravljanje

Unity Catalog (Databricks)

AWS Glue Data Catalog + Lake Formation

Odprtokodni katalogi, kot je Nessie (za Iceberg)

Pristopi poteka dela + modeliranja

dbt posnetki in semena

Dataform (BigQuery)

Orkestracija z linijo (Dagster, Prefect)

Verzijsko upravljane shrambe predmetov in podatkovni portali

Pachyderm (verzijsko upravljani podatkovni cevovodi)

Quilt (verzijsko upravljanje paketov podatkov S3)

DVC (Nadzor različic podatkov) z oddaljeno shrambo

Razpakirajmo vsako – kaj dela, komu je namenjena in kako se primerja z lakeFS.

Formati tabel: Iceberg, Delta in Hudi

Če je lakeFS »Git za vaše jezero«, so formati tabel »tabele za potovanje skozi čas znotraj vašega jezera«. Shranjujejo podatke skupaj z dnevnikom transakcij, tako da lahko posnamete, povrnete in razvejate (na različne načine) na ravni tabele. Prednost? Dobite ACID, razvoj sheme in dosledno branje. Slabost? Verzijsko upravljanje je na tabelo, ne pa po celotnem vedru.

Apache Iceberg: Miren, standardno usmerjen odrasel v sobi

Kaj je: Odprt format tabele, ki jasno ločuje metapodatke od podatkovnih datotek, s posnetki, razvojem particij in veliko podporo motorjev (Spark, Flink, Trino, Snowflake, Athena in drugi).

Zakaj je alternativa: Lahko potujete skozi čas in označite posnetke tabel brez globalne plasti, kot je lakeFS. S katalogom, kot je Nessie, lahko dobite veje, podobne Gitu, za vaše metapodatke tabele v številnih tabelah.

Kje blesti: Trgovine z več motorji, razvijajoče se sheme in ko se želite izogniti lastniškemu zaklepanju. Icebergova drevesa manifestov in metapodatkov so urejena; dobro se prilagaja.

Težave: Razvejanje je osredotočeno na metapodatke; usklajevanje med tabelami je lažje s katalogom (npr. Nessie). Še vedno boste upravljali orkestracijo in izolacijo med opravili.

Preizkusite demo:

Ustvarite tabelo Iceberg, zaženite ETL na veji dev v Nessie, potrdite rezultate in nato hitro posredujte združitev v main. Če se nekaj pokvari, lahko bralce usmerite nazaj na posnetek N-1.

Primerjava z LakeFS: lakeFS vam omogoča veje na ravni predmeta za celotno jezero; Iceberg vam omogoča posnetke na ravni tabele. Z Nessie se Iceberg začne počutiti blizu lakeFS.

Delta Lake: Avtomobil z mišicami – hiter, mnenjski, ljubi Databricks

Kaj je: Format dnevnika transakcij (odprtokodni) z izvorno podporo v Databricks. Funkcije vključujejo potovanje skozi čas, MERGE INTO in dovod podatkov o spremembah.

Zakaj je alternativa: Delta potovanje skozi čas in kloni obravnavajo večino trenutkov »ups«. V Databricks Unity Catalog dodaja upravljanje in zdrav razum med delovnimi prostori.

Kje blesti: Če ste že v Databricks. Je ergonomski, dokumentacija je dobra, optimizacija učinkovitosti pa je državljan prvega reda.

Težave: Zunaj Databricks lahko zaostaja pariteta funkcij. Razvejanje med tabelami še vedno ni enako globalnim jezerskim vejam.

Preizkusite demo:

Ustvarite tabelo Delta, izvajajte eksperimente v shemi »dev«, uporabite VERSION AS OF za primerjavo metrik, nato pa jo proizvodite s klonom in zamenjavo.

Primerjava z LakeFS: Delta briljantno ščiti tabele; lakeFS ščiti »vse v vedru«, vključno z netabelarnimi artefakti (modeli, slike, CSV-ji).

Apache Hudi: Delovni konj, prijazen do CDC

Kaj je: Format tabele, optimiziran za posodobitve in tokove sprememb, z načini kopiranja pri pisanju in združevanja pri branju.

Zakaj je alternativa: Odlično, ko vaši podatki prispejo kot neusmiljeno kapljanje in potrebujete inkrementalno obdelavo in povrnitev.

Kje blesti: Cevovodi z veliko dogodki, skoraj sprotno zbiranje in CDC.

Težave: Uglaševanje se lahko zdi kot konfiguracija reaktivnega motorja. Dokumentacija se je izboljšala, vendar obstaja krivulja učenja.

Primerjava z LakeFS: Hudi obravnava inkrementalizem kot prvak; lakeFS obravnava globalno verzijsko upravljanje in poteke dela promocije. Lahko sobivata.

Verzijsko upravljanje, izvorno za skladišče: Snowflake, BigQuery, Redshift

Če živite v skladišču, lahko pridete presenetljivo daleč brez plasti Git podatkovnega jezera.

Snowflake Time Travel in Zero-Copy Cloning

Kaj je: »Gumb za previjanje nazaj«, vgrajen v Snowflake. Obnovite tabele, sheme ali baze podatkov na prejšnjo točko; klonirajte celotna okolja brez podvajanja shrambe.

Zakaj je alternativa: Smešno preprosto je vzpostaviti razvojno okolje, preizkusiti in zavreči.

Kje blesti: Analitične ekipe, ki želijo ponovljivost brez učenja novih orodij.

Težave: Hranjenje Time Travel stane denar in doseže najvišjo vrednost pri določenem oknu (do 90 dni na višjih ravneh). Je samo za Snowflake.

Preizkusite demo:

CREATE DATABASE stage CLONE prod; Zaženite svoje transformacije; če poje, se združite nazaj. Če kruli, spustite klon in odidite.

Primerjava z LakeFS: lakeFS obravnava datoteke v S3/GCS/Azure in cevovode okoli njih. Snowflakeova čarovnija ostane znotraj Snowflake-zemlje.

BigQuery posnetki in kloni tabel

Kaj je: Ustvarite posnetke tabel, uporabite poizvedbe FOR SYSTEM_TIME AS OF in vse pogosteje klone tabel.

Zakaj je alternativa: Preprosto, brez strežnika, brez operacij. Odlično za eksperimentiranje in primerjanje.

Težave: Posnetki in kloni so na tabelo; usklajevanje med številnimi tabelami je DIY.

Redshift in prijatelji

Kaj je: Lahko posnamete posnetke grozdov in uporabite funkcije RA3; ni tako tekoče kot Snowflake Time Travel.

Primer uporabe: Manjše trgovine, ki so že standardizirane na AWS in želijo »dovolj dobro« povrnitev.

Katalogi in upravljanje: Unity, Glue in Nessie

Ti sami po sebi (večinoma) ne upravljajo različic podatkov, ampak prinašajo red – in včasih razvejanje – v vaše tabele.

Unity Catalog (Databricks): Centralizirana dovoljenja, linija in odkrivanje podatkov med delovnimi prostori. Z Delta je to moč upravljanja.

AWS Glue + Lake Formation: Dovoljenja in katalogizacija za S3. To boste združili z Iceberg/Delta/Hudi za del verzijskega upravljanja.

Projekt Nessie: Katalog, podoben Gitu, za Iceberg, ki omogoča veje/oznake za metapodatke tabele v številnih tabelah. To je »Aha!«, zaradi katerega se Iceberg počuti blizu lakeFS.

Pristopi poteka dela: dbt, Dataform in orkestratorji

Če je vaše vprašanje »Kako lahko ponovim ta rezultat v torek?«, včasih odgovor ni nova plast shrambe – ampak disciplina in metapodatki.

dbt posnetki: Zajemanje počasi spreminjajočih se dimenzij in vodenje zgodovinske knjige sprememb. Ne razvejuje podatkov, vendar je neprecenljivo za revizijske sledi.

Semena in artefakti: Upravljajte različice vhodnih CSV-jev kot semena; jih preverite v Gitu; naredite modele ponovljive s pripenjanjem različic.

Orkestratorji z linijo (Dagster, Prefect): Sledite odvisnostim, uresničite razvojna in proizvodna sredstva ter potrdite pred promocijo.

To so »procesne alternative«. Ne bodo previjali celotnega vašega jezera, lahko pa zmanjšajo število prelomov – in pospešijo okrevanje.

Verzijsko upravljane shrambe predmetov in podatkovni portali: Pachyderm, Quilt, DVC

Pachyderm: Git za podatkovne cevovode s kontejneriziranimi koraki in provenienco. Če živite v ML in želite ponovljivost od konca do konca, je to mačja meta.

Quilt: Obravnavajte S3 kot upravitelja paketov za nabore podatkov. Objavite verzijsko upravljane »pakete« z dokumentacijo in predogledom, kar je odlično za skupno rabo.

DVC: Sledenje velikim datotekam, podobno Gitu, z oddaljenimi (S3, GCS itd.). Odlično za eksperimente ML, različice modelov in naborov podatkov ter integracijo CI.

V primerjavi z lakeFS se ti bolj nagibajo k potekom dela ML ali uporabniku prijaznemu pakiranju naborov podatkov kot pa razvejanju po celotnem jezeru.

Izbira vaše alternative za LakeFS: Praktični kontrolni seznam

Tukaj je filter brez nesmislov, ki ga lahko zaženete v 10 minutah:

Kje živijo vaši podatki?

Večinoma skladišče → Začnite s kloniranjem/potovanjem skozi čas, izvornim za skladišče (Snowflake, BigQuery). Je »brezplačno« v številu zaposlenih.

Shramba predmetov + odprti motorji → Razmislite o Iceberg ali Delta; dodajte Nessie ali Unity Catalog za upravljanje.

Cevovodi, močno obremenjeni z ML → Oglejte si DVC ali Pachyderm za ponovljivost eksperimentov.

Kaj morate verzijsko upravljati?

Celotno jezero, med formatom, plus netabelarni artefakti (slike, modeli) → lakeFS je težko premagati; alternative so kombinacije.

Osrednje analitične tabele → Iceberg/Delta/Hudi ali kloni skladišča.

Kako hitro se morate vrniti nazaj?

Minute: Posnetki/kloni (Snowflake, Delta).

Ure: Iceberg z razvejanjem kataloga.

Takoj čez vse: lakeFS ali zelo disciplinirani pristopi, ki temeljijo na paketih.

Kdo je v ekipi?

Podatkovni inženirji, ki so udobni s Spark/Trino → Iceberg/Delta sta v redu.

Analitiki, ki živijo v SQL → Izvorno za skladišče osvaja srca.

Raziskovalci ML → DVC/Pachyderm se počutita naravno.

Skladnost in revizija?

Potrebujete nespremenljivo zgodovino in oznake → Iceberg/Delta posnetki, dbt posnetki ali DVC z oddaljenim.

Potrebujete med nabori podatkov berljive opombe o spremembah → lakeFS ali Nessie razvejanje z zahtevami za poteg.

Pokaži in povej: Dva realistična vzorca brez lakeFS

Sprehodimo se skozi dva vzorca, ki ju lahko preizkusite danes popoldne – čelada ni potrebna.

Vzorec A: Skladišče na prvem mestu, takojšnje peskovnike (Snowflake ali BigQuery)

Nastavitev:

Dajte proizvodnjo v bazo podatkov prod.

Nočno CREATE DATABASE dev CLONE prod (Snowflake) ali ustvarite klone/posnetke tabel (BigQuery).

Preusmerite svoj BI na dev med testi.

Potek dela:

Zaženite transformacije v dev.

Potrdite KPI, zaženite teste podatkov (npr. dbt tests) in primerjajte z prod.

Če je zeleno, zaženite svojo »promocijo« (lahko je zamenjava pogleda ali izvedba MERGE).

Če je rdeče, spustite klon. Čiščenje konfetov ni potrebno.

Prednosti: Hitro, preprosto, odlično za analitike.

Slabosti: Samo za skladišče; artefakti v shrambi predmetov (kot so modeli ML) so izven obsega.

Vzorec B: Odprto jezero z Iceberg + Nessie (Git za tabele)

Nastavitev:

Shranite podatke v S3/GCS/Azure.

Uporabite tabele Iceberg s katalogom Nessie.

Konfigurirajte Spark/Trino, da pokaže na Nessie.

Potek dela:

Ustvarite vejo feature-exp v Nessie.

Zaženite ETL za uresničitev novih stolpcev ali popravkov v tabele Iceberg.

Zaženite validacije (število vrstic, preverjanja null, premik distribucije).

Če ste zadovoljni, hitro posredujte main v feature-exp. Če ne, opustite vejo.

Prednosti: Odprta, motorno agnostična, semantika, podobna Gitu, za metapodatke tabele.

Slabosti: Obseg verzijskega upravljanja so metapodatki/datoteke tabele, ne pa celotno vedro raznovrstnosti. Še vedno boste želeli strategijo za netabelarna sredstva.

Kdaj boste morda še vedno želeli lakeFS

Pošteno je pošteno: Včasih je model globalne veje najboljše orodje.

Potrebujete eno atomsko stikalo za številne formate hkrati. Tabele Parquet, referenčni podatki CSV, modeli ML in dokumenti – promovirani skupaj.

Želite izolacijo na ravni predmeta v kompleksnih cevovodih. Faza, preizkus in združitev kot izdaja programske opreme.

Potrebujete uporabniku prijazne preglede. Veja, zaženite validacije, odprite pregled v slogu PR, združite.

Če je to vaša situacija, so alternative videti, kot da bi obnavljali lakeFS iz delov. Na neki točki je to, kot da bi si sami naredili krušno pecivo: izvedljivo, okusno in oh, fant, koliko varstva je to.

Hitra beseda o stroških in zapletenosti

Skladišče na prvem mestu: Plačali boste za klone/ohranjanje potovanja skozi čas, vendar boste verjetno prihranili pri možganskih celicah. Enostavno uvajanje.

Formati tabel: Ekipe, ki poznajo infrastrukturo, bodo oboževale nadzor in prilagodljivost motorja. Pričakujte več gumbov.

Orodja, osredotočena na ML: DVC in Pachyderm blestita pri sledenju eksperimentom, vendar ju boste povezali z analitiko.

Katalogi: Upravljanje je čudovito – dokler ga nekdo ne vzdržuje. Odmerite čas za upravljanje pravilnikov.

Pravilo: Če je vaša ekipa manjša od desetih in je 90 % vašega dela analitika SQL, začnite v skladišču. Če ste platformna ekipa, ki služi petim oddelkom, boste cenili arhitekturni prostor za noge Iceberg/Delta + katalog.

Sider.AI v mešanici

Tukaj je presenečenje: Sider.AI lahko pomaga ukrotiti neurejene dele okoli teh orodij, zlasti ko žonglirate z dokumentacijo, testi SQL in pripovedmi »kaj se je spremenilo?«. Priročen je za pretvorbo razlik med vejami ali primerjav posnetkov v povzetke, ki jih lahko vaše zainteresirane strani dejansko razumejo. Sam po sebi ni sistem za verzijsko upravljanje – ne poskušajte ga prisiliti, da povrne vaše jezero – ampak kot pomočnik za preglede, načrtovanje testov in hitro ustvarjanje skriptov zasluži svojo ogrinjalo.

Odločitvena matrika: Kaj izbrati, kdaj

Izberite Iceberg (+ Nessie), če: Želite odprte standarde, podporo za več motorjev in veje, podobne Gitu, v številnih tabelah.

Izberite Delta (+ Unity Catalog), če: Ste srečni v Databricks in želite najbolj gladko vožnjo.

Izberite Hudi, če: Živite v CDC in pretočnih posodobitvah.

Izberite Snowflake Time Travel/Kloni, če: Vaše življenje so nadzorne plošče SQL in hrepenite po preprostih peskovnikih.

Izberite posnetke/klone BigQuery, če: Obožujete brez strežnika in želite neboleče eksperimente s plačilom po uporabi.

Izberite DVC ali Pachyderm, če: Eksperimenti ML in provenienca so vaš vsakdanji kruh.

Izberite Quilt, če: Delite kurirane, dokumentirane nabore podatkov z ljudmi.

In da, lahko mešate in ujemate. Številne ekipe hkrati izvajajo Delta za kurirane trgovine, DVC za ML in klone skladišča za BI. To je bife, ne prix fixe.

Kotiček za odpravljanje težav: Pogosti spodrsljaji pri »verzijskem upravljanju«

»Moj razvojni test je uspel, vendar se je proizvodnja pokvarila.« Promovirali ste tabelo, vendar ne referenčnih datotek (iskalniki, modeli). Razmislite o pakiranju ali globalni promociji, podobni lakeFS, ali pa ohranite reference znotraj skladišča.

»Time Travel me je rešil – dokler ni poteklo okno za ohranjanje.« Nastavite opozorila za okna za ohranjanje, označite kritične posnetke ali izvozite v nespremenljivo shrambo.

»Motor A vidi podatke, ki jih motor B ne.« Težava z doslednostjo kataloga. Standardizirajte en katalog (Nessie/Unity/Glue) na okolje.

“Shema se je razvila; odjemalec je paničaril.” Uporabite oblike zapisa tabel, ki podpirajo razvoj sheme, in dodajte pogodbe (teste, omejitve) v CI.

30-minutni načrt pilotnega projekta

Pot skladišča:

Klonirajte prod v dev (Snowflake/BigQuery).

Zaženite dbt job; dodajte 3 preproste teste (ni null, edinstven, sprejete vrednosti).

Primerjajte KPI-je; promovirajte z zamenjavo pogleda.

Pot odprtega jezera:

Ustvarite tabelo Iceberg in vejo Nessie.

Zaženite majhno transformacijo, ki doda stolpec.

Preverite število vrstic in stopnje null; hitro združevanje.

ML pot:

Inicializirajte repozitorij DVC z majhnim naborom podatkov.

Usposobite dva modela, označite različice.

Ustvarite poročilo o razlikah; shranite meritve z commitom.

Če lahko to storite brez težav, imate izvedljivo alternativo.

Bistvo

Različice vaših podatkov ne pomenijo čaščenja pri oltarju enega samega orodja. Gre za ponovljivost in varnost: ali lahko preizkusite stvari, ne da bi jih pokvarili, in ali se lahko hitro vrnete na preverjeno dobro stanje? lakeFS je eden od elegantnih načinov. Alternative – Iceberg, Delta, Hudi, Snowflake, BigQuery, DVC, Nessie in prijatelji – pokrivajo večino potreb v resničnem svetu, če izberete pravo kombinacijo.

Moje mnenje: Začnite z najpreprostejšo stvarjo, ki vam omogoča povrnitev in izolacijo v okolju, ki ga že poznate. Dodajte upravljanje in kataloge, ko se vaš radij eksplozije poveča. In ko žonglirate s tabelami, datotekami in modeli kot z gorečimi baklami, ne pozabite: vedno lahko posežete po orodju, ki obravnava celotno jezero kot Git repozitorij – ali pa mešate in ujemate, dokler ne dosežete pravega ravnovesja.

Še ena stvar: Poimenujte svoje veje z nečim, kar bo prihodnji jaz razumel. »popravi-metric-typo« je boljše od »plswork«. Vaša zdrav razum je tudi različica.

Pogosta vprašanja

V1: Katere so najboljše alternative lakeFS za različice podatkov? Med najboljše alternative lakeFS spadajo Apache Iceberg (pogosto z Nessie), Delta Lake (zlasti na Databricks), Apache Hudi za cevovode, ki so močno obremenjeni s CDC, in možnosti, ki so izvorne za skladišča, kot sta Snowflake Time Travel in BigQuery snapshots. Za primere uporabe ML sta DVC in Pachyderm močna izbira.

V2: Kdaj naj izberem Iceberg ali Delta namesto lakeFS? Izberite Iceberg ali Delta, ko so časovno potovanje na ravni tabele, transakcije ACID in integracija pogona vaše glavne potrebe. Če potrebujete tudi medformatno, jezersko vejanje in promocijo netabelaričnih sredstev, ima lakeFS še vedno prednost.

V3: Ali lahko Snowflake Time Travel nadomesti lakeFS? Lahko za ekipe, osredotočene na skladišča. Snowflake's Time Travel in Zero-Copy Cloning olajšata razvojna okolja in povrnitve, vendar pokrivata samo podatke znotraj Snowflake – ne pa vašega shrambnega prostora za objekte, modelov ML ali naključnih datotek.

V4: Kako Nessie naredi Iceberg alternativo lakeFS? Project Nessie doda veje in oznake, podobne Gitu, v vaš katalog Iceberg, kar vam omogoča, da preizkusite spremembe v številnih tabelah in jih promovirate skupaj. Je osredotočen na metapodatke, zato boste še vedno načrtovali ločeno za netabelarična sredstva.

V5: Kateri je najpreprostejši način za pilotiranje alternative lakeFS? Če ste v skladišču, klonirajte prod v dev (Snowflake/BigQuery) in preizkusite majhno transformacijo s testi. V odprtem jezeru zaženite Iceberg z vejo Nessie in vadite hitro združevanje. Za ML inicializirajte DVC, različico nabora podatkov in primerjajte dva teka modela.