LakeFS ಪರ್ಯಾಯಗಳು: ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಆವೃತ್ತಿಮಾಡಲು ಸ್ಮಾರ್ಟ್ ಮಾರ್ಗಗಳು, ಮನಸ್ಸು ಕುಳಿತದೆ ಇಲೆ
ನೀವು ಎಂದಾದರು ನಿಮ್ಮ ಡೇಟಾ ಲೇಕ್ Git ಹೇರಳಿಕೆಯಂತೆ (ಆದರೆ ಅಸ್ಪಷ್ಟ ಆದೇಶಗಳು ಇಲ್ಲದೆ ಮತ್ತು ನಿಮ್ಮ ಸಹೋದ್ಯೋಗಿ ಶಾಖೆಯನ್ನು “final_FINAL_no_really” ಎಂದು ಹೆಸರಿಸಿರುವ ಭಾಗವಿಲ್ಲದೆ) ವರ್ತಿಸಬೇಕೆಂದುಕೊಂಡಿದ್ದೀರಾ? ನನಗೂ ಆಗಲೇ ಆ ಭಾವನೆ ಇದೆ. ಇಂತಹದು lakeFS ಮಾದರಿಯ ಡೇಟಾ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ ಸಾಧನಗಳ ವಾಗ್ದಾನ: ಡೇಟಾಸೆಟ್ಗಾಗಿ ಶಾಖೆಗಳು, ಮರುಪ್ರಯೋಗದ ಪ್ರಯೋಗಗಳು, ಯಾರೋ CSV ಸ್ಥಂಭಗಳನ್ನು Uno ಕಾರ್ಡ್ಗಳಂತಾಗಿಸಿ ಸೇರಿಸಿಕೊಂಡಾಗ ಮರುಪ್ರತಿಷ್ಠಾಪನೆಗಳು.
ಅದಾಗಲೀ lakeFS ಮಾತ್ರ ನಿಮ್ಮ ಆಯ್ಕೆ ಅಲ್ಲ. ನೀವು on-prem ಇದ್ದೀರಾ, ಅಥವಾ ವಸ್ತು-ಸಂಗ್ರಹಣ ಸಾಂದ್ರಣೆಗೆ ಅಲರ್ಜಿ ಇದೆಯೇ? ಕೊಂಚ ಸಾದಾ, ಕಡಿಮೆ ವೆಚ್ಚದ ಅಥವಾ ಗೋದಾಮು-ಕೇಂದ್ರೀಯ ಅಳವಡಿಕೆಯನ್ನು ಬೇಕಾಗಬಹುದು. ನಾಳೆ ನಾವು lakeFS ಪರ್ಯಾಯಗಳ ಸರಳ, ಸ್ನೇಹಪೂರ್ಣ ಓಟವನ್ನು ಮಾಡೋಣ—ಅವುಗಳ ಶಕ್ತಿ, ದೌರ್ಬಲ್ಯ, ಮತ್ತು ವಾರಾಂತ್ಯವನ್ನು ಬಲಿಯಾಗಿಸುವದೆ ಇಲ್ಲದೆ ಒಂದು ಆಯ್ಕೆಯನ್ನು ಹೇಗೆ ಮಾಡಬೇಕು ಎಂಬುದರ ಬಗ್ಗೆ.
ರಹಸ್ಯ: ಇಲ್ಲಿ ಏಕೈಕ ವಿಜೇತನೇ ಇಲ್ಲ. ಇದು ನಿಮ್ಮ ಪ್ರವಾಸಕ್ಕೆ ಸೂಕ್ತವಾದ ಸ್ಯೂಟ್ಕೇಸ್ ಆಯ್ಕೆ ಮಾಡುವಂತಿದೆ. ದಿನದ ಹಿಕ್ಕಲುಗಳಿಗೆ ಬ್ಯಾಕ್ಪ್ಯಾಕ್, ವಿಮಾನ ನಿಲ್ದಾಣಕ್ಕೆ ರೋಲರ್ ಬ್ಯಾಗ್, ಸಂಗೀತಮಂಡಳಿಗೆ ಸ್ಥಳಾಂತರವಾಗುವಾಗ ಸ್ಟೀಮರ್ ಟ್ರಂಕ್. ಸ್ಯೂಟ್ಕೇಸ್ಗಳೊಂದಿಗೆ ನಿಮ್ಮ ಪ್ರಯಾಣವನ್ನು ಹೊಂದಿಸೋಣ.
“LakeFS ಪರ್ಯಾಯಗಳು” ಎಂದರೇನು ಮತ್ತು ನೀವು ಅದನ್ನು ಯಾಕೆ ಬೇಕಾಗಬಹುದು
LakeFS ಪರ್ಯಾಯಗಳು lakeFS ಬಳಸದೆ Git ಮಾದರಿಯ ಡೇಟಾ ಆವೃತ್ತಿಮಾಡುವ ಸಾಧನಗಳು ಮತ್ತು ಮಾದರಿಗಳಾಗಿವೆ—ಶಾಖಾಕರಣ, ಟ್ಯಾಗಿಂಗ್, ಕಾಲಪ್ರಯಾಣ, ಮರುಪ್ರಯೋಗದಕ್ಷತೆ ಇತ್ಯಾದಿ. ಜನರು ಪರ್ಯಾಯಗಳನ್ನು ಆರಿಸುವ ಮುಖ್ಯ ಕಾರಣಗಳು:
- ನೀವು ಡೇಟಾ ಲೇಕ್ ಅಲ್ಲ, ಡೇಟಾ ಗೋದಾಮಿನಲ್ಲಿ (warehouse) ಇದ್ದೀರಿ. Snowflake, BigQuery, Redshift, ಅಥವಾ Databricks ನಲ್ಲಿ ಆವೃತ್ತಿಮಾಡಬೇಕು; S3 ಅಥವಾ GCS ನಲ್ಲಿ ಅಲ್ಲ.
- ನೀವು ಜಾಗತಿಕ ಕ್ಯಾಟಲಾಗ್ ಆದ್ದಂತೆ ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್ಗಳನ್ನು ಪ್ರಾಧ್ಯಮ್ಯ ನೀಡುತ್ತೀರಿ. Apache Iceberg ಮತ್ತು Delta Lake ಟೇಬಲ್ ಮಟ್ಟದಲ್ಲಿ ಸ্ন್ಯಾಪ್ಶಾಟ್ ಆವೃತ್ತಿಗಳನ್ನು ನೀಡುತ್ತವೆ.
- ನೀವು ಸಣ್ಣ-ತೂಕದ ಲಿನಿಯೇಜ್ ಮತ್ತು ಆಡಳಿತಕ್ಕೆ ಇಚ್ಛಿಸುವಿರಿ. ಬಹುಶಃ dbt ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು, ಕಾಲಪ್ರಯಾಣ ಅಥವಾ ಕ್ಯಾಟಲಾಗ್ ಬಳಸಬಹುದು.
- ನನ್ನ infra ನಿಯಮಗಳು ಕಠಿಣವಾಗಿವೆ. ಏರ್-ಗ್ಯಾಪ್ಡ್, on-prem ಅಥವಾ vendors ನಿಂದ ಲಾಕ್-ಇನ್ ನೀತಿಗಳಾಗಿರಬಹುದು.
ಮಾರ್ಗದಲ್ಲಿ, ನಾವು ಸಾಧನಗಳನ್ನು ಹೋಲಿಕೆಯಿಂದ ನೋಡೋಣ, ಸಣ್ಣ ಪ್ರದರ್ಶನಗಳನ್ನು ತೋರಿಸೋಣ ಮತ್ತು ಪ್ರಾಯೋಗಿಕ ಸಲಹೆಗಳನ್ನು ನೀಡೋಣ—ನೀವು ಅಸೆಂಬ್ಲಿ ಲೈನನ್ನು ನಿಲ್ಲಿಸದೇ ಈ ಎಲ್ಲವನ್ನೂ ಪರೀಕ್ಷಿಸಬಹುದು.
ಸಣ್ಣಪಟ್ಟಿ: LakeFS ಪರ್ಯಾಯಗಳು ವೈವಿಧ್ಯಗಳನ್ವಯ
lakeFS ಅನ್ನು ‘ಲೆಕ್ ಗೆ ಜಾಗತಿಕ Git’ ಎಂದು ಭಾವಿಸಿ, ಇದು ವಸ್ತು ಸಂಗ್ರಹಣೆಯ ಮೇಲೆ ಕ್ರಮಿಕವಾಗಿದೆ. ಪರ್ಯಾಯಗಳು ಸಾಮಾನ್ಯವಾಗಿ ಈ ವರ್ಗಗಳಲ್ಲಿ ವಿಭಜಿತವಾಗಿವೆ:
- ಕಾಲಪ್ರಯಾಣ ಹೊಂದಿರುವ ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್ಗಳು
- Delta Lake (Databricks ಮತ್ತು ಓಪನ್ ಸೋರ್ಸ್)
- ಗೋದಾಮ್-ಒಳಗಿನ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ
- Snowflake Time Travel ಮತ್ತು Zero-Copy Cloning
- BigQuery ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು ಮತ್ತು ಟೇಬಲ್ ಕ್ಲೋನ್ಸ್
- Redshift ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು (ಕ सहजತೆಗಳು ಇದ್ದರೂ)
- Unity Catalog (Databricks)
- AWS Glue Data Catalog + Lake Formation
- Nessie (Icebergಗಾಗಿ) ಸೇರಿದಂತೆ ಓಪನ್ಸೋರ್ಸ್ ಕ್ಯಾಟಲಾಗ್ಗಳು
- ಕಾರ್ಯದಂಡ ಮತ್ತು ಮಾದರೀಕರಣ ವಿಧಾನಗಳು
- dbt ಸ್ನ್ಯಾಪ್ಶಾಟ್ಗಳು ಮತ್ತು ಸೀಡ್ಸ್
- ಲಿನಿಯೇಜ್ ಒರಚಿಸ್ಟ್ರೇಷನ್ (Dagster, Prefect)
- ಆವೃತ್ತಿ ಹೊಂದಿರುವ ವಸ್ತು ಸಂಗ್ರಹಣೆಗಳು ಮತ್ತು ಡೇಟಾ ಪೋರ್ಕಲ್ಗಳು
- Pachyderm (ಆವೃತ್ತಿ ಹೊಂದಿರುವ ಡೇಟಾ পাইಪ್ಲೈನ್ಗಳು)
- Quilt (S3 ಡೇಟಾ ಪ್ಯಾಕೇಜ್ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ)
- DVC (ಡೇಟಾ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ) ಜಯಂತ ಸಂಗ್ರಹಣೆಗಳೊಂದಿಗೆ
ಈ ಪ್ರತಿಯೊಂದು ವಿವರವಾಗಿ ನೋಡೋಣ - ಏನು ಮಾಡುತ್ತದೆ, ಯಾರಿಗೆ ಸೂಕ್ತ ಮತ್ತು lakeFS ಗೆ ಹೋಲಿಕೆಯಲ್ಲಿ ಹೇಗಿದೆ.
ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್ಗಳು: Iceberg, Delta, ಮತ್ತು Hudi
lakeFS ‘ನಿಮ್ಮ ಲೇಕ್ ಗೆ Git’ ಆಗಿದ್ದರೆ, ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್ಗಳು ‘ನಿಮ್ಮ ಲೇಕ್ ಒಳಗಿನ ಕಾಲಪ್ರಯಾಣ ಟೇಬಲ್ಗಳು’. ಅವು ಡೇಟಾಗೆ ಟ್ರಾನ್ಸಾಕ್ಷನ್ ಲಾಗ್ ಜೊತೆಗೆ ಡೇಟಾ ಸಂಗ್ರಹಿಸುವುದರಿಂದ ಟೇಬಲ್ ಮಟ್ಟದಲ್ಲಿ ಸ্ন್ಯಾಪ್ಶಾಟ್, ರೋಲ್ಬ್ಯಾಕ್ ಮತ್ತು ಶಾಖೆಗಳನ್ನು ವಿಭಿನ್ನ ರೀತಿಯಲ್ಲಿ ಮಾಡಬಹುದು. ಲಾಭ ಏನೆಂದರೆ ACID ಗೆ योग, ಸ್ಕೀಮಾ ಕ್ರಿಯಾ, ಮತ್ತು ಸತತ ಓದುಗಳನ್ನು ಪಡೆಯುತ್ತೀರಿ. ವ್ಯತ್ಯಾಸವೆಂದರೆ ಇವು ಟೇಬಲ್ ಮಟ್ಟದಲ್ಲಿ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ ನೀಡುತ್ತವೆ, ಒಟ್ಟಾರೆ ಬಕೆಟ್ ನಲ್ಲಿ ಅಲ್ಲ.
Apache Iceberg: ಸಭೆಯಲ್ಲಿ ಶಾಂತ, ಮಾನಕಗಳನ್ನು ಮುಂಚಿತವಾಗಿ ತೆಗೆದುಕೊಳ್ಳುವ ವಯಸ್ಕ
- ಏನು ಅದು: ಡೇಟಾ ಫೈಲ್ಗಳಿಂದ ಡೇಟಾ ಮೆಟಾಡೇಟಾವನ್ನು ಸ್ವತಂತ್ರವಾಗಿ ವಿಭಜಿಸುವ ಓಪನ್ ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್. ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು, ವಿಭಾಗಗಳ ಕ್ರಿಯಾಶೀಲತೆ, ಮತ್ತು ಸಾಕಷ್ಟು ಎಂಜಿನ್ ಬೆಂಬಲ (Spark, Flink, Trino, Snowflake, Athena ಇತ್ಯಾದಿ) ಇದೆ.
- ಪರ್ಯಾಯ ಯಾಕೆ:LakeFS ಹಾಗೆ ಜಾಗತಿಕ ಪರತೆಯಿಲ್ಲದೆ ಟೇಬಲ್ಗಳ ಕಾಲಪ್ರಯಾಣ ಮತ್ತು ಟ್ಯಾಗ್ ಮಾಡುವುದಕ್ಕೆ ಸಾಧ್ಯ. Nessie ಹಾಗು ಕ್ಯಾಟಲಾಗ್ ಇದ್ದರೆ ಟೇಬಲ್ ಮೆಟಾಡೇಟಾಕ್ಕೆ Git ಶಾಖೆಗಳಂತಿರುವ್ರಂತೆ ಮಾಡಬಹುದು.
- ಎಲ್ಲಿ ಚೆನ್ನಾಗಿವೆ: ಬಹು ಎಂಜಿನ್ ಬಳಕೆದಾರ ಆಂಗಡಿಗಳು, ಬೆಳೆವ ಸ್ಕೀಮಾಗಳು, ಮತ್ತು ಸ್ವಂತ ಮಾಲೀಕತ್ವ ಬಂಧನ ತಪ್ಪಿಸಲು ನೋಡುತ್ತಿದ್ದರೆ. Iceberg ನ ಮ್ಯಾನಿಫೆಸ್ಟ್ ಮತ್ತು ಮೆಟಾಡೇಟಾ ವೃಕ್ಷಗಳು ಸರಿಯಾಗಿವೆ; ಉತ್ತಮ ಸ್ಥಳಮಾನೀತ ಇರುತ್ತದೆ.
- ಗೊಂಚಲಿಕೆಗಳು: ಶಾಖಾಕರಣ ಮೆಟಾಡೇಟಾ ಕೇಂದ್ರಿತ; ಹೋಲಿಕೆಯಾಗಿ ಟೇಬಲ್ಗಳಲ್ಲಿ ಸಂಯೋಜನೆ ಸುಗಮವಾಗುವುದಕ್ಕೆ ಕ್ಯಾಟಲಾಗ್ (ಉದಾ: Nessie) ಬೇಕಾಗಬಹುದು. ಕೆಲಸಗಳ ನಡುವೆ ಒರಚಿಸ್ಟ್ರೇಷನ್ ಮತ್ತು ಪ್ರತ್ಯೇಕೀಕರಣ ಇನ್ನೂ ನಿರ್ವಹಿಸಬೇಕು.
ಪ್ರಯೋಗಮಾಡಿ:
- Iceberg ಟೇಬಲ್ ರಚಿಸಿ, Nessie ಯ
dev ಶಾಖೆಯಲ್ಲಿ ETL ನಡೆಸಿ, ಫಲಿತಾಂಶ ಪರಿಶೀಲಿಸಿ, ನಂತರ main ಗೆ ವೇಗವಾಗಿ ಮರ್ಜ್ ಮಾಡಿ. ಏನಾದರೂ ದೋಷವಿದ್ದರೆ ಓದುಗರನ್ನು ಸ್ನ್ಯಾಪ್ಶಾಟ್ N-1 ಗೆ ಕೊಂಡೊಯ್ಯಿ.
LakeFS ಹೋಲಿಕೆ: lakeFS ಸಂಪೂರ್ಣ ಲೇಕ್ ಗೆ ವಸ್ತು ಮಟ್ಟದ ಶಾಖೆಗಳು ಕೊಡುತ್ತದೆ; Iceberg ಟೇಬಲ್ ಮಟ್ಟದ ಸ্ন್ಯಾಪ್ಶಾಟ್ ಕೊಡುತ್ತದೆ. Nessie ಜೊತೆ, Iceberg lakeFS ಹತ್ತಿರದ ಅನುಭವ ಕೊಡುತ್ತದೆ.
Delta Lake: ತ್ವರಿತ, ಅಭಿಪ್ರಾಯಿತ, Databricks ಗೆ ದಾಸ್ತಾರಾದ Muscle Car
- ಏನು ಅದು: ಟ್ರಾನ್ಸಾಕ್ಷನ್ ಲಾಗ್ ಫಾರ್ಮ್ಯಾಟ್ (ಓಪನ್ ಸೋರ್ಸ್) Databricks ನಲ್ಲಿ ಜನುಮತ ಬೆಂಬಲ. ಸಮಯ ಪ್ರಯಾಣ,
MERGE INTO, ಮತ್ತು ಬದಲಾವಣೆ ಡೇಟಾ ಹರಿವು ಇದೆ.
- ಪರ್ಯಾಯ ಯಾಕೆ: Delta ಕಾಲಪ್ರಯಾಣ ಮತ್ತು ಕ್ಲೋನ್ಸ್ ಬಹುದೊಡ್ಡ ‘ಒಪ್ಪೊ’ ಕ್ಷಣಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತವೆ. Databricks ನಲ್ಲಿ Unity Catalog ನಿರ್ವಹಣೆ ಮತ್ತು ವರ್ಕ್ಫ್ಲೋ ಕ್ರಿಯಾಶೀಲತೆ ಹೆಚ್ಚಿಸುತ್ತದೆ.
- ಎಲ್ಲಿ ಚೆನ್ನಾಗಿವೆ: ನೀವು Databricks ಇಂದಿದ್ದರೆ. ಅದು ಸರಳ, ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ಉತ್ತಮ, ಮತ್ತು ಕಾರ್ಯಕ್ಷಮತೆ ಸುಧಾರಣೆ ಪ್ರಥಮ ದರ್ಜೆಯ ಪ್ರಾಧಾನ್ಯ.
- ಗೊಂಚಲಿಕೆಗಳು: Databricks ಹೊರತಾಗಿ, ವೈಶಿಷ್ಟ್ಯ ಗಳಿಕೆ ನಿಧಾನವಾಗಬಹುದು. ಟೇಬಲ್ ಕ್ರಮಬದ್ಧ ಶಾಖೆಗಳು ಎಲ್ಲೂರಿಗಿಂತ ಜಾಗತಿಕ ಲೇಕ್ ಶಾಖೆಗಳಂತೆ ಇಲ್ಲ.
ಪ್ರಯೋಗಮಾಡಿ:
- Delta ಟೇಬಲ್ ರಚಿಸಿ, “dev” ಪರಿಧಿಯಲ್ಲಿ ಪ್ರಯೋಗ ಮಾಡಿ,
VERSION AS OF ಬಳಸಿ ಮೌಲ್ಯಗಳನ್ನು ಹೋಲಿಸಿ, ನಂತರ ಕ್ಲೋನ್-ಅನ್ನ ದ_SWAP ಮಾಡಿ ಉತ್ಪಾದನೆಗೆ ತಂದುಕೊಡು.
LakeFS ಹೋಲಿಕೆ: Delta ಟೇಬಲ್ಗಳ ರಕ್ಷಣೆ ಚೆನ್ನಾಗಿದೆ; lakeFS ಸಂಪೂರ್ಣ ಬಕೆಟ್ನಲ್ಲಿರುವ ಎಲ್ಲವನ್ನೂ ರಕ್ಷಿಸುತ್ತದೆ, ಟೇಬಲ್ ಹೊರಗಿನ ವಸ್ತುಗಳನ್ನೂ (ಮಾದರಿಗಳು, ಚಿತ್ರಗಳು, CSVಗಳು) ಒಳಗೊಂಡಂತೆ.
Apache Hudi: CDC-ಸ್ನೇಹಿ ಕಾರ್ಮಿಕ ಕುದುರೆ
- ಏನು ಅದು: ಅಪ್ಡೇಟ್ಸ್ ಮತ್ತು ಬದಲಾವಣೆ ಸ್ಟ್ರೀಮ್ಗಳಿಗೆ ಸರಿಹೊಂದುವ ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್, ನಕಲು-ಬರೆಯುವ ಕಾರ್ಯ ಮತ್ತು ಓದಿ-ವಿಳಂಬಿಸಿ ಕಾರ್ಯಗಳನ್ನು ಹೊಂದಿದೆ.
- ಪರ್ಯಾಯ ಯಾಕೆ: ನಿಮ್ಮ ಡೇಟಾ ಶಾಶ್ವತವಾಗಿ ಸಣ್ಣ ಸಣ್ಣ ಭಾಗಗಳಲ್ಲಿ ಬರುವಾಗ, ಕ್ರಮಾನುಕೂಲ ಪ್ರಕ್ರಿಯೆ ಮತ್ತು ಮರುಸ್ಥಾಪನೆಗೆ ಉತ್ತಮ.
- ಎಲ್ಲಿ ಚೆನ್ನಾಗಿವೆ: ಘಟನೆ ಭರಿತ ಪೈನ್ಲೈನ್ಗಳು, ತಕ್ಷಣದ ಹತ್ತಿರದ ಇಂಜೆಸ್ಟ್, ಮತ್ತು CDC.
- ಗೊಂಚಲಿಕೆಗಳು: ಸಂರಚನೆ ಜಾಗೃತಿಯನ್ನು ಹೊಂಚುಹಾಕಬಹುದು. ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ಸುಧಾರಿಸಿದೆ ಆದರೆ ಕಲಿಕೆಯ ವಕ್ರಪಥಗೊಳಿದೆ.
LakeFS ಹೋಲಿಕೆ: Hudi ಕ್ರಮೇಣತೆಯನ್ನು ಉತ್ತಮವಾಗಿ ನಿರ್ವಹಿಸುತ್ತದೆ; lakeFS ಜಾಗತಿಕ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ ಮತ್ತು ಪ್ರೋತ್ಸಾಹ ಕಾರ್ಯಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ. ಇವೆರಡೂ ಜೊತೆಗೆ ನಡೆಯಬಹುದು.
ಗೋದಾಮು-ಒಳಗಿನ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ: Snowflake, BigQuery, Redshift
ನೀವು ಗೋದಾಮಿನಲ್ಲಿ ಇದ್ದರೆ ಜನಪದ ವಾಹಕ Git ಪದರ ಇಲ್ಲದೆ ಕೂಡ ಅಚ್ಚರಿ ಕಾಣಿಸುವ ಮಟ್ಟಿಗೆ ಸಾಧಿಸಬಹುದು.
Snowflake Time Travel ಮತ್ತು Zero-Copy Cloning
- ಏನು ಅದು: Snowflake ಒಳಗೆ ನಿರ್ಮಿಸಲಾದ ‘ಪುನಃಹಿಂದಿನ ಬಟನ್’. ನಿಮಗೆ ಟೇಬಲ್ಗಳು, ಸ್ಕೀಮಾಗಳು ಅಥವಾ ಡೇಟಾಬೇಸ್ಗಳನ್ನು ಹಿಂದಿನ ಕಾಲಕ್ಕೆ ಮರಳಿಸಲು ಹಾಗೂ ಜಾಗ ಸಂಗ್ರಹಣೆ ಡೂಪ್ಲಿಕೇಟ್ ಮಾಡದೇ ಸಂಪೂರ್ಣ ಪರಿಸರಗಳ ಕ್ಲೋನ್ ಮಾಡಲು ಅಗತ್ಯವಿದೆ.
- ಪರ್ಯಾಯ ಯಾಕೆ: ಅಭಿವೃದ್ಧಿ ಸ್ಯಾಂಡ್ಬಾಕ್ಸ್ ತ್ವರಿತವಾಗಿ ಎಸೆಯುವಿಕೆ, ಬಹುಮುಖ್ಯವಾಗಿ ಪರೀಕ್ಷೆ, ಮತ್ತು ನಿಷ್ಕಾಸಿಸು ಬಹಳ ಸುಲಭ.
- ಎಲ್ಲಿ ಚೆನ್ನಾಗಿವೆ: ಹೊಸ ಉಪಕರಣ ಕಲಿಯದೇ ಮರುಪ್ರಯೋಗ ಸಿದ್ಧತೆ ಅಷ್ಟಕ್ಕೂ ಬೇಕಾದ ವಿಶ್ಲೇಷಣಾ ತಂಡಗಳಿಗೆ.
- ಗೊಂಚಲಿಕೆಗಳು: ಕಾಲಪ್ರಯಾಣ ಉಳಿವು ವೆಚ್ಚವಾಗುತ್ತದೆ ಮತ್ತು ನಿಗದಿತ ಸಮಯ (ಅತ್ಯುತ್ತಮದಲ್ಲಿ 90 ದಿನಗಳು) ಮಾತ್ರ ಉಳಿಯುತ್ತದೆ. ಇದು Snowflake ಮಾತ್ರಕ್ಕೆ ಸೀಮಿತ.
ಪ್ರಯೋಗಮಾಡಿ:
CREATE DATABASE stage CLONE prod; ನಿಮ್ಮ ಪರಿವರ್ತನೆಗಳನ್ನು ಮಾಡಿ; ಅದು ಸಾಧಾರಣಗೂಡಿದರೆ ಮರ್ಜ್ ಮಾಡಿ; ವಿಫಲವಾದರೆ ಕ್ಲೋನ್ ತೆರವುಮಾಡಿ.
LakeFS ಹೋಲಿಕೆ: lakeFS S3/GCS/Azure ಫೈಲ್ಗಳನ್ನು ಮತ್ತು ವಿಧಿಪಡಿಸಬಹುದಾದ ಪೈಪ್ಲೈನ್ಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತದೆ; Snowflake ವೃಕ್ಷದೊಳಗಿನ ಮಾಯಾಜಾಲ.
BigQuery ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು ಮತ್ತು ಟೇಬಲ್ ಕ್ಲೋನ್ಸ್
- ಏನು ಅದು: ಟೇಬಲ್ ಸ್ನ್ಯಾಪ್ಶಾಟ್ಗಳನ್ನು ಸೃಷ್ಟಿಸಿ,
FOR SYSTEM_TIME AS OF ಕ್ವೆರಿಗಳನ್ನು ಬಳಸಿ, ಹಾಗೂ ಹೆಚ್ಚುತ್ತಿರುವಂತೆ ಟೇಬಲ್ ಕ್ಲೋನ್ಸ್.
- ಪರ್ಯಾಯ ಯಾಕೆ: ಆಪರೇಷನ್ ಇಲ್ಲದೆ ಸರಳ, ಸರ್ವರ್ ಇಲ್ಲ, ಸರಳ ಪರಿ-ಮೌಲ್ಯ-ಪರಿಷ್ಕರಣೆಗಳಿಗೆ ಉತ್ತಮ.
- ಗೊಂಚಲಿಕೆಗಳು: ಸ্ন್ಯಾಪ್ಶಾಟ್ ಮತ್ತು ಕ್ಲೋನ್ಸ್ ಪ್ರತಿ ಟೇಬಲಿಗೆ ಮಾತ್ರ; ಅನೇಕ ಟೇಬಲ್ಗಳ ಸಂಯೋಜನೆ ನೀವು ಇದಾಗಿಸಿಕೊಳ್ಳಬೇಕು.
Redshift ಮತ್ತು ಇತರರು
- ಏನು ಅದು: ಕ್ಲಸ್ಟರ್ ಸ್ನ್ಯಾಪ್ಶಾಟ್ಗಳನ್ನು ಮಾಡಬಹುದು ಮತ್ತು RA3 ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಬಳಸಿ; Snowflake ಕಾಲಪ್ರಯಾಣವನ್ನು ಹೋಲಿಸಿದರೆ ತ್ವರಿತ ಅಲ್ಲ.
- ಬಳಕೆ: AWS ನಲ್ಲಿ ಸಣ್ಣ ತಂಡಗಳಿಗೆ ಮತ್ತು ಸರಿಯಾದ ರೋಲ್ಬ್ಯಾಕ್ ಬಯಸುವವರಿಗೆ ‘ಬಹಳ ಚೆನ್ನಾಗಿದೆ’ ಸ್ಥಿತಿ.
ಕ್ಯಾಟಲಾಗ್ಗಳು ಮತ್ತು ಆಡಳಿತ: Unity, Glue, ಮತ್ತು Nessie
ಸ್ವತಃ ಡೇಟಾವನ್ನು ಆವೃತ್ತಿಮಾಡುವುದಿಲ್ಲ (ಬಹುಪಾಲು), ಆದರೆ ಟೇಬಲ್ಗಳಿಗೆ ನಿಯಮ ಮತ್ತು ಕೆಲವೊಮ್ಮೆ ಶಾಖೆಗಳು ತರಬಹುದು.
- Unity Catalog (Databricks): ಕೇಂದ್ರಿತ ಅನುಮತಿಗಳು, ಲಿನಿಯೇಜ್ ಮತ್ತು ಡೇಟಾ ಅನ್ವೇಷಣೆ. Delta ಜೊತೆಗೆ ಇದು ಆಡಳಿತ ಶಕ್ತಿ ನೀಡುತ್ತದೆ.
- AWS Glue + Lake Formation: S3 ಗೆ ಅನುಮತಿಗಳು ಮತ್ತು ಕ್ಯಾಟಲಾಗಿಂಗ್. Versioning ಗೆ Iceberg/Delta/Hudi ಜೊತೆಗೆ ಬಳಸಬೇಕು.
- Project Nessie: Iceberg ಗಾಗಿ Git ಹೋಲುವ ಕ್ಯಾಟಲಾಗ್; ಅಲ್ಲಿಂದ ಟೇಬಲ್ ಮೆಟಾಡೇಟಾ ಮೇಲೆ ಶಾಖೆಗಳ/ಟ್ಯಾಗ್ಗಳು ಸಾದ್ಯ. Iceberg ನ್ನು lakeFS-ನ ಹತ್ತಿರ ಅನುಭವ ಮಾಡಿಸುವ ‘ಅಹಾ’ ಸಮಯ.
ಕಾರ್ಯದಂಡ ವಿಧಾನಗಳು: dbt, Dataform ಮತ್ತು ಒರಚಿಸ್ಟ್ರೇಟರ್ಸ್
ನಿಮ್ಮ ಪ್ರಶ್ನೆ “ಮಂಗಳವಾರ ಈ ಫಲಿತಾಂಶವನ್ನು ಪುನಃ ಸೃಷ್ಟಿಸುವುದೇ ಹೇಗೆ?” ಆಗಿದ್ದರೆ, ಉತ್ತರ ಹೊಸ ಸಂಗ್ರಹ ಪದರವಲ್ಲ—ಅದಕ್ಕಿಂತ ಅನುಶಾಸನೆ ಮತ್ತು ಮೆಟಾಡೇಟಾಗಿರಬಹುದು.
- dbt ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು: ನಿಧಾನವಾಗಿ ಬದಲಾಗುವ ಆಯಾಮಗಳನ್ನು ಹಿಡಿದು ಇತಿಹಾಸದ ಲೆಡ್ಜರ್ ಕಾಯ್ದಿಡಿ. ಡೇಟಾ ಶಾಖೆಗಳಂತೆ ಅಲ್ಲ ಆದರೆ ಪರೀಕ್ಷೆಗಾಗಿ ಅಮೂಲ್ಯ.
- ಸೀಡ್ಸ್ ಮತ್ತು ಕಲೆ: ನಮೂನಾ CSVಗಳನ್ನು ಬೀಜಗಳಾಗಿ ಆವೃತ್ತಿಮಾಡಿ; Git ಗೆ ಚೆಕ್ ಇನ್ ಮಾಡಿ; ಮಾದರಿಗಳನ್ನು ಪುನರುತ್ಪಾದನೀಯವಾಗಿಸಲು ಆವೃತ್ತಿಗಳನ್ನು ಫಿಕ್ಸ್ ಮಾಡಿ.
- ಲಿನಿಯೇಜ್ ಒರಚಿಸ್ಟ್ರೇಷನ್ಗಳ (Dagster, Prefect): ಅವಲಂಬನೆಗಳನ್ನು ಟ್ರ್ಯಾಕ್ ಮಾಡಿ, dev ಮತ್ತು prod ಅಸ್ತಿತ್ವಗಳನ್ನು ಮಾಡಿಸಿ, ಪ್ರೋತ್ಸಾಹಿಸುವ ಮುನ್ನ ಮಾನ್ಯತೆಯನ್ನು ಚೆಕ್ ಮಾಡಿ.
ಇವು ‘ಪ್ರಕ್ರಿಯಾ ಪರ್ಯಾಯಗಳು’. ನಿಮ್ಮ ಸಂಪೂರ್ಣ ಲೇಕ್ ಪುನಃ ಹಿಂದಿರುಗಿಸುವುದಿಲ್ಲ, ಆದರೆ ದೋಷದ ಘಟನೆಗಳನ್ನು ಕಡಿಮೆಮಾಡಿ ಮತ್ತು ಮರುಪಡೆಯುವಿಕೆಯನ್ನು ವೇಗವಾಗಿಸಲು ಸಹಾಯಕ.
ಆವೃತ್ತಿ ಹೊಂದಿರುವ ವಸ್ತು ಸಂಗ್ರಹಣೆಗಳು ಮತ್ತು ಡೇಟಾ ಪೋರ್ಕಲ್ಗಳು: Pachyderm, Quilt, DVC
- Pachyderm: ಡೇಟಾ ಪೈಪ್ಲೈನ್ಗಳಿಗೆ Git; ಕಂಟೈನರ್ ಹಂತಗಳು ಮತ್ತು ಮೂಲ್ಯನಿರ್ಣಯ. ML ನಲ್ಲಿ ಮರುಪ್ರಯೋಗಕ್ಕಾಗಿಯೇ ಹಾಗೂ ಪೂರ್ಣ ಪ್ರಮಾಣದ ಪುನರುತ್ಪಾದನೆ ಬೇಕಾದವರಿಗೆ ಚುಣಬೇಕಾದ ಮಾರ್ಗ.
- Quilt: S3 ನ್ನು ಡೇಟಾಸೆಟ್ಗಳ ಪ್ಯಾಕೇಜ್ ಮ್ಯಾನೇಜರ್ ಆಗಿ ಭಾವಿಸಿ. ಡಾಕ್ಯುಮೆಂಟೇಶನ್ ಮತ್ತು ಪೂರ್ವದೃಷ್ಟಿ ಜೊತೆಗೆ ಆವೃತ್ತಿ ಹೊಂದಿರುವ ‘ಪ್ಯಾಕೇಜ್ಗಳನ್ನು’ ಪ್ರಕಟಿಸಿ; ಹಂಚಿಕೆಗೆ ಉತ್ತಮ.
- DVC: ದೊಡ್ಡ ಫೈಲುಗಳಿಗೆ Git-ಹೋಲುವ ಟ್ರ್ಯಾಕಿಂಗ್; ರಿಮೋಟ್ಗಳು (S3, GCS, ಇತ್ಯಾದಿ) ಸಹ. ML ಪ್ರಯೋಗಗಳು, ಮಾದರಿ ಹಾಗೂ ಡೇಟಾಸೆಟ್ ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ ಮತ್ತು CI ಇಂಟಿಗ್ರೇಷನ್ಗೆ ಉತ್ತಮ.
lakeFS ಗೆ ಹೋಲಿಸಿದರೆ, ಇವು ML ಕಾರ್ಯಪ್ರವಾಹ ಅಥವಾ ಮಾನವ-ಸ್ನೇಹಿ ಡೇಟಾಸೆಟ್ ಪ್ಯಾಕೇಜಿಂಗ್ ಕಡೆ ಹೆಚ್ಚು ವಲಸೆ.
ನಿಮ್ಮ LakeFS ಪರ್ಯಾಯ ಆಯ್ಕೆ: ಪ್ರಾಯೋಗಿಕ ಪರಿಶೀಲನಾ ಪಟ್ಟಿಯಲ್ಲಿ
ಇಲ್ಲಿದೆ ತಿಳಿವಳಿಕೆಯ ಶೋಧನೆಯನ್ನು ನೀವು 10 ನಿಮಿಷಗಳಲ್ಲಿ ಮಾಡಬಹುದು:
- ನಿಮ್ಮ ಡೇಟಾ ಎಲ್ಲಿ ಇರುತ್ತದೆ?
- ಗೋದಾಮು ಬಹುಮಟ್ಟಿಗೆ -> ಗೋದಾಮು-ಒಳಗಿನ ಕ್ಲೋನಿಂಗ್/ಕಾಲಪ್ರಯಾಣಸಹಿತ ಆರಂಭಿಸಿ (Snowflake, BigQuery). ಇದು ‘ಶ್ರಮ ಉಚಿತ’.
- ವಸ್ತು ಸಂಗ್ರಹಣೆ + ಓಪನ್ ಎಂಜಿನ್ಗಳು -> Iceberg ಅಥವಾ Delta ಯನ್ನು ಪರಿಗಣಿಸಿ; ಆಡಳಿತಕ್ಕೆ Nessie ಅಥವಾ Unity Catalog ಸೇರಿಸಿ.
- ML-ಭಾರತೀಯ ಪೈನ್ಲೈನ್ಗಳು -> ಪ್ರಯೋಗ ಪುನರುತ್ಪಾದನೆಗೆ DVC ಅಥವಾ Pachyderm ನೋಡಿ.
- ನೀವು ಏನು ಆವೃತ್ತಿಮಾಡಬೇಕಾಗುತ್ತದೆ?
- ಒಟ್ಟು ಲೇಕ್, ವಿವಿಧ ಫಾರ್ಮ್ಯಾಟ್ಗಳು, ಹಾಗೂ ಟೇಬಲ್ ಹೊರಗಿನ ವಸ್ತುಗಳು (ಚಿತ್ರಗಳು, ಮಾದರಿಗಳು) -> lakeFS ಅತಿ ಉತ್ತಮ; ಪರ್ಯಾಯಗಳು ಸಂಯೋಜನೆಯಾಗಿವೆ.
- ಮೂಲ ವಿಶ್ಲೇಷಣಾ ಟೇಬಲ್ಗಳು -> Iceberg/Delta/Hudi ಅಥವಾ ಗೋದಾಮು ಕ್ಲೋನ್ಸ್.
- ನಿಮಗೆ ಎಷ್ಟು ತ್ವರಿತವಾಗಿ ಮರುಸ್ಥಾಪನೆ ಬೇಕು?
- ನಿಮಿಷಗಳು: ಸ್ನ್ಯಾಪ್ಶಾಟ್/ಕ್ಲೋನ್ಸ್ (Snowflake, Delta).
- ಗಂಟೆಗಳು: ಕ್ಯಾಟಲಾಗ್ ಶಾಖೆಗಳೊಂದಿಗೆ Iceberg.
- ತಕ್ಷಣದ ಮರುಳಾಟ ಎಲ್ಲದರ ಮೇಲಿದೆ: lakeFS ಅಥವಾ ಗಟ್ಟಿ ಅನುಶಾಸನೆಯ ಪುಟಕ-ಆಧಾರಿತ ವಿಧಾನಗಳು.
- Spark/Trino ನೆರೆದ ಡೇಟಾ ಎಂಜಿನಿಯರ್ಗಳು -> Iceberg/Delta ಉತ್ತಮ.
- SQL ನಲ್ಲಿ ವಿಶ್ಲೇಷಕರು -> ಗೋದಾಮು-ಒಳಗಿನ ಅವಲಂಬನೆ ಗೆಲ್ಲುವುದು.
- ML ಸಂಶೋಧಕರು -> DVC/Pachyderm ನೈಜ ಅನುಭವ.
- ಅಮೂಲ್ಯ ಇತಿಹಾಸ ಮತ್ತು ಟ್ಯಾಗ್ಗಳು ಬೇಕು -> Iceberg/Delta ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು, dbt ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳು ಅಥವಾ DVC ರಿಮೋಟ್ ಜೊತೆ.
- ಲ್ಲೊಂದು ಡೇಟಾಸೆಟ್ ಕ್ಕೆ ಪೂರಕ, ಮಾನವ-ವಾಚ್ಯ ಬದಲಾವಣೆ ಟಿಪ್ಪಣಿಗಳು ಬೇಕೇ -> lakeFS ಅಥವಾ Nessie ಶಾಖೆ ಮತ್ತು ಪಿಆರ್ ಮುಂತಾದವು.
ಪ್ರದರ್ಶನ ಮತ್ತು ತಿಳುವಳಿಕೆ: lakeFS ಇಲ್ಲದೆ ಎರಡು ನೈಜ ಮಾದರಿಗಳು
ಈ ಮಧ್ಯಾಹ್ನ ನೀವು ಪ್ರಯತ್ನಿಸಬಹುದಾದ ಎರಡು ಮಾದರಿಗಳನ್ನು ನೋಡೋಣ - ಹೆಲ್ಮೆಟ್ ಅಗತ್ಯವಿಲ್ಲ.
ಪ್ಯಾಟರ್ನ್ A: ಗೋದಾಮು ಮೊದಲ, ತಕ್ಷಣದ ಸ್ಯಾಂಡ್ಬಾಕ್ಸ್ಗಳು (Snowflake ಅಥವಾ BigQuery)
- ಎಲ್ಲಾ ಉತ್ಪಾದನೆ
prod ಡೇಟಾಬೇಸ್ನಲ್ಲಿ ಇರಲಿ.
- ರಾತ್ರಿ
CREATE DATABASE dev CLONE prod (Snowflake) ಅಥವಾ ಟೇಬಲ್ ಕ್ಲೋನ್ಸ್/ಸ್ನ್ಯಾಪ್ಶಾಟ್ಗಳು (BigQuery) ಮಾಡಿ.
- ಪರೀಕ್ಷೆಗಳ ಸಮಯದಲ್ಲಿ ನಿಮ್ಮ BI ಅನ್ನು
dev ಗೆ ಪಯಣಮಾಡಿ.
dev ನಲ್ಲಿ ಪರಿವರ್ತನೆಗಳನ್ನು ಮಾಡಿ.
- KPIs ಅನ್ನು ಪರಿಶೀಲಿಸಿ, ಡೇಟಾ ಪರೀಕ್ಷೆಗಳನ್ನು ಮಾಡಿ (ಉದಾ: dbt
tests), ಮತ್ತು prod ಜೊತೆ ಹೋಲಿಸಿ.
- ಹಸಿರು ಇದ್ದರೆ ‘ಪ್ರೋತ್ಸಾಹ’ ನಡೆಸಿ (ವೀಕ್ಷಣೆಯನ್ನು ಬದಲಿಸುವುದು ಅಥವಾ
MERGE ಮಾಡುವುದು).
- ಕೆಂಪು ಇದ್ದರೆ ಕ್ಲೋನ್ ತೆರವುಮಾಡಿ. ಶುತಸ್ಕೃತಿಯ ಅಗತ್ಯವಿಲ್ಲ.
- ಲಾಭ: ತ್ವರಿತ, ಸರಳ, ವಿಶ್ಲೇಷಕರಿಗೆ ಉತ್ತಮ.
- ದೋಷ: ಗೋದಾಮು-ಮಾತ್ರ; ವಸ್ತು ಸಂಗ್ರಹಣೆಯಲ್ಲಿನ ವಸ್ತುಗಳು (ML ಮಾದರಿಗಳು) ಹೊರತುಪಡಿಸಿ.
ಪ್ಯಾಟರ್ನ್ B: ಓಪನ್ ಲೇಕ್ ಜೊತೆ Iceberg + Nessie (ಟೇಬಲ್ಗಳಿಗೆ Git)
- ಡೇಟಾ S3/GCS/Azure ನಲ್ಲಿ ಇರಲಿ.
- Iceberg ಟೇಬಲ್ಗಳನ್ನು Nessie ಕ್ಯಾಟಲಾಗ್ ಹೀಗೆ ಬಳಸಿ.
- Spark/Trino ನಲ್ಲಿ Nessie ನ್ನು ಪಾಯಿಂಟ್ ಮಾಡು.
- Nessie ನಲ್ಲಿ
feature-exp ಶಾಖೆಯನ್ನು ರಚಿಸಿ.
- Iceberg ಟೇಬಲ್ಗಳಲ್ಲಿ ಹೊಸ ಕಾಲಮ್ಗಳು ಅಥವಾ ಸರಿದೂಗಿಸಿದ ಡೇಟಾ ETL ಮುಖಾಂತರ ನಿಗದಿಪಡಿಸಿ.
- ಪರಿಶೀಲನೆ ಮಾಡಿ (ಪಟ್ಟಿ ಎಣಿಕೆ, ಶೂನ್ಯ ತಪಾಸಣೆ, ವಿನ್ಯಾಸದ ಬದಲಾವಣೆಯ ಪರಿಶೀಲನೆ).
- ಸಂತುಷ್ಟರಾದರೆ
main ಗೆ feature-exp ವೇಗವಾಗಿ ಪೂರೈಸಿ; ಇಲ್ಲಲ್ಲಿ ಶಾಖೆಯನ್ನು ತೊರೆದು ಹೋಗಿ.
- ಲಾಭ: ಓಪನ್, ಎಂಜಿನ್ ಅಗ್ರೇnostic, ಟೇಬಲ್ ಮೆಟಾಡೇಟಾ ಗಾಗಿ Git ಹೋಲುವ ನಿಯಮಗಳು.
- ದೋಷ: ಆವೃತ್ತಿ ವ್ಯಾಪ್ತಿ ಟೇಬಲ್ ಮೆಟಾಡೇಟಾ/ಫೈಲುಗಳಿಗೆ ಮಾತ್ರ, ನಿಮ್ಮ ಸಂಪೂರ್ಣ ಬಕೆಟ್ ಅಥವಾ ವಿವಿಧ ವಸ್ತುಗಳಿಗೆ ಅಲ್ಲ. ಟೇಬಲ್ ಹೊರಗಿನ ವಸ್ತುಗಳಿಗಾಗಿ ನಿಮ್ಮ ಈಡಿನಿಮಿತ್ತಕ್ಕೆ ಯೋಜನೆ ಬೇಕಾಗುತ್ತದೆ.
ನೀವು ಇನ್ನೂ lakeFS ಬೇಕಾಗಬಹುದು
ನ್ಯಾಯವೂ ನ್ಯಾಯ: ಕೆಲವೊಮ್ಮೆ ಜಾಗತಿಕ-ಶಾಖೆ ಮಾದರಿ ಅತ್ಯುತ್ತಮ ಸಾಧನವಾಗಿದೆ.
- ಬಹು ಫಾರ್ಮ್ಯಾಟ್ಗಳ ಸಮೇತ ಒಂದೇ ವೇಳೆ ಪರಸ್ಪರ ಸಂಬಂಧ ಹೊಂದಿರುವ ಏಕೈಕ ಬದಲಾವಣೆ ಬೇಕು. Parquet ಟೇಬಲ್ಗಳು, CSV ಉಲ್ಲೇಖ ಡೇಟಾ, ML ಮಾದರಿಗಳು ಮತ್ತು ಡಾಕ್ಯುಮೆಂಟ್ಗಳು ಒಂದೇಗೂ ಪ್ರೋತ್ಸಾಹಿಸುತ್ತವೆ.
- ಸಂಕುಚಿತ ಪೈಪ್ಲೈನ್ಗಳಲ್ಲಿ ವಸ್ತು ಮಟ್ಟದ ಪ್ರತ್ಯೇಕತೆ ಬೇಕು. ಸಾಫ್ಟ್ವೇರ್ ಬಿಡುಗಡೆಗಳು ಹೀಗೆ ಹಂತ ಹಂತವಾಗಿ ಚಾಟಿಕೆ ಮಾಡಿ, ಪರೀಕ್ಷಿಸಿ, ಮರ್ಜ್ ಮಾಡಬಹುದು.
- ಮಾನವ ಸ್ನೇಹಿ ವಿಮರ್ಶೆಗಳು ಬೇಕು. ಶಾಖೆ ಮಾಡಿ, ಪರಿಶೀಲನೆಗಳು ಜೊತೆ ಚಲಿಸಿ, PR ಶೈಲಿಯ ವಿಮರ್ಶನೆಯನ್ನು ತೆರೆಯಿರಿ, ಮತ್ತು ಮರ್ಜ್ ಮಾಡಿ.
ನಿಮ್ಮ ಪರಿಸ್ಥಿತಿಯಿದ್ದರೆ, ಪರ್ಯಾಯಗಳು lakeFS ನ್ನು ತುಂಡು ತುಂಡಾಗಿ ಮರು ನಿರ್ಮಿಸುವಂತವಾಗಿವೆ. ಕೆಲವೊಮ್ಮೆ ನಿಮ್ಮದೇ ಹುಟ್ಟು ಹಿಟ್ಟು ತಯಾರಿಸುವಂತಿದೆ: ಸಾಧ್ಯ, ರುಚಿಕರ ಮತ್ತು ಬಹಳ ಗೋಡೆಯಲ್ಲಿ ನೋಡಿಕೊಳ್ಳಬೇಕಾಗಿದೆ.
ವೆಚ್ಚ ಮತ್ತು ಸಂಕೀರ್ಣತೆ ಕುರಿತು ಚಿಕ್ಕ ಮಾತು
- ಗೋದಾಮು-ಮೊದಲು: ನೀವು ಕ್ಲೋನ್ಸ್/ಕಾಲಪ್ರಯಾಣ ಉಳಿವಿಗಾಗಿ ಹಣ ಕೊಡಬೇಕು, ಆದರೆ ನಿಮ್ಮ ಮೆದುಳಿನ ಶ್ರಮ ಉಳಿಸಬಹುದು. ಸುಲಭ ಆಯ್ಕೆ.
- ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್ಗಳು: ಹೆಚ್ಚುವರಿ ನಿಯಂತ್ರಣ ಮತ್ತು ಎಂಜಿನ್ ಬಲೆಯನ್ನು ಇಚ್ಛಿಸುವ ತಂಡಗಳು ಇದನ್ನು ಇಷ್ಟಪಡುವರು. ಹೆಚ್ಚು ನಿಯಂತ್ರಣಗಳನ್ನು ನಿರೀಕ್ಷಿಸಿ.
- ML-ಕೇಂದ್ರಿತ ಸಾಧನಗಳು: DVC ಮತ್ತು Pachyderm ಪ್ರಯೋಗ ಟ್ರ್ಯಾಕಿಂಗ್ಗಳಲ್ಲಿ ಮೆರುಗು ತರುತ್ತವೆ, ಆದರೆ ವಿಶ್ಲೇಷಣೆಗೆ ನೀವು ಇದು ಸೇರಿಸಿಕೊಳ್ಳಬೇಕಾಗುತ್ತದೆ.
- ಕ್ಯಾಟಲಾಗ್ಗಳು: ಆಡಳಿತ ಅದ್ಭುತ—ಆದರೆ ಯಾರು ಇದನ್ನ ನಿಭಾಯಿಸುವರು ಎಂದು ನೋಡಬೇಕಾಗುತ್ತದೆ. ನೀತಿ ನಿರ್ವಹಣೆಗೆ ಸಮಯ ಮೀಸಲಿಡಿ.
ನಿಯಮ: ನಿಮ್ಮ ತಂಡ 10ರ ಒಳಗೆ ಇದ್ದರೆ ಮತ್ತು 90% ಕೆಲಸ SQL ವಿಶ್ಲೇಷಣೆಗಳಾಗಿದ್ರೆ, ಗೋದಾಮಿನಲ್ಲಿ ಪ್ರಾರಂಭಿಸಿ. 5 ಇಲಾಖೆಗಳಿಗೂ ಪ್ಲಾಟ್ಫಾರ್ಮ್ ತಂಡ ಇದ್ದರೆ, Iceberg/Delta + ಕ್ಯಾಟಲಾಗ್ ರಚನಾತ್ಮಕಕೂಟ ಮೋಹಕವಾಗುತ್ತದೆ.
ಒಂದು ಅಚ್ಚರಿ ಇದೆ: Sider.AI ಈ ಸಾಧನಗಳ ಸುತ್ತಲಿನ ಕ್ಲೇಶಗಳನ್ನು ನಿಯಂತ್ರಿಸಲು ಸಹಾಯ ಮಾಡುತ್ತದೆ, ವಿಶೇಷವಾಗಿ ಡಾಕ್ಯುಮೆಂಟೇಶನ್, SQL ಪರೀಕ್ಷೆಗಳು ಮತ್ತು “ಯಾವುದು ಬದಲಾಗಿದೆ?” ಕಥೆಗಾರಿಕೆಗಳಲ್ಲಿ. ಇದು ಶಾಖೆಗಳು ಅಥವಾ ಸ্ন್ಯಾಪ್ಶಾಟ್ ಹೋಲಿಕೆಗಳಿಂದ ಮಾನವಾನಂತರದ ಸಾರಾಂಶಗಳನ್ನು ಉಗಮಿಸುತ್ತದೆ. ಸ್ವತಃ ಒಂದು ಆವೃತ್ತಿ ನಿಯಂತ್ರಣ ವ್ಯವಸ್ಥೆ ಅಲ್ಲ—ನಿಮ್ಮ ಲೇಕ್ ಇಲ್ಲಿಗೆ ಹಿಂದಿರುಗಿಸಲು ಪ್ರಯತ್ನಿಸುವದು ಬೇಡ—ಆದರೆ ವಿಮರ್ಶೆ, ಪರೀಕ್ಷಾ ಯೋಜನೆ ಮತ್ತು ಚೊಚ್ಚಲ ಸ್ಕ್ರಿಪ್ಟ್ ಸೃಷ್ಟಿಗೆ ಒಂದು ಪಕ್ಕದ ಸಹಾಯಕ. ನಿರ್ಣಯ ಮ್ಯಾಟ್ರಿಕ್ಸ್: ಯಾವುದು ಬೇಕು, ಯಾವಾಗ
- Iceberg (+ Nessie) ಆಯ್ಕೆಮಾಡಿ: ನೀವು ಓಪನ್ ಮಾನಕಗಳು, ಬಹು-ಎಂಜಿನ್ ಬೆಂಬಲ ಮತ್ತು ಅನೇಕ ಟೇಬಲ್ಗಳ ಮೇಲೆ Git-ಹೋಲುವ ಶಾಖೆಗಳು ಬೇಕಾದರೆ.
- Delta (+ Unity Catalog) ಆಯ್ಕೆಮಾಡಿ: ನೀವು Databricks ನಲ್ಲಿದ್ದಾಗ ಸಂತೋಷವಿದ್ದರೆ ಮತ್ತು ಸುಗಮ ಅನುಭವ ಬಯಸಿದರೆ.
- Hudi ಆಯ್ಕೆಮಾಡಿ: ನೀವು CDC ಮತ್ತು ಸ್ಟ್ರೀಮಿಂಗ್ ಅಪ್ಡೇಟ್ಗಳಲ್ಲಿ ಜೀವಿಸುತ್ತಿದ್ದರೆ.
- Snowflake Time Travel/Clones ಆಯ್ಕೆಮಾಡಿ: ನಿಮ್ಮ ಜೀವನ SQL ಡ್ಯಾಶ್ಬೋರ್ಡ್ಗಳೊಂದಿಗೆ, ಸುಗಮ ಸ್ಯಾಂಡ್ಬಾಕ್ಸ್ ಬೇಕಾದರೆ.
- BigQuery snapshots/clones ಆಯ್ಕೆಮಾಡಿ: ನೀವು ಸರ್ವರ್ ರಹಿತ ಮತ್ತು ಸುಲಭ ಪೇ-ಅಸ್-ಯು-ಗೆ ಪ್ರಯೋಗಗಳನ್ನು ಬಯಸಿದರೆ.
- DVC ಅಥವಾ Pachyderm ಆಯ್ಕೆಮಾಡಿ: ML ಪ್ರಯೋಗಗಳು ಮತ್ತು ಮೂಲ್ಯನಿರ್ಣಯ ನಿಮ್ಮ ದೈನಂದಿನ ಆಹಾರವಿದ್ದರೆ.
- Quilt ಆಯ್ಕೆಮಾಡಿ: ನೀವು ಮಾನವರಿಗೆ ಆರೈಕೆ ಮಾಡಲಾದ, ದಾಖಲೆಬದ್ಧ ಡatasets ಹಂಚಿಕೊಳ್ಳುವುದಾದರೆ.
ಹೌದು, ನೀವು ಮಿಕ್ಸ್ ಮಾಡಿ ಹೊಂದಿಸಬಹುದು. ಹಲವಾರು ತಂಡಗಳು Delta ಅನ್ನು ನಿರ್ದಿಷ್ಟ ಮಾರುಟ್ಗಳಿಗಾಗಿ, DVC ಅನ್ನು ML ಗೆ ಮತ್ತು ಗೋದಾಮು ಕ್ಲೋನ್ಸ್ BI ಗಾಗಿ ಒಂದೇ ವೇಳೆ ಚಲಿಸುತ್ತವೆ. ಇದು ಬಫೆ, фикс ಮೇಲೆ ಅಲ್ಲ.
ಬೆಡಕು ಸಹಾಯ: ಸಾಮಾನ್ಯ “ಆವೃತ್ತಿ” ದೋಷಗಳು
- “ನನ್ನ ಡೆವ್ ಪರೀಕ್ಷೆ ಸಫಲವಾಗಿದ್ದು, ವಿನಿಯೋಗದಲ್ಲಿ ದೋಷವಾಯಿತು.” ನೀವು ಟೇಬಲ್ ಪ್ರೋತ್ಸಾಹಿಸಿದರೂ, ಉಲ್ಲೇಖ ಫೈಲುಗಳು (ಲುಕ್ಅಪ್ಗಳು, ಮಾದರಿಗಳು) ಪ್ರೋತ್ಸಾಹಿಸಿಲ್ಲ. ಪ್ಯಾಕೇಜಿಂಗ್ ಅಥವಾ lakeFS ಹೋಲುವ ಜಾಗತಿಕ ಪ್ರೋತ್ಸಾಹ ಅಥವಾ ಉಲ್ಲೇಖಗಳನ್ನು ಗೋದಾಮಿನೊಳಗಾಗಿ ಇಡುವಿಕೆ ಪರಿಗಣಿಸಿ.
- “ಕಾಲಪ್ರಯಾಣ ನನಗೆ ಉಳಿಸಿತು—ಆದರೆ ಉಳಿಸುವ ಕಿಟಕಿತೊಡಗಿತು.” ಉಳಿಸುವ ಕಿಟಕಿಗಳ ಮೇಲೆ ಎಚ್ಚರಿಕೆ ಸೂಚನೆಗಳನ್ನು ಸಜ್ಜುಗೊಳಿಸಿ, ಪ್ರಮುಖ ಸ্ন್ಯಾಪ್ಶಾಟ್ಗಳನ್ನು ಟ್ಯಾಗ್ ಮಾಡಿ, ಅಥವಾ ಅಮೂಲ್ಯ ಸಂಗ್ರಹಣೆಗೆ ರಫ್ತು ಮಾಡಿ.
- “ಎಂಜಿನ್ A ಅವರು ಡೇಟಾವನ್ನು ನೋಡುತ್ತಾರೆ ಎಂಜಿನ್ B ನೋಡದು.” ಕ್ಯಾಟಲಾಗ್ ಸಮ್ಮತತೆ ಸಮಸ್ಯೆ. ಪ್ರತಿ ವಾತಾವರಣಕ್ಕೆ ಒಂದೇ ಕ್ಯಾಟಲಾಗ್ (Nessie/Unity/Glue) ಯಲ್ಲಿ ನಿರ್ದಿಷ್ಟಗೊಳಿಸಿ.
- “ಸ್ಕೀಮಾ ವಿಕಸನಗೊಂಡಿದೆ; ಕೆಳಹರಿವು ತಲ್ಲಣಗೊಂಡಿದೆ.” ಸ್ಕೀಮಾ ವಿಕಸನವನ್ನು ಬೆಂಬಲಿಸುವ ಟೇಬಲ್ ಫಾರ್ಮ್ಯಾಟ್ಗಳನ್ನು ಬಳಸಿ ಮತ್ತು CI ನಲ್ಲಿ ಕರಾರುಗಳನ್ನು (ಪರೀಕ್ಷೆಗಳು, ನಿರ್ಬಂಧಗಳು) ಸೇರಿಸಿ.
30 ನಿಮಿಷಗಳ ಪೈಲಟ್ ಯೋಜನೆ
- ಉತ್ಪಾದನೆಯನ್ನು ದೇವ್ಗೆ ಕ್ಲೋನ್ ಮಾಡಿ (Snowflake/BigQuery).
- dbt ಕೆಲಸವನ್ನು ಚಲಾಯಿಸಿ; 3 ಸರಳ ಪರೀಕ್ಷೆಗಳನ್ನು ಸೇರಿಸಿ (ಶೂನ್ಯವಲ್ಲದ, ಅನನ್ಯ, ಸ್ವೀಕರಿಸಿದ ಮೌಲ್ಯಗಳು).
- KPI ಗಳನ್ನು ಹೋಲಿಕೆ ಮಾಡಿ; ವೀಕ್ಷಣೆಯನ್ನು ಬದಲಾಯಿಸುವ ಮೂಲಕ ಪ್ರಚಾರ ಮಾಡಿ.
- Iceberg ಟೇಬಲ್ ಮತ್ತು Nessie ಬ್ರಾಂಚ್ ಅನ್ನು ರಚಿಸಿ.
- ಒಂದು ಕಾಲಮ್ ಅನ್ನು ಸೇರಿಸುವ ಸಣ್ಣ ರೂಪಾಂತರವನ್ನು ಚಲಾಯಿಸಿ.
- ಸಾಲು ಎಣಿಕೆಗಳು ಮತ್ತು ಶೂನ್ಯ ದರಗಳನ್ನು ಮೌಲ್ಯೀಕರಿಸಿ; ಫಾಸ್ಟ್-ಫಾರ್ವರ್ಡ್ ವಿಲೀನ.
- ಸಣ್ಣ ಡೇಟಾಸೆಟ್ನೊಂದಿಗೆ DVC ರೆಪೊವನ್ನು ಪ್ರಾರಂಭಿಸಿ.
- ಎರಡು ಮಾದರಿಗಳನ್ನು ತರಬೇತಿ ಮಾಡಿ, ಆವೃತ್ತಿಗಳನ್ನು ಟ್ಯಾಗ್ ಮಾಡಿ.
- ಡಿಫ್ ವರದಿಯನ್ನು ರಚಿಸಿ; ಕಮಿಟ್ನೊಂದಿಗೆ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಉಳಿಸಿ.
ಮೇಲಿನವುಗಳನ್ನು ಬೆವರು ಹರಿಸದೆ ನೀವು ಮಾಡಲು ಸಾಧ್ಯವಾದರೆ, ನಿಮಗೆ ಕಾರ್ಯಸಾಧ್ಯವಾದ ಪರ್ಯಾಯವಿದೆ.
ಬಾಟಮ್ ಲೈನ್
ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಆವೃತ್ತಿ ಮಾಡುವುದು ಒಂದೇ ಉಪಕರಣದ ಆರಾಧನೆಯ ಬಗ್ಗೆ ಅಲ್ಲ. ಇದು ಪುನರಾವರ್ತನೆ ಮತ್ತು ಸುರಕ್ಷತೆ ಬಗ್ಗೆ: ವಸ್ತುಗಳನ್ನು ಮುರಿಯದೆ ನೀವು ಪ್ರಯತ್ನಿಸಬಹುದೇ ಮತ್ತು ತಿಳಿದಿರುವ-ಒಳ್ಳೆಯದಕ್ಕೆ ತ್ವರಿತವಾಗಿ ಹಿಂತಿರುಗಬಹುದೇ? lakeFS ಒಂದು ಸೊಗಸಾದ ಮಾರ್ಗವಾಗಿದೆ. ಪರ್ಯಾಯಗಳು—Iceberg, Delta, Hudi, Snowflake, BigQuery, DVC, Nessie, ಮತ್ತು ಸ್ನೇಹಿತರು—ನೀವು ಸರಿಯಾದ ಸಂಯೋಜನೆಯನ್ನು ಆರಿಸಿದರೆ ಹೆಚ್ಚಿನ ನೈಜ-ಪ್ರಪಂಚದ ಅಗತ್ಯಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.
ನನ್ನ ಅಭಿಪ್ರಾಯ: ನಿಮಗೆ ಈಗಾಗಲೇ ತಿಳಿದಿರುವ ಪರಿಸರದಲ್ಲಿ ರೋಲ್ಬ್ಯಾಕ್ ಮತ್ತು ಐಸೋಲೇಶನ್ ನೀಡುವ ಸರಳವಾದ ವಿಷಯದೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಿ. ನಿಮ್ಮ ಬ್ಲಾಸ್ಟ್ ರೇಡಿಯಸ್ ಬೆಳೆದಂತೆ ಆಡಳಿತ ಮತ್ತು ಕ್ಯಾಟಲಾಗ್ಗಳನ್ನು ಸೇರಿಸಿ. ಮತ್ತು ನೀವು ಉರಿಯುತ್ತಿರುವ ಟಾರ್ಚ್ಗಳಂತೆ ಟೇಬಲ್ಗಳು, ಫೈಲ್ಗಳು ಮತ್ತು ಮಾದರಿಗಳನ್ನು ಕುಶಲತೆಯಿಂದ ನಿರ್ವಹಿಸುವಾಗ, ನೆನಪಿಡಿ: ನೀವು ಯಾವಾಗಲೂ ಇಡೀ ಸರೋವರವನ್ನು Git ರೆಪೊದಂತೆ ಪರಿಗಣಿಸುವ ಉಪಕರಣವನ್ನು ತಲುಪಬಹುದು—ಅಥವಾ ನಿಮಗೆ ಸರಿಹೊಂದುವ ಸಮತೋಲನವನ್ನು ಪಡೆಯುವವರೆಗೆ ಮಿಶ್ರಣ ಮಾಡಿ ಮತ್ತು ಹೊಂದಾಣಿಕೆ ಮಾಡಿ.
ಕೊನೆಯ ವಿಷಯ: ನಿಮ್ಮ ಶಾಖೆಗಳಿಗೆ ಭವಿಷ್ಯದ-ನೀವು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವಂತಹ ಹೆಸರನ್ನು ನೀಡಿ. “fix-metric-typo” “plswork” ಅನ್ನು ಸೋಲಿಸುತ್ತದೆ. ನಿಮ್ಮ ವಿವೇಕವೂ ಸಹ ಆವೃತ್ತಿಯಾಗಿದೆ.
FAQ
Q1: ಡೇಟಾ ಆವೃತ್ತಿಗಾಗಿ ಉತ್ತಮ lakeFS ಪರ್ಯಾಯಗಳು ಯಾವುವು?
ಉನ್ನತ lakeFS ಪರ್ಯಾಯಗಳಲ್ಲಿ Apache Iceberg (ಸಾಮಾನ್ಯವಾಗಿ Nessie ಜೊತೆಗೆ), Delta Lake (ವಿಶೇಷವಾಗಿ Databricks ನಲ್ಲಿ), CDC-ಹೆವಿ ಪೈಪ್ಲೈನ್ಗಳಿಗಾಗಿ Apache Hudi ಮತ್ತು Snowflake Time Travel ಮತ್ತು BigQuery ಸ್ನ್ಯಾಪ್ಶಾಟ್ಗಳಂತಹ ವೇರ್ಹೌಸ್-ಸ್ಥಳೀಯ ಆಯ್ಕೆಗಳು ಸೇರಿವೆ. ML ಬಳಕೆಯ ಸಂದರ್ಭಗಳಿಗಾಗಿ, DVC ಮತ್ತು Pachyderm ಬಲವಾದ ಆಯ್ಕೆಗಳಾಗಿವೆ.
Q2: lakeFS ಬದಲಿಗೆ ನಾನು ಯಾವಾಗ Iceberg ಅಥವಾ Delta ಅನ್ನು ಆಯ್ಕೆ ಮಾಡಬೇಕು?
ಟೇಬಲ್-ಮಟ್ಟದ ಸಮಯ ಪ್ರಯಾಣ, ACID ವಹಿವಾಟುಗಳು ಮತ್ತು ಎಂಜಿನ್ ಏಕೀಕರಣವು ನಿಮ್ಮ ಮುಖ್ಯ ಅಗತ್ಯಗಳಾದಾಗ Iceberg ಅಥವಾ Delta ಅನ್ನು ಆಯ್ಕೆಮಾಡಿ. ನಿಮಗೆ ಕ್ರಾಸ್-ಫಾರ್ಮ್ಯಾಟ್, ಸರೋವರ-ವ್ಯಾಪಿ ಶಾಖೆ ಮತ್ತು ಟೇಬಲ್ ಅಲ್ಲದ ಸ್ವತ್ತುಗಳ ಪ್ರಚಾರದ ಅಗತ್ಯವಿದ್ದರೆ, lakeFS ಇನ್ನೂ ಮೇಲುಗೈ ಸಾಧಿಸುತ್ತದೆ.
Q3: Snowflake Time Travel lakeFS ಅನ್ನು ಬದಲಾಯಿಸಬಹುದೇ?
ವೇರ್ಹೌಸ್-ಸೆಂಟ್ರಿಕ್ ತಂಡಗಳಿಗೆ ಇದು ಸಾಧ್ಯ. Snowflake ನ Time Travel ಮತ್ತು Zero-Copy Cloning ದೇವ್ ಸ್ಯಾಂಡ್ಬಾಕ್ಸ್ಗಳು ಮತ್ತು ರೋಲ್ಬ್ಯಾಕ್ಗಳನ್ನು ಸುಲಭಗೊಳಿಸುತ್ತದೆ, ಆದರೆ ಅವು Snowflake ಒಳಗೆ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಒಳಗೊಳ್ಳುತ್ತವೆ—ನಿಮ್ಮ ಆಬ್ಜೆಕ್ಟ್ ಸ್ಟೋರ್, ML ಮಾದರಿಗಳು ಅಥವಾ ಯಾದೃಚ್ಛಿಕ ಫೈಲ್ಗಳನ್ನಲ್ಲ.
Q4: Nessie Iceberg ಅನ್ನು lakeFS ಪರ್ಯಾಯವನ್ನಾಗಿ ಹೇಗೆ ಮಾಡುತ್ತದೆ?
Project Nessie ನಿಮ್ಮ Iceberg ಕ್ಯಾಟಲಾಗ್ಗೆ Git-ರೀತಿಯ ಶಾಖೆಗಳು ಮತ್ತು ಟ್ಯಾಗ್ಗಳನ್ನು ಸೇರಿಸುತ್ತದೆ, ಇದು ಅನೇಕ ಟೇಬಲ್ಗಳಲ್ಲಿ ಬದಲಾವಣೆಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಮತ್ತು ಅವುಗಳನ್ನು ಒಟ್ಟಿಗೆ ಪ್ರಚಾರ ಮಾಡಲು ನಿಮಗೆ ಅನುವು ಮಾಡಿಕೊಡುತ್ತದೆ. ಇದು ಮೆಟಾಡೇಟಾ-ಕೇಂದ್ರಿತವಾಗಿದೆ, ಆದ್ದರಿಂದ ನೀವು ಟೇಬಲ್ ಅಲ್ಲದ ಸ್ವತ್ತುಗಳಿಗಾಗಿ ಪ್ರತ್ಯೇಕವಾಗಿ ಯೋಜಿಸುತ್ತೀರಿ.
Q5: lakeFS ಪರ್ಯಾಯವನ್ನು ಪೈಲಟ್ ಮಾಡಲು ಸರಳವಾದ ಮಾರ್ಗ ಯಾವುದು?
ನೀವು ವೇರ್ಹೌಸ್ನಲ್ಲಿದ್ದರೆ, ಉತ್ಪಾದನೆಯನ್ನು ದೇವ್ಗೆ ಕ್ಲೋನ್ ಮಾಡಿ (Snowflake/BigQuery) ಮತ್ತು ಪರೀಕ್ಷೆಗಳೊಂದಿಗೆ ಸಣ್ಣ ರೂಪಾಂತರವನ್ನು ಪ್ರಯತ್ನಿಸಿ. ಓಪನ್ ಲೇಕ್ನಲ್ಲಿ, Nessie ಬ್ರಾಂಚ್ನೊಂದಿಗೆ Iceberg ಅನ್ನು ತಿರುಗಿಸಿ ಮತ್ತು ಫಾಸ್ಟ್-ಫಾರ್ವರ್ಡ್ ವಿಲೀನವನ್ನು ಅಭ್ಯಾಸ ಮಾಡಿ. ML ಗಾಗಿ, DVC ಅನ್ನು ಪ್ರಾರಂಭಿಸಿ, ಡೇಟಾಸೆಟ್ ಅನ್ನು ಆವೃತ್ತಿ ಮಾಡಿ ಮತ್ತು ಎರಡು ಮಾದರಿ ರನ್ಗಳನ್ನು ಹೋಲಿಕೆ ಮಾಡಿ.