What’s the fastest way to start using Databricks as a beginner?

Create a small, auto-terminating cluster, open a notebook, and load a tiny CSV with display to explore. Save your clean results as a Delta table and try a simple SQL query—this gets you real wins on day one without getting lost in advanced features.

Should I use notebooks or Delta Live Tables for my pipeline?

Start with notebooks while you’re figuring things out; they’re perfect for exploration and quick wins. When your logic stabilizes and needs to run reliably, switch to Delta Live Tables for managed dependencies, data quality checks, and easier monitoring.

How do I keep Databricks costs under control?

Use small instances for dev, enable auto-termination, and prefer job clusters for scheduled runs. Avoid persisting giant DataFrames unless necessary, and keep an eye on cost metrics and cloud budgets so nothing runs all weekend.

Can non-coders use Databricks effectively?

Yes—SQL Warehouses plus dashboards make Databricks friendly for analysts. You can write plain SQL, visualize results, and share insights without touching PySpark, then bring in engineers only when you need heavier-lift transformations.

What’s the advantage of saving data as Delta tables?

Delta tables give you ACID transactions, version history (time travel), and better performance. That means safer updates, easier rollbacks when something goes wrong, and faster queries for the same data.

Cara Menggunakan Databricks Tanpa Kehilangan Akhir Pekan Anda (atau Kewarasan Anda)

Pernah mencoba membuat melakukan pekerjaan seperti sabuk konveyor pabrik? Itu adalah saya, beberapa musim panas lalu, mencoba mengelola jutaan berkas log dengan laptop yang merengek seperti chihuahua saat badai. Saat itulah seseorang berkata, “Sudahkah Anda mencoba Databricks?” Tiba-tiba, semua terhenti.

Jika kata-kata seperti “Spark,” “,” dan “Delta Lake” membuat Anda ingin lari ke gunung, kabar baiknya: menggunakan Databricks tidak harus terasa seperti menerbangkan roket. Anggap saja seperti dapur bersama untuk para ahli data—koki (Anda dan tim Anda) dapat membawa bahan-bahan (data), menggunakan kompor (), dan mengikuti resep () untuk memasak makanan (analisis, dasbor, model pembelajaran mesin) yang benar-benar memberi makan bisnis.

Dalam panduan ini, kita akan menyiapkan ruang kerja Anda, menjalankan pertama Anda, menulis kode di , membuat kueri dengan SQL, menyimpan hasil dalam tabel Delta, menjadwalkan pekerjaan, dan menghindari dua kesalahan klasik: tagihan kejutan dan malam-malam misterius “mengapa pekerjaan saya gagal?”. Saya akan membuatnya tetap manusiawi, praktis, dan jujur—seolah-olah kita adalah dua tetangga yang bertukar tips di atas pagar, kecuali pagarnya terbuat dari berkas .

Apa itu Databricks sebenarnya? Bayangkan Databricks sebagai studio lengkap untuk data besar dan AI. Databricks membungkus Apache Spark dalam antarmuka yang ramah, menambahkan kolaboratif, mengelola data dengan Delta Lake (format tabel yang sangat hebat), dan memberi Anda alat tata kelola sehingga Anda tidak sengaja membiarkan keran data mengalir semalaman. Anda dapat menulis Python, SQL, Scala, atau R; mencampur dan mencocokkan; dan mengundang rekan satu tim untuk bekerja di yang sama tanpa saling menyikut.

Model mental Anda

: Markas proyek Anda—pengguna, , repositori, pekerjaan.

Komputasi: (untuk dan pekerjaan) dan SQL Warehouses (untuk kueri BI/SQL).

Penyimpanan: Data Anda (S3/ADLS/GCS). Databricks menambahkan katalog ramah dengan tabel yang dapat Anda kueri.

Tata Kelola: Kontrol akses dan Unity Catalog sehingga orang yang tepat melihat data yang tepat.

: Delta Live Tables untuk rekayasa data; Pekerjaan untuk menjadwalkan sesuatu; MLflow untuk eksperimen dan model.

Langkah 1: Buat atau bergabung dengan Jika perusahaan Anda sudah memiliki Databricks, Anda akan mendapatkan undangan. Jika tidak, daftarlah untuk uji coba ( pilihan Anda) dan buat . Anda akan mendarat di antarmuka bilah sisi kiri yang bersih. Jangan panik dengan opsi yang ada—kita akan mulai dengan tiga saja: , Komputasi, dan Data.

Langkah 2: Jalankan pertama Anda (“mesin” di balik layar) Sebuah hanyalah sekumpulan mesin yang dimulai oleh Databricks untuk Anda.

Klik Komputasi → Baru.

Pilih mode (mulai dengan Pengguna tunggal atau Bersama untuk pengujian).

Pilih jenis instans kecil agar biaya tetap terjangkau.

Aktifkan penghentian otomatis (misalnya, 15–30 menit). Itu adalah pengatur waktu “lampu mati” untuk .

Buat. Tunggu satu atau dua menit; Anda akan melihat warna hijau “Berjalan.”

Tip Pogue: Beri nama Anda sesuatu yang jelas (“dev-pogue-15min-autoterm”). Anda di masa depan akan berterima kasih.

Langkah 3: Buka (”meja kerja” Anda)

→ Baru → .

Pilih bahasa. Python adalah titik awal yang nyaman; Anda masih dapat menjalankan SQL dengan perintah ajaib.

Lampirkan ke Anda yang sedang berjalan ( di bagian atas).

Coba sel pertama Anda:

print("Halo, Databricks!")

Kemudian coba penggoda Spark:

spark.range(5).show

Selamat, Anda baru saja meluncurkan mesin komputasi terdistribusi untuk menghitung hingga lima. Anda secara resmi adalah ahli data.

Langkah 4: Bawa data (”rak bahan”) Anda dapat mengimpor berkas, terhubung ke penyimpanan objek, atau membuat kueri tabel yang ada.

Klik Data di bilah sisi. Anda akan melihat katalog dan skema (folder untuk tabel), dan opsi untuk menambahkan data.

Jika Anda memiliki CSV, unggah untuk pengujian cepat. Databricks dapat menyimpulkan skema.

Menggunakan Python untuk membaca CSV di penyimpanan :

df = spark.read.option("header", True).csv("/mnt/my-bucket/sales.csv") df.printSchema

df.limit(10).display

Fungsi tampilan itu adalah keajaiban Databricks: penyortiran, pemfilteran, dan pembuatan bagan yang mudah dalam sekejap.

Langkah 5: Simpan hasil Anda sebagai tabel Delta (mengapa Delta?) Tabel Delta seperti dengan kekuatan super: mereka menyimpan jaminan transaksional (“ACID”), melacak versi, dan membuat pembaruan/penyisipan/penggabungan tetap waras.

df.write.mode("overwrite").format("delta").saveAsTable("analytics.sales_clean")

Sekarang Anda dapat membuat kueri dengan SQL:

-- Alihkan sel Anda ke SQL dengan %%sql %%sql SELECT product, SUM(amount) AS total FROM analytics.sales_clean GROUP BY product ORDER BY total DESC

Ingin data yang ramah audit dan diberi versi? Anda dapat melakukan perjalanan waktu:

%%sql SELECT * FROM analytics.sales_clean VERSION AS OF 2

Langkah 6: Berteman dengan SQL Warehouses (untuk orang-orang BI) Jika Anda sebagian besar membuat dasbor dan pertanyaan bisnis, jalankan SQL Warehouse (Komputasi → SQL Warehouses). Ini seperti mesin yang lebih ringan yang disetel untuk SQL.

Hubungkan alat BI Anda (Power BI, Tableau, atau Dasbor SQL Databricks).

Buat dasbor: visualisasi, filter, jadwal penyegaran.

Langkah 7: dengan Delta Live Tables (dari “manual” menjadi “otomatis”) Jika Anda memiliki transformasi yang dapat diulang—“bersihkan penjualan mentah, gabungkan metadata produk, agregasi per minggu”—Delta Live Tables (DLT) mengubahnya menjadi terkelola dengan pemeriksaan dan silsilah.

Contoh SQL DLT kecil:

CREATE OR REFRESH LIVE TABLE sales_clean AS SELECT * FROM cloud_files('/mnt/data/sales_raw', 'csv');

CREATE OR REFRESH LIVE TABLE weekly_sales AS SELECT product, weekofyear(date) AS week, SUM(amount) AS weekly_total FROM LIVE.sales_clean GROUP BY product, week;

DLT menangani pemantauan, percobaan ulang, dan aturan kualitas data.

Tambahkan ekspektasi (seperti “jumlah >= 0”) sehingga data buruk gagal dengan keras alih-alih diam-diam menyabotase kuartal Anda.

Langkah 8: Jadwalkan dengan Pekerjaan (karena Anda suka tidur)

Pekerjaan → Buat Pekerjaan.

Pilih Anda, atur jadwal (misalnya, pukul 2 pagi setiap hari), pilih pekerjaan kecil.

Tambahkan pemberitahuan atau Slack untuk kegagalan.

Bonus: Parametrisasi sehingga kode yang sama berjalan untuk dev/test/prod dengan input yang berbeda.

Langkah 9: Izin dan tata kelola tanpa air mata Kontrol akses data penting. Gunakan izin katalog bawaan untuk memastikan pembaca, penulis, dan pemilik yang tepat. Jika organisasi Anda menggunakan terpusat, Anda akan menemukan Unity Catalog: ini menstandarkan nama seperti catalog.schema.table dan memberi Anda audit yang lebih baik dan kontrol yang lebih terperinci.

Tip Pogue: Mulailah dengan sederhana—satu katalog untuk analitik, satu untuk —dan beri nama yang jelas. Analis masa depan akan membelikan Anda kopi.

Langkah 10: Kontrol biaya (bagian “jangan dapatkan tagihan kejutan”)

Gunakan instans kecil secara saat menjelajah.

Selalu aktifkan penghentian otomatis pada dev.

Pilih pekerjaan untuk tugas terjadwal (putar, jalankan, matikan).

Cache dengan cerdas: jangan menyimpan DataFrame besar kecuali Anda perlu menggunakannya kembali.

Perhatikan metrik biaya UI dan atur anggaran/pemberitahuan di penyedia Anda.

Kehidupan sehari-hari: demo cepat Katakanlah atasan Anda bertanya: “Lini produk mana yang tumbuh paling cepat kuartal ini?” Berikut adalah alur Databricks:

Buat , lampirkan dev.

Masukkan penjualan dan metadata produk (CSV di penyimpanan ).

Bersihkan: tegakkan skema, hilangkan nilai nol, perbaiki format tanggal.

Tulis data bersih ke Delta.

SQL untuk menghitung pertumbuhan kuartal-ke-kuartal.

Visualisasikan di ; kemudian terbitkan dasbor untuk atasan.

Bungkus dalam Pekerjaan untuk disegarkan setiap pagi.

Pojok pemecahan masalah (karena itu terjadi)

tidak mau mulai: Periksa kuota/jenis instans Anda; coba VM yang lebih kecil; konfirmasi izin.

Data tidak mau dibaca: Verifikasi jalur dan kredensial; coba sampel kecil; periksa skema yang disimpulkan.

Pekerjaan terus gagal: Tambahkan (pernyataan cetak, tampilan), turunkan paralelisme, dan validasi input.

Hasil terlihat “mati”: Zona waktu! Mereka licik. Transmisikan stempel waktu, atur zona waktu , dan dokumentasikan asumsi.

Kolaborasi: bekerja seperti band, bukan tindakan solo

Gunakan Repositori untuk menyinkronkan dengan Git. Lakukan lebih awal, lakukan sering.

Beri komentar langsung di sel . Simpan sel “Baca Saya Dulu” di bagian atas dengan instruksi.

Buat kecil yang dapat dikomposisi (masukkan, ubah, analisis) sehingga rekan satu tim dapat langsung masuk tanpa menyelam.

Python? SQL? Keduanya. Anda dapat mencampur bahasa dalam satu . Misalnya, buat prototipe logika Anda di SQL (iterasi cepat), lalu beralih ke Python untuk pustaka khusus (peramalan, NLP). Gunakan UDF dengan hemat—fungsi Spark asli lebih cepat dan lebih ramah untuk diskalakan.

Kinerja: tiga tuas

Partisi: Lewati tumpukan jerami, baca hanya jarum. Partisi tabel Delta berdasarkan kolom yang sering difilter (tanggal, wilayah).

Ukuran berkas: Berkas kecil seperti —di mana-mana dan menjengkelkan. Gunakan penulisan yang dioptimalkan/optimasi otomatis untuk menggabungkan berkas kecil menjadi berkas besar dan efisien.

dan gabungan siaran: Cache DataFrame yang digunakan kembali; siarkan tabel kecil dalam gabungan besar untuk menghindari pengacakan.

Dasar-dasar keamanan yang akan Anda inginkan pada hari kedua

Simpan rahasia dalam lingkup rahasia terkelola; jangan pernah membuat kode kunci secara permanen.

Kunci tabel produksi dengan pemberian hak istimewa terendah.

Gunakan log audit untuk melihat siapa yang mengubah apa, kapan.

Dari utak-atik hingga produksi: jalur realistis

Minggu 1: Jelajahi dengan dan kecil. Simpan tabel Delta pertama. Bagikan kemenangan.

Minggu 2: Bangun DLT untuk transformasi berulang Anda. Tambahkan pemeriksaan kualitas data.

Minggu 3: Bungkus ke dalam Pekerjaan, tambahkan pemberitahuan, dan hubungkan dasbor ke SQL Warehouse.

Minggu 4: Pindahkan rahasia ke , rapikan izin, atur konvensi penamaan, dan dokumentasikan semuanya.

Mitos umum, dikempiskan dengan lembut

“Databricks hanya untuk guru Spark.” Tidak lagi. SQL Warehouses dan pembantu UI berarti analis dapat berkembang tanpa menulis satu baris pun Scala.

“Ini akan mahal.” Bisa jadi—jika Anda membiarkan lampu stadion menyala sepanjang akhir pekan. Dengan penghentian otomatis dan pekerjaan kecil, Anda dapat menjaga biaya tetap beradab.

“Pemberian versi adalah sakit kepala.” Perjalanan waktu dan riwayat tabel Delta membuat pengembalian dan audit menjadi sangat biasa.

Sepatah kata cepat tentang pembantu yang bermanfaat Jika Anda merasa terjebak saat menulis kode Spark , menjelaskan Anda sendiri kepada… diri sendiri, atau mengubah hasil kasar menjadi ringkasan yang rapi, cerdas dapat menghemat waktu berjam-jam. Alat seperti Sider.AI dapat berada di Anda sebagai kotak obrolan yang ramah, membantu Anda menyusun sel PySpark pemula, memfaktorkan ulang gabungan yang canggung, atau mengubah keluaran Anda menjadi penjelasan yang mudah dibaca untuk atasan Anda. Inilah triknya: ajukan pertanyaan khusus dan mendasar (“Tulis penggabungan PySpark ke dalam tabel Delta dengan logika untuk skema ini…”) dan tempel sampel skema kecil yang representatif sehingga sarannya tepat. Jika Anda mencoba membuatnya menebak segalanya, Anda berdua akan berakhir dengan mengangkat bahu.

Minggu pertama Anda: buku pedoman mini Hari 1: Buat . Mulai dev kecil dengan penghentian otomatis. Hari 2: Impor CSV kecil. Jelajahi dengan tampilan. Simpan tabel Delta. Hari 3: Bangun sederhana: mentah → bersih → agregat. Tambahkan komentar. Hari 4: Beralih ke SQL untuk memvalidasi hasil. Bangun dasbor kecil. Hari 5: Buat Pekerjaan untuk disegarkan setiap hari. Matikan , pulang tepat waktu.

Lembar contekan: perintah yang benar-benar akan Anda gunakan

Baca CSV/Parquet: spark.read.option("header", True).csv(path) / spark.read.parquet(path)

Tulis tabel Delta: df.write.format("delta").mode("append").saveAsTable("catalog.schema.table")

Sel SQL: %%sql diikuti oleh kueri Anda

Pola gabungan () dalam SQL:

MERGE INTO target t USING source s ON t.id = s.id WHEN MATCHED THEN UPDATE SET * WHEN NOT MATCHED THEN INSERT *;

(pemasukan inkremental) di Python:

df = (spark.readStream .format("cloudFiles") .option("cloudFiles.format", "json") .load("/mnt/raw/events"))

df.writeStream.format("delta").option("checkpointLocation","/mnt/chk").start("/mnt/delta/events")

Kapan beralih dari ke

Jika Anda menjalankan yang sama setiap hari, pindahkan ke Pekerjaan.

Jika Anda merangkai tiga atau lebih, pertimbangkan DLT—ini menyederhanakan dependensi dan menambahkan aturan kualitas data.

Jika beberapa tim bergantung pada keluaran, promosikan ke katalog terkelola dengan SLA yang jelas.

Satu hal terakhir (hukum gravitasi data Pogue) Data memiliki gravitasi. Sulit untuk dipindahkan dan mahal untuk dilempar-lemparkan. Databricks bekerja paling baik saat Anda membawa komputasi ke data, menjaga tabel Anda tetap rapi (Delta), dan mengotomatiskan bagian-bagian yang membosankan. Mulailah dari yang kecil, beri label pada semuanya, dan atur pengatur waktu penghentian otomatis itu seolah-olah tagihan Anda bergantung padanya—karena memang demikian.

Poin-poin penting

Mulailah dengan kecil dan penghentian otomatis.

Gunakan untuk menjelajah; simpan hasil bersih sebagai tabel Delta.

Untuk transformasi yang dapat diulang, gunakan DLT dan jadwalkan dengan Pekerjaan.

Bagikan wawasan melalui SQL Warehouses dan dasbor.

Kunci izin dan rahasia sejak dini; dokumentasikan saat Anda melakukannya.

Bersandarlah pada saat Anda membutuhkan dorongan—tetapi buat perintah Anda tetap spesifik.

Jika Anda dapat menghitung hingga lima dengan spark.range(5).show, Anda dapat membangun sesuatu yang berguna di Databricks. Dan begitu pekerjaan malam Anda berjalan tanpa membuat Anda gelisah pada pukul 2 pagi, Anda akan tahu bahwa Anda telah menyeberang ke wilayah langka dan indah yang dikenal sebagai “data yang berperilaku.”

FAQ

P1: Apa cara tercepat untuk mulai menggunakan Databricks sebagai pemula? Buat kecil yang menghentikan sendiri, buka , dan muat CSV kecil dengan tampilan untuk dijelajahi. Simpan hasil bersih Anda sebagai tabel Delta dan coba kueri SQL sederhana—ini memberi Anda kemenangan nyata pada hari pertama tanpa tersesat dalam fitur-fitur lanjutan.

P2: Haruskah saya menggunakan atau Delta Live Tables untuk saya? Mulailah dengan saat Anda mencari tahu; mereka sempurna untuk eksplorasi dan kemenangan cepat. Saat logika Anda stabil dan perlu berjalan dengan andal, beralihlah ke Delta Live Tables untuk dependensi terkelola, pemeriksaan kualitas data, dan pemantauan yang lebih mudah.

P3: Bagaimana cara mengendalikan biaya Databricks? Gunakan instans kecil untuk dev, aktifkan penghentian otomatis, dan pilih pekerjaan untuk menjalankan terjadwal. Hindari menyimpan DataFrame raksasa kecuali diperlukan, dan awasi metrik biaya dan anggaran sehingga tidak ada yang berjalan sepanjang akhir pekan.

P4: Dapatkah non- menggunakan Databricks secara efektif? Ya—SQL Warehouses ditambah dasbor membuat Databricks ramah bagi analis. Anda dapat menulis SQL biasa, memvisualisasikan hasil, dan berbagi wawasan tanpa menyentuh PySpark, lalu membawa teknisi hanya jika Anda memerlukan transformasi yang lebih berat.

P5: Apa keuntungan menyimpan data sebagai tabel Delta? Tabel Delta memberi Anda transaksi ACID, riwayat versi (perjalanan waktu), dan kinerja yang lebih baik. Itu berarti pembaruan yang lebih aman, yang lebih mudah saat terjadi kesalahan, dan kueri yang lebih cepat untuk data yang sama.