Pengenalan: Ejen Yang Semua Orang Mahu, Tanpa Hype
Perkara tentang ejen pengekodan ialah kebanyakan mereka cuba menjadi bos anda, pembantu juruterbang anda, dan ahli terapi anda—kemudian lupa untuk hanya menulis kod. Cara kerjanya begini: tambah sedozen stor vektor, taburkan sedikit debu pixie orkestrasi, pasangkan penyemak imbas, kemudian anggap ia selesai. Demo berjalan lancar. Ia juga runtuh sebaik sahaja anda memintanya membetulkan ujian integrasi yang tidak stabil pada pukul 4:52 petang pada hari Jumaat.
Membina ejen pengekodan ringan dengan Claude 4.5 adalah—kejutan—sebenarnya mudah jika anda berhenti mengejar impian seorang butler perisian universal dan hanya membina alat yang membaca kod, merancang, mengedit, menjalankan, dan mengulang. Tiada khutbah tentang “AI menggantikan pembangun.” Tiada saluran paip Rube Goldberg. Hanya gelung ketat yang melakukan perkara yang jelas, dengan baik.
Ini ialah panduan cara untuk sampai ke sana tanpa membawa masuk seluruh jabatan operasi AI. Kami akan menggunakan Claude 4.5 untuk otak, sistem fail dan shell untuk tangan, dan memori kecil untuk fokus jangka pendek. Itu sahaja. Ringan bermakna anda boleh memahaminya dalam satu sesi, menjalankannya secara tempatan, dan mempercayainya kerana setiap langkah boleh diperiksa. Yang, jika anda telah menggunakan apa-apa sahaja dalam ruang ini baru-baru ini, hampir bersifat subversif.
Mengapa Claude 4.5 Berfungsi untuk Ejen Minimal
Claude 4.5 mempunyai perangai yang anda benar-benar mahukan untuk kod: berhati-hati dengan mengikuti arahan, agak baik dalam membaca perbezaan, dan tidak terlalu berminat untuk menghalusi rangka kerja yang anda tidak minta. Model ini cekap dalam penaakulan langkah demi langkah tanpa memerlukan novel gesaan keseluruhan. Gabungan itu—penaakulan serta kekangan—menjadikannya sesuai untuk gelung ejen pengekodan:
- Perhatikan: Baca fail semasa, log ralat dan ujian.
- Rancang: Cadangkan edit konkrit dengan rasional.
- Bertindak: Tampal fail, jalankan arahan.
- Renungkan: Nilaikan output, ulang atau berhenti.
Anda boleh memasang ini pada mana-mana repo dan mendapat nilai dalam satu petang. Caranya ialah menahan keinginan untuk mengubahnya menjadi “platform AI.” Jika anda memastikan ejen itu ringan, Claude 4.5 melakukan kerja berat tanpa menghalang anda.
Seni Bina Ringan: Lima Bahagian, Tiada Drama
Berikut ialah keseluruhan tindanan yang anda perlukan:
- Gelung teras: Satu proses yang memanggil Claude 4.5 dan mentafsir mesej penggunaan alatnya.
- Alat: Set kecil—read_file, write_file, list_dir, run_tests (atau run_cmd), search_code.
- Pembina konteks: Kumpulkan gesaan pendek dan tepat dengan metadata repo dan perbezaan terkini.
- Memori jangka pendek: Tetingkap perbualan bergulir serta pad gores eksplisit untuk rancangan dan kekangan.
- Rel panduan: Had token, masa dan tulis fail; mod larian kering; dan syot kilat pemulihan.
Itu sahaja. Anda boleh menjalankannya tanpa kepala dalam terminal atau membungkusnya dalam UI minimal jika anda perlu. Sebab ini berfungsi adalah membosankan: setiap tindakan diperhatikan dan boleh disahkan. Ejen mencadangkan perubahan, menunjukkan perbezaan, menjalankan ujian, membaca output, dan sama ada meneruskan atau berhenti. Tiada daging misteri di tengah-tengah.
Cara Membina Ejen (Tanpa Kehilangan Plot)
Langkah 1: Tentukan Kontrak—Gesaan dan Alat
Ejen anda sama baiknya dengan kontraknya dengan model. Pastikan gesaan sistem pendek, ketat dan praktikal tanpa henti.
Gesaan sistem, disuling:
- Anda ialah ejen pengekodan. Tugas anda ialah membuat perubahan kecil dan betul pada repo untuk memenuhi tugas pengguna.
- Fikirkan dengan kuat dalam pad gores tersembunyi; dedahkan hanya rancangan dan perbezaan kepada pengguna.
- Utamakan perbezaan minimal, ujian kerja dan kemajuan tambahan.
- Apabila tidak pasti, cadangkan eksperimen dan jalankannya.
- Jangan sekali-kali mengada-adakan fail atau arahan—senarai dan baca sebelum anda mengedit.
Skema alat (jangan terlalu memikirkannya):
- read_file(path, offset?, length?)
- write_file(path, content, create_if_missing=false)
- run_cmd(command, timeout=60, cwd=repo_root)
- search_code(query, path=repo_root, max_results=50)
Kemudahan pilihan: git_diff dan git_revert(sha) jika anda mahukan pemulihan tanpa tangan. Anda boleh melangkau stor vektor; kebanyakan tugas berguna bergantung pada sebilangan kecil fail dalam memori kerja serta carian pantas.
Langkah 2: Pastikan Konteks Kurus
Pengisian konteks ialah kultus kargo reka bentuk ejen. Jangan buang seluruh monorepo anda ke dalam gesaan. Sebaliknya:
- Ringkasan repo: Ringkasan README satu perenggan; titik masuk; arahan pelari ujian.
- Fail aktif: Hanya fail yang dirancang oleh ejen untuk disentuh—bacanya dalam bahagian mengikut keperluan.
- Tugas: Matlamat pengguna, yang dinyatakan dengan jelas: “Betulkan ujian FooTest.test_bar yang gagal dalam tests/foo_test.py.”
- Kekangan: Had masa jalan, senarai putih tulis fail, peraturan gaya dan jangkaan versi semantik jika berkenaan.
- Sejarah terkini: Dua perbezaan terakhir dan hasil ujiannya. Tiada apa-apa lagi.
Claude 4.5 mampu mendapatkan lebih banyak konteks apabila ia memerlukannya melalui search_code dan read_file. Berikan ia peta, bukan wilayah.
Langkah 3: Gelung (Perhatikan → Rancang → Bertindak → Renungkan)
- Perhatikan: Mulakan dengan menyenaraikan direktori, membaca ujian yang gagal, kod yang sedang diuji dan log ralat. Minta Claude meringkaskan simptom kegagalan dalam dua atau tiga peluru.
- Rancang: Minta Claude mencadangkan rancangan dengan:
- Hipotesis untuk kegagalan
- Fail untuk diperiksa atau diedit
- Perbezaan minimal untuk dicuba
- Arahan ujian untuk mengesahkan
- Bertindak: Gunakan perbezaan yang dicadangkan melalui write_file. Tunjukkan perbezaan secara verbatim. Jalankan ujian.
- Renungkan: Suapkan stdout/stderr kembali. Tanya Claude: teruskan, gulung balik atau berhenti? Jika rancangan berubah, minta justifikasi satu ayat yang merujuk output sebenar.
- Keluar: Berhenti apabila ujian lulus, atau selepas N lelaran, mana-mana yang lebih dahulu.
Ini ialah pengaturcaraan berpasangan yang dimuliakan di mana anda benar-benar memastikan pasangan itu jujur.
Langkah 4: Rel Panduan Yang Menyelamatkan Hujung Minggu Anda
- Senarai putih tulis: Hanya benarkan tulis dalam src/, lib/ atau laluan yang diluluskan secara eksplisit.
- Had saiz perbezaan: Hadkan edit kepada 200–500 baris setiap langkah. Jika lebih besar, bahagikan kepada sublangkah.
- Senarai benarkan arahan: pelari ujian, linter dan beberapa skrip dev. Haramkan rangkaian. Anda mahukan kebolehulangan, bukan curl wild-west.
- Masa tamat dan percubaan semula: Masa tamat yang singkat, satu percubaan semula maksimum—gelung larian semula yang tidak berkesudahan ialah tempat ejen pergi untuk mati.
- Mod larian kering: Cetak perbezaan yang dicadangkan tetapi jangan tulis. Hebat untuk semakan kod.
Claude 4.5 akan mematuhi peraturan jika anda menjadikannya eksplisit. Jika anda tidak, jangan terkejut apabila ia cuba “membantu” dengan menyusun semula seluruh repo anda agar mematuhi beberapa catatan blog dari 2017.
Langkah 5: Memori Yang Sebenarnya Berguna
Memori jangka pendek menyelesaikan 80% masalah. Simpan:
- Pad gores untuk hipotesis dan rancangan semasa.
- Senarai fail yang disentuh sesi ini.
- Dua output arahan terakhir.
Itu sudah cukup untuk Claude 4.5 untuk menaakul dengan jelas. Memori jangka panjang—log tugas, pembenaman—boleh membantu untuk asas kod yang berulang, tetapi anggap ia sebagai gula pilihan. Jika ejen anda tidak boleh membetulkan ujian tanpa indeks vektor 500MB, ia bukan ejen—ia ialah kebergantungan.
Lakaran Pelaksanaan Minimal
Dalam istilah pseudokod, anda boleh melaksanakan ejen ini dalam beberapa ratus baris:
- mulakan: muatkan metadata repo, kekangan dan klien model
- perhatikan: baca ujian, fail, log yang gagal
- rancangan = model.cadangkan_rancangan(konteks)
- sementara tidak selesai dan langkah < MAX:
- perbezaan = model.cadangkan_tampalan(rancangan)
- tunjukkan(perbezaan); mungkin luluskan
- out = run_cmd(plan.test_cmd)
- renungkan = model.nilaikan(out)
- jika renungkan == lulus: selesai = benar
- jika tidak jika renungkan == gulung balik: git_revert(komit_terakhir)
- jika tidak: rancangan = model.semak_rancangan(out)
Anda akan perasan bahagian yang hilang: tiada ejen yang mengurus ejen, tiada “perwakilan,” tiada “model perancang” dan “model pelaksana” yang berasingan. Claude 4.5 boleh melakukan kedua-dua pekerjaan dengan baik jika anda tidak mensabotajnya dengan alat Rube Goldberg.
Gesaan Yang Tidak Terlalu Berusaha Keras
Gesaan buruk cuba menjadi pandai. Gesaan yang baik adalah membosankan dan khusus. Berikut ialah rangka kerja yang waras untuk blok arahan teras anda:
- Matlamat: Nyatakan tugas pengekodan dan kriteria kejayaan yang tepat.
- Konteks: Struktur projek, titik masuk dan arahan ujian.
- Kekangan: Senarai putih tulis, had saiz perbezaan, tiada rangkaian.
- Keutamaan gaya: Versi bahasa, pemformat, peraturan linter.
- Proses: Perhatikan → Rancang → Bertindak → Renungkan; tunjukkan perbezaan; jalankan ujian; ulang sehingga N langkah; berhenti apabila ujian lulus.
Claude 4.5, dengan struktur ini, tidak memerlukan senario main peranan 100 baris. Ia hanya berfungsi.
Contoh Praktikal: Betulkan Ujian Yang Gagal
Katakan ujian gagal dalam tests/time_test.py kerana parse_time("09:00") mengembalikan 5400 dan bukannya 32400. Gelung ejen hendaklah kelihatan seperti ini:
- Perhatikan: Baca time.py dan time_test.py; jalankan pytest -k parse_time.
- Rancang: Hipotesis—pepijat matematik saat vs minit; cadangkan mengedit parse_time; tambah kes pinggir unit.
- Bertindak: Tampal parse_time, tambah ujian untuk jam angka awalan; jalankan ujian.
- Renungkan: Jika ujian masih gagal, baca ralat, laraskan matematik atau regex, jalankan semula.
Tampalan berjaya minimal mungkin merupakan perubahan dua baris. Itulah maksudnya. Edit kecil, kitaran pantas, kemajuan sebenar.
Tempat Ringan Mengalahkan Berlebihan
- Latensi: Satu model, satu gelung, tiada overhed orkestrasi.
- Ketelusan: Setiap langkah boleh diaudit. Anda boleh membezakannya, anda boleh memulihkannya, anda boleh menjalankannya semula.
- Kawalan: Rel panduan memastikan kerosakan setempat. Ejen tidak boleh merayau ke dalam infrastruktur anda.
- Kos: Kurang panggilan, kurang konteks, token yang boleh diramal.
- UX: Anda memahaminya. Rakan sepasukan anda memahaminya. Diri masa depan anda tidak akan membenci anda.
Dan tolak ansur:
- Keluasan: Ejen pengekodan ringan tidak akan menyusun semula monorepo lima bahasa anda dalam satu laluan. Juga tidak sepatutnya.
- Inisiatif: Ia tidak akan mencipta peta jalan berbilang minggu. Anda memberikannya tugas.
- Keadaan: Tanpa lapisan memori yang besar, ia melupakan sejarah yang jauh mengikut reka bentuk. Itu ialah ciri sehingga ia menjadi pepijat.
Tempat Manis Claude 4.5 untuk Ejen Pengekodan
Claude 4.5 menyerlah dalam:
- Membaca dan menaakul tentang perbezaan dan log.
- Menghasilkan perubahan kod minimal yang koheren.
- Mengikuti kekangan dan bersikap eksplisit tentang ketidakpastian.
Ia kurang hebat dalam:
- Meneka tingkah laku API yang tidak boleh dibacanya.
- Koreografi alat berat (tidak diperlukan di sini).
- Penyusunan semula berbilang fail yang panjang tanpa manusia membimbing langkah-langkah.
Perkara terakhir itu penting. Cara terbaik untuk mendapatkan hasil yang kukuh bukanlah dengan menjadikan ejen lebih besar—ia adalah dengan menjadikan tugas lebih kecil. Gunakan otak anda untuk skop, dan Claude 4.5 untuk pelaksanaan dalam skop itu.
Sepatah Kata tentang Integrasi IDE
Tahan keinginan untuk membakar ini terus ke dalam panel IDE dengan lima puluh togol. Gelung berasaskan terminal dengan perbezaan teks biasa lebih mudah dipercayai dan dinyahpepijat. Jika anda mahukan kemudahan editor, pastikan ia bodoh:
- Arahan untuk memulakan/menghentikan gelung.
- Tunjukkan perbezaan dalam paparan berpecah.
- Gesaan kelulusan untuk tulis (pilihan tetapi bijak).
Anda boleh menyepadukan kemudian. Pertama, pastikan ia berfungsi.
Sider.AI, Digunakan dengan Berjimat, Sebenarnya Membantu Jika anda mahukan persekitaran pragmatik untuk menjalankan gelung jenis ini tanpa mencipta semula perancah, Sider.AI sebenarnya berfungsi—sekurang-kurangnya apabila anda menggunakannya untuk perkara yang ia bagus. Ia memastikan perbualan dan perbezaan kemas, membolehkan anda menjalankan arahan dan tidak memaksa anda dengan “rangka kerja ejen autonomi” yang hebat. Caranya ialah menyimpan peraturan anda sendiri: gesaan pendek, gelung ketat, perbezaan yang boleh dilihat. Sider tidak menghalang, yang lebih jarang daripada yang sepatutnya. Perangkap Biasa (dan Cara Mengelakkan Kelihatan Bodoh)
- Konteks yang terlalu padat: Jika gesaan anda berbunyi seperti nota tebusan, anda melakukan kesilapan. Dapatkan fail atas permintaan.
- Penyusunan semula pramatang: Ejen mencadangkan penyusunan semula modul? Pastikan ia lulus ujian dahulu. Susun semula kemudian.
- Fail yang dihalusinasi: Minta list_dir dan read_file sebelum sebarang write_file ke laluan baharu.
- Gelung larian semula yang tidak terhingga: Hadkan langkah. Minta justifikasi untuk setiap hipotesis baharu.
- Satu perbezaan gergasi: Bahagikan perubahan. Perbezaan yang lebih kecil gagal lebih cepat dan lebih mudah untuk ditaakul.
Keselamatan dan Perlindungan Tanpa Paranoid
- Pelaksanaan tempatan: Jalankan dalam direktori kotak pasir. Tiada rangkaian secara lalai.
- Pengasingan kebergantungan: Gunakan venv atau bekas tempatan. Sematkan versi.
- Rahsia: Ejen tidak memerlukannya. Jika arahan memerlukan token, berhenti dan tanya.
- Pengauditan: Kekalkan setiap rancangan, perbezaan dan arahan dalam log.
Cara Mengetahui Ia Berfungsi
- Masa utama mengecil: Pembaikan pepijat yang mengambil masa sejam kini mengambil masa sepuluh minit.
- Kurang kesilapan jari gemuk: Perbezaan menjadi lebih kecil, ujian menjadi lebih hijau.
- Anda mempercayainya: Anda berhenti terapung di atas setiap tindakan kerana ia belum membakar anda.
- Rakan sepasukan menggunakannya: Definisi kejayaan ialah orang lain menerimanya tanpa mesyuarat.
Meningkatkan Skala, dengan Berhati-hati
Jika anda benar-benar mesti meningkatkan skala, lakukan dengan disiplin:
- Subtugas selari, bukan otak selari: Bahagikan kerja, jalankan berbilang gelung ringan dalam direktori yang berasingan, dan gabungkan apabila hijau.
- Memori episod, bukan lambakan otak: Simpan tampalan yang berjaya dan pemetaan simptom kepada pembaikan. Dapatkan semula secara pembedahan.
- Laluan “lebih besar” berkala: Rizab sesi berpandukan manusia untuk penyusunan semula; ejen membantu, tidak memimpin.
Pelaksanaan Rujukan Minimal (Lakaran)
Pseudokod Python untuk bergerak:
- def init(self, repo_root, model):
- self.history = [] # dua perbezaan terakhir dan output ujian
- "repo": summarize_repo(self.root),
- "constraints": {"write_whitelist": ["src/", "tests/"], "max_diff_lines": 300, "no_network": True},
- "history": self.history[-2:],
- plan = self.model("propose_plan", self.context(task))
- diff = self.model("propose_patch", {"plan": plan})
- out = run_cmd(plan.test_cmd)
- eval = self.model("evaluate", {"output": out, "plan": plan})
- self.history.append({"diff": diff, "out": tail(out)})
Pengakhiran Bersaiz Manusia
Industri terus menjanjikan ejen pembangun autonomi. Perkara yang sebenarnya kita perlukan ialah pembantu jujur yang membaca, merancang, mengedit, menjalankan dan berhenti. Claude 4.5 pandai dalam hal itu, dengan syarat anda tidak menanamnya di bawah rangka kerja yang kebanyakannya wujud untuk mewajarkan diri mereka sendiri. Ringan bukanlah kompromi—ia adalah maksudnya. Bina gelung, tambah rel panduan, dan biarkan alat melakukan satu perkara yang selalu dilakukan oleh alat apabila anda memastikan ia mudah: menjadikan kerja lebih kecil.
Kesimpulan: Pintasan Membosankan Yang Menang
Berikut ialah senarai semak anda untuk ejen pengekodan ringan dengan Claude 4.5:
- Satu gelung, satu model, alat kecil.
- Konteks ketat: tugas, beberapa fail, output terakhir.
- Perbezaan minimal, ujian kerap, had keras.
- Pelaksanaan setempat, kotak pasir; tiada rangkaian.
- Kemudahan editor pilihan; tidak pernah diperlukan.
Jika anda menjulingkan mata, ia kelihatan mencurigakan seperti kejuruteraan perisian yang baik, cuma lebih pantas. Dan itulah punchline. Perkara paling bijak yang boleh anda lakukan di sini bukanlah untuk mengejar “autonomi”—ia adalah untuk mengkodifikasi disiplin. Semakin kurang anda meminta daripada ejen, semakin banyak yang anda dapat.
Soalan Lazim
S1:Bagaimana saya mula membina ejen pengekodan ringan dengan Claude 4.5?
Tentukan set alat kecil (baca, tulis, cari, jalankan), tulis gesaan sistem yang ketat dan laksanakan gelung Perhatikan → Rancang → Bertindak → Renungkan. Pastikan konteks kecil dan suapkan log dan perbezaan sebenar—Claude 4.5 berfungsi paling baik apabila tugas itu sempit dan maklum balasnya konkrit.
S2:Adakah saya memerlukan pangkalan data vektor atau lapisan memori untuk ejen pengekodan Claude 4.5?
Tidak. Untuk kebanyakan tugas, memori jangka pendek serta search_code sudah mencukupi. Tambah memori jangka panjang hanya jika anda berulang kali melawati semula repo yang sama dan boleh membuktikan ia menjimatkan token tanpa menjadikan ejen lebih bodoh.
S3:Apakah rel panduan yang penting untuk ejen pengekodan Claude 4.5?
Senarai putih laluan boleh tulis, hadkan saiz perbezaan, sekatan arahan dan log setiap tindakan. Had mudah ini memastikan ejen itu boleh diramal dan menjadikan pemulihan membosankan—dalam cara yang baik.
S4:Bolehkah ejen ringan mengendalikan penyusunan semula berbilang fail?
Ya, jika anda membahagikan kerja kepada langkah kecil dan memastikan gelung ketat. Claude 4.5 boleh mengurus penyusunan semula, tetapi anda membimbing skop; jika tidak, anda akan mendapat satu perbezaan gergasi dan rapuh yang anda tidak mahu semak.
S5:Di manakah Sider.AI sesuai dengan ejen pengekodan Claude 4.5?
Sider.AI berguna sebagai ruang kerja yang kemas: perbualan, perbezaan dan arahan di satu tempat, tanpa memaksa rangka kerja ejen berat. Gunakannya untuk menjalankan gelung anda, bukan untuk menciptanya semula.