13 poin oleh GN⁺ 2026-02-08 | 3 komentar | Bagikan ke WhatsApp
  • Tim AI StrongDM mengusulkan konsep Software Factory yang menghasilkan perangkat lunak berkualitas tinggi tanpa perlu melihat kode
  • Berdasarkan spesifikasi/skenario, agen menulis kode, menjalankan harness pengujian, dan melakukan konvergensi tanpa peninjauan manusia dalam metode pengembangan non-interaktif
  • Kode tidak boleh ditulis atau ditinjau oleh manusia, dan Software Factory hanya akan berfungsi dengan baik jika menghabiskan biaya token minimal lebih dari 1.000 dolar per engineer per hari
  • Sejak Claude 3.5 revisi kedua (Oktober 2024), workflow coding agen jangka panjang mulai mengakumulasi akurasi secara majemuk alih-alih menumpuk kesalahan, sehingga kemungkinan pengembangan non-interaktif mulai terbukti
  • Dengan memperluas konsep pengujian yang ada, mereka memperkenalkan scenario dan satisfaction, membangun sistem di mana LLM menilai kepuasan pengguna secara probabilistik
  • Melalui Digital Twin Universe (DTU), layanan SaaS utama seperti Okta, Jira, dan Slack direplikasi untuk melakukan verifikasi skala besar, sehingga validasi skenario dapat dilakukan pada volume dan kecepatan yang melampaui batas produksi
  • Era agen secara fundamental mengubah ekonomi perangkat lunak, sehingga membangun replika SaaS berketelitian tinggi yang dulu tidak masuk akal secara ekonomi kini menjadi pekerjaan rutin

Konsep Software Factory

  • Specs dan scenarios menggerakkan agen untuk menulis dan memverifikasi kode dalam sistem pengembangan non-interaktif
    • Penulisan dan review kode oleh manusia dilarang, dan seluruh proses pengembangan dijalankan oleh agen
    • Efisiensi diukur dengan patokan penggunaan token lebih dari 1.000 dolar per engineer per hari
  • Pendekatan ini bertujuan membangun lingkungan produksi perangkat lunak otonom di mana kode dihasilkan, diverifikasi, dan dikonvergensikan secara otomatis tanpa campur tangan manusia

Peluncuran tim AI StrongDM

  • Pada 14 Juli 2025, tim AI StrongDM dibentuk untuk memulai eksperimen pengembangan non-interaktif
    • Peserta: Jay Taylor, Navan Chauhan, Justin McCarthy(co-founder sekaligus CTO)
  • Sejak akhir 2024, setelah Claude 3.5 (revisi Oktober), akurasi penulisan kode jangka panjang meningkat, sehingga compounding correctness menjadi mungkin alih-alih akumulasi kesalahan berulang
  • Melalui mode YOLO di Cursor, kemampuan model dalam penulisan kode jangka panjang terlihat jelas
  • Pada model sebelumnya, ketika LLM diterapkan berulang kali pada tugas coding, berbagai kesalahan seperti salah paham, halusinasi, error sintaks, pelanggaran version DRY, dan inkompatibilitas library terus menumpuk hingga aplikasi "runtuh"
  • Kombinasi model Anthropic yang diperbarui dan mode YOLO memperlihatkan kemungkinan awal dari pengembangan non-interaktif atau perangkat lunak yang ditumbuhkan

Prinsip inti: lepas tangan

  • Pada jam pertama hari pertama tim AI, sebuah piagam dibuat, dan prinsip terpentingnya adalah: "kode tidak boleh ditulis langsung oleh manusia"
  • Pada awalnya ini hanyalah intuisi dan eksperimen sederhana: seberapa jauh mereka bisa melangkah tanpa menulis kode sama sekali dengan tangan
  • Awalnya mereka menemui batas, lalu mulai membuat kemajuan setelah menambahkan pengujian
  • Agen terobsesi pada tugas langsung dan memilih jalan pintas: pengujian yang ditulis terlalu sempit bisa lolos hanya dengan return true, tetapi tidak tergeneralisasi menjadi perangkat lunak yang benar-benar diinginkan
  • Pengujian sederhana saja tidak cukup; perlu diperluas ke integration test, regression test, end-to-end test, dan behavioral test

Beralih dari test ke scenario dan satisfaction

  • Tema berulang di era agen: dibutuhkan bahasa baru, karena kata "test" tidak memadai dan ambigu
  • Test yang disimpan di codebase bisa ditulis ulang secara malas agar sesuai dengan kode, atau kode bisa ditulis ulang agar sekadar lolos test secara sepele
  • Istilah scenario didefinisikan ulang: mewakili user story end-to-end, disimpan di luar codebase (mirip set "holdout" dalam pelatihan model), dapat dipahami secara intuitif oleh LLM, dan diverifikasi secara fleksibel
  • Karena perangkat lunak yang ditumbuhkan itu sendiri mencakup komponen agen, evaluasi keberhasilan bergeser dari sekadar nilai boolean ke satisfaction yang bersifat probabilistik dan empiris
    • Satisfaction: mengukur proporsi lintasan teramati yang lolos semua scenario dan kemungkinan besar benar-benar memuaskan pengguna

Validasi scenario melalui Digital Twin Universe

  • Dalam rezim sebelumnya, integration test, regression test, dan otomasi UI dipakai untuk menentukan "apakah ini bekerja?"
  • Mereka menemukan dua keterbatasan dari teknik yang sebelumnya dianggap andal:
    • Test terlalu kaku: karena coding dilakukan dengan agen dan loop LLM + agen dibangun sebagai primitif desain, evaluasi keberhasilan sering kali memerlukan LLM-as-judge
    • Test rentan terhadap reward hacking: dibutuhkan validasi yang lebih tahan terhadap kecurangan model
  • Digital Twin Universe (DTU) menjadi jawabannya: klon perilaku dari layanan pihak ketiga yang menjadi dependensi perangkat lunak
    • Mereka membangun twin untuk Okta, Jira, Slack, Google Docs, Google Drive, dan Google Sheets, mereplikasi API, edge case, dan perilaku yang dapat diamati
    • Dengan DTU, validasi dapat dilakukan pada volume dan kecepatan yang jauh melampaui batas produksi
    • Mode kegagalan yang berisiko atau mustahil diuji di layanan live juga bisa diuji
    • Ribuan scenario per jam dapat dijalankan tanpa menyentuh rate limit, memicu deteksi penyalahgunaan, atau menumpuk biaya API

Ekonomi yang tidak konvensional

  • Keberhasilan melalui DTU menunjukkan salah satu dari banyak cara Agentic Moment mengubah ekonomi perangkat lunak secara mendasar
    • Membuat klon berketelitian tinggi dari aplikasi SaaS utama selalu mungkin secara teknis, tetapi tidak layak secara ekonomi
    • Beberapa generasi engineer menginginkan replika penuh in-memory dari CRM untuk pengujian, tetapi bahkan tidak pernah mengusulkannya ke manajer karena sudah menduga akan ditolak
  • Pembangun Software Factory perlu mempraktikkan deliberate naivete: mencari lalu menghapus kebiasaan, konvensi, dan batasan dari Software 1.0
    • Melalui DTU, hal yang enam bulan lalu tak terbayangkan kini dirutinkan sebagai pekerjaan sehari-hari

Bacaan selanjutnya

  • Principles : keyakinan mereka tentang pengembangan perangkat lunak dengan agen
    • Perangkat lunak ditumbuhkan dengan struktur seed → validation harness → feedback loop, dan token berperan sebagai bahan bakar
    • Semua perangkat lunak membutuhkan seed awal: dulu berupa PRD atau spesifikasi, kini bisa berupa beberapa kalimat, screenshot, atau codebase yang sudah ada
    • Validation harness harus end-to-end dan sedekat mungkin dengan lingkungan nyata (pelanggan, integrasi, ekonomi)
    • Feedback yang memasukkan sampel output kembali sebagai input membentuk closed loop yang memungkinkan sistem memperbaiki dirinya sendiri dan mengakumulasi akurasi secara majemuk
    • Teori validasi dan feedback mudah dipahami, tetapi praktiknya membutuhkan engineering kreatif dan mutakhir: mencari cara untuk mengubah setiap hambatan menjadi representasi yang dapat dipahami model
  • Techniques : pola-pola berulang untuk menerapkan prinsip-prinsip ini
    • Digital Twin Universe (DTU)
      • Mereplikasi perilaku yang dapat diamati dari dependensi pihak ketiga yang penting
      • Validasi pada volume dan kecepatan yang jauh melampaui batas produksi
      • Menyediakan kondisi pengujian yang deterministik dan dapat direproduksi
    • Gene Transfusion
      • Menetapkan agen pada contoh yang konkret untuk memindahkan pola kerja antar-codebase
      • Solusi yang dipasangkan dengan referensi yang baik dapat direproduksi dalam konteks baru
    • Filesystem
      • Model dapat menjelajahi repositori dengan cepat dan menyesuaikan konteksnya sendiri melalui baca/tulis file
      • Direktori, indeks, dan status on-disk berfungsi sebagai fondasi memori yang praktis
    • Shift Work
      • Memisahkan pekerjaan interaktif dan pekerjaan yang sepenuhnya terspesifikasi
      • Saat intensi sudah lengkap (spesifikasi, test, aplikasi yang ada), agen dapat mengeksekusi end-to-end tanpa bolak-balik
    • Semport
      • Porting otomatis yang sadar semantik, dilakukan sekali atau berkelanjutan
      • Memindahkan kode antarbahasa atau framework sambil mempertahankan intensi
    • Pyramid Summaries
      • Ringkasan reversibel pada berbagai level zoom
      • Mengompresi konteks tanpa kehilangan kemampuan untuk mengekspansinya kembali ke detail penuh
  • Products : alat-alat yang mereka gunakan setiap hari dan mereka yakini juga berguna bagi orang lain
    • CXDB adalah penyimpanan konteks self-hosted untuk agen AI, menyediakan Turn DAG, deduplikasi blob, tipe dinamis, dan visual debugging
    • StrongDM ID adalah sistem identitas untuk manusia, workload, dan agen AI, mendukung federated auth dan path-scoped sharing
    • Attractor adalah agen coding non-interaktif yang disusun dengan phase graph, untuk eksekusi end-to-end saat tugas sudah sepenuhnya terspesifikasi

3 komentar

 
pencil6962 2026-02-08

Saya mencoba pengembangan berbasis spesifikasi dengan memakai multi-agent. Memang benar beban kerja banyak berkurang, tetapi karena keterbatasan performa LLM, produk yang benar-benar memuaskan pelanggan belum bisa dibuat. Penggantian 100% tidak mungkin, dan pekerjaan manusia masih diperlukan sampai tingkat tertentu.

 
xguru 2026-02-08

Memang agak provokatif, tapi sampai batas tertentu saya juga bisa memahaminya.. entah kenapa ini tulisan yang bikin perasaan jadi aneh.

Kalau membaca tulisan ini lalu melihat tulisan di bawah, rasanya jadi lebih relate.
Berduka atas jiwa craftsmanship kita

 
GN⁺ 2026-02-08
Komentar Hacker News
  • Saya setuju dengan konsep Digital Twin Universe
    Codebase saya juga punya banyak integrasi layanan eksternal, jadi saat panggilan eksternal diblokir ketika testing, hampir tidak ada yang bisa diverifikasi
    Karena itu saya membuat implementasi palsu untuk tiap API seperti Okta, Jira, Slack, Google Docs, dan lainnya untuk pengujian
    Namun saya tidak menyalin UI-nya, hanya meniru perilaku API-nya

  • Pernyataan bahwa “kalau tidak menghabiskan token $1.000 per hari per engineer, masih ada ruang untuk peningkatan” terdengar terlalu tidak realistis
    Sulit percaya itu benar-benar klaim serius

    • Kalau dihitung, itu sekitar $250k per tahun
      Kalau AI benar-benar menghasilkan produktivitas sebesar itu, mungkin bisa masuk akal
      Secara realistis, efisiensinya mungkin setara dua engineer junior
      Pada akhirnya manusia tampaknya hanya akan berperan sebagai lead untuk perencanaan dan verifikasi
      Memang optimisme yang berlebihan, tapi bukan ide yang sepenuhnya gila

    • Saya cuma memakai langganan Claude dan OpenAI seharga $20 per bulan
      Kalau token habis, saya jalan-jalan atau baca buku
      Saya bukan akselerasionis, tapi pekerjaan tetap beres

    • Saya salah satu anggota tim StrongDM
      Intinya, menghabiskan token $1.000 per hari itu mudah, tetapi menggunakannya secara produktif itu sulit

    • Ini terlihat seperti sekadar pamer
      Rasanya seperti mengirim sinyal, “kami lebih maju dalam AI daripada kalian”

    • Saya merasa malu saat membaca tulisannya
      Kesan saya, mocks dan pengujian simulasi yang sudah ada hanya dibungkus seolah-olah sebagai “inovasi”
      Meski begitu, saya menghargai mereka karena jujur membuka struktur biayanya

  • Saya mencari kode atau produk nyata di situs mereka
    Satu-satunya yang saya temukan adalah strongdm/attractor
    “Coding dengan pacar asal Kanada” kini tampaknya sudah jadi model bisnis
    Saya juga menemukan strongdm/cxdb, tetapi riwayat commit-nya sudah dirapikan

    • Ada kode nyata di repositori cxdb

    • Saya tidak tahu ini kegilaan atau sekilas masa depan

    • Di halaman Products juga ada database dan sistem ID
      Jika banyak agen harus berkolaborasi, konteks bersama dan sistem izin adalah hal yang wajib

    • Saya pernah mengikuti webinar tentang BAML dari BoundaryML
      Spec-driven development adalah pendekatan untuk membuat workflow terstruktur dengan manusia tetap berada di dalam loop
      Loop /research → /plan → /implement didefinisikan dengan jelas, dan di tiap tahap ada verifikasi manusia
      Ini adalah filosofi yang sepenuhnya berlawanan dengan klaim StrongDM bahwa “manusia tidak menulis atau membaca kode”

    • Rasanya seperti posting blog kosong lainnya
      Tidak ada hasil nyata, dan cerita token $1.000/hari terasa seperti untuk memikat investor

  • Jika masalah verifikasi tidak diselesaikan, semua ini hanya pamer belaka
    Meski ada review otomatis atau guardrail, pada akhirnya tetap manusia yang harus memastikan kecocokan antara spesifikasi dan hasil

    • Di Speedscale kami mengotomatiskan verifikasi lewat capture dan replay traffic

    • Sebenarnya developer manusia juga tidak sempurna
      Sudah ada banyak prosedur verifikasi sistematis seperti code review, testing, QA, dan sebagainya
      Yang penting bukan apakah AI sempurna, melainkan apakah kualitas keseluruhan sistem akan konvergen
      Dari pengalaman saya, dengan Opus 4.5 ada sedikit efek keuntungan bersih

    • Saya hampir sepenuhnya setuju
      Intinya adalah verifikasi, bukan generasi
      Saya sedang membangun struktur di mana beberapa agen independen mengungkapkan perbedaan pendapat lalu mencapai konsensus

    • Singkatnya, verifikasi dan pengujian keamanan dilempar ke pengguna akhir

    • Kita perlu lebih aktif memakai bahasa berbasis spesifikasi dan verifikasi formal
      Pada akhirnya, pemrograman akan didefinisikan ulang sebagai “tindakan mengonkretkan spesifikasi”

  • Token $1.000 per hari berarti menghabiskan lebih banyak uang untuk AI daripada untuk manusia
    Ini tampak seperti titik runtuh visi AI

    • Katanya Simon Willison sudah memperbarui tulisannya

    • $240k per tahun setara engineer FANG level pemula
      Sejujurnya, banyak junior yang lebih buruk daripada Claude
      Pada akhirnya kemungkinan akan tersusun ulang menjadi struktur piramida dengan sedikit manusia di puncak

    • Jika pekerjaan yang sama bisa selesai dalam 5 hari, maka biaya dibanding kecepatan mungkin masih masuk akal

    • Jika output-nya bertambah secara proporsional, maka efisiensi biaya mungkin cocok
      Selain itu, harga token juga bisa turun

  • Industri hukum dan asuransi akan paling kesulitan menghadapi perubahan ini
    Kesalahan manusia masih bisa dimodelkan, tetapi rantai error dari loop otonom adalah masalah yang sama sekali berbeda

    • Industri asuransi sepertinya akan mengambil pendekatan sederhana
      Keputusan AI pada akhirnya akan bermuara pada tanggung jawab manusia
      Ini tampaknya akan menjadi rem bagi pergeseran agentic secara keseluruhan
  • Token $1.000 per hari adalah metrik yang tidak masuk akal
    Kalau kualitas kode buruk, konsumsi token akan meledak
    Pada akhirnya, codebase yang berantakan lah yang memperbesar biaya
    Jika ada tim yang membakar seribu dolar per hari, efisiensinya kemungkinan nyaris nol
    (Referensi: meme ini)

    • Ini soal optimasi jangka pendek vs jangka panjang
      Pilihannya adalah meningkatkan efisiensi sekarang, atau memperbaiki keseluruhan sistem

    • Mungkin baru sekarang para eksekutif akan sadar akan pentingnya refactoring

  • Tim yang pernah saya sebut sebagai pola Dark Factory rupanya memang mereka
    Saya menulis artikel terkait, dan tim ini adalah eksperimentator paling ambisius

    • Namun kenyataannya hampir tidak ada hasil nyata
      Jika memberi beberapa mahasiswa $10k, saya rasa mereka bisa membuat sesuatu yang lebih baik

    • Token $1.000 per hari adalah sesuatu yang bahkan tak bisa saya impikan dengan anggaran tim saya
      Secara pribadi pun mustahil karena biaya hidup
      Pada akhirnya rasanya seperti “kalau dilakukan hancur, kalau tidak dilakukan juga hancur”

    • Jika tidak ada hasil yang bisa diverifikasi, maka ini hanya omongan
      Sekarang bahkan omongan pun jadi jauh lebih murah berkat LLM

    • Perlu ada keterbukaan yang etis
      Istilah di situs itu hanya konsep lama yang dikemas ulang
      “Digital Twin Universe” adalah mocks, “Gene Transfusion” adalah membaca kode referensi, “Semport” adalah transpiling
      Tidak ada data atau benchmark nyata sama sekali
      Ini contoh pemasaran AI yang dibungkus sebagai wawasan engineering

    • Sebenarnya sebagian besar kode intinya sudah ada di GitHub
      Pembeda sebenarnya adalah desain mekanisme dan sistem nilai
      Masa depan kemungkinan akan bergerak ke gabungan formal methods dan AI

  • “Menguji dengan menyisakan skenario sebagai holdout set” terdengar menarik
    Ini meniru konsep pengujian agresif oleh tim QA
    Memisahkan tim build dan tim pendeteksi bug menjadi struktur kompetitif satu sama lain terasa menarik
    Namun token $1.000 per hari terasa membuat putus asa bagi developer open source

    • Biaya bisa ditekan dengan memakai model lokal
      Seperti di thread ini, otomatisasi agen lokal juga sangat mungkin dilakukan

    • Mungkin suatu hari para agen akan saling menyuap

    • Saya tetap lebih suka manusia tetap berada di dalam loop
      Membakar token tanpa arah hanyalah pemborosan

  • Saya mengeksplorasi kerangka mental pemanfaatan LLM di artikel “LLMs aren’t tools”
    “Pabrik perangkat lunak” adalah titik akhir saat ini, tetapi tahap berikutnya adalah melihat LLM sebagai sebuah aplikasi
    Artinya, bukan sekadar otomatisasi workflow, melainkan tahap membuat harness kustom