Thoughtworks Technology Radar, Volume 34 dirilis
(thoughtworks.com)- Tren terbaru di bidang teknik/alat/platform/bahasa pemrograman dan framework divisualisasikan dan dijelaskan dalam empat tahap: "direkomendasikan untuk diadopsi, uji coba, evaluasi, perhatian"
- Empat tema utama: era agen dan evaluasi teknologi, prinsip tetap dipertahankan tetapi pola perlu ditinjau ulang, masalah keamanan agen, harness agen pemrograman
Tantangan evaluasi teknologi di era agen
- Dengan adopsi AI, evaluasi teknologi itu sendiri menjadi makin sulit, dan karena semantic diffusion istilah-istilah baru muncul cepat sebelum maknanya sempat stabil
- Istilah seperti spec-driven development dan harness engineering digunakan tanpa konsistensi atau dengan makna yang saling tumpang tindih
- Karena tidak ada definisi bersama, sulit menilai apakah ini teknik yang berbeda atau hanya nama lain untuk konsep yang sama
- Tetap menjadi tantangan berkelanjutan untuk membedakan antara metodologi rekayasa independen yang matang dan penggunaan sehari-hari alat AI seperti coding assistant
- Kecepatan perubahan memperbesar ketidakpastian; banyak alat yang bahkan belum berumur sebulan bermunculan, dan sebagian dipelihara oleh satu kontributor bersama coding agent
- Jika menunggu alat matang, panduannya akan usang; jika bergerak cepat, ada risiko menyoroti tren yang segera menghilang
- Ini menimbulkan pertanyaan tentang keberlanjutan hal-hal yang dibuat dengan cepat dan sedikit upaya
- Utang kognitif basis kode (Codebase Cognitive Debt)
- Semakin banyak kode hasil generasi AI, semakin mudah mengadopsi solusi tanpa model mental tentang cara kerjanya
- Jika kesenjangan pemahaman ini menumpuk, sistem akan semakin sulit ditalar, di-debug, dan dikembangkan
Prinsip dipertahankan, pola ditinjau ulang
- AI tidak hanya membuat kita melihat masa depan, tetapi juga dasar-dasar software craftsmanship kembali
- Teknik yang sudah ada seperti pair programming, arsitektur zero-trust, mutation testing, dan metrik DORA kembali mendapat perhatian
- Prinsip inti seperti clean code, desain yang disengaja, testability, dan aksesibilitas ditegaskan kembali sebagai prioritas utama
- Ini bukan nostalgia, melainkan penyeimbang yang penting terhadap laju alat AI yang menghasilkan kompleksitas dengan cepat
- Kebangkitan command line; selama bertahun-tahun ia diabstraksikan demi kemudahan penggunaan, tetapi alat agentic mendorong pengembang kembali ke terminal
- Pengembangan berbantuan AI adalah pergeseran mendasar dalam praktik engineering, sehingga perlu meninjau ulang kolaborasi dan struktur tim
- Agent topologies perlu dipertimbangkan berdampingan dengan team topologies, dan siklus umpan balik perlu dirancang ulang
- Teknik seperti measuring collaboration quality with coding agents bahkan mendefinisikan ulang arti menjadi pengembang perangkat lunak
- Dalam lingkungan yang digerakkan AI, pengelolaan utang kognitif menjadi tugas inti, dan penting mempertahankan prinsip bahwa "kecepatan tanpa disiplin akan memperbesar biaya"
Masalah keamanan agen yang haus izin
- "Permission hungry" menggambarkan dilema mendasar situasi agen saat ini: semakin bernilai sebuah agen, semakin besar kebutuhan aksesnya ke segala hal
- OpenClaw dan Claude Cowork melakukan pengawasan pekerjaan nyata
- Gas Town mengoordinasikan swarm agen di seluruh codebase
- Semua ini menuntut akses luas ke data privat, komunikasi eksternal, dan sistem nyata
- Perlindungan yang ada belum mampu mengimbangi ambisi tersebut; lewat prompt injection, model tidak dapat secara andal membedakan perintah tepercaya dan input yang tidak tepercaya
- Definisi "lethal trifecta" dari Simon Willison — data privat, konten tak tepercaya, dan tindakan eksternal — berlaku pada sebagian besar agen yang berguna sebagai kondisi bawaan, bukan karena salah konfigurasi
- Ada juga ancaman selain injection, yaitu inkonsistensi perilaku model
- Tidak ada jaminan tugas yang sekali berhasil akan berhasil lagi pada percobaan berikutnya
- Bahkan tanpa niat jahat, agen dapat menemukan jalur kebocoran yang kreatif, melakukan push ke branch yang seharusnya tidak disentuh, dan melumpuhkan checkpoint persetujuan/penolakan
- Yang dapat dilakukan saat ini — zero-trust, hak akses minimum, perbaikan model, dan defense in depth adalah syarat dasar, tetapi tidak ada solusi tunggal
- Sistem agen yang aman perlu dibangun sebagai pipeline agen yang lebih dibatasi, bukan agen monolitik, dengan pemantauan dan kontrol yang kuat
- Agent Skills dapat dimanfaatkan sebagai alternatif MCP yang lebih mudah dikendalikan
- Durable agents, teknik pencegahan agent instruction bloat, dan lainnya menunjukkan arah ini
- Karena ruang ini berkembang cepat, kehati-hatian sangat penting untuk menghindari kesalahan mahal
Menjinakkan agen pemrograman
- Dengan peningkatan kemampuan coding agent, godaan untuk mengeluarkan manusia dari loop makin besar, sehingga tim mulai berinvestasi pada coding agent harnesses
- Ini adalah mekanisme kontrol yang mengarahkan perilaku agen sebelum menghasilkan kode dan memungkinkannya memperbaiki diri melalui umpan balik sesudahnya
- Kontrol feedforward
- Menyediakan hal-hal yang dibutuhkan di muka agar agen lebih mungkin benar pada percobaan pertama
- Agent Skills adalah kemajuan utama, memodularisasi instruksi dan konvensi lalu memuatnya saat diperlukan
- Superpowers adalah contoh katalog skill yang berguna untuk tim perangkat lunak
- Munculnya konsep plugin marketplaces memudahkan distribusi skill dan konfigurasi konteks
- Framework spec-driven development — GitHub Spec-Kit, OpenSpec, dan lainnya — menstrukturkan alur kerja perencanaan, desain, dan implementasi
- Kontrol feedback
- Mengamati perilaku agen setelah bertindak untuk membentuk loop koreksi diri
- Feedback sensors for coding agents — gerbang kualitas deterministik seperti compiler, linter, type checker, dan test suite diintegrasikan langsung ke alur kerja agen
- Jika gagal, perbaikan otomatis dipicu sebelum tinjauan manusia
- Contoh pada Radar kali ini mencakup cargo-mutants dan alat mutation testing, alat fuzz testing seperti WuppieFuzz, serta alat analisis kualitas kode seperti CodeScene
- Selain umpan balik in-loop, ada juga kasus yang mengurangi architecture drift dengan menggabungkan aturan struktur deterministik dan evaluasi berbasis LLM
[Techniques]
Adopt
1. Context engineering
- Teknik ini telah berkembang menjadi perhatian arsitektur inti dalam sistem AI modern; berbeda dari prompt engineering yang berfokus pada susunan kata, context engineering memperlakukan context window sebagai permukaan desain dan dengan sengaja membangun lingkungan informasi AI
- Semakin kompleks tugas yang ditangani agen, semakin besar pendekatan menuangkan data mentah ke context window besar memicu "context rot" dan penurunan penalaran; kini terjadi pergeseran dari prompt statis dan monolitik ke progressive context disclosure
- Context setup menggunakan prompt caching untuk memuat lebih dulu instruksi statis sehingga mengurangi biaya dan memperbaiki waktu ke token pertama, sementara dynamic retrieval melampaui RAG dasar dengan pemilihan alat dan hanya memuat server MCP yang diperlukan
- Context graphs memodelkan penalaran institusional seperti kebijakan, pengecualian, dan preseden sebagai data yang terstruktur dan dapat di-query, sementara stateful compression dan sub-agen merangkum keluaran antara dalam alur kerja jangka panjang
- Memperlakukan konteks AI sebagai kotak teks statis adalah jalan pintas menuju halusinasi; untuk membangun agen enterprise yang tangguh, konteks harus direkayasa sebagai pipeline yang dinamis dan dikelola secara presisi
2. Instruksi bersama yang dikurasi untuk tim perangkat lunak
- Praktik yang memandang penulisan prompt oleh tiap developer dari nol sebagai antipola, dan memperlakukan panduan AI sebagai aset rekayasa kolaboratif, bukan alur kerja pribadi
- Pada awalnya fokus pada pemeliharaan pustaka prompt umum untuk tugas-tugas bersama, tetapi kini berkembang ke pendekatan yang lebih maju dengan menambatkan instruksi langsung ke template layanan
- Menempatkan file instruksi seperti
CLAUDE.md,AGENTS.md,.cursorrulesdi repositori baseline untuk scaffolding layanan baru
- Menempatkan file instruksi seperti
- Juga mengeksplorasi praktik terkait untuk menambatkan coding agent ke aplikasi referensi, dengan codebase hidup yang bisa dikompilasi berperan sebagai satu-satunya sumber kebenaran
- Saat arsitektur dan standar pengodean berevolusi, aplikasi referensi dan instruksi tersemat sama-sama dapat diperbarui, dan repositori baru akan mewarisi alur kerja agent serta aturan terbaru secara default
3. Metrik DORA
- Metrik yang didefinisikan oleh program riset DORA, mencakup lead time perubahan, frekuensi deployment, MTTR, change failure rate, serta metrik kelima yang baru, yaitu rework rate
- Rework rate adalah metrik stabilitas yang mengukur proporsi pipeline delivery tim yang dihabiskan untuk mengerjakan ulang pekerjaan yang sudah selesai, seperti bug pengguna atau cacat
- Di era pengembangan berbantuan AI, metrik DORA lebih penting dari sebelumnya; mengukur produktivitas dengan jumlah baris kode yang dihasilkan AI bersifat menyesatkan
- Tanpa penurunan lead time dan peningkatan frekuensi deployment, pembuatan kode yang lebih cepat tidak akan menghasilkan hasil yang lebih baik
- Metrik stabilitas, terutama penurunan rework rate, menjadi peringatan dini atas titik buta, utang teknis, dan risiko dari pengembangan berbantuan AI yang sembrono
- Dibanding membangun dashboard yang rumit, mekanisme sederhana seperti check-in saat retrospektif lebih efektif untuk meningkatkan kapabilitas
4. Passkeys
- Kredensial FIDO2 yang dipimpin oleh FIDO Alliance dan didukung Apple, Google, serta Microsoft, menggunakan kriptografi kunci publik asimetris untuk menggantikan kata sandi
- Kunci privat disimpan di secure enclave berbasis hardware pada perangkat pengguna, dilindungi biometrik atau PIN dan tidak pernah bocor ke luar; setiap kredensial terikat ke origin domain relying party sehingga secara struktural tahan terhadap phishing
- Phishing menjadi penyebab lebih dari sepertiga seluruh pelanggaran data; FIDO Alliance Passkey Index 2025 melaporkan lebih dari 15 miliar akun yang memenuhi syarat di seluruh dunia, Google meningkatkan tingkat keberhasilan login sebesar 30% di 800 juta pengguna, dan Amazon memverifikasi login 6 kali lebih cepat dibanding metode lama
- NIST SP 800-63-4 (Juli 2025) mengklasifikasikan ulang synced passkeys sebagai patuh AAL2, sementara regulator di UEA, India, dan lembaga federal AS mewajibkan autentikasi tahan phishing untuk sistem keuangan dan pemerintahan
- FIDO Credential Exchange Protocol memastikan portabilitas yang aman antar pengelola kredensial, penyedia identitas utama seperti Auth0, Okta, dan Azure AD mendukungnya sebagai fitur kelas satu, sehingga implementasi disederhanakan dari pekerjaan berbulan-bulan menjadi proyek 2 sprint
- Perlu berhati-hati dalam merancang pemulihan akun dan menghindari jalur fallback yang bisa dipancing phishing seperti SMS OTP
- Untuk skenario AAL3 (seperti akses berhak istimewa), kredensial yang terikat ke perangkat dari hardware security key tetap diperlukan
5. Structured output dari LLM
- Praktik membatasi model agar merespons dalam format yang telah ditentukan sebelumnya, seperti JSON atau class bahasa pemrograman tertentu
- Memberikan hasil yang dapat diandalkan di production, dan dianggap sebagai default yang masuk akal untuk aplikasi yang mengonsumsi respons LLM secara terprogram
- Semua penyedia model utama menyediakan mode structured output native, dengan subset JSON Schema yang didukung berbeda-beda dan API yang berkembang cepat
- Library Instructor atau framework Pydantic AI menyediakan abstraksi yang andal termasuk validasi dan retry otomatis, sementara Outlines direkomendasikan untuk pembuatan constraint pada model self-hosted
6. Arsitektur zero trust
- Seiring memasuki era agent, ini menjadi default yang masuk akal untuk menghadapi risiko keamanan saat memberikan otonomi kepada sistem yang tak dapat diprediksi
- "Jangan pernah percaya, selalu verifikasi", perlakukan keamanan berbasis identitas dan prinsip akses least privilege sebagai fondasi semua deployment agent
- Menerapkan standar seperti SPIFFE pada agent untuk membangun fondasi berbasis identitas yang kuat, dan mengaktifkan autentikasi terperinci di lingkungan dinamis
- Pemantauan dan verifikasi berkelanjutan atas perilaku agent penting untuk mengelola ancaman secara proaktif
- Selain deployment agent, praktik seperti OIDC impersonation di GCP juga diterapkan pada hal-hal seperti pipeline CI/CD, menggantikan kunci statis jangka panjang dengan token jangka pendek yang diterbitkan setelah verifikasi identitas
- Direkomendasikan untuk memperlakukan prinsip ZTA sebagai default yang tidak bisa ditawar, apa pun sistem yang dibangun
Trial
7. Agent Skills
- Ketika AI agent berevolusi dari antarmuka chat sederhana menjadi eksekusi tugas otonom, context engineering menjadi tantangan utama; Agent Skills mengemas sumber daya terkait seperti instruksi, skrip yang dapat dijalankan, dan dokumentasi untuk menyediakan standar terbuka bagi modularisasi konteks
- Agent memuat skill hanya saat diperlukan berdasarkan deskripsi, sehingga mengurangi konsumsi token dan meredakan habisnya context window serta masalah agent instruction bloat
- Cepat diadopsi bukan hanya oleh coding agent tetapi juga asisten pribadi seperti OpenClaw; banyak use case dapat diselesaikan secara efektif dengan membuat agent menunjuk ke CLI atau skrip lokal, yang menjadi salah satu alasan tim lebih berhati-hati menggunakan MCP sebagai default
- Plugin marketplaces mulai muncul sebagai cara untuk membuat versi dan membagikan skill, dan banyak eksplorasi sedang berlangsung tentang cara mengevaluasi efektivitas skill
- Penggunaan ulang skill pihak ketiga tanpa peninjauan memerlukan kehati-hatian karena dapat menimbulkan risiko keamanan rantai pasok yang serius
8. Pengujian komponen berbasis browser
- Di masa lalu, alat berbasis browser tidak direkomendasikan (sulit dikonfigurasi, lambat, dan flaky), tetapi sekarang telah jauh membaik sehingga menjadi pendekatan yang layak dan disukai dengan alat seperti Playwright
- Menjalankan pengujian di browser nyata memberikan konsistensi yang lebih tinggi karena selaras dengan lingkungan tempat kode benar-benar dijalankan
- Penurunan performa telah berkurang ke tingkat yang bisa diterima, dan flakiness juga menurun sehingga memberi nilai lebih dibanding lingkungan emulasi seperti jsdom
9. Sensor umpan balik untuk coding agent
- Untuk membuat coding agent lebih efektif dan mengurangi beban reviewer manusia, diperlukan loop umpan balik yang dapat diakses langsung oleh agent, dengan umpan balik bertindak sebagai bentuk backpressure
- Developer sejak lama bergantung pada quality gate deterministik seperti compiler, linter, architectural test, dan test suite; ini dapat dihubungkan ke alur kerja agentic untuk memicu koreksi diri tepat waktu saat terjadi kegagalan
- Berbagai implementasi dimungkinkan, seperti menghadirkan agent reviewer yang menjalankan pemeriksaan dan memicu perbaikan, atau mengekspos pemeriksaan sebagai proses pendamping yang berjalan paralel
- Berkat coding agent, biaya membangun linter kustom dan architectural test menjadi lebih murah, sehingga memperkuat loop umpan balik
- Jika memungkinkan, jalankan selama sesi coding, bukan setelah commit, agar agent melaporkan hasil yang bersih sebelum commit
10. Memetakan code smell ke teknik refactoring
- Teknik untuk mengarahkan agen agar menangani isu tertentu dengan pendekatan yang telah ditentukan
- Lapisan pertama mengarahkan agen dengan referensi umum seperti Refactoring untuk kasus umum, sementara isu yang lebih spesialis memetakan smell spesifik ke teknik tertentu melalui Agent Skills, slash command, dan
AGENTS.md - Saat diintegrasikan dengan alat linting, ini menghasilkan umpan balik deterministik yang memicu pendekatan refactoring yang sesuai setiap kali smell terdeteksi
- Sangat efektif terutama pada stack legacy seperti .NET Framework 2.0 atau Java 8, berguna ketika data pelatihan umum tidak memadai
- Tanpa arahan tujuan, agen cenderung default ke pola umum alih-alih kebutuhan yang spesifik
11. Mutation testing
- Sinyal paling jujur untuk menilai kemampuan nyata test suite dalam mendeteksi cacat, berbeda dari code coverage tradisional yang hanya melacak eksekusi baris, dengan cara memasukkan bug yang disengaja (mutations) ke source code dan memverifikasi apakah test gagal saat perilaku rusak
- Jika mutasi tidak terdeteksi, itu mengungkap celah dalam validasi, bukan sekadar kurangnya coverage, dan sangat penting di era pengembangan berbantuan AI — coverage tinggi dapat menyamarkan test yang kosong secara logis atau kode hasil generasi yang tidak memiliki assertion bermakna
- Dengan makin lazimnya test case buatan AI, ini berfungsi sebagai lapisan penguat untuk menangkap test "selalu hijau (perpetually green)" yang lolos terlepas dari perubahan logika karena assertion yang hilang atau mock yang terisolasi
- Dengan alat seperti Stryker, Pitest, dan cargo-mutants, fokus bergeser ke seberapa banyak kode yang benar-benar tervalidasi dalam logika domain inti
12. Progressive context disclosure
- Teknik dalam praktik Context engineering, yang alih-alih membanjiri agen secara proaktif dengan instruksi, memberi tahap discovery ringan yang memilih kebutuhan berdasarkan prompt pengguna
- Cocok untuk skenario RAG, di mana agen terlebih dahulu mengidentifikasi domain yang relevan dari kueri pengguna lalu mengambil instruksi dan data yang spesifik
- Sama seperti cara banyak alat coding agentic menangani Agent Skills: alih-alih satu set instruksi monolitik tunggal yang penuh syarat dan peringatan, agen terlebih dahulu menentukan skill yang relevan untuk tugas lalu memuat instruksi detailnya
- Saat membangun sistem agentic, mudah terjebak dalam jebakan menggelembungkan instruksi dengan aturan "DO" dan "DO NOT" yang tak ada habisnya, yang pada akhirnya menurunkan performa
- Menjaga context window tetap ringkas dan mencegah context rot
13. Sandboxed execution for coding agents
- Praktik menjalankan agen dalam lingkungan terisolasi dengan akses file system terbatas, koneksi jaringan terkontrol, dan penggunaan sumber daya yang dibatasi
- Seiring coding agent memperoleh otonomi untuk mengeksekusi kode, build, dan berinteraksi dengan file system, akses tanpa batas menimbulkan risiko nyata mulai dari kerusakan tak sengaja hingga paparan kredensial, sehingga ini menjadi default yang masuk akal, bukan peningkatan opsional
- Spektrum opsi sandboxing sangat luas — banyak coding agent menyediakan mode sandbox bawaan, sementara Dev Containers menawarkan isolasi berbasis container yang familiar
- Shuru mem-boot microVM sementara yang di-reset pada setiap eksekusi, sementara Sprites menyediakan lingkungan stateful dengan dukungan checkpoint/restore
- Untuk isolasi native Linux, Bubblewrap menyediakan sandboxing ringan berbasis namespace, sedangkan di macOS
sandbox-execmenawarkan perlindungan serupa - Selain isolasi dasar, perlu juga mempertimbangkan semua yang dibutuhkan untuk build dan test, autentikasi yang aman dan sederhana ke layanan seperti GitHub dan penyedia model, port forwarding, serta CPU dan memori yang memadai
- Apakah sandbox dijadikan default sementara atau persisten untuk pemulihan sesi adalah keputusan desain yang bergantung pada prioritas keamanan, biaya, dan kesinambungan workflow
14. Semantic layer
- Teknik arsitektur data yang memperkenalkan lapisan logika bisnis bersama di antara data store dan aplikasi konsumen seperti alat BI, agen AI, dan API
- Dengan memusatkan definisi metrik, join, aturan akses, dan istilah bisnis, konsumen memiliki definisi bersama; ini adalah konsep yang sudah ada sebelum modern data stack, tetapi kembali mendapat perhatian lewat pendekatan code-first seperti metrics stores
- Tanpa semantic layer, logika bisnis tersebar di tabel warehouse ad hoc, dashboard, dan aplikasi downstream, sementara definisi metrik diam-diam bercabang
- Masalah ini makin parah dengan agentic AI — saat melakukan terjemahan text-to-SQL yang naif menggunakan LLM, hasil yang keliru sering muncul, terutama ketika aturan bisnis seperti pengakuan pendapatan berada di luar skema
- Platform cloud mulai menyematkan semantic layer secara langsung; Snowflake menyebutnya Semantic Views, Databricks menyebutnya Metric Views, sementara alat mandiri seperti dbt MetricFlow dan Cube menyediakan lapisan yang portabel di seluruh sistem
- Open Semantic Interchange (OSI) v1.0 baru-baru ini dirilis, dan dukungan dari banyak vendor menandakan meluasnya standardisasi dan interoperabilitas di platform analitik, AI, dan BI
- Biaya utamanya adalah investasi awal dalam pemodelan data, dan disarankan memulai dari satu domain alih-alih rollout ke seluruh perusahaan
15. Server-driven UI
- Memisahkan rendering ke dalam container umum dan menyediakan struktur serta data melalui server, sehingga tim mobile dapat melewati siklus review app store yang panjang pada setiap iterasi
- Dengan format berbasis JSON, ini memungkinkan pembaruan real-time dan sangat meningkatkan waktu rilis, sementara kemunculan pola yang matang dari perusahaan seperti Airbnb dan Lyft mengurangi kompleksitas
- Sebelumnya ada peringatan tentang potensi menjadi "kekacauan mengerikan yang terlalu bisa dikonfigurasi" yang dibuat oleh framework proprietary, tetapi investasi kini lebih mudah dibenarkan pada aplikasi berskala besar
- Tetap memerlukan business case yang kuat dan rekayasa yang terkendali, dan penting untuk mencegah terbentuknya "god-protocol" yang sulit dipelihara
- Direkomendasikan untuk diterapkan pada area yang sangat dinamis, bukan sebagai pengganti seluruh pengembangan UI aplikasi
Assess
16. Agentic reinforcement learning environments
- Sebagai arena pelatihan untuk agen berbasis LLM, pendekatan ini menggabungkan konteks, alat, dan umpan balik untuk menyelesaikan tugas multilangkah
- Pendekatan ini membentuk ulang post-training LLM dari sekadar output single-turn menjadi perilaku agentic seperti penalaran dan penggunaan alat, dengan menetapkan reward atau penalti untuk tiap tindakan
- Dengan teknik seperti RLVR, reward dijamin dapat diverifikasi dan tahan terhadap gamifikasi
- Lab riset AI saat ini memimpin pengembangan, khususnya untuk agen coding dan penggunaan komputer; Composer milik Cursor menjadi contoh di luar frontier lab, yaitu model coding spesialis yang dilatih di dalam lingkungan produk
- Munculnya framework dan platform seperti Environments Hub dari Prime Intellect, Agent Lightning, dan NVIDIA NeMo Gym membantu menyederhanakan proses
17. Architecture drift reduction with LLMs
- Dengan meningkatnya penggunaan agen coding AI, drift dari codebase dan desain arsitektur yang dimaksud ikut makin cepat; bila dibiarkan, agen dan manusia akan menyalin pola yang ada—termasuk yang sudah menurun kualitasnya—sehingga drift makin menumpuk dan terbentuk loop umpan balik di mana kode buruk melahirkan kode yang lebih buruk
- Menggabungkan alat analisis deterministik seperti Spectral, ArchUnit, dan Spring Modulith dengan evaluasi berbasis LLM memungkinkan pelanggaran struktural maupun semantik sama-sama terdeteksi
- Diterapkan untuk mendefinisikan architecture zone yang menegakkan pedoman kualitas API di seluruh layanan sekaligus memandu peningkatan hasil generasi agen
- Seperti linting tradisional, pemindaian awal akan memunculkan banyak pelanggaran sehingga perlu klasifikasi dan penentuan prioritas, dan LLM dapat membantu di sini
- Perbaikan yang dihasilkan agen perlu dijaga tetap kecil dan terfokus agar mudah direview, serta loop validasi tambahan wajib ada untuk memastikan perubahan benar-benar memperbaiki sistem tanpa menimbulkan regresi
- Ini memperluas ide feedback sensors for coding agents ke tahap yang lebih akhir dalam lifecycle delivery; seperti istilah tim OpenAI, pengurangan drift bekerja dalam bentuk "garbage collection"
18. Code intelligence as agentic tooling
- LLM memproses kode sebagai aliran token dan tidak memiliki pemahaman native tentang call graph, hierarki tipe, maupun relasi simbol
- Untuk eksplorasi kode, kebanyakan agen coding saat ini pada dasarnya memakai pencarian berbasis teks—common denominator paling kuat lintas semua bahasa—sementara untuk refactoring cepat yang di IDE cukup dengan shortcut, agen perlu membuat beberapa text diff
- Agen menghabiskan banyak token untuk merekonstruksi informasi yang sebenarnya sudah ada di AST
- Berikan agen akses ke alat yang memahami AST, misalnya melalui Language Server Protocol (LSP), agar operasi seperti “find all references to this symbol” atau “rename this type everywhere” dapat dijalankan sebagai tindakan kelas satu
- Alat codemod seperti OpenRewrite bekerja di atas representasi kode Lossless Semantic Tree (LST) yang lebih kaya; delegasi tugas yang tepat ke alat deterministik mengurangi edit halusinatif sekaligus menekan konsumsi token
- Claude Code, OpenCode, dan lainnya telah terintegrasi dengan server LSP yang berjalan lokal; JetBrains menyediakan server MCP yang mengekspos navigasi dan refactoring IDE ke agen eksternal, sementara server MCP Serena menyediakan pencarian dan pengeditan kode semantik
19. Context graph
- Teknik representasi pengetahuan yang memodelkan keputusan, kebijakan, pengecualian, preseden, bukti, dan hasil sebagai node terhubung kelas satu dalam sebuah graf, disusun untuk konsumsi AI
- Jika system of record menangkap apa yang terjadi, context graph menangkap mengapa—mengubah penalaran institusional yang terkubur dalam thread Slack, rantai persetujuan, dan kepala orang-orang menjadi struktur yang bisa dibaca mesin dan di-query
- Ini penting bagi efektivitas agen; misalnya, agen yang menangani pengecualian diskon bisa bernalar salah bila tidak dapat menentukan apakah hal itu adalah kebijakan standar atau override sekali pakai, sedangkan context graph secara langsung mengekspos asal-usulnya sehingga agen dapat menelusuri jejak keputusan, menerapkan preseden terkait, dan menalar rantai kausal multihop
- Berbeda dengan GraphRAG yang dibangun dari korpus dokumen statis, context graph menjaga validitas temporal pada setiap edge; fakta yang sudah tergantikan tidak ditimpa, melainkan dibuat tidak berlaku
- Layak dievaluasi untuk aplikasi agentic yang memerlukan memori persisten lintas sesi atau penalaran keputusan yang dapat dilacak
20. Feedback flywheel
- Tim yang bekerja dengan agen coding makin banyak mengadopsi workflow spec-driven development; terlepas dari apakah framework-nya ringan atau opinionated, alurnya mengikuti spec → plan → implement
- Feedback flywheel memperluas alur ini dengan tahap tambahan yang berfokus pada perbaikan berkelanjutan terhadap coding agent harness
- Mirip retrospektif, tim menangkap keberhasilan dan kegagalan selama sesi agen coding lalu memakainya untuk meningkatkan prediktabilitas sesi berikutnya, dengan efek majemuk seiring waktu
- Teknik meta ini menempatkan human on the loop untuk berfokus pada peningkatan kontrol feedforward seperti curated shared instructions dan feedback sensors for coding agents
- Level berikutnya adalah agentic feedback flywheel, di mana agen memutuskan peningkatan yang diperlukan berdasarkan umpan balik yang terakumulasi; saat ini tetap dibutuhkan human-in-the-loop untuk mencegah context rot dan umpan balik berisik yang bisa menyesatkan agen
- Seiring lingkungan berevolusi, ini digunakan untuk mengevaluasi keseluruhan coding agent harness, terutama saat mengadopsi model baru, karena apa yang efektif pada satu model bisa jadi tidak lagi diperlukan pada model berikutnya
21. HTML Tools
- dengan alat agentic, semakin mudah membangun utilitas kecil per tugas, sehingga tantangan utamanya adalah cara deployment dan berbagi
- HTML Tools adalah pendekatan untuk mengemas skrip atau utilitas yang bisa dibagikan ke dalam satu file HTML
- dapat dijalankan langsung di browser, di-host di mana saja, atau cukup dibagikan sebagai file, sehingga menghindari overhead distribusi alat CLI yang memerlukan pembagian biner atau penggunaan package manager
- lebih sederhana daripada membangun aplikasi web penuh dengan hosting khusus
- dari sudut pandang keamanan, menjalankan file yang tidak tepercaya tetap berisiko, tetapi sandbox browser dan kemungkinan memeriksa source code memberi sedikit mitigasi
- untuk utilitas ringan, satu file HTML menawarkan cara yang sangat mudah diakses dan portabel
22. Evaluasi LLM menggunakan semantic entropy
- confabulation, salah satu bentuk halusinasi pada aplikasi tanya jawab LLM, sulit ditangani dengan metode evaluasi tradisional
- salah satu pendekatan adalah menggunakan information entropy untuk mengukur ketidakpastian dengan menganalisis variasi leksikal pada output untuk input tertentu
- evaluasi LLM yang menggunakan Semantic entropy memperluas ide ini dengan berfokus pada perbedaan makna alih-alih variasi di tingkat permukaan
- karena yang dinilai adalah makna, bukan urutan kata, pendekatan ini bisa diterapkan ke berbagai dataset dan tugas tanpa pengetahuan awal, serta dapat digeneralisasi dengan baik ke tugas yang belum dikenal
- membantu mengidentifikasi prompt yang berpotensi memicu confabulation dan menyarankan kehati-hatian bila perlu
- entropy yang naif sering gagal mendeteksi confabulation, sementara semantic entropy lebih efektif untuk menyaring klaim palsu
23. Mengukur kualitas kolaborasi dengan coding agent
- walau ada peningkatan produktivitas nyata saat menggunakan coding agent, sebagian besar metrik evaluasi masih terlalu berfokus pada coding throughput seperti waktu ke output pertama, jumlah baris kode yang dihasilkan, atau tugas yang selesai
- agar tim tidak terjebak dalam speed trap, fokus perlu digeser ke seberapa efektif manusia dan agent berkolaborasi
- metrik seperti first-pass acceptance rate, jumlah siklus iterasi per tugas, rework setelah merge, build yang gagal, dan beban review memberi sinyal yang lebih bermakna dibanding kecepatan semata
- tim yang menggunakan Claude Code dapat membuat laporan tentang keberhasilan sesi agent dan refleksi tugas dengan perintah
/insights, dan juga bereksperimen melacak first-pass acceptance dari perintah/reviewyang dikustomisasi - siklus umpan balik yang pendek dan berkurangnya build gagal adalah indikator interaksi yang lebih efektif dengan agent
- pada level tim, bukan individu, lacak kualitas kolaborasi bersama metrik DORA untuk membangun gambaran yang lebih lengkap tentang adopsi coding agent
24. MITRE ATLAS
- sistem agentic dan alat coding memperkenalkan arsitektur baru dan ancaman keamanan yang muncul
- MITRE ATLAS adalah basis pengetahuan tentang taktik dan teknik adversarial yang menargetkan sistem AI dan ML
- dirancang sebagai pelengkap yang lebih terfokus dibanding framework MITRE ATT&CK yang lebih luas, serta menyediakan klasifikasi ancaman untuk pipeline ML, aplikasi LLM, dan sistem agentic
- tanpa kosakata bersama, risiko keamanan sering terlewat atau direduksi menjadi latihan checklist, dan ATLAS membantu mengatasi hal ini
- berdasarkan riset atas insiden nyata dan pola teknis, tim dapat menggunakan framework ini untuk mendukung threat modeling
- menjadi pelengkap alami untuk framework kontrol seperti SAIF, serta membantu menjelaskan lanskap ancaman yang terus berkembang pada sistem AI
25. Ralph loop
- teknik autonomous coding agent yang juga dikenal sebagai Wiggum loop, yaitu memberi agent prompt tetap dalam loop tak berujung
- setiap iterasi dimulai dengan context window baru — agent memilih pekerjaan dari spesifikasi atau rencana, mengimplementasikannya, lalu memulai ulang loop dengan konteks baru
- wawasan intinya adalah kesederhanaan: alih-alih mengorkestrasi teams of coding agents atau coding agent swarms, satu agent bekerja secara otonom terhadap spesifikasi, dengan harapan codebase akan makin mendekati spesifikasi lewat iterasi berulang
- penggunaan context window baru pada tiap iterasi membantu menghindari penurunan kualitas akibat konteks yang menumpuk, meski harus menanggung biaya token yang besar
- alat seperti goose menerapkan pola ini, dan dalam beberapa kasus memperluasnya dengan review lintas model antariterasi
26. Reverse engineering untuk design system
- organisasi sering bergulat dengan antarmuka legacy yang terfragmentasi, ketika "standar desain" hanya ada sebagai kumpulan longgar halaman web, materi pemasaran, dan screenshot yang terpisah-pisah
- secara historis, mengaudit artefak semacam ini untuk membangun dasar konsolidasi adalah proses manual yang memakan waktu
- dengan multimodal LLM, ekstraksi ini dapat diotomatisasi, sehingga design system dapat di-reverse-engineer secara efektif dari aset visual yang sudah ada
- dengan memberi situs web, screenshot, dan potongan UI ke alat khusus atau model AI vision-capable, tim dapat mengekstrak design token inti seperti palet warna, skala tipografi, dan aturan spacing, serta mengidentifikasi pola komponen yang berulang
- AI menyintesis data visual tak terstruktur ini menjadi representasi semantik terstruktur dari design system, dan jika diintegrasikan dengan alat seperti Figma, output ini sangat mempercepat pembuatan library komponen yang terformalkan dan mudah dipelihara
- selain mengurangi upaya audit visual, ini juga menjadi batu loncatan untuk membangun design system yang "AI-ready"
- bagi enterprise yang terbebani utang desain brownfield, membangun baseline design system dengan AI menjadi titik awal yang praktis sebelum redesign penuh atau standardisasi frontend
27. Isolasi kontekstual berbasis peran dalam RAG
- teknik arsitektural yang memindahkan access control dari lapisan aplikasi ke lapisan retrieval
- pada saat indexing, semua data chunk diberi tag izin berbasis peran, lalu pada saat query, search engine membatasi ruang pencarian berdasarkan identitas terautentikasi pengguna dan mencocokkannya dengan metadata tiap chunk
- karena model AI difilter pada tahap retrieval, pendekatan ini memastikan tidak ada akses ke konteks yang tidak diizinkan, serta menyediakan dasar zero trust untuk knowledge base internal
- banyak vector database seperti Milvus atau layanan berbasis Amazon S3 mendukung metadata filtering berperforma tinggi, sehingga penerapannya praktis bahkan untuk knowledge base berukuran besar
28. Skill sebagai dokumentasi onboarding yang dapat dieksekusi
- Agent Skills, instruksi bersama yang dikurasi, dan teknik context engineering lainnya muncul di seluruh Radar kali ini; kasus penggunaan yang ingin ditekankan dalam konteks coding adalah skill sebagai dokumentasi onboarding yang dapat dieksekusi
- Dapat diterapkan di berbagai level; di dalam codebase, skill
/_setupberperan sebagai skripgo.shsekaligus file README, menggabungkan semantik eksekusi LLM dengan skrip untuk langkah-langkah yang tidak bisa discript-kan - Melampaui apa yang bisa dilakukan skrip, ini juga memungkinkan mempertimbangkan secara dinamis kondisi terkini codebase dan environment
- Pembuat library dan API dapat menyediakan skill kepada konsumen sebagai bagian dari dokumentasi, melalui registry skill internal atau eksternal (seperti Tessl)
- Berguna untuk onboarding platform internal tim, menurunkan hambatan penggunaan teknologi inti atau mengurangi friksi saat mengadopsi design system; sampai sekarang banyak bergantung pada server MCP, tetapi kini mulai beralih ke skill
- Seperti bentuk dokumentasi lain, tantangan untuk menjaganya tetap mutakhir tidak hilang; namun dokumen yang dapat dieksekusi, tidak seperti dokumentasi statis, membantu menyadari bahwa dokumen sudah usang jauh lebih cepat
29. Small language models
- SLM terus membaik dan mulai memberikan kecerdasan yang lebih baik per dolar dibanding LLM untuk kasus penggunaan tertentu
- Untuk menurunkan biaya inferensi dan mempercepat workflow agentic, tim-tim mengevaluasi SLM; kemajuan terbaru menunjukkan peningkatan konsisten dalam kepadatan kecerdasan, sehingga menjadi kompetitif dengan LLM lama pada tugas seperti peringkasan dan coding dasar
- Ini mencerminkan pergeseran dari “lebih besar selalu lebih baik” ke data berkualitas lebih tinggi, distilasi model, dan kuantisasi
- Model seperti Phi-4-mini dan Ministral 3 3B membuktikan bahwa model hasil distilasi mempertahankan banyak kemampuan model guru yang lebih besar
- Model ultra-kecil seperti Qwen3-0.6B dan Gemma-3-270M juga kini bisa dijalankan di edge device
- Untuk kasus penggunaan agentic yang sebelumnya cukup ditangani LLM lama, pertimbangkan SLM sebagai alternatif berbiaya rendah, latensi rendah, dan kebutuhan resource lebih kecil
30. Tim agent coding
- Pada Radar sebelumnya, ini dijelaskan sebagai teknik di mana developer mengorkestrasi subkelompok agent berdasarkan peran untuk berkolaborasi dalam tugas coding
- Sejak itu, hambatan adopsi menurun; dukungan subagent telah menjadi fitur default di berbagai tool agent coding yang sudah ada, termasuk fitur agent teams yang menyediakan orkestrasi bawaan di Claude Code
- Dalam tim agent, orchestrator utama biasanya mengatur sequencing dan paralelisasi tugas; agent harus bisa berkomunikasi bukan hanya dengan orchestrator, tetapi juga satu sama lain
- Kasus penggunaan umum adalah tim reviewer atau kelompok implementer yang menangani bagian berbeda dari aplikasi seperti backend dan frontend
- Sebagian industri menggunakan “agent teams” dan "agent swarms" secara saling menggantikan (Claude Code menjelaskan fitur agent teams sebagai “our implementation of swarms”), tetapi pembedaan ini tetap bernilai
- Tim agent yang kecil dan disengaja berkolaborasi pada suatu tugas sangat berbeda dari swarm besar dalam hal hambatan masuk, kompleksitas, dan kasus penggunaan
31. Temporal fakes
- Perluasan dari gagasan simulasi sistem dunia nyata yang sudah lama digunakan di platform IoT dan industri
- Agent coding AI mengurangi upaya membangun simulator sehingga jauh lebih mudah membuat replika dependensi eksternal dengan fidelitas tinggi
- Tidak seperti mock tradisional yang mengembalikan pasangan request-response statis, temporal fakes mempertahankan state machine internal dan memodelkan evolusi temporal sistem nyata
- Satu tim menggunakan teknik ini saat mengembangkan stack observability untuk data center GPU besar, sehingga dapat menghindari pengadaan hardware fisik
- Pengujian aturan alert, dashboard, dan deteksi anomali pada sistem nyata tidak praktis (misalnya sengaja membuat GPU overheat untuk memverifikasi alert thermal throttle)
- Sebagai gantinya, mereka membangun fake untuk domain hardware seperti NVIDIA DCGM dan fabric InfiniBand dengan Go
- Dengan simulator, skenario kegagalan seperti thermal throttling, badai error XID, link flap, dan kegagalan PSU dapat diaktifkan dengan intensitas dan durasi yang dapat dikonfigurasi, lalu diorkestrasi dengan stack process-compose
- Registry pusat mendefinisikan skenario kegagalan yang valid, dan server MCP mengekspos injeksi skenario itu kepada agent
- Agent dapat memicu cacat seperti menyuntikkan thermal throttle pada GPU tertentu, lalu memverifikasi bahwa metrik berubah sesuai harapan, alert terpicu, dan dashboard diperbarui
- Fidelitas temporal seperti ini membuat teknik tersebut bernilai untuk menguji sistem kompleks dengan kegagalan berantai, tetapi jika fake tidak cukup setia pada perilaku dunia nyata, ada risiko menciptakan rasa percaya diri yang keliru dalam pipeline otomatis
32. Toxic flow analysis untuk AI
- Kemampuan agent sedang melampaui praktik keamanan; dengan munculnya agent yang rakus izin (permission-hungry) seperti OpenClaw, semakin banyak tim yang men-deploy agent ke environment yang terekspos pada lethal trifecta — akses ke data privat, paparan pada konten tak tepercaya, dan kemampuan berkomunikasi ke luar
- Seiring kemampuan meningkat, attack surface juga bertambah, membuat sistem terekspos pada risiko seperti prompt injection dan tool poisoning
- Toxic flow analysis terus diakui sebagai teknik utama untuk menelaah sistem agentic guna mengidentifikasi jalur data yang tidak aman dan vektor serangan potensial
- Risiko tidak lagi terbatas pada integrasi MCP; pola serupa juga terlihat pada Agent Skills — pelaku jahat dapat mengemas skill yang tampak berguna tetapi menyisipkan instruksi tersembunyi untuk membocorkan data sensitif
- Sangat disarankan agar tim yang mengerjakan agent melakukan toxic flow analysis dan menggunakan tool seperti Agent Scan untuk mengidentifikasi jalur data yang tidak aman sebelum dieksploitasi
33. Vision language models untuk parsing dokumen end-to-end
- Parsing dokumen bergantung pada pipeline multitahap yang menggabungkan deteksi tata letak, OCR tradisional, dan skrip pascapemrosesan, dan kesulitan menghadapi tata letak kompleks serta rumus matematika
- Parsing dokumen end-to-end menggunakan VLM menyederhanakan arsitektur dengan memperlakukan gambar dokumen sebagai satu modalitas input, sambil mempertahankan urutan baca yang alami dan konten terstruktur
- Model open source yang dilatih khusus untuk tujuan ini seperti olmOCR-2, DeepSeek-OCR (3B) yang efisien token, dan PaddleOCR-VL yang sangat kecil menghasilkan hasil yang sangat efisien
- Meski VLM mengurangi kompleksitas arsitektur dengan menggantikan pipeline multitahap, sifat generatifnya membuatnya rentan berhalusinasi
- Kasus penggunaan dengan toleransi kesalahan rendah masih memerlukan pendekatan hibrida atau OCR deterministik
- Tim yang memproses koleksi dokumen dalam jumlah besar perlu mengevaluasi pendekatan terintegrasi ini untuk menentukan apakah pendekatan ini dapat menjaga akurasi sambil menurunkan overhead pemeliharaan jangka panjang
Caution
34. Pembengkakan instruksi agent
- File konteks seperti
AGENTS.mddanCLAUDE.mdseiring waktu menumpuk ringkasan codebase, penjelasan arsitektur, konvensi, dan aturan tambahan - Setiap tambahan berguna secara terpisah, tetapi sering kali menyebabkan agent instruction bloat, sehingga instruksi menjadi panjang dan kadang saling bertentangan
- Model cenderung kurang memperhatikan isi yang terkubur di tengah konteks panjang, dan panduan yang berada jauh di dalam riwayat percakapan yang panjang bisa terlewat
- Seiring bertambahnya instruksi, kemungkinan aturan penting diabaikan juga meningkat
- Banyak tim kini membuat file
AGENTS.mddengan AI, tetapi riset menunjukkan bahwa versi yang ditulis manual sering kali lebih efektif daripada yang dihasilkan LLM - Saat menggunakan alat agentic, kita perlu sengaja dan selektif terhadap instruksi, menambahkannya sesuai kebutuhan dan terus menyempurnakannya menjadi set yang minimal dan konsisten
- Pertimbangkan penggunaan progressive context disclosure agar hanya instruksi dan kemampuan yang diperlukan untuk tugas saat ini yang dimunculkan
35. Shadow IT yang dipercepat AI
- AI terus menurunkan hambatan bagi non-coder untuk membangun sistem kompleks, memungkinkan eksperimen dan validasi awal kebutuhan, tetapi juga menghadirkan risiko shadow IT yang dipercepat AI
- Selain platform workflow no-code yang mengintegrasikan AI API seperti OpenAI atau Anthropic, lebih banyak alat agentic seperti Claude Cowork kini tersedia bagi non-coder
- Ketika spreadsheet yang diam-diam menjalankan bisnis berevolusi menjadi workflow agentic kustom tanpa tata kelola, hal itu membawa risiko keamanan yang signifikan dan penyebaran solusi pesaing untuk masalah serupa
- Membedakan antara workflow sekali pakai dan proses penting yang membutuhkan implementasi yang tahan lama serta siap produksi adalah kunci untuk menyeimbangkan eksperimen dan kontrol
- Organisasi perlu memprioritaskan tata kelola sebagai bagian dari strategi adopsi AI mereka, sambil mendorong eksperimen dalam lingkungan yang terkontrol
- Sandbox internal yang diinstrumentasi dengan baik dapat memberi non-coder tempat untuk menerapkan prototipe dengan penggunaan yang bisa dilacak
- Jika dipasangkan dengan katalog bersama workflow yang sudah ada, ini membantu tim menemukan apa yang telah dibangun dan menghindari upaya yang duplikatif
36. Utang kognitif codebase
- Kesenjangan yang terus membesar antara implementasi sistem dan pemahaman bersama tim tentang bagaimana dan mengapa sistem itu bekerja
- Saat AI meningkatkan kecepatan perubahan, terutama dengan banyak kontributor atau Coding Agent Swarms, tim bisa kehilangan jejak niat desain dan coupling tersembunyi
- Dikombinasikan dengan utang teknis yang terus bertambah, ini membentuk loop penguatan yang membuat sistem semakin sulit dipahami
- Pemahaman sistem yang lemah mengurangi kemampuan developer untuk mengarahkan AI secara efektif, memprediksi edge case, dan membimbing agent menjauh dari jebakan arsitektural
- Jika tidak dikelola, ini dapat mencapai titik kritis ketika perubahan kecil memicu kegagalan yang tak terduga, perbaikan menimbulkan regresi, dan upaya perapian justru meningkatkan risiko alih-alih menguranginya
- Hindari sikap lengah terhadap kode hasil AI dan terapkan langkah penanganan yang eksplisit — feedback sensors for coding agents, pelacakan beban kognitif tim, dan architecture fitness functions untuk terus menegakkan batasan penting saat AI mempercepat output
37. Coding agent swarms
- Jika team of coding agents adalah kelompok kecil yang disengaja, maka coding agent swarm menerapkan puluhan hingga ratusan agent pada sebuah masalah, dengan AI yang menentukan komposisi dan ukurannya secara dinamis
- Proyek seperti Gas Town dan Ruflo (sebelumnya Claude Flow) adalah contoh yang baik
- Pola awal implementasi swarm mulai muncul — pemisahan peran secara hierarkis (orkestrator, supervisor, pekerja sementara), buku besar tugas yang persisten untuk membantu agent membagi dan mengoordinasikan pekerjaan (Gas Town menggunakan beads), serta mekanisme merge untuk menangani konflik pekerjaan paralel
- Dua eksperimen swarm sangat menonjol — pembuatan compiler C oleh Anthropic dan eksperimen agent scaling dari Cursor (membangun browser selama satu minggu)
- Kedua tim sama-sama memilih kasus penggunaan yang dapat bergantung pada spesifikasi rinci yang sudah ada, termasuk test suite komprehensif yang memberikan umpan balik yang jelas dan terukur untuk compiler C
- Kondisi-kondisi ini tidak mewakili pengembangan produk pada umumnya, yang kebutuhannya kurang terdefinisi dan validasinya lebih sulit
- Meski demikian, eksperimen-eksperimen ini berkontribusi pada pola yang sedang berkembang yang membuat swarm berumur panjang layak secara teknis, tetapi masih mahal dan jauh dari matang sehingga disarankan berhati-hati dalam adopsinya
38. Coding throughput sebagai ukuran produktivitas
- Asisten coding AI memang meningkatkan produktivitas nyata dan cepat menjadi alat standar bagi developer
- Namun, semakin banyak organisasi yang mengukur keberhasilan dengan metrik dangkal seperti jumlah baris kode yang dihasilkan atau jumlah pull request (PR)
- Jika metrik coding throughput ini digunakan secara terpisah, hal itu dapat berdampak negatif pada perilaku karyawan
- Hasilnya sering berupa banjir kode yang tidak selaras, yang memperlambat review, merusak throughput delivery, dan menimbulkan risiko keamanan, ketika engineer mengajukan PR yang dipenuhi output AI yang ditinjau secara tidak memadai sehingga menambah waktu siklus karena bolak-balik berulang dengan reviewer
- Metrik semacam ini gagal menangkap upaya sisa yang dibutuhkan untuk menyesuaikan kode buatan AI dengan arsitektur, konvensi, dan pola tim
- Ada indikator awal yang lebih bermakna — first-pass acceptance rate, yaitu seberapa sering output AI dapat digunakan dengan pengerjaan ulang minimal
- Mengukurnya membantu mengungkap upaya tersembunyi dan memungkinkan tindakan perbaikan, sehingga tim dapat terus meningkatkan penerimaan dengan menyempurnakan prompt, memperbaiki dokumen priming, dan memperkuat percakapan desain
- Ini menciptakan siklus positif ketika output AI membutuhkan lebih sedikit revisi, dan first-pass acceptance terhubung secara alami dengan metrik DORA — tingkat penerimaan yang rendah cenderung meningkatkan change failure rate, sementara siklus iterasi yang berulang memperpanjang lead time for changes
- Seiring asisten AI menjadi hal yang umum, organisasi perlu mengalihkan fokus dari coding throughput semata ke metrik yang mencerminkan dampak nyata dan hasil delivery
39. Mengabaikan durability dalam workflow agent
- Antipola yang diamati di banyak tim, yang dalam pengembangan terlihat berjalan tetapi gagal di production
- Tantangan yang dihadapi sistem terdistribusi menjadi makin menonjol saat membangun agent, dan pola pikir yang mengantisipasi kegagalan serta pulih dengan elegan lebih unggul daripada pendekatan reaktif
- LLM dan pemanggilan tool bisa gagal karena gangguan jaringan dan crash server, menyebabkan kemajuan agent terhenti serta pengalaman pengguna yang buruk dan biaya operasional yang meningkat
- Sebagian sistem dapat mentoleransi hal ini bila tugasnya berumur pendek, tetapi workflow kompleks yang berjalan selama berhari-hari atau berminggu-minggu memerlukan durability
- Framework agent seperti LangGraph dan Pydantic AI mulai mengintegrasikan eksekusi yang durable
- Ini menyediakan persistensi status untuk progres dan pemanggilan tool, sehingga agent dapat melanjutkan pekerjaan setelah kegagalan
- Pada workflow yang melibatkan human in the loop, eksekusi yang durable memungkinkan progres dijeda saat menunggu input
- Platform durable computing seperti Temporal, Restate, dan Golem juga menyediakan dukungan agent
- Observabilitas untuk pelacakan keputusan dan eksekusi tool bawaan mempermudah debugging dan meningkatkan pemahaman terhadap sistem production
- Mulailah dengan dukungan eksekusi durable native dari framework agent, lalu gunakan platform independen ketika workflow menjadi lebih penting atau lebih kompleks
40. MCP by default
- Model Context Protocol (MCP) makin mendapat perhatian, dan tim maupun vendor cenderung mengadopsinya sebagai lapisan integrasi default antara agent AI dan sistem eksternal meskipun ada alternatif yang lebih sederhana
- Perlu berhati-hati dalam memakai MCP sebagai default, karena MCP memang menambah nilai nyata pada kontrak tool terstruktur, batas autentikasi berbasis OAuth, dan akses multitenan yang dikelola
- Namun, ini juga membawa apa yang disebut Justin Poehnelt sebagai "abstraction tax" — setiap lapisan protokol antara agent dan API dapat menyebabkan hilangnya fidelitas, dan API yang kompleks memperparah kehilangan ini
- Dalam praktiknya, CLI yang dirancang dengan baik dengan output
--helpyang bagus, respons JSON terstruktur, dan penanganan error yang dapat diprediksi sudah memberi semua yang dibutuhkan agent tanpa overhead protokol - Seperti catatan Simon Willison, "hampir semua yang dapat dicapai dengan MCP dapat ditangani dengan alat CLI"
- Ini bukan penolakan terhadap MCP, tetapi tim sebaiknya menghindari adopsi default dan lebih dulu bertanya apakah sistem mereka benar-benar memerlukan interoperabilitas tingkat protokol
- MCP layak digunakan ketika manfaat tata kelola dan integrasinya lebih besar daripada tambahan kompleksitas dan potensi hilangnya fidelitas
41. Lingkungan pengembangan yang di-streaming sebagai piksel
- Desktop atau workstation jarak jauh bergaya VDI digunakan untuk pengembangan perangkat lunak, sehingga editing, build, dan debugging dilakukan melalui desktop yang di-streaming alih-alih di mesin lokal atau lingkungan remote yang berpusat pada kode
- Organisasi terus mengadopsinya terutama untuk memenuhi tujuan keamanan, standardisasi, dan onboarding, khususnya bagi tim offshore dan program cloud lift-and-shift
- Namun dalam kenyataannya, trade-off yang muncul sering buruk — latensi, input lag, dan respons layar yang tidak konsisten menciptakan friksi kognitif terus-menerus, memperlambat kecepatan delivery dan membuat pekerjaan pengembangan sehari-hari lebih melelahkan
- Tidak seperti lingkungan pengembangan cloud, Google Cloud Workstations, Coder, dan VS Code Remote Development — yang memindahkan komputasi lebih dekat ke kode tanpa men-streaming seluruh desktop
- Setup pixel-streamed memprioritaskan kontrol terpusat dibanding alur kerja developer, dan sering dipaksakan tanpa masukan yang memadai dari engineer yang harus menggunakannya
- Kecuali kebutuhan keamanan yang kuat atau kendala regulasi jelas lebih penting daripada biaya produktivitasnya, lingkungan pengembangan pixel-streamed tidak direkomendasikan sebagai pilihan default untuk software delivery
[Platforms]
Adopt
— Tidak ada
Trial
42. AG-UI Protocol
- Protokol dan library terbuka yang dirancang untuk menstandarkan komunikasi antara antarmuka pengguna yang kaya dan agent AI backend
- Secara historis, membangun UI agentic memerlukan pekerjaan plumbing khusus untuk kolaborasi dua arah yang mempertahankan status, dan AG-UI mengatasinya dengan arsitektur berbasis event yang konsisten yang mendukung transport seperti server-sent events (SSE) dan WebSockets
- Mendukung streaming tahap penalaran, sinkronisasi status, dan rendering komponen UI dinamis
- Namun, lanskap arsitektur antarmuka agent berubah cepat, dan AG-UI sengaja ditempatkan di luar MCP untuk berperan sebagai lapisan antarmuka antara frontend dan backend agent
- Pendekatan lain juga mulai muncul, yaitu aplikasi berbasis MCP baru yang mengemas HTML dan widget UI langsung di dalam server MCP atau skill
- Saat komponen UI dapat di-embed dan disajikan bersama tool — pola yang terkait dengan standar terdekat seperti MCP-UI — hal ini menimbulkan pertanyaan apakah lapisan protokol UI terpisah seperti AG-UI masih diperlukan
- Ini tetap menjadi pilihan yang solid untuk memisahkan UX frontend dan orkestrasi backend, tetapi perannya perlu dievaluasi dengan mempertimbangkan tren integrasi logika tool dan UI di dalam ekosistem MCP
43. Apache APISIX
- Gateway open-source, berkinerja tinggi, dan cloud-native yang mengatasi keterbatasan solusi lama berbasis Nginx
- Dibangun di atas LuaJIT milik Nginx dan OpenResty, menggunakan etcd sebagai penyimpanan konfigurasi untuk menghilangkan latensi akibat reload, sehingga cocok untuk arsitektur microservice dinamis dan serverless
- Kekuatan utamanya adalah arsitektur yang sepenuhnya dinamis dan dapat diperluas dengan plugin, dengan ekosistem plugin multibahasa termasuk API dan WASM untuk menyesuaikan manajemen trafik, keamanan, dan observabilitas
- Dukungan untuk Kubernetes Gateway API memungkinkan Apache APISIX digunakan sebagai gateway Kubernetes, menjadikannya kandidat kuat untuk menggantikan ingress controller Nginx lama
44. AWS Bedrock AgentCore
- Platform agentic untuk membangun, menjalankan, dan mengoperasikan agen secara aman dalam skala besar tanpa overhead pengelolaan infrastruktur, mirip dengan GCP Vertex AI Agent Builder dan Azure AI Foundry Agent Service
- Memang mudah mengadopsi platform ini sebagai kotak hitam monolitik, tetapi keberhasilan lebih besar dicapai dengan arsitektur yang terperinci dan terpisah — gunakan runtime AgentCore untuk kebutuhan produksi seperti isolasi sesi, keamanan, dan observabilitas, sementara logika orkestrasi tetap berada di framework eksternal seperti LangGraph
- Pemisahan perhatian seperti ini memungkinkan pemanfaatan keunggulan infrastruktur terkelola sambil tetap menjaga fleksibilitas untuk beradaptasi saat lingkungan LLM berkembang
- Fokus yang mengutamakan runtime memungkinkan organisasi memindahkan workload agentic ke produksi secara bertahap tanpa menyerahkan kendali logika inti ke lapisan orkestrasi spesifik vendor
45. Graphiti
- Mesin knowledge graph temporal open-source dari Zep yang menunjukkan kelayakan produksi untuk menyelesaikan masalah memori LLM
- Sementara vector store datar dalam pipeline RAG gagal melacak perubahan fakta dari waktu ke waktu, Graphiti mengumpulkan data sebagai episode yang terpisah dan menjaga jendela validitas bitemporal pada edge graf, sehingga fakta lama dibatalkan alih-alih ditimpa
- Berbeda dari GraphRAG yang berorientasi batch, graf diperbarui secara bertahap, dan pencarian hibrida yang menggabungkan semantic search, BM25, dan traversal graf memberikan pencarian subdetik tanpa pemanggilan LLM saat query
- Dua faktor mendorong pergeseran ini — benchmark yang ditinjau sejawat melaporkan peningkatan akurasi 18,5% dan penurunan latensi 90%, serta peluncuran server MCP kelas satu yang memungkinkan agen kompatibel Model Context Protocol menambahkan memori temporal permanen dengan upaya integrasi minimal
- Adopsi komunitas yang kuat menjadi sinyal tambahan kesiapan produksi
- Neo4j adalah backend utama, dengan FalkorDB sebagai alternatif yang lebih ringan
- Perlu mempertimbangkan biaya ekstraksi LLM per penulisan dan mengunci dependensi mengingat status rilis sebelum 1.0
46. Langfuse
- Platform rekayasa LLM open-source yang menangani observabilitas, manajemen prompt, evaluasi, dan pengelolaan dataset
- Sejak evaluasi terakhir, proyek ini telah jauh lebih matang; arsitektur v3 memperkenalkan ClickHouse, Redis, dan S3 sebagai komponen backend, sehingga skalabilitas meningkat tetapi kompleksitas self-hosting juga bertambah
- SDK Python dan TypeScript sama-sama dibangun secara native di atas OpenTelemetry, sehingga sangat cocok bagi tim yang sudah menggunakan observabilitas berbasis OTEL
- Fitur baru seperti SDK experiment runner dan dukungan structured output untuk eksperimen prompt memperluas Langfuse dari sekadar pelacakan menjadi alur kerja evaluasi yang sistematis
- Layak dipertimbangkan di ruang yang makin padat, termasuk Arize Phoenix, Helicone, dan LangSmith
- Tim yang terutama membangun di atas Pydantic AI juga dapat mempertimbangkan Pydantic Logfire, yang mengambil pendekatan lebih luas sebagai platform observabilitas OTEL full-stack alih-alih kumpulan alat khusus LLM
- Pilihan tepercaya bagi tim yang membutuhkan pelacakan, evaluasi, dan manajemen prompt terintegrasi dalam satu platform yang bisa di-self-host, tetapi jika kebutuhan utama hanya visibilitas biaya dan latensi pada lapisan model, perlu dievaluasi apakah alat yang lebih sempit seperti Helicone sudah memadai
47. Port
- Portal developer internal komersial yang dirancang untuk meningkatkan pengalaman pengembang, dengan menyediakan satu sumber kebenaran untuk workflow self-service bagi tim platform melalui sentralisasi aset perangkat lunak, otomatisasi workflow, dan penegakan standar engineering
- Menjadi makin penting saat organisasi menstandarkan workflow engineering sambil berupaya mengekspos template, API, otomatisasi, dan agen dalam bentuk yang benar-benar bisa digunakan pengembang
- Selain sebagai portal mandiri, Port juga dapat digunakan langsung dari IDE melalui API dan lapisan MCP-nya
- Cocok untuk organisasi yang menginginkan kapabilitas portal yang siap pakai tanpa berinvestasi besar pada platform engineering
- Dalam keterlibatan dengan klien, solusi ini memungkinkan tim platform yang relatif kecil menghadirkan self-service yang efektif dengan cepat sambil mendukung ribuan pengembang
- Layak dievaluasi bagi organisasi yang membutuhkan kapabilitas portal developer internal dengan cepat dan dapat menerima platform komersial serta batasan ketergantungan vendor
48. Replit
- Platform pengembangan kolaboratif cloud-native yang menghadirkan lingkungan pengembangan instan, coding real-time, dan asistensi AI terintegrasi langsung di browser
- Menggabungkan editor, runtime, deployment, dan workflow coding AI ke dalam satu platform terpadu, sehingga pengembang dapat langsung mulai coding tanpa setup lokal
- IDE kolaboratif berbasis AI sangat membantu mengurangi friksi onboarding dan cocok untuk prototyping bersama dalam tim
- Juga sangat efektif untuk sesi pelatihan, berbagi pengetahuan, dan bootcamp
- Sebagian orang mungkin memandang Replit sebagai tempat untuk proyek hobi berbantuan AI, tetapi lingkungannya cukup kuat untuk bersaing dengan IDE lokal tradisional, sehingga iterasi dan kolaborasi menjadi jauh lebih mudah
49. SigNoz
- Platform observabilitas open-source yang native OpenTelemetry dengan dukungan terpadu untuk log, metrik, dan trace
- Mengatasi kebutuhan APM dan instrumentasi pada microservice modern dan arsitektur terdistribusi sambil menghindari vendor lock-in
- Memanfaatkan ClickHouse sebagai database kolumnar default untuk menyediakan penyimpanan yang skalabel, berkinerja tinggi, dan hemat biaya dengan query cepat, sehingga memposisikan diri sebagai alternatif self-hosted yang kuat terhadap platform seperti Datadog
- Mendukung query yang fleksibel melalui PromQL dan ClickHouse SQL, serta notifikasi ke banyak kanal alert
- Dalam praktiknya, SigNoz terbukti mengurangi konsumsi sumber daya infrastruktur dan total biaya observabilitas tanpa menurunkan performa
- Layanan cloud terkelola memang tersedia, tetapi image Docker dan chart Helm yang siap pakai menjadi pilihan praktis bagi organisasi yang lebih memilih mempertahankan kendali atas data dan infrastruktur mereka
Assess
50. Agent Trace
- Spesifikasi terbuka yang diusulkan Cursor untuk standarisasi atribusi kode AI
- Dengan meningkatnya adopsi agen pemrograman, pemahaman tentang siapa yang memodifikasi kode meluas dari pengembang manusia hingga mencakup perubahan yang dihasilkan AI
- Alat lama seperti
git blamedapat menunjukkan bahwa baris kode telah diubah, tetapi gagal menangkap apakah perubahan dilakukan oleh manusia, AI, atau keduanya - Agent Trace mendefinisikan cara melacak perubahan kode dengan pendekatan netral vendor, tanpa menentukan cara penyimpanan jejaknya
- Kompatibel dengan banyak sistem kontrol versi termasuk Git, Mercurial, dan Jujutsu
- Spesifikasi ini mendefinisikan tipe kontributor seperti human, AI, mixed, dan unknown serta rekaman jejak yang menjelaskan sumber tiap kontribusi
- Ada sinyal awal adopsi melalui dukungan dari alat seperti Cline dan OpenCode serta implementasi seperti Git AI
51. ClickStack
- Platform observability open-source kompatibel OpenTelemetry yang menyatukan log, trace, metric, dan session dalam satu penyimpanan data berperforma tinggi berbasis ClickHouse
- Seiring pertumbuhan infrastruktur dan naiknya biaya observability, banyak tim kesulitan dengan toolchain telemetri yang terfragmentasi dan platform vendor yang mahal
- ClickStack memanfaatkan penyimpanan kolumnar ClickHouse untuk memungkinkan kueri sub-detik ber-kardinalitas tinggi di seluruh data telemetri skala besar, sehingga memberi fondasi observability yang lebih sederhana dan hemat biaya
52. Coder
- Alternatif yang baik untuk pixel-streamed development environments, dengan memisahkan tempat kode dijalankan dari cara pengembang berinteraksi
- Alih-alih melakukan streaming seluruh antarmuka desktop, pengembang menghubungkan IDE lokal seperti VS Code atau browser ke lingkungan jarak jauh, menghasilkan pengalaman yang lebih responsif tanpa mengorbankan kegunaan
- Kode berjalan di infrastruktur jarak jauh yang dapat diskalakan, dan lingkungan didefinisikan serta dikelola sebagai kode, sehingga tim bisa menstandarkan setup pengembangan dan menyederhanakan onboarding pengembang baru
- Juga memudahkan penyediaan akses terkontrol ke sistem internal dan penyederhanaan akses untuk agen pemrograman AI yang telah disetujui sebelumnya
- Coder diposisikan sebagai titik tengah antara pengembangan lokal dan desktop virtual yang sepenuhnya tervirtualisasi — menghadirkan kontrol terpusat dan tata kelola tanpa batasan kegunaan dari VDI pixel-streamed
- Opsi yang baik bagi organisasi yang membutuhkan lingkungan eksekusi jarak jauh atau terkontrol, terutama yang memerlukan komputasi lebih tinggi atau akses yang aman
- Perlu mengevaluasi overhead operasional dan tanggung jawab keamanan yang menyertai pengelolaan lingkungan seperti ini
53. Databricks Agent Bricks
- Seiring pendekatan berbasis agen menjadi arus utama, platform data berevolusi untuk mendukung workload ini secara native, bukan sebagai modul tambahan
- Databricks Agent Bricks menyediakan komponen siap pakai yang dioptimalkan otomatis untuk pola AI umum seperti asisten pengetahuan dan analis data
- Mengikuti pendekatan deklaratif — pengembang mendefinisikan tujuan dan data dasar, sementara framework menangani eksekusi dan optimisasi
- Dengan menyederhanakan LLMOps dan mengurangi upaya yang dibutuhkan untuk kurasi data, tim dapat lebih fokus pada hasil bisnis daripada boilerplate
- Satu tim menggunakannya bersama agen kustom untuk mengevaluasi dan membangun solusi RAG kompleks untuk R&D praklinis
- Jika sudah berinvestasi di ekosistem Databricks dan sedang mengeksplorasi pendekatan berbasis agen untuk use case umum seperti chatbot dan ekstraksi dokumen, ini layak dipertimbangkan
54. DuckLake
- Format data lake dan katalog terpadu yang menyederhanakan arsitektur lakehouse dengan menggunakan database SQL standar untuk katalog dan pengelolaan metadata
- Sementara format tabel terbuka tradisional seperti Iceberg atau Delta Lake bergantung pada struktur metadata berbasis file yang kompleks, DuckLake menyimpan metadata di database katalog seperti SQLite, PostgreSQL, atau DuckDB, sambil menyimpan data sebagai file Parquet di disk lokal atau object storage kompatibel S3
- Pendekatan hibrida ini meningkatkan latensi perencanaan kueri dan keandalan transaksi saat pembaruan bersamaan
- DuckDB berperan sebagai mesin kueri melalui ekstensi
ducklake, menyediakan antarmuka SQL yang familier untuk operasi DDL dan DML standar - Mempertahankan karakteristik lakehouse seperti partisi, namun menghilangkan indeks serta primary/foreign key
- Dengan dukungan untuk time travel, evolusi skema, dan kepatuhan ACID, ini menawarkan opsi berkompleksitas rendah bagi tim yang mengejar stack analitik yang mandiri
- Meski masih pada tahap kematangan awal, ini adalah alternatif yang menjanjikan dan ringan untuk arsitektur lakehouse tradisional
- Cocok untuk lingkungan data yang disederhanakan dan ingin menghindari overhead operasional yang terkait dengan ekosistem berbasis Spark atau Trino
55. FalkorDB
- Database graf berbasis Redis yang mendukung Cypher, cocok bagi tim yang menginginkan kemampuan graf tanpa mengadopsi platform graf yang berat
- Opsi praktis untuk organisasi yang membangun workload AI dan aplikasi kaya relasi, ketika friksi operasional yang rendah penting dan layanan graf berbasis server lebih disukai daripada penyimpanan tersemat
- Arsitekturnya menjanjikan dan model pengembangnya mudah diakses, tetapi sebelum keputusan adopsi yang luas, perlu memvalidasi perilaku produksi FalkorDB terkait skalabilitas, alat operasional, dan kematangan ekosistem jangka panjang dari FalkorDB
56. Google Dialogflow CX
- Platform AI percakapan terkelola dari Google Cloud yang menggabungkan state machine berbasis graf yang dibangun dengan Flows dan Pages dengan kemampuan generatif berbasis Vertex AI Gemini
- Sebelumnya, pendahulunya yaitu Dialogflow pernah dilacak di Radar
- CX mewakili redesain besar, dan mendapat perhatian setelah Google mengintegrasikan model Vertex AI Gemini pada 2024, memperkenalkan Generative Playbooks untuk agen berbasis instruksi dan Data Store RAG yang me-landaskan respons pada konten yang telah diindeks
- Digunakan untuk membangun agen penemuan data berbasis bahasa alami, dengan memilih Dialogflow CX dibanding pendekatan SDK kustom karena lingkungan low-code dan Generative Playbooks
- Dikonfigurasi dengan few-shot prompting untuk menerjemahkan kueri bahasa alami ke SQL
- Tim yang membangun di atas Google Cloud menemukan penyampaian yang lebih cepat saat membangun antarmuka bahasa alami di atas data internal terstruktur dibanding stack agen kustom
- Namun, tidak ada free tier, ada ketergantungan mendalam pada Google Cloud yang membawa vendor lock-in yang signifikan, dan upaya context engineering perlu direncanakan
57. MCP Apps
- Ekstensi resmi pertama dari Model Context Protocol, yang memungkinkan server MCP mengembalikan antarmuka HTML interaktif yang dirender langsung di dalam percakapan sebagai dashboard, formulir, atau visualisasi
- Dikembangkan bersama oleh Anthropic, OpenAI, dan kontributor open-source, menstandarkan skema resource
ui://yang memungkinkan alat mendeklarasikan template UI yang dirender dalam sandboxed iframe dan menurun dengan elegan ke teks jika host tidak mendukung UI - Berbeda dengan AG-UI yang bekerja sebagai lapisan library terpisah, MCP Apps mengemas UI langsung di dalam server MCP
- Dengan desain dua arah, model dapat mengamati tindakan pengguna, sementara antarmuka menangani data real-time dan manipulasi langsung yang tidak bisa dilakukan teks
- Klien termasuk Claude, ChatGPT, VS Code, dan Goose sudah merilis dukungan
- Tim yang mengeksplorasi interaksi agen yang lebih kaya perlu menilai apakah kompleksitas tambahan dibanding respons teks biasa memang sepadan untuk use case mereka
58. Monarch
- Kerangka kerja pemrograman terdistribusi open-source yang membawa kesederhanaan workload PyTorch pada satu mesin ke klaster GPU besar
- Menyediakan Python API untuk membuat proses dan actor jarak jauh, lalu mengelompokkannya ke dalam koleksi mesh yang mendukung broadcast messaging
- Menyediakan toleransi kesalahan melalui supervision tree, sehingga kegagalan merambat ke atas hierarki untuk penanganan error yang rapi dan pemulihan yang terperinci
- Mendukung transfer RDMA point-to-point untuk perpindahan memori GPU·CPU yang efisien, serta menyediakan abstraksi tensor terdistribusi yang memungkinkan actor bekerja dengan tensor yang dipartisi di seluruh proses sambil tetap mempertahankan model pemrograman imperatif
- Monarch dibangun di atas backend Rust berkinerja tinggi
- Masih pada tahap awal pengembangan, tetapi abstraksi yang membuat tensor terdistribusi bekerja seperti lokal sangat kuat dan berpotensi sangat mengurangi kompleksitas pelatihan AI terdistribusi skala besar
59. Neutree
- Platform open-source untuk mengelola dan melayani LLM di infrastruktur privat, memosisikan diri sebagai lapisan layanan model untuk enterprise AI
- Menyediakan control plane terpadu untuk manajemen siklus hidup model, inference serving, dan penjadwalan komputasi di berbagai hardware heterogen seperti akselerator NVIDIA·AMD·Intel
- Seiring organisasi beralih dari hosted API ke deployment self-hosted yang terkelola, Neutree menjawab celah yang jelas — mengoperasikan workload LLM dengan kapabilitas kelas enterprise seperti multitenancy, kontrol akses, akuntansi penggunaan, dan abstraksi infrastruktur
- Memisahkan model serving dari logika aplikasi sehingga tim dapat menerapkan, menskalakan, dan merutekan model di berbagai lingkungan termasuk bare metal, VM, dan container tanpa terikat kuat pada penyedia cloud tertentu
- Namun, karena masih relatif baru, adopsinya perlu didekati dengan hati-hati
- Ekosistem, kematangan operasional, dan kapabilitas integrasinya masih terus berkembang dibanding platform ML yang lebih mapan
- Menjanjikan, tetapi paling cocok untuk tim yang bersedia berinvestasi dalam mengevaluasi dan membentuk infrastruktur enterprise AI yang sedang muncul
60. OptScale
- Platform FinOps multicloud open-source yang mendukung workload AI/ML berat, di mana biaya GPU dan eksperimen dapat melonjak dengan cepat
- Mengumpulkan data tagihan dan penggunaan dari cloud API, lalu menggabungkan visibilitas biaya, rekomendasi optimisasi, pelacakan anggaran, dan deteksi anomali dalam satu sistem dengan alert berbasis kebijakan yang selaras dengan tim atau struktur bisnis
- Dibandingkan OpenCost, OptScale menyediakan analisis tingkat Kubernetes sekaligus mencakup kasus penggunaan FinOps non-Kubernetes yang lebih luas
- Menawarkan lebih banyak kendali dan lebih sedikit vendor lock-in dibanding suite enterprise seperti IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost, dan Flexera One
- Trade-off-nya adalah overhead operasional yang lebih tinggi, kompleksitas deployment, edge case pada connector, serta kekhawatiran terkait kebersihan keamanan image container
- Perlu diperlakukan bukan sebagai produk plug-and-play, melainkan investasi pada kapabilitas platform
61. Rhesis
- Platform pengujian open-source untuk LLM dan aplikasi agentic, yang memungkinkan tim mendefinisikan perilaku yang diharapkan dalam bahasa alami, menghasilkan skenario pengujian adversarial, dan mengevaluasi hasil baik melalui UI maupun SDK atau API
- Sementara pendekatan pengujian tradisional mengasumsikan perilaku deterministik, sistem AI gagal dengan cara yang lebih subtil — termasuk jailbreak, interaksi multi-turn, pelanggaran kebijakan, dan edge case yang bergantung pada konteks
- Platform yang berguna bagi tim yang membutuhkan lebih dari sekadar evaluasi prompt sederhana
- Fitur seperti conversation simulator, pengujian adversarial, tracing berbasis OpenTelemetry, dan self-hosting melalui Docker adalah cara praktis untuk membawa tim produk, domain, dan engineering ke dalam workflow pengujian bersama
- Manfaat utamanya adalah peningkatan validasi pra-produksi untuk sistem non-deterministik
- Perlu mempertimbangkan trade-off umum seperti biaya evaluasi, keterbatasan metrik LLM-as-judge, dan kebutuhan akan requirement yang terdefinisi dengan baik sebelum platform dapat memberikan nilai
- Layak dievaluasi bagi tim yang membangun sistem LLM atau agentic yang membutuhkan pengujian kolaboratif dan dapat diulang di luar pengecekan prompt dasar
62. RunPod
- Saat organisasi meningkatkan eksperimen pelatihan dan fine-tuning LLM, hyperscaler seperti AWS dan Google Cloud dapat menimbulkan biaya tinggi serta ketersediaan hardware yang terbatas
- RunPod menawarkan alternatif yang hemat biaya untuk workload AI yang intensif komputasi
- Beroperasi sebagai marketplace GPU yang terdistribusi secara global, menyediakan akses on-demand ke berbagai hardware mulai dari klaster H100 kelas enterprise hingga RTX 4090 kelas konsumen, sering kali dengan biaya yang jauh lebih rendah dibanding penyedia cloud tradisional
- Opsi praktis yang layak dievaluasi bagi tim yang membutuhkan infrastruktur fleksibel dan ramah anggaran untuk mengembangkan, melatih, dan menerapkan model AI tanpa komitmen jangka panjang atau vendor lock-in
63. Sprites
- Lingkungan sandbox stateful dari Fly.io yang dirancang untuk eksekusi terisolasi agen coding AI
- Sementara kebanyakan sandbox agen bersifat ephemeral dan dibuat lalu hilang demi sebuah tugas, Sprites menyediakan lingkungan Linux persisten dengan kemampuan checkpoint dan restore tanpa batas
- Developer dapat membuat snapshot seluruh status lingkungan termasuk dependency yang terpasang, konfigurasi runtime, dan perubahan file system, lalu melakukan rollback bila agen keluar jalur
- Ini menangkap status sistem yang tidak dilacak oleh version control, melampaui apa yang dapat dipulihkan oleh Git saja
- Seiring tim semakin mengadopsi sandboxed execution for coding agents sebagai default yang masuk akal, Sprites mewakili salah satu ujung spektrum — pendekatan stateful non-ephemeral yang menukar kesederhanaan container ephemeral dengan opsi pemulihan yang lebih kaya
- Tim yang mengevaluasi sandboxing agen dapat mempertimbangkan Sprites bersama alternatif ephemeral seperti Dev Containers, sesuai kebutuhan dan workflow mereka
64. torchforge
- Library reinforcement learning native PyTorch yang dirancang untuk post-training skala besar pada language model
- Menyediakan abstraksi tingkat tinggi yang memisahkan logika algoritme dari concern infrastruktur, dengan mengorkestrasi Monarch untuk coordination, vLLM untuk inference, dan torchtitan untuk pelatihan terdistribusi
- Pendekatan ini memungkinkan peneliti mengekspresikan workflow reinforcement learning yang kompleks dengan API mirip pseudocode, lalu menskalakan workload ke ribuan GPU tanpa harus mengelola concern level rendah seperti sinkronisasi resource, penjadwalan, dan toleransi kesalahan
- Dengan memisahkan "apa" (desain algoritme) dari "bagaimana" (eksekusi terdistribusi), torchforge menyederhanakan eksperimen dan iterasi dalam sistem alignment skala besar
- Langkah yang berguna untuk membuat teknik post-training tingkat lanjut lebih mudah diakses, tetapi tim tetap perlu mengevaluasi kematangan dan kecocokannya dalam infrastruktur ML yang ada
65. torchtitan
- Platform native PyTorch untuk pre-training skala besar model AI generatif, menyediakan implementasi referensi yang rapi dan modular untuk pelatihan terdistribusi berkinerja tinggi
- Menggabungkan primitive terdistribusi tingkat lanjut ke dalam sistem yang kohesif untuk mendukung paralelisasi 4D pada data, tensor, pipeline, dan context
- Karena pelatihan model berskala Llama 3.1 405B menuntut skala dan efisiensi yang besar, torchtitan menyediakan fondasi praktis untuk membangun dan mengoperasikan workload pelatihan besar
- Desain modularnya memudahkan tim bereksperimen dan mengembangkan strategi paralelisasi sambil tetap menjaga kesiapan produksi
- Langkah yang berguna untuk standarisasi pelatihan model skala besar di ekosistem PyTorch, terutama cocok untuk tim yang membangun infrastruktur pre-training mereka sendiri
[Tools]
Adopt
66. Axe-core
- alat pengujian open source untuk mendeteksi masalah aksesibilitas pada situs web dan aplikasi berbasis HTML lainnya
- memeriksa halaman agar mematuhi standar seperti WCAG — termasuk tingkat kesesuaian A, AA, AAA — serta menandai praktik terbaik aksesibilitas umum
- sejak pertama kali muncul di Radar sebagai Trial pada 2021, beberapa tim telah mengadopsi Axe-core bersama klien
- aksesibilitas semakin menjadi atribut kualitas yang wajib, dan di Eropa regulasi seperti European Accessibility Act mewajibkan organisasi memenuhi persyaratan aksesibilitas layanan digital
- cocok dengan alur kerja pengembangan modern melalui pengaktifan pemeriksaan otomatis di pipeline CI
- membantu tim mencegah regresi, menjaga kepatuhan, dan mendapatkan umpan balik dini selama pengembangan, terutama untuk memastikan aksesibilitas menjadi bagian dari loop umpan balik saat dukungan AI dan alat coding agentic diadopsi secara luas
67. Claude Code
- alat coding AI agentic dari Anthropic untuk merencanakan dan mengeksekusi alur kerja kompleks bertahap
- tim di dalam dan luar Thoughtworks rutin menggunakannya untuk pengiriman software produksi, dan alat ini diperlakukan luas sebagai tolok ukur kapabilitas dan kegunaan, sehingga dipindahkan ke Adopt
- ekosistem agen CLI berkembang cepat dengan alat seperti Codex CLI dari OpenAI, Gemini CLI dari Google, OpenCode, dan pi, tetapi Claude Code tetap menjadi opsi pilihan banyak tim
- penggunaannya telah meluas melampaui penulisan kode menjadi eksekusi alur kerja yang mencakup spesifikasi, story, konfigurasi, infrastruktur, dokumentasi, dan proses bisnis yang didefinisikan dengan markdown
- terus memperkenalkan fitur yang kemudian diikuti alat lain, seperti skills, subagent, kendali jarak jauh, dan alur kerja tim agentic
- tim yang mengadopsinya tetap memerlukan praktik operasional yang disiplin dan pairing, karena coding agentic mengalihkan upaya developer dari implementasi manual ke penjabaran niat, batasan, dan batas review
- dapat mempercepat pengiriman, tetapi juga meningkatkan risiko sikap terlalu santai terhadap kode hasil AI, yang membuat sistem lebih sulit dipelihara dan dikembangkan baik oleh manusia maupun agen
- ada minat yang meningkat pada context engineering (kesadaran topik, pemilihan konteks berbasis cakupan) dan curated shared instructions sebagai cara menerapkan harness engineering agar alur kerja agentic lebih andal
68. Cursor
- bersama Claude Code, konsisten muncul sebagai salah satu agen coding yang paling luas diadopsi dan pilihan default bagi tim delivery
- telah matang menjadi lingkungan agentic yang komprehensif dengan fitur seperti plan mode, hooks, dan subagents
- agen berbasis terminal juga populer, tetapi banyak developer mendapati pengawasan agen di dalam IDE memberikan pengalaman yang lebih kaya untuk meninjau dan menyempurnakan rencana sebelum eksekusi
- dengan adopsi Agent Client Protocol, hambatan bagi basis pengguna besar JetBrains menjadi lebih rendah, sehingga kapabilitas Cursor bisa diakses dari IDE tersebut
- kemampuan memeriksa langkah agen individual atau melakukan rollback ke langkah sebelumnya saat rencana menyimpang dianggap sangat bernilai
- pemanfaatan Agent Skills membantu tim mengemas instruksi yang dapat digunakan ulang dan menstandarkan cara agen berinteraksi dengan codebase yang kompleks
- keuntungan produktivitasnya jelas, tetapi otonomi agentic tetap memerlukan pengujian otomatis yang ketat dan pengawasan manusia untuk menangkap regresi halus
69. Kafbat UI
- web UI open source gratis untuk memantau dan mengelola cluster Apache Kafka
- sangat berguna ketika tim perlu memeriksa payload yang sulit dibaca selama debugging sehari-hari
- tim sering terhambat saat men-debug pesan terenkripsi, dan dukungan SerDes bawaan maupun yang dapat dipasang sebagai plugin pada Kafbat UI menyediakan cara praktis untuk menerapkan dekripsi atau decoding kustom agar pesan bisa dibaca kembali
- memberikan umpan balik lebih cepat dan pengalaman operasional yang lebih baik bagi developer serta tim support dibanding skrip debug sekali pakai
- direkomendasikan untuk lingkungan yang sangat bergantung pada Kafka, di mana inspeksi pesan yang aman dan penyelesaian masalah yang efisien seharusnya menjadi praktik standar
70. mise
- sejak evaluasi terakhir, telah berevolusi dari alternatif berperforma tinggi untuk asdf menjadi frontend default untuk lingkungan pengembangan
- menyatukan tiga kebutuhan yang sebelumnya terfragmentasi — manajemen versi alat dan bahasa, manajemen variabel lingkungan, serta eksekusi task — ke dalam satu alat berbasis Rust berperforma tinggi, yang dikonfigurasi melalui file deklaratif
mise.toml - mise mudah dikonfigurasi dan bekerja baik dengan pipeline CI/CD
- melalui integrasi dengan Cosign dan GitHub Artifact Attestations, ia menambahkan lapisan keamanan rantai pasok yang sering hilang pada version manager lain
- menjadi pilihan default yang direkomendasikan bagi tim yang ingin menstandarkan pengaturan environment developer
- sangat berguna di lingkungan polyglot dengan banyak microservice ketika codebase secara bersamaan mengadopsi versi bahasa baru
- juga dapat bekerja dengan alat yang sudah ada per bahasa, sehingga tim tidak perlu bermigrasi semuanya sekaligus
Trial
71. cargo-mutants
- alat mutation testing untuk Rust, membantu bergerak melampaui metrik code coverage yang sederhana
- secara otomatis menyuntikkan bug kecil yang disengaja, seperti pertukaran operator atau pengembalian nilai default, untuk memverifikasi apakah pengujian yang ada benar-benar menangkap regresi
- pendekatan tanpa konfigurasi sangat efektif, dan tidak seperti alat sebelumnya, tidak memerlukan perubahan pada source tree
- memberikan loop umpan balik yang berguna bagi tim yang baru mengenal Rust, membantu mengidentifikasi edge case yang terlewat dan meningkatkan keandalan pengujian unit maupun integrasi
- cargo-mutants adalah implementasi khusus dari mutation testing, yang juga sedang dicoba di ekosistem lain
- biaya utamanya adalah peningkatan waktu eksekusi pengujian, karena tiap mutant memerlukan incremental build
- untuk mengelolanya, disarankan menargetkan modul tertentu saat pengembangan lokal atau menjalankan keseluruhan suite secara asinkron di CI
- terkadang perlu menyaring mutant yang secara logis setara, tetapi peningkatan keandalan pengujian yang dihasilkan lebih besar daripada noise tambahan
72. Claude Code plugin marketplace
- Sebelumnya, berbagi perintah kustom, agen spesialis, server MCP, dan skill merupakan proses manual di mana developer menyalin-tempel instruksi dari Confluence atau sumber eksternal lainnya
- Akibatnya, version drift sering terjadi, dan anggota tim menggunakan instruksi proyek yang sudah usang
- Tim memanfaatkan Claude Code plugin marketplace untuk menggunakan model distribusi berbasis Git guna menyebarkan perintah, prompt, dan skill bersama
- Dengan meng-host marketplace tim internal di GitHub atau platform serupa, organisasi dapat mendistribusikan artefak ini dengan lebih aman dan konsisten
- Developer dapat langsung menyinkronkan workflow dan alat berbasis AI ke lingkungan lokal melalui CLI
- Agen coding lain seperti Cursor juga mendukung plugin marketplace tim, sehingga memungkinkan cara yang lebih ringkas dan terkelola untuk berbagi artefak ini
73. Dev Containers
- Menggunakan file konfigurasi
devcontainer.jsonsebagai cara terstandarisasi untuk mendefinisikan lingkungan pengembangan dalam kontainer yang dapat direproduksi - Awalnya dirancang untuk memberi tim pengaturan pengembangan yang konsisten, tetapi ditemukan kasus penggunaan baru yang menarik sebagai lingkungan eksekusi sandbox untuk agen coding
- Saat agen coding AI dijalankan di dalam Dev Container, ia terisolasi dari file system host, kredensial, dan jaringan, sehingga tim dapat memberikan hak akses luas kepada agen tanpa membahayakan mesin host
- Spesifikasi terbuka ini didukung secara native di alat berbasis VS Code seperti VS Code dan Cursor
- DevPod memperluas dukungan devcontainer ke workflow editor atau terminal apa pun melalui SSH
- Menerapkan pendekatan default yang ephemeral (yakni, kontainer dibangun ulang dari konfigurasi setiap kali dijalankan), memberikan batas keamanan yang bersih dengan konsekuensi harus memasang ulang alat dan dependensi
- Untuk tim yang membutuhkan state persisten atau kemampuan checkpoint dan restore, ada pendekatan lain seperti Sprites
- Selain sandboxing agen, ini juga memberi manfaat keamanan supply chain, karena toolchain didefinisikan dalam konfigurasi deklaratif sehingga mengurangi paparan terhadap paket yang dikompromikan dan dependensi tak terduga
74. Figma Make
- Sebelumnya merupakan blip self-serve UI prototyping with GenAI, dan kini teknik ini telah diadopsi luas oleh tim pengembangan termasuk manajer produk dan desainer untuk membuat prototipe high-fidelity yang dapat diuji pengguna
- Figma Make adalah opsi yang kuat karena memanfaatkan komponen dan layer nyata dari design system, sehingga hasilnya sangat mirip dengan aplikasi produksi
- Menggunakan model AI kustom yang dilatih dengan pola desain berkualitas tinggi
- Tim menggunakannya untuk membuat layar desain baru, meningkatkan layar yang ada, dan membangun prototipe yang bisa dibagikan untuk mengumpulkan umpan balik pengguna dengan cepat
75. OpenAI Codex
- Berevolusi menjadi alat coding agentic mandiri yang tersedia melalui aplikasi macOS dan CLI
- Dirancang untuk pendelegasian pekerjaan secara otonom — ketika diberi prompt, alat ini merencanakan, mengimplementasikan, dan mengiterasi lintas file dengan intervensi minimal
- Efektif sebagai alat pembuatan draf cepat, terutama berguna untuk pekerjaan greenfield dan tugas implementasi berulang
- Namun, OpenAI Codex cenderung mengusulkan pola library yang logis tetapi sudah usang secara fungsional, sehingga pengujian otomatis dan review manusia tetap wajib
- Seperti alat agentic lain dalam Radar ini, risiko akumulasi technical debt yang halus itu nyata, dan besarnya sebanding dengan tingkat otonomi yang diberikan tim
76. Typst
- Sistem typesetting berbasis markup yang memposisikan diri sebagai penerus modern LaTeX untuk pembuatan dokumen secara terprogram
- Menggabungkan tipografi berkualitas tinggi dengan sintaks yang lebih sederhana, serta menawarkan pipeline kompilasi yang sangat cepat yang dapat mengompilasi dokumen sangat besar hanya dalam sebagian kecil waktu dibanding toolchain LaTeX tradisional
- Typst menyediakan pesan error yang lebih jelas serta kemampuan scripting bawaan seperti conditional dan loop
- Dapat memuat data terstruktur dari JSON atau CSV, sehingga sangat cocok untuk pembuatan dokumen otomatis
- Tim menggunakannya untuk membuat laporan rekening dan laporan bagi pelanggan perbankan dan layanan keuangan yang perlu dihasilkan dalam skala besar dengan format konsisten
- Compiler open-source-nya dapat di-self-host, dan ekosistemnya yang terus berkembang mencakup paket kontribusi komunitas
- Lebih mudah diakses daripada LaTeX sambil tetap memberikan kualitas tipografi yang sebanding
Assess
77. Agent Scan
- Pemindai keamanan untuk ekosistem agen yang menemukan komponen lokal termasuk server MCP dan skill, lalu menandai risiko seperti prompt injection, tool poisoning, toxic flow, secret yang di-hardcode, dan penanganan kredensial yang tidak aman
- Menangani kesenjangan yang mulai muncul dalam visibilitas supply chain agen, dengan menyediakan cara praktis untuk menginventarisasi dan menguji permukaan agen yang tumbuh cepat
- Namun, adopsinya harus disengaja — pemindaian ini mengharuskan metadata komponen dibagikan ke Snyk API, dan kualitas sinyal serta tingkat false positive perlu divalidasi di lingkungan masing-masing
- Penting bagi tim untuk memastikan nilai operasional sebelum menjadikan Agent Scan sebagai bagian dari gate wajib delivery
78. Beads
- Pelacak isu berbasis Git yang dirancang sebagai lapisan memori persisten untuk agen coding
- Alih-alih bergantung pada rencana Markdown sementara, ini memberi agen graf tugas dengan struktur ramah branch untuk hubungan blocker, deteksi pekerjaan yang siap dikerjakan, dan koordinasi tugas jangka panjang lintas sesi
- Beads dibangun di atas Dolt, database SQL dengan version control bawaan yang mendukung branch, merge, diff, dan penyalinan tabel mirip repositori Git
- Mewakili kategori baru alat memori proyek dan pelacakan tugas yang native untuk agen
- Proyek awal lain di ruang ini adalah ticket dan tracer
- Berbeda dari sistem ticketing tradisional seperti GitHub Issues dan Jira, ini memungkinkan workflow baru untuk koordinasi eksekusi multi-agen secara otonom, termasuk agen yang saling menetapkan pekerjaan
79. Bloom
- Alat Anthropic untuk peneliti keamanan AI yang mengevaluasi perilaku LLM
- Mendeteksi perilaku seperti sycophancy (menjilat) dan self-preservation (mempertahankan diri)
- Dibanding benchmark statis, alat ini menggunakan konfigurasi seed yang mendefinisikan perilaku target dan parameter evaluasi untuk menghasilkan beragam percakapan uji secara dinamis lalu mengevaluasi hasilnya
- Pendekatan terhadap evaluasi perilaku otomatis ini penting untuk mengikuti kecepatan rilis model, dan memungkinkan tim riset eksternal melakukan evaluasi
- Petri adalah alat pendamping untuk mengidentifikasi perilaku apa yang muncul pada model tertentu, sedangkan Bloom mengidentifikasi dalam skenario apa dan seberapa sering perilaku tersebut muncul; keduanya bersama-sama membentuk rangkaian evaluasi yang lebih lengkap
- Salah satu kekhawatiran adalah Bloom memerlukan model guru (atau evaluator) untuk menilai model siswa yang diberikan; model guru dapat memiliki blind spot dan bias, sehingga penggunaan banyak evaluator dapat mengurangi bias hasil
- Layak dievaluasi oleh tim riset keamanan AI sebagai pelengkap benchmark statis untuk menilai perilaku model yang sedang muncul
80. CDK Terrain
- Fork komunitas dari Cloud Development Kit for Terraform(CDKTF) yang dihentikan penggunaannya dan diarsipkan oleh HashiCorp pada Desember 2025
- CDK Terrain (CDKTN) melanjutkan dari titik saat CDKTF dihentikan, memungkinkan tim mendefinisikan infrastruktur dengan TypeScript, Python, dan Go lalu melakukan provisioning melalui Terraform atau OpenTofu
- Bagi tim yang sudah berinvestasi pada CDKTF, ini mempertahankan kode dan alur kerja yang ada serta menyediakan jalur migrasi alih-alih memaksa perpindahan ke HCL atau Pulumi
- Proyek ini merilis pembaruan setiap bulan dan menambahkan dukungan OpenTofu sebagai target kelas satu
- Namun, fork pemeliharaan komunitas untuk proyek yang ditinggalkan vendor membawa risiko bawaan terkait dukungan jangka panjang, dan pendekatan CDKTF tidak berhasil mencapai adopsi luas
- HashiCorp menyebut kurangnya product-market fit saat menghentikannya
- Tim yang saat ini menggunakan CDKTF dapat mengevaluasi CDK Terrain sebagai opsi keberlanjutan, sambil menimbang apakah ini saat yang tepat untuk bermigrasi ke pendekatan dengan dukungan lebih luas
81. CodeScene
- Pernah menjadi blip social code analysis pada 2017, dan adopsi coding agent yang meningkat memunculkan minat baru pada alat seperti CodeScene
- Alat analisis kode berbasis perilaku yang mengidentifikasi utang teknis dengan menggabungkan metrik kompleksitas kode dan riwayat version control
- Berbeda dari analisis statis tradisional, alat ini menyoroti "hotspot" untuk membantu tim memprioritaskan refactoring berdasarkan aktivitas pengembangan nyata dan dampak bisnis
- Kini juga menyediakan panduan untuk desain kode yang ramah AI
- Tim menemukan bahwa kualitas kode menjadi semakin penting karena coding agent dapat memodifikasi kode jauh lebih cepat daripada pengembang manusia
- Metrik CodeHealth dari CodeScene membantu mengidentifikasi area yang terlalu kompleks untuk direfaktor dengan aman oleh LLM tanpa risiko halusinasi, sehingga memberi guardrail yang berguna
- Direkomendasikan untuk dievaluasi sebagai guardrail dalam adopsi coding agent, dengan metrik CodeHealth yang menyoroti target refactoring yang aman dan menunjukkan area yang perlu diperbaiki sebelum agent diterapkan
82. ConfIT
- Library yang mendefinisikan pengujian API gaya integrasi dan komponen secara deklaratif dalam JSON alih-alih menuliskannya secara imperatif sebagai kode
- Minat pada pendekatan ini meningkat karena test suite besar sering menumpuk boilerplate di sekitar HTTP client, konfigurasi request, dan assertion
- Pengembangan berbantuan AI memperkuat tren ini, karena definisi pengujian yang terstruktur lebih mudah dibuat dan dipelihara daripada kode prosedural yang panjang
- Berdasarkan pengalaman klien dan evaluasi, lapisan deklaratif mengurangi duplikasi antara pengujian komponen dan integrasi, meningkatkan keterbacaan, dan memudahkan evolusi niat pengujian di seluruh tim
- Namun, ConfIT sendiri memiliki adopsi komunitas yang terbatas dan ekosistem kecil, sehingga sulit direkomendasikan secara luas meskipun ada manfaat tersebut
- Layak dievaluasi oleh tim .NET yang mengeksplorasi pengujian API berbasis spesifikasi, tetapi tetap perlu memverifikasi keberlanjutan pemeliharaan jangka panjang, kecocokan ekosistem, dan trade-off operasional
83. Entire CLI
- Mengait ke workflow Git untuk menangkap sesi AI coding agent — transkrip, prompt, pemanggilan alat, file yang disentuh, penggunaan token — sebagai metadata yang dapat dicari dan disimpan di branch repositori khusus
- Mendukung Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid, dan GitHub Copilot CLI
- Saat AI agent menjadi kontributor utama dalam codebase, tim menghadapi kesenjangan yang makin besar antara apa yang dilacak Git dan apa yang benar-benar terjadi selama sesi coding
- Entire CLI mencatat seluruh sesi bersama commit tanpa mencemari riwayat branch utama, sehingga menciptakan jejak audit aktivitas agent
- Sistem checkpoint-nya juga memungkinkan pemulihan yang praktis, sehingga tim dapat memutar ulang ke kondisi baik yang diketahui saat agent menyimpang dan melanjutkan kembali dari checkpoint mana pun
- Meski alat ini masih sangat baru dan ekosistem keterlacakan sesi agent masih terus terbentuk, penangkapan sesi yang native Git merupakan kecocokan alami bagi tim yang memiliki persyaratan kepatuhan atau audit terkait kode hasil AI
84. Git AI
- Ekstensi Git open-source untuk melacak kode yang dihasilkan AI di repositori, menghubungkan setiap baris yang ditulis AI ke agent, model, dan prompt yang membuatnya
- Git AI menggunakan checkpoint dan hook untuk melacak perubahan kode inkremental antara awal dan akhir commit
- Setiap checkpoint mencakup diff antara status saat ini dan checkpoint sebelumnya, lalu ditandai sebagai ditulis AI atau manusia
- Pendekatan ini lebih akurat daripada pendekatan yang berfokus menghitung jumlah baris kode pada saat penyisipan
- Menggunakan standar terbuka berbasis Git Notes untuk pelacakan kode hasil AI
- Meski ekosistem agent yang didukung masih terus matang, alat ini layak dievaluasi oleh tim yang ingin menjaga akuntabilitas dan keterpeliharaan jangka panjang dalam workflow agentic
- Baik manusia maupun AI agent dapat merujuk sesi agent yang diarsipkan melalui skill
/askuntuk mengkueri niat awal dan keputusan arsitektur di balik blok kode tertentu
85. Google Antigravity
- Fork VS Code independen yang dibangun di atas teknologi berlisensi dari Windsurf, dan dirilis sebagai public preview bersama Gemini 3 pada November 2025
- Menyusun ulang IDE dengan orkestrasi multi-agent sebagai pusatnya — Agent Manager menjalankan banyak agent secara paralel di berbagai tugas, browser Chromium bawaan memungkinkan agent berinteraksi langsung dengan UI live, dan sistem skill menyimpan instruksi agent yang dapat digunakan ulang di repositori
- Agent Manager berperan sebagai dasbor "Mission Control" alih-alih sidebar chat standar, menandai pergeseran mendasar peran pengembang dari menulis kode baris demi baris menjadi mengorkestrasi banyak alur kerja otonom
- Jika perlu, pengembang tetap bisa masuk ke editor untuk mempertahankan kontrol human-in-the-loop (HITL)
- Google Antigravity terintegrasi dengan Google Cloud dan Firebase melalui Model Context Protocol, serta mendukung pengembangan agent dengan Agent Development Kit
- Masih berstatus public preview, belum ada tanggal GA, dan postur keamanan serta kesiapan enterprise masih terus berkembang
- Model eksekusi multi-agent dan akses browser otonomnya memberi sinyal arah perkembangan IDE agentic
86. Google Mainframe Assessment Tool
- Membantu organisasi melakukan rekayasa balik aplikasi yang berjalan di mainframe, menganalisis seluruh portofolio atau sistem individual
- Pada intinya, alat ini bergantung pada parser bahasa deterministik untuk memetakan alur pemanggilan dan ketergantungan data di seluruh codebase, serta membuat tampilan terstruktur tentang bagaimana aplikasi saling berinteraksi
- Di atas fondasi ini, kemampuan AI generatif menyediakan ringkasan, dokumentasi, pembuatan test case, dan usulan modernisasi
- Pendekatan ini selaras dengan pola yang lebih luas dalam memahami codebase legacy menggunakan GenAI, di mana wawasan kuat tentang sistem menjadi dasar penggunaan AI yang efektif
- Meskipun Google Mainframe Assessment Tool belum mendukung semua stack teknologi mainframe utama, alat ini berkembang pesat
- Tim menemukan alat ini membantu dalam engagement klien yang berfokus pada penemuan dan modernisasi aplikasi mainframe
87. OpenCode
- Cepat muncul sebagai salah satu coding agent open-source paling menonjol dengan pengalaman yang sangat berorientasi terminal
- Kekuatan utamanya adalah fleksibilitas model — mendukung frontier model yang di-host, endpoint self-hosted, dan model lokal
- Ini membuat OpenCode menarik untuk pengendalian biaya, kustomisasi, dan lingkungan terbatas termasuk konfigurasi air-gapped
- Ini berarti pengguna perlu secara eksplisit memahami lisensi dan ketentuan penyedia saat menggunakan langganan atau API
- Model ekstensi OpenCode adalah daya tarik utama lainnya, dengan dukungan untuk plugin dan integrasi MCP bagi workflow, tool, dan guardrail per tim
- Banyak pengguna memanfaatkan Oh My OpenCode, sebuah harness opsional namun populer yang lebih opinionated dan menyediakan konfigurasi batteries-included dengan tim agent yang telah diatur serta pola orkestrasi yang lebih kaya
88. OpenSpec
- Seiring evolusi kemampuan AI coding agent, developer makin sering menghadapi tantangan prediktabilitas dan maintainability ketika requirement dan konteks hanya ada dalam riwayat chat yang sementara
- Untuk mengatasi ini, muncullah alat spec-driven development (SDD)
- OpenSpec adalah framework SDD open-source yang memperkenalkan lapisan spesifikasi ringan untuk memastikan developer manusia dan AI agent selaras tentang apa yang akan dibangun sebelum pembuatan kode
- Pembeda utamanya adalah workflow yang cair dan minimal, sering kali dipadatkan menjadi tiga langkah — propose → apply → archive
- Banyak framework SDD (GitHub Spec Kit, misalnya) atau workflow Agentic Skills (Superpowers, misalnya) lebih cocok untuk proyek greenfield daripada brownfield
- Fokus pada spec deltas alih-alih mendefinisikan spesifikasi lengkap di awal sangat baik, dan sangat cocok untuk sistem yang sudah ada
- Tidak seperti alternatif yang lebih berat yang memaksakan workflow lebih ketat (BMAD, misalnya) atau yang memerlukan integrasi IDE spesifik vendor (Kiro, misalnya), OpenSpec bersifat iteratif dan tool-agnostic
- Framework yang ramah developer ini layak dievaluasi oleh tim yang ingin menghadirkan struktur dan prediktabilitas ke pengembangan berbantuan AI tanpa mengadopsi proses yang berat
- Pada saat yang sama, seiring model dan coding agent menjadi semakin kuat, tim juga disarankan untuk memantau dan meninjau kembali kemampuan native serta mengevaluasi ulang kebutuhan akan alat SDD
89. PageIndex
- Alat untuk membangun indeks hierarkis dokumen bagi pipeline RAG berbasis penalaran tanpa vektor, alih-alih bergantung pada pencarian tradisional berbasis embedding
- Sementara pemecahan dokumen menjadi vektor dapat menghilangkan informasi struktur dan membatasi visibilitas atas alasan hasil ditemukan, PageIndex membangun indeks daftar isi yang ditelusuri LLM langkah demi langkah untuk mengambil konten relevan
- Mirip cara manusia memindai heading lalu menelusuri ke bagian tertentu, alat ini menghasilkan jejak penalaran eksplisit yang menjelaskan mengapa bagian tertentu dipilih
- Bekerja baik untuk dokumen yang maknanya sangat bergantung pada struktur ketimbang semantik, misalnya laporan keuangan dengan data numerik, dokumen hukum dengan klausul silang, serta dokumen klinis atau ilmiah yang kompleks
- Namun ada trade-off, karena penalaran LLM menjadi bagian dari proses pengambilan, ini dapat menambah latensi dan biaya yang signifikan, terutama untuk dokumen besar
90. Pencil
- Alat design canvas yang terintegrasi dengan IDE dan coding agent seperti Cursor dan Claude Code
- Tidak seperti Figma, yang saat ini hanya menyediakan akses baca, Pencil menjalankan server MCP lokal dua arah yang menyediakan akses baca dan tulis untuk memanipulasi canvas secara langsung
- Seperti alat seperti Figma Make dan Builder.io, Pencil juga menawarkan kemampuan design-to-code, tetapi dengan pendekatan yang lebih berpusat pada developer — file desain disimpan di repositori sebagai format JSON terbuka bernama
.pen, sehingga aset desain bisa diberi version control bersama kode - Integrasi dengan tool yang akrab bagi developer membantu menjembatani kesenjangan dalam handoff antara desain dan pengembangan
- Untuk sistem desain yang besar dan kompleks, Figma tetap menjadi standar kolaborasi lintas peran
- Namun, alat ini layak dipertimbangkan untuk tim tanpa desainer khusus atau tim yang memiliki developer dengan keterampilan desain yang kuat
91. Pi
- Terminal coding agent open-source minimalis yang ditulis dalam TypeScript
- Opsi yang menarik bagi tinkerer dan eksperimenter, bukan default utama enterprise
- Pi adalah harness bare-bones yang lebih dapat dikustomisasi dibanding agent lengkap seperti OpenCode
- Lebih mudah diadaptasi daripada membangun agent baru dengan framework agentic seperti ADK, LangGraph, atau Mastra
- Meski memiliki momentum kuat dan rilis yang aktif, proyek ini masih berada pada tahap awal dan terutama digerakkan oleh maintainer
- Pi perlu diperlakukan sebagai building block yang ditujukan untuk engineer, bukan platform enterprise lengkap dengan guardrail dan dukungan penuh
92. Qwen 3 TTS
- Model text-to-speech open-source yang secara signifikan memperkecil kesenjangan kualitas dengan produk komersial sambil memberi developer kendali yang lebih besar dibanding banyak API berbayar
- Mendukung banyak bahasa, dapat melakukan voice cloning dari sampel pendek (sekitar 10–15 detik), dan memungkinkan fine-tuning pascapelatihan untuk suara spesifik domain atau karakter
- Opsi yang menarik bagi tim yang memerlukan suara spesifik merek atau kontrol on-prem
- Qwen 3 TTS masih baru dirilis, sehingga sebelum mengadopsinya untuk workload suara yang penting bagi produksi, tim perlu memverifikasi stabilitas, kontrol keamanan, kesesuaian lisensi, dan kematangan operasional
93. SGLang
- framework serving berperforma tinggi yang mengurangi overhead komputasi inferensi LLM melalui co-design bahasa pemrograman frontend dan runtime backend
- mengadopsi RadixAttention, teknik manajemen memori yang secara agresif melakukan cache dan reuse status KV (key-value) di seluruh prompt
- pendekatan ini memberikan peningkatan performa yang signifikan dibanding mesin serving standar seperti vLLM dalam skenario dengan prefix overlap tinggi
- bagi tim yang membangun agen otonom kompleks, bergantung pada system prompt panjang, dan menggunakan few-shot prompting secara luas dengan contoh bersama, SGLang dapat memberi keuntungan besar dalam latensi dan efisiensi
94. ty
- seiring Python terus tumbuh popularitasnya, khususnya di ranah AI dan data science, memiliki sistem tipe yang kuat menjadi makin bernilai
- Ty adalah type checker dan language server Python yang sangat cepat yang ditulis dalam Rust
- bagian dari ekosistem Astral yang juga mencakup alat seperti uv dan ruff
- memberikan umpan balik cepat dan terintegrasi dengan baik dengan editor umum seperti Visual Studio Code
- menggunakan ty bersama alat Astral lainnya dapat menyederhanakan pengembangan Python di organisasi besar
- seiring agentic coding menjadi semakin umum, memiliki type checker deterministik dengan loop umpan balik cepat membantu menangkap kesalahan lebih awal dan mengurangi upaya code review untuk error sederhana
95. Warp
- sejak terakhir dimasukkan ke Radar, Warp telah berevolusi jauh melampaui deskripsi sebagai "terminal dengan kemampuan AI"
- sambil mempertahankan kekuatan intinya — output perintah berbasis blok, saran berbasis AI, dan kemampuan notebook — Warp meluas ke area yang secara tradisional ditempati IDE
- kini mendukung rendering Markdown, menampilkan file tree, dan membuka file langsung dari terminal, serta mendukung workflow pengembangan agentic penuh di seluruh panel — agen coding seperti Claude Code di satu panel, shell di panel lain, dan tampilan file workspace di panel ketiga
- manfaat praktis yang diamati adalah Warp menangani output teks berthroughput tinggi yang dihasilkan agen coding modern lebih baik daripada terminal tradisional, di mana kecepatan rendering dan keterbacaan bisa menjadi bottleneck
- juga menambahkan coding assistant bawaan, meski belum dievaluasi secara luas oleh tim
- Warp baru-baru ini meluncurkan platform orkestrasi Oz untuk cloud agent yang terintegrasi dengan terminal, tetapi blip ini berfokus pada terminalnya sendiri
- bagi tim yang lebih menyukai terminal ringan dan composable serta ingin membawa alat AI mereka sendiri, Ghostty mungkin lebih cocok — pendekatannya sengaja minimalis, berlawanan dengan filosofi Warp yang batteries-included
- laju fitur baru dan ambisi platform Warp yang lebih luas membuat perpindahan ke Trial masih terlalu dini sampai produk lebih stabil dan ada lebih banyak pengalaman lapangan terhadap kemampuan barunya
96. WuppieFuzz
- fuzzer open source untuk REST API yang menggunakan definisi OpenAPI untuk menghasilkan request valid, memutasinya untuk mengeksplorasi edge case, dan mengandalkan umpan balik coverage sisi server untuk memprioritaskan input yang mencapai jalur eksekusi baru
- kebanyakan tim masih mengandalkan pengujian integrasi dan contract testing berbasis contoh, dan hampir tidak pernah mengeksplorasi input tak terduga, urutan request abnormal, atau jalur yang sarat kegagalan, padahal API sering menjadi permukaan integrasi utama sistem modern
- berdasarkan evaluasi awal, WuppieFuzz tampak sebagai pelengkap yang menjanjikan untuk pengujian tersebut — dapat menemukan masalah seperti exception yang tidak tertangani, celah otorisasi, kebocoran data sensitif, error sisi server, dan cacat logika yang mungkin terlewat oleh script test
- tim masih perlu mengevaluasi bagaimana alat ini cocok di CI, overhead runtime yang diperkenalkan, dan seberapa berguna hasilnya dalam praktik
- karena itu, alat ini layak dievaluasi oleh tim yang membangun REST API penting atau yang terekspos ke publik
Caution
97. OpenClaw
- proyek open source yang oleh penulisnya disebut sebagai kategori "hyper-personal AI assistant"
- pengguna dapat meng-host instance mereka sendiri, menjaganya tetap tersedia untuk digunakan terus-menerus melalui kanal pesan seperti WhatsApp atau iMessage, dan menjalankan tugas melalui alat yang terhubung
- dengan memori permanen atas percakapan, preferensi, dan kebiasaan, ini menciptakan pengalaman pribadi yang persisten yang terasa sangat berbeda dari antarmuka chat GenAI atau agen coding pada umumnya
- model ini jelas menarik dan sudah menginspirasi pengikut seperti Claude Cowork
- alasan OpenClaw ditempatkan di Caution adalah karena model ini memerlukan trade-off keamanan yang signifikan
- semakin banyak akses yang diberikan ke kalender, email, file, dan komunikasi, semakin berguna sistem ini, sekaligus memusatkan izin dalam pola persis seperti yang diperingatkan dalam toxic flow analysis for AI
- risiko ini tidak unik bagi OpenClaw; hal yang sama berlaku untuk implementasi lain dari pola serupa, termasuk produk vendor mapan
- mereka telah menerbitkan saran bagi tim yang mempertimbangkan OpenClaw dan lingkungan eksekusi sandbox, dan alternatif seperti NanoClaw atau ZeroClaw dapat mengurangi blast radius
- namun, pola hyper-personal assistant itu sendiri cenderung rakus akan izin dan tetap berisiko tinggi
[Languages and Frameworks]
Adopt
98. Apache Iceberg
- format tabel terbuka untuk dataset analitik skala besar yang mendefinisikan bagaimana file data, metadata, dan skema diatur di sistem penyimpanan seperti S3
- telah berevolusi pesat dalam beberapa tahun terakhir dan memantapkan diri sebagai building block dasar bagi arsitektur lakehouse yang netral secara teknologi
- didukung oleh semua penyedia platform data utama, termasuk AWS (Athena, EMR, Redshift), Snowflake, Databricks, dan Google BigQuery, menjadikannya opsi kuat untuk menghindari vendor lock-in
- yang membedakan Apache Iceberg dari format tabel terbuka lain adalah keterbukaannya di seluruh fitur dan tata kelola, berbeda dengan alternatif yang kapabilitasnya dibatasi atau dikendalikan oleh satu vendor
- dari sisi keandalan, desain berbasis snapshot memberikan serializable isolation, penulisan konkuren yang aman melalui optimistic concurrency, dan riwayat versi termasuk rollback, sehingga menghadirkan jaminan korektness yang kuat tanpa bottleneck performa
- Apache Spark adalah engine yang paling umum, tetapi Trino, Flink, DuckDB dan lainnya juga didukung dengan baik, sehingga cocok untuk beragam use case mulai dari platform data enterprise hingga analisis lokal yang ringan
- telah memperoleh kepercayaan kuat sebagai format data yang stabil dan terbuka di banyak tim, dan direkomendasikan sebagai pilihan default bagi organisasi yang membangun platform data modern
99. Declarative Automation Bundles
- Sebelumnya dikenal sebagai Databricks Asset Bundles, dan telah berevolusi menjadi alat utama untuk menerapkan praktik rekayasa perangkat lunak dan CI/CD ke dalam ekosistem Databricks
- Sudah jauh lebih matang sehingga tim kini dapat mengelola sebagian besar sumber daya platform sebagai kode, termasuk cluster, pipeline ETL, job, model machine learning, dan dashboard
- Dengan perintah
databricks bundle plan, tim dapat meninjau perubahan terlebih dahulu dan menerapkan praktik deployment yang dapat diulang untuk artefak Databricks, mirip dengan cara alat seperti Terraform mengelola infrastruktur - Dengan memperlakukan aset yang secara tradisional bisa berubah seperti dashboard dan pipeline ML sebagai kode, kini dimungkinkan untuk melakukan versioning, pengujian, dan deployment dengan tingkat ketelitian yang sama seperti microservice tradisional
- Berdasarkan pengalaman di lingkungan production, Declarative Automation Bundles telah memantapkan diri sebagai pendekatan tepercaya untuk mengelola workflow data dan ML di Databricks
- Untuk tim yang bekerja secara luas dalam ekosistem Databricks, disarankan mempertimbangkan adopsi untuk menstandarkan praktik manajemen infrastruktur
100. React JS
- Sejak 2016 menjadi pilihan default untuk pengembangan UI JavaScript, tetapi layak dikunjungi kembali karena rilis stabil React Compiler sebagai bagian dari React 19 (Oktober lalu)
- Dengan menangani memoization saat build time,
useMemodanuseCallbackmanual menjadi sebagian besar tidak diperlukan, meski tim disarankan tetap mempertahankannya sebagai escape hatch saat perlu kontrol presisi atas dependensi effect - Sudah battle-tested di Meta, didukung oleh Expo SDK 54, Vite, dan Next.js, serta menghilangkan satu kategori boilerplate performa yang selama ini menjadi biaya lama saat mengerjakan React dalam skala besar
- React 19 juga memperkenalkan Actions serta hooks seperti
useActionStatedanuseOptimistic, yang menyederhanakan penanganan form dan mutasi data tanpa bergantung pada library eksternal - Pada 2025, React Foundation diluncurkan di bawah Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion, dan Vercel bergabung dengan Meta — memperkuat stabilitas jangka panjang library ini dan menjawab kekhawatiran yang secara historis sering dikutip oleh tim yang berhati-hati saat mempertimbangkan adopsi
101. React Native
- Dipindahkan ke Adopt sebagai pilihan default untuk pengembangan mobile lintas platform
- Sebelumnya berada di Trial, tetapi rollout New Architecture — khususnya JSI dan Fabric — telah menjawab kekhawatiran lama terkait bottleneck bridge dan kecepatan inisialisasi
- Diamati memberikan peningkatan performa yang signifikan pada transisi UI kompleks dan workload yang intensif data
- Dengan meninggalkan asynchronous bridge, React Native kini dapat memberikan responsivitas yang menyaingi implementasi native sambil tetap mempertahankan satu codebase
- Telah berhasil digunakan di banyak proyek production, dan ekosistem yang berpusat pada Expo serta React sudah matang dan stabil
- Manajemen state memang masih memerlukan perencanaan yang cermat, tetapi keuntungan produktivitas dari workflow fast refresh dan skill set bersama lebih besar daripada biaya tersebut
- Menjadi rekomendasi utama bagi tim yang mengejar performa, konsistensi, dan kecepatan untuk sebagian besar use case mobile hybrid
102. Svelte
- Framework UI JavaScript yang mengompilasi komponen menjadi JavaScript yang teroptimasi saat build time, tanpa bergantung pada runtime besar di sisi browser atau virtual DOM
- Sejak terakhir diperkenalkan sebagai Trial, lebih banyak tim telah berhasil menggunakannya di production, dan SvelteKit telah membuatnya menjadi pilihan yang lebih kokoh untuk SSR dan aplikasi web full-stack, sehingga meningkatkan keyakinan untuk memindahkannya ke Adopt
- Alasan awal memilih Svelte tetap valid — menghasilkan bundle kecil, performa runtime yang kuat, dan model komponen yang lebih sederhana
- Kapabilitas baru di Svelte 5 seperti runes dan snippets membuat reaktivitas dan komposisi UI menjadi lebih eksplisit dan fleksibel
- Dibandingkan framework frontend yang lebih berat, Svelte memberikan pengalaman pengembangan yang lebih bersih dengan lebih sedikit kode
- Umpan balik tim semakin menempatkannya sebagai alternatif yang dapat diandalkan untuk React atau Vue, bukan lagi opsi niche
- Familiaritas ekosistem, perekrutan, dan kecocokan platform tetap perlu dipertimbangkan, tetapi direkomendasikan sebagai default yang masuk akal untuk membangun aplikasi web modern ketika performa dan kesederhanaan delivery itu penting
103. Typer
- Library Python untuk membangun CLI dari fungsi dengan type annotation standar, menyediakan help text otomatis, shell autocompletion, dan jalur yang jelas dari skrip kecil ke aplikasi CLI besar
- Relevansinya meningkat seiring tim mengubah alat internal, otomatisasi, dan workflow developer yang berdekatan dengan AI menjadi CLI kelas satu
- Typer mudah diadopsi dalam proyek nyata, dan tim sangat menghargai seberapa cepat ia menghasilkan perintah yang jelas dan mudah dibaca
- Kelebihannya meliputi API berbasis type hint, help dan autocompletion otomatis, serta jalur berfriksi rendah dari skrip sederhana ke CLI multi-perintah
- Namun, ini adalah solusi yang spesifik untuk Python dan mungkin bukan pilihan terbaik jika dibutuhkan perilaku CLI yang sangat dikustomisasi atau konsistensi lintas bahasa
- Direkomendasikan untuk tim yang membangun CLI untuk workflow delivery, operasional, dan developer experience
Trial
104. Agent Development Kit (ADK)
- Framework Google untuk membangun dan mengoperasikan agen AI, menyediakan abstraksi berorientasi rekayasa perangkat lunak untuk orkestrasi, alat, evaluasi, dan deployment
- Sejak dimasukkan ke Assess, ekosistem dan kapabilitas operasionalnya telah berkembang pesat, dengan pengembangan multibahasa yang aktif serta fitur observability dan runtime yang lebih kuat
- Framework agen native vendor kini menjadi area yang padat — opsi pesaing seperti Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, dan Claude Agent SDK juga terus berkembang
- Alternatif open source seperti LangGraph dan CrewAI tetap menjadi pilihan kuat bagi tim yang memprioritaskan portabilitas framework dan ekosistem yang lebih luas
- ADK masih berstatus pre-GA di beberapa bagian, dengan beberapa sisi yang sesekali terasa kasar dan friksi saat upgrade, tetapi semakin banyak penggunaan yang berhasil diamati, terutama pada proyek yang berinvestasi pada platform Google
105. DeepEval
- Framework open-source berbasis Python untuk evaluasi performa LLM
- Dapat digunakan untuk mengevaluasi sistem dan aplikasi RAG yang dibangun dengan framework seperti LlamaIndex atau LangChain, serta untuk baseline dan benchmark model
- Melampaui metrik pencocokan kata sederhana dengan menyediakan evaluasi akurasi, relevansi, dan konsistensi yang lebih andal dalam skenario dunia nyata
- Mencakup kemampuan seperti deteksi halusinasi, skor relevansi jawaban, dan optimasi hyperparameter; yang sangat berguna adalah kemampuan tim untuk mendefinisikan metrik khusus sesuai use case
- Baru-baru ini DeepEval diperluas untuk mendukung workflow agentic yang kompleks dan sistem percakapan multi-turn
- Selain evaluasi output akhir, menyediakan metrik bawaan untuk tool correctness, step efficiency, dan task completion, termasuk evaluasi interaksi dengan server MCP
- Juga memperkenalkan conversation simulation yang secara otomatis membuat test case untuk stress test aplikasi multi-turn berskala besar
106. Docling
- Library open-source Python dan TypeScript untuk mengubah dokumen tidak terstruktur menjadi output yang rapi dan dapat dibaca mesin
- Menggunakan pendekatan berbasis computer vision untuk memahami tata letak dan makna, memproses input kompleks seperti PDF termasuk dokumen hasil pemindaian ke format terstruktur seperti JSON dan Markdown
- Cocok untuk pipeline RAG dan menghasilkan structured output from LLMs, berbeda dengan pendekatan retrieval yang mengutamakan vision seperti ColPali
- Docling menyediakan alternatif open-source self-hosted untuk layanan cloud terkelola proprietary seperti Azure Document Intelligence, Amazon Textract, dan Google Document AI, serta terintegrasi dengan baik dengan framework seperti LangGraph
- Berjalan baik pada workload ekstraksi skala produksi di berbagai PDF digital dan hasil pemindaian, termasuk file sangat besar yang memuat teks, tabel, dan gambar
- Memberikan keseimbangan kuat antara kualitas dan biaya untuk workflow agentic RAG downstream
107. LangExtract
- Library Python untuk mengekstrak informasi terstruktur dari teks tidak terstruktur berdasarkan instruksi yang ditentukan pengguna, termasuk grounding sumber yang presisi yang menghubungkan setiap entitas yang diekstrak ke lokasi dalam dokumen asli
- Memproses materi spesifik domain seperti catatan klinis dan laporan
- Kekuatan utamanya adalah traceability sumber, memastikan setiap titik data yang diekstrak dapat ditelusuri kembali ke sumbernya
- Entitas yang diekstrak dapat diekspor ke file JSONL, format standar untuk data model bahasa, dan dapat divisualisasikan melalui antarmuka HTML interaktif untuk peninjauan kontekstual
- Tim yang mempertimbangkan structured output from LLMs untuk pemrosesan dokumen perlu mengevaluasi LangExtract bersama pendekatan enforcement schema seperti Pydantic AI
- LangExtract lebih cocok untuk materi sumber panjang dan tidak terstruktur, sementara Pydantic AI unggul dalam membatasi format output untuk input yang lebih pendek dan dapat diprediksi
108. LangGraph
- Sejak Radar sebelumnya, diamati bahwa arsitektur LangGraph yang memperlakukan semua sistem multi-agent sebagai graf stateful dengan status bersama global tidak selalu menjadi cara terbaik untuk membangun sistem agentic
- Pendekatan alternatif yang digunakan di framework seperti Pydantic AI juga bekerja dengan baik
- Alih-alih memulai dengan graf yang kaku dan status bersama berskala besar, pendekatan ini lebih memilih komunikasi agen yang sederhana melalui eksekusi kode, lalu menambahkan struktur graf jika memang diperlukan
- Dalam banyak use case, ini menghasilkan sistem yang lebih ringkas dan efektif, karena setiap agen hanya mengakses status yang diperlukan sehingga lebih mudah untuk ditalar, diuji, dan di-debug
- Akibatnya, bergeser dari Adopt; meski tetap merupakan alat yang kuat, ini tidak lagi dianggap sebagai pilihan default untuk membangun semua sistem agentic
109. LiteLLM
- Berawal sebagai lapisan abstraksi tipis di atas banyak penyedia LLM lalu berkembang menjadi AI gateway yang serius
- Melampaui penyederhanaan integrasi API untuk menangani perhatian lintas sistem GenAI yang umum — termasuk retry dan failover, load balancing antarpenyedia, serta pelacakan biaya yang mencakup kontrol anggaran
- Tim semakin banyak mengadopsi LiteLLM sebagai default yang masuk akal untuk aplikasi berbasis AI
- Gateway menyediakan tempat yang konsisten untuk menangani isu tata kelola dengan guardrail tingkat edge seperti pelacakan request, kontrol akses, manajemen API key, content filtering, serta modifikasi dan masking data
- Namun, tim yang bergantung pada fitur penyedia yang membedakan sering kali tetap memerlukan parameter spesifik penyedia, sehingga menghadirkan kembali coupling yang justru ingin dihilangkan gateway
- Mode
drop_paramsdapat membuang parameter yang tidak didukung secara diam-diam, sehingga berpotensi kehilangan kapabilitas tanpa visibilitas di seluruh keputusan routing - Ini pilihan yang praktis untuk kontrol operasional, tetapi memanfaatkan kapabilitas spesifik penyedia berarti tetap mempertahankan dependensi pada gateway sekaligus kode yang ter-couple ke penyedia
110. Modern.js
- Meta-framework React dari ByteDance, ditempatkan di Trial untuk tim yang memiliki kebutuhan micro frontend berbasis Module Federation
- Pemicunya bersifat praktis —
nextjs-mfmengarah ke akhir masa pakai (end-of-life), Pages Router hanya akan menerima perbaikan backport kecil, tidak ada rencana pengembangan baru, dan pengujian CI diperkirakan dihapus pada pertengahan hingga akhir 2026 - Dengan tidak adanya dukungan Module Federation resmi di Next.js dan penghentian bertahap plugin komunitas, tim inti Module Federation merekomendasikan Modern.js sebagai framework dukungan utama untuk arsitektur berbasis federation
- Plugin
@module-federation/modern-js-v3langsung menyediakan wiring build otomatis, dan streaming SSR serta Bridge API tersedia sebagai kapabilitas terpisah - Namun, ada keterbatasan pada coupling —
@module-federation/bridge-reactbelum kompatibel dengan lingkungan Node sehingga Bridge tidak bisa digunakan dalam skenario SSR - Pengalaman awal positif, dan jalur migrasi terdefinisi dengan baik untuk tim yang sudah menggunakan Module Federation
- Ekosistem di luar ByteDance masih terus matang, memerlukan dokumentasi yang lebih tebal dan rencana keterlibatan yang lebih erat dengan upstream
- Untuk saat ini, investasi ini layak dibenarkan pada use case Module Federation yang belum memiliki alternatif dengan dukungan lebih baik
Assess
111. Agent Lightning
- Kerangka kerja optimasi dan pelatihan agen yang memungkinkan optimasi prompt otomatis, fine-tuning terawasi, dan reinforcement learning agentic
- Sebagian besar kerangka kerja agen berfokus pada pembangunan agen, tetapi tidak berfokus pada peningkatan seiring waktu
- Agent Lightning mendukung framework seperti AutoGen dan CrewAI, serta memungkinkan peningkatan berkelanjutan pada agen yang sudah ada tanpa mengubah implementasi dasarnya
- Hal ini dicapai melalui pendekatan yang disebut Training-Agent Disaggregation, yang memperkenalkan sebuah lapisan di antara pelatihan dan framework agen
- Dua komponen inti — Lightning Server mengelola proses pelatihan dan mengekspos API untuk model yang diperbarui, sementara Lightning Client berperan sebagai runtime yang mengumpulkan jejak lalu mengirimkannya ke server untuk mendukung pelatihan
- Direkomendasikan untuk dieksplorasi oleh tim yang sudah memiliki deployment agen mapan sebagai cara untuk terus meningkatkan performa agen
112. GitHub Spec Kit
- Dalam diskusi siklus ini, spec-driven development menonjol, dengan muncul dua kubu besar — tim yang mengandalkan kemampuan agen coding untuk terus membaik dengan struktur minimal dan tim yang lebih menyukai workflow terdefinisi dan spesifikasi detail
- Sejumlah tim sedang bereksperimen dengan praktik spec-driven menggunakan GitHub Spec Kit, terutama di lingkungan brownfield
- Konsep inti Spec Kit adalah constitution, buku aturan dasar yang menyelaraskan siklus hidup pengembangan perangkat lunak
- Constitution yang benar-benar berguna biasanya menangkap cakupan proyek, konteks domain, versi teknologi, standar coding, dan struktur repositori (misalnya arsitektur heksagonal, modul berlapis), sehingga membantu agen bekerja dalam batas arsitektur yang dimaksud
- Tantangan seperti instruction bloat juga muncul — set instruksi agen yang terus membesar akibat penambahan konteks proyek secara berkelanjutan, dan pada akhirnya context rot; satu tim mengatasinya dengan mengekstrak panduan yang bisa digunakan ulang menjadi skill, menjaga instruksi agen tetap ringkas, dan hanya memuat konteks detail saat diperlukan
- Pada sistem brownfield, banyak pengerjaan ulang berasal dari niat yang tidak jelas, asumsi tersembunyi, dan penemuan terlambat atas berbagai batasan; satu tim mendapati bahwa memperkenalkan siklus hidup spec → plan → tasks → coding → review membantu memunculkan isu lebih awal
- Seiring waktu, konteks yang bisa diulang dipindahkan ke file seperti
.github/prompts/speckit.<command>.prompt.md, sehingga prompt menjadi lebih pendek dan perilaku agen lebih konsisten - Dilaporkan adanya bagian yang kasar seperti pemeriksaan defensif yang tidak perlu dan output markdown yang terlalu bertele-tele
- Beberapa masalah dapat diatasi dengan menyesuaikan template dan instruksi Spec Kit, misalnya membatasi jumlah file markdown yang dihasilkan dan mengurangi verbosity konsol
- Pada akhirnya, insinyur berpengalaman dengan praktik clean coding dan arsitektur yang kuat memperoleh nilai paling besar dari workflow spec-driven
113. Mastra
- Framework open-source native TypeScript untuk membangun aplikasi AI dan agen
- Menyediakan mesin workflow berbasis graf, pendekatan terpadu untuk integrasi berbagai penyedia LLM, pause dan resume human-in-the-loop, serta primitive RAG dan memori
- Juga mencakup penulisan server MCP dan alat bawaan untuk evaluasi serta observabilitas, dengan dukungan dokumentasi developer yang jelas
- Mastra menawarkan alternatif terhadap stack berat berbasis Python, sehingga tim dapat langsung membangun kapabilitas AI yang kaya di dalam ekosistem web yang sudah ada seperti Node.js atau Next.js
- Layak dievaluasi oleh tim yang berinvestasi pada ekosistem TypeScript dan ingin menghindari beralih ke Python hanya untuk lapisan AI
114. Pipecat
- Framework open-source untuk membangun agen suara real-time dan multimodal dengan model pipeline modular untuk orkestrasi STT, LLM, TTS, dan transport
- Menarik minat kuat karena tim dapat mengiterasi perilaku percakapan dengan cepat dan berganti penyedia dengan friksi yang relatif rendah
- Dibanding LiveKit Agents, Pipecat menawarkan fleksibilitas framework yang lebih besar tetapi jalur produksi yang kurang terintegrasi, khususnya untuk deployment self-hosted, keandalan transport, dan penanganan giliran latensi rendah dalam skala besar
- Memberikan fondasi yang kuat untuk engineering berbasis antarmuka percakapan, tetapi memerlukan pekerjaan platform engineering yang signifikan sebelum diandalkan untuk workload produksi yang business-critical
115. Superpowers
- Seiring meningkatnya penggunaan agen coding, tidak ada satu workflow tunggal yang cocok untuk semua tim; sebagai gantinya, tim mengembangkan workflow khusus berdasarkan konteks dan kendala mereka
- Superpowers adalah salah satu workflow semacam itu, yang dibangun dari skill yang dapat dikombinasikan
- Ia membungkus agen coding sebagai skill dalam workflow terstruktur, mendorong brainstorming sebelum coding, perencanaan detail sebelum implementasi, TDD dengan siklus red-green-refactor yang dipaksakan, debugging sistematis dengan prioritas pada akar masalah, serta code review setelah implementasi
- Didistribusikan sebagai plugin melalui Claude Code plugin marketplace dan Cursor plugin marketplace
116. TanStack Start
- Framework full-stack untuk React dan Solid yang dibangun di atas TanStack Router, sebanding dengan Next.js, dengan dukungan SSR, caching, dan banyak fitur serupa
- TanStack Start memberikan keamanan compile-time end-to-end di seluruh fungsi server, loader, dan routing, sehingga mengurangi risiko broken link atau bentuk data yang tidak cocok di frontend
- Lebih menyukai konfigurasi eksplisit daripada konvensi, dengan pengalaman yang lebih dekat ke bekerja dengan React biasa
- Kapabilitas SSR dapat ditambahkan secara bertahap sesuai kebutuhan
- Dibanding Next.js yang memiliki default lebih opinionated dan dapat menimbulkan perilaku tak terduga bila tidak memahami cara kerjanya secara internal, framework ini lebih eksplisit dan dapat diprediksi
- Ekosistem TanStack juga telah matang secara signifikan, menyediakan set alat yang kuat untuk membangun aplikasi web modern
117. TOON (Token-Oriented Object Notation)
- Encoding data JSON yang dapat dibaca manusia dan dirancang untuk mengurangi penggunaan token ketika data terstruktur dikirim ke LLM
- Memungkinkan JSON tetap dipertahankan dalam sistem yang ada dan hanya dikonversi pada titik interaksi dengan model
- Biaya token, latensi, dan batas context window kini menjadi pertimbangan desain nyata dalam pipeline RAG, workflow agen, dan aplikasi lain yang sangat bergantung pada AI
- JSON mentah sering kali menghabiskan token pada key berulang dan overhead struktural alih-alih konten yang benar-benar berguna
- Dalam evaluasi awal, TOON merupakan optimasi last-mile yang menarik untuk input prompt, khususnya pada dataset besar dan teratur di mana format yang sadar skema lebih efisien dan lebih mudah diproses model dibanding JSON
- Ini bukan pengganti JSON pada API, database, atau output model, dan sering menjadi pilihan yang keliru untuk struktur yang sangat bertingkat atau tidak seragam, array semi-seragam, atau data tabular datar di mana CSV lebih ringkas
- Mungkin juga kurang cocok untuk jalur latensi-kritis di mana JSON ringkas sudah bekerja dengan baik
- Layak dievaluasi oleh tim yang membangun aplikasi LLM ketika ukuran input terstruktur menjadi perhatian biaya atau kualitas yang berarti, dengan kebutuhan benchmarking terhadap JSON atau CSV menggunakan data dan stack model mereka sendiri
118. Unsloth
- Framework open-source yang berfokus membuat fine-tuning LLM dan reinforcement learning jauh lebih cepat serta efisien dalam penggunaan memori
- Fine-tuning LLM melibatkan puluhan miliar perkalian matriks dan diuntungkan oleh akselerasi GPU; Unsloth mengoptimalkan operasi ini dengan mengubahnya menjadi kernel kustom berefisiensi tinggi untuk GPU NVIDIA, sehingga biaya dan penggunaan memori turun drastis
- Memungkinkan fine-tuning model pada GPU konsumen T4 atau yang lebih tinggi, alih-alih harus menggunakan klaster H100 yang mahal
- Mendukung LoRA, full fine-tuning, pelatihan multi-GPU, fine-tuning konteks panjang (hingga 500K token), serta model populer termasuk Llama, Mistral, DeepSeek-R1, Qwen, dan Gemma
- Seiring aplikasi AI spesifik domain makin bergantung pada fine-tuning, Unsloth secara signifikan menurunkan hambatan masuk
Belum ada komentar.