Thoughtworks Technology Radar, Volume 34 dirilis
(thoughtworks.com)- Tren terbaru di bidang teknik/alat/platform/bahasa pemrograman dan framework divisualisasikan dan dijelaskan dalam 4 tahap: "adopt, trial, assess, hold"
- 4 tema utama: era agent dan evaluasi teknologi, mempertahankan prinsip sambil meninjau ulang pola, masalah keamanan agent, harness untuk coding agent
Era agent dan tantangan evaluasi teknologi
- Dengan adopsi AI, evaluasi teknologi itu sendiri makin sulit, dan karena semantic diffusion istilah-istilah baru bermunculan cepat sebelum maknanya sempat stabil
- Istilah seperti spec-driven development dan harness engineering digunakan secara tidak konsisten atau memiliki makna yang tumpang tindih
- Karena tidak ada definisi bersama, sulit menilai apakah itu teknik yang berbeda atau nama lain untuk konsep yang sama
- Tetap menjadi tantangan berkelanjutan untuk membedakan metodologi engineering independen yang matang dari penggunaan sehari-hari alat AI seperti coding assistant
- Kecepatan perubahan memperbesar ketidakpastian; banyak alat yang belum genap sebulan sudah bermunculan, dan sebagian dipelihara oleh satu kontributor bersama coding agent
- Jika menunggu alat menjadi matang, panduan akan keburu usang; jika bergerak cepat, ada risiko menyoroti tren yang segera menghilang
- Ini memunculkan pertanyaan tentang keberlanjutan hal-hal yang dibuat dengan cepat dan usaha minim
- Codebase Cognitive Debt
- Semakin banyak kode yang dihasilkan AI, semakin mudah tim mengadopsi solusi tanpa mental model tentang cara kerjanya
- Jika kesenjangan pemahaman ini menumpuk, akan makin sulit menalar, men-debug, dan mengembangkan sistem
Mempertahankan prinsip sambil meninjau ulang pola
- AI bukan hanya mendorong masa depan, tetapi juga membuat kita meninjau ulang fondasi software craftsmanship
- Pair programming, zero-trust architecture, mutation testing, metrik DORA, dan teknik yang sudah ada kembali disorot
- Prinsip inti seperti clean code, desain yang disengaja, testability, dan accessibility kembali ditegaskan sebagai perhatian kelas satu
- Ini bukan nostalgia, melainkan penyeimbang yang wajib terhadap laju alat AI yang bisa menciptakan kompleksitas dengan sangat cepat
- Kebangkitan command line; selama bertahun-tahun ia diabstraksikan demi usability, tetapi alat agentic mendorong developer kembali ke terminal
- Pengembangan yang didukung AI adalah pergeseran mendasar dalam praktik engineering, sehingga kolaborasi dan struktur tim perlu dipikirkan ulang
- agent topologies perlu dipertimbangkan berdampingan dengan team topologies, dan siklus umpan balik perlu dirancang ulang
- Teknik seperti measuring collaboration quality with coding agents bahkan mendefinisikan ulang arti software developer itu sendiri
- Dalam lingkungan yang digerakkan AI, pengelolaan cognitive debt menjadi tugas inti, dan penting untuk mempertahankan prinsip bahwa "kecepatan tanpa disiplin akan meningkatkan biaya"
Masalah keamanan agent yang haus izin
- "Permission hungry" menggambarkan dilema mendasar kondisi agent saat ini: semakin bernilai sebuah agent, semakin ia perlu mengakses segalanya
- OpenClaw dan Claude Cowork melakukan pengawasan pekerjaan nyata
- Gas Town mengoordinasikan swarm agent di seluruh codebase
- Ini menuntut akses luas ke data privat, komunikasi eksternal, dan sistem nyata
- Sementara itu, pengaman belum mampu mengejar ambisi ini; dengan prompt injection, model tidak dapat secara andal membedakan perintah tepercaya dari input tidak tepercaya
- Definisi "lethal trifecta" dari Simon Willison — data privat, konten tidak tepercaya, tindakan eksternal — berlaku pada sebagian besar agent yang berguna sebagai default, bukan karena salah konfigurasi
- Ancaman tidak hanya datang dari injection, tetapi juga dari perilaku model yang tidak konsisten
- Tidak ada jaminan bahwa tugas yang berhasil sekali akan berhasil lagi di percobaan berikutnya
- Bahkan tanpa niat jahat, agent bisa menemukan jalur eksfiltrasi kreatif, melakukan push ke branch yang tak boleh disentuh, dan melumpuhkan checkpoint persetujuan/penolakan
- Yang saat ini bisa dilakukan — zero trust, least privilege, perbaikan model, dan defense in depth — adalah syarat dasar, tetapi tidak ada solusi tunggal
- Sistem agent yang aman perlu dibangun bukan sebagai agent monolitik, melainkan pipeline agent yang lebih terbatas, dengan pemantauan dan kontrol yang kuat
- Agent Skills dapat dimanfaatkan sebagai alternatif MCP yang lebih bisa dikendalikan
- Durable agents dan teknik pencegahan agent instruction bloat juga menunjukkan arah ini
- Karena ruang ini berkembang sangat cepat, kehati-hatian mutlak diperlukan untuk menghindari kesalahan mahal
Memasang kendali pada coding agent
- Seiring peningkatan performa coding agent, godaan untuk mengeluarkan manusia dari loop makin besar, dan tim mulai berinvestasi pada coding agent harnesses
- Ini adalah mekanisme kontrol yang mengarahkan perilaku agent sebelum menghasilkan kode dan memungkinkannya memperbaiki diri lewat umpan balik setelahnya
- Kontrol feedforward
- Menyediakan terlebih dahulu apa yang dibutuhkan agent agar peluang benar pada percobaan pertama meningkat
- Agent Skills menjadi kemajuan penting dengan memodulkan instruksi dan konvensi, lalu memuatnya saat diperlukan
- Superpowers adalah contoh katalog skill yang berguna untuk tim software
- Konsep plugin marketplaces juga mulai muncul untuk memudahkan distribusi skill dan konfigurasi konteks
- Framework spec-driven development — seperti GitHub Spec-Kit dan OpenSpec — menstrukturkan workflow perencanaan, desain, dan implementasi
- Kontrol feedback
- Mengamati perilaku agent setelah bertindak untuk membentuk loop perbaikan diri
- feedback sensors for coding agents — quality gate deterministik seperti compiler, linter, type checker, dan test suite — diintegrasikan langsung ke workflow agent
- Jika gagal, perbaikan otomatis dipicu sebelum review oleh manusia
- Contoh di Radar kali ini mencakup cargo-mutants dan alat mutation testing, alat fuzz testing seperti WuppieFuzz, serta alat analisis kualitas kode seperti CodeScene
- Di luar umpan balik dalam loop, ada juga contoh pengurangan architecture drift dengan menggabungkan aturan struktur deterministik dan evaluasi berbasis LLM
[Techniques]
Adopt
1. Context engineering
- Sebuah teknik yang telah berkembang menjadi perhatian arsitektural inti pada sistem AI modern; berbeda dari prompt engineering yang berfokus pada perumusan kata, pendekatan ini memperlakukan context window sebagai permukaan desain dan secara sengaja membangun lingkungan informasi AI
- Semakin agent menangani tugas kompleks, pendekatan menuangkan data mentah ke context window besar akan memicu "context rot" dan penurunan penalaran; kini terjadi pergeseran dari prompt statis dan monolitik menuju progressive context disclosure
- Context setup menggunakan prompt caching untuk memuat lebih dulu instruksi statis demi mengurangi biaya dan memperbaiki time-to-first-token, sedangkan dynamic retrieval bergerak melampaui RAG dasar menuju pemilihan alat dan hanya memuat server MCP yang dibutuhkan
- Context graphs memodelkan penalaran institusional seperti kebijakan, pengecualian, dan preseden sebagai data yang terstruktur dan dapat di-query, sementara stateful compression serta sub-agent merangkum output antara dalam workflow jangka panjang
- Memperlakukan konteks AI sebagai kotak teks statis adalah jalan pintas menuju halusinasi; untuk membangun agent enterprise yang tangguh, konteks harus direkayasa sebagai pipeline yang dinamis dan dikelola dengan presisi
2. Instruksi bersama yang dikurasi untuk tim software
- Menganggap praktik setiap developer menulis prompt dari nol sebagai antipola, dan memperlakukan panduan AI sebagai aset rekayasa kolaboratif, bukan alur kerja pribadi
- Pada awalnya berfokus pada pemeliharaan pustaka prompt umum untuk tugas bersama, tetapi kini berkembang ke pendekatan yang lebih maju dengan menambatkan instruksi langsung ke template layanan
- Menempatkan file instruksi seperti
CLAUDE.md,AGENTS.md,.cursorrulesdi repositori baseline untuk scaffolding layanan baru
- Menempatkan file instruksi seperti
- Juga mengeksplorasi praktik terkait untuk menambatkan coding agent ke aplikasi referensi, dengan codebase hidup yang dapat dikompilasi berperan sebagai satu-satunya sumber kebenaran
- Saat arsitektur dan standar pengodean berkembang, aplikasi referensi dan instruksi tersemat sama-sama dapat diperbarui, dan repositori baru mewarisi alur kerja agent serta aturan terbaru secara default
3. Metrik DORA
- Metrik yang didefinisikan oleh program riset DORA, mencakup lead time perubahan, frekuensi deployment, MTTR, change failure rate, dan metrik kelima yang baru yaitu rework rate
- Rework rate adalah metrik stabilitas yang mengukur proporsi pipeline delivery tim yang dihabiskan untuk mengerjakan ulang pekerjaan yang sudah selesai, seperti bug pengguna atau cacat
- Di era pengembangan berbantuan AI, metrik DORA lebih penting dari sebelumnya; mengukur produktivitas dengan jumlah baris kode yang dihasilkan AI bersifat menyesatkan
- Tanpa penurunan lead time dan peningkatan frekuensi deployment, pembuatan kode yang cepat tidak akan menghasilkan hasil yang lebih baik
- Metrik stabilitas, khususnya penurunan rework rate, menjadi peringatan dini atas titik buta, utang teknis, dan risiko dari pengembangan berbantuan AI yang sembrono
- Daripada membangun dashboard yang kompleks, mekanisme sederhana seperti check-in saat retrospektif lebih efektif untuk meningkatkan kapabilitas
4. Passkeys
- Kredensial FIDO2 yang dipimpin oleh FIDO Alliance dan didukung Apple, Google, serta Microsoft, menggunakan kriptografi kunci publik asimetris untuk menggantikan kata sandi
- Private key disimpan di secure enclave berbasis hardware pada perangkat pengguna, dilindungi biometrik atau PIN dan tidak pernah bocor ke luar; setiap kredensial terikat asal ke domain relying party sehingga secara struktural tahan phishing
- Phishing menjadi penyebab lebih dari sepertiga seluruh pelanggaran data; FIDO Alliance Passkey Index 2025 melaporkan lebih dari 15 miliar akun yang memenuhi syarat secara global, Google meningkatkan tingkat keberhasilan login sebesar 30% di lebih dari 800 juta pengguna, dan Amazon memverifikasi login 6 kali lebih cepat dibanding metode lama
- NIST SP 800-63-4 (Juli 2025) mengklasifikasikan ulang synced passkeys sebagai patuh AAL2; regulator di UEA, India, dan lembaga federal AS mewajibkan autentikasi tahan phishing untuk sistem keuangan dan pemerintahan
- Dengan FIDO Credential Exchange Protocol, portabilitas aman antar credential manager menjadi mungkin; penyedia identitas utama seperti Auth0, Okta, dan Azure AD mendukungnya sebagai fitur kelas satu, menyederhanakan implementasi dari pekerjaan berbulan-bulan menjadi proyek 2 sprint
- Perlu berhati-hati dalam merancang pemulihan akun dan menghindari jalur fallback yang bisa dipancing phishing seperti SMS OTP
- Untuk skenario AAL3 (seperti akses berprivilege), kredensial yang terikat perangkat dari hardware security key tetap diperlukan
5. Structured output dari LLM
- Praktik membatasi model agar merespons dalam format yang telah ditentukan, seperti JSON atau class pada bahasa pemrograman tertentu
- Memberikan hasil yang andal di production, dan dianggap sebagai default yang masuk akal untuk aplikasi yang mengonsumsi respons LLM secara terprogram
- Semua penyedia model utama menyediakan mode structured output native, tetapi subset JSON Schema yang didukung berbeda-beda dan API berkembang cepat
- Library Instructor atau framework Pydantic AI menyediakan abstraksi yang stabil termasuk validasi dan retry otomatis; untuk pembuatan constraint pada model self-hosted, Outlines direkomendasikan
6. Arsitektur zero trust
- Seiring memasuki era agent, ini menjadi default yang masuk akal untuk menangani risiko keamanan ketika memberikan otonomi pada sistem yang tidak dapat diprediksi
- "Jangan pernah percaya, selalu verifikasi", memperlakukan keamanan berbasis identitas dan prinsip akses least privilege sebagai fondasi semua deployment agent
- Menerapkan standar seperti SPIFFE pada agent untuk membangun fondasi berbasis identitas yang kuat dan memungkinkan autentikasi terperinci di lingkungan dinamis
- Pemantauan dan verifikasi berkelanjutan terhadap perilaku agent penting untuk mengelola ancaman secara proaktif
- Selain deployment agent, praktik seperti OIDC impersonation di GCP juga diperkenalkan ke pipeline CI/CD, mengganti static key jangka panjang dengan token jangka pendek yang diterbitkan setelah verifikasi identitas
- Disarankan memperlakukan prinsip ZTA sebagai default yang tidak bisa dinegosiasikan, terlepas dari sistem yang dibangun
Trial
7. Agent Skills
- Saat AI agent berevolusi dari antarmuka chat sederhana menjadi eksekusi tugas otonom, context engineering menjadi tantangan utama; Agent Skills mengemas sumber daya terkait seperti instruksi, skrip yang dapat dieksekusi, dan dokumentasi untuk menyediakan standar terbuka bagi modularisasi konteks
- Agent memuat skill hanya saat diperlukan berdasarkan deskripsi, mengurangi konsumsi token serta meredakan kehabisan context window dan masalah agent instruction bloat
- Tidak hanya cepat diadopsi oleh coding agent, tetapi juga oleh asisten pribadi seperti OpenClaw; banyak use case dapat diselesaikan secara efektif dengan membuat agent menunjuk ke CLI atau skrip lokal, yang menjadi salah satu alasan tim lebih berhati-hati dalam penggunaan MCP sebagai default
- Plugin marketplaces mulai muncul sebagai cara untuk memberi versi dan membagikan skill, sementara banyak eksplorasi juga dilakukan untuk menilai efektivitas skill
- Penggunaan ulang skill pihak ketiga tanpa peninjauan dapat menimbulkan risiko keamanan rantai pasok yang serius, sehingga perlu kehati-hatian
8. Pengujian komponen berbasis browser
- Dulu tidak merekomendasikan alat berbasis browser (karena sulit dikonfigurasi, lambat, dan flaky), tetapi kini sudah jauh membaik sehingga dengan alat seperti Playwright menjadi pendekatan yang layak dan lebih disukai
- Saat pengujian dijalankan di browser sungguhan, kode berjalan di lingkungan yang sesuai dengan tempat eksekusinya yang nyata, sehingga memberikan konsistensi yang lebih tinggi
- Penurunan performa telah berkurang ke tingkat yang dapat diterima, dan flakiness juga menurun, sehingga memberi lebih banyak nilai dibanding lingkungan emulasi seperti jsdom
9. Sensor umpan balik untuk coding agent
- Untuk membuat coding agent lebih efektif dan mengurangi beban reviewer manusia, dibutuhkan loop umpan balik yang dapat diakses langsung oleh agent, dengan umpan balik bekerja dalam bentuk backpressure
- Developer sudah lama mengandalkan gerbang kualitas deterministik seperti compiler, linter, structural test, dan test suite; ini dapat dihubungkan ke alur kerja agentic untuk memicu koreksi mandiri secara tepat waktu saat terjadi kegagalan
- Implementasinya bisa beragam, seperti menghadirkan reviewer agent yang menjalankan pengecekan dan memicu perbaikan, atau mengekspos pengecekan sebagai proses pendamping yang berjalan paralel
- Berkat coding agent, biaya membangun linter kustom dan structural test menjadi lebih murah, sehingga memperkuat loop umpan balik
- Jika memungkinkan, jalankan selama sesi coding, bukan setelah commit, agar hasil yang dilaporkan sudah bersih sebelum commit
10. Memetakan code smell ke teknik refactoring
- Teknik untuk menginstruksikan agen agar menangani isu tertentu dengan pendekatan yang telah ditentukan
- Lapisan pertama mengarahkan agen dengan referensi umum seperti Refactoring untuk kasus umum; untuk isu yang lebih spesifik, gunakan Agent Skills, slash command, dan
AGENTS.mduntuk memetakan smell tertentu ke teknik yang sesuai - Saat diintegrasikan dengan alat linting, menghasilkan umpan balik deterministik yang memicu pendekatan refactoring yang tepat setiap kali smell terdeteksi
- Sangat efektif terutama pada legacy stack seperti .NET Framework 2.0 atau Java 8, berguna ketika data pelatihan umum kurang memadai
- Tanpa arahan tujuan, agen cenderung default ke pola umum alih-alih kebutuhan yang spesifik
11. Mutation testing
- Sinyal paling jujur untuk mengevaluasi kemampuan nyata mendeteksi cacat dari test suite; tidak seperti code coverage tradisional yang hanya melacak eksekusi baris, mutation testing memasukkan bug yang disengaja (mutations) ke source code dan memverifikasi bahwa test gagal saat perilaku dirusak
- Jika mutasi tidak terdeteksi, ini mengungkap celah dalam verifikasi, bukan sekadar kurangnya coverage; hal ini sangat penting di era pengembangan berbantuan AI — coverage tinggi dapat menutupi test yang secara logis kosong atau kode hasil generasi yang tidak diberi assertion bermakna
- Seiring test case yang dihasilkan AI makin umum, ini berperan sebagai lapisan penguatan untuk menangkap test "selalu hijau (perpetually green)" yang tetap lolos terlepas dari perubahan logika karena assertion yang hilang atau mock yang terisolasi
- Dengan alat seperti Stryker, Pitest, cargo-mutants, fokus bergeser ke seberapa banyak kode yang benar-benar diverifikasi dalam logika domain inti
12. Progressive context disclosure
- Teknik dalam praktik context engineering, yang memberi agen tahap discovery ringan untuk memilih apa yang diperlukan berdasarkan prompt pengguna, alih-alih membebaninya lebih dulu dengan instruksi yang berlebihan
- Cocok untuk skenario RAG, di mana agen terlebih dahulu mengidentifikasi domain yang relevan dari kueri pengguna lalu mengambil instruksi dan data yang spesifik
- Sama seperti cara banyak alat agentic coding menangani Agent Skills: alih-alih satu set instruksi monolitik yang dipenuhi syarat dan peringatan, sistem terlebih dahulu menentukan skill yang relevan dengan tugas lalu memuat instruksi detailnya
- Saat membangun sistem agentic, mudah terjebak dalam jebakan membengkakkan instruksi dengan aturan "DO" dan "DO NOT" yang tak ada habisnya, yang pada akhirnya menurunkan performa
- Menjaga context window tetap ringkas dan mencegah context rot
13. Sandboxed execution for coding agents
- Praktik menjalankan agen di dalam lingkungan terisolasi dengan akses file system terbatas, koneksi jaringan terkontrol, dan penggunaan resource yang dibatasi
- Karena coding agent kini memiliki otonomi untuk menjalankan kode, build, dan berinteraksi dengan file system, akses tanpa batas menimbulkan risiko nyata mulai dari kerusakan tidak sengaja hingga kebocoran kredensial; ini adalah default yang masuk akal, bukan peningkatan opsional
- Spektrum opsi sandboxing sangat luas — banyak coding agent menyediakan mode sandbox bawaan, sementara Dev Containers menawarkan isolasi berbasis container yang familier
- Shuru menyalakan microVM sekali pakai yang di-reset pada setiap eksekusi, sedangkan Sprites menyediakan lingkungan stateful dengan dukungan checkpoint/restore
- Untuk isolasi native Linux, Bubblewrap menyediakan sandboxing ringan berbasis namespace; di macOS,
sandbox-execmemberikan perlindungan serupa - Di luar isolasi dasar, perlu juga mempertimbangkan semua yang dibutuhkan untuk build dan test, autentikasi yang aman dan sederhana dengan layanan seperti GitHub dan penyedia model, port forwarding, serta CPU dan memori yang memadai
- Apakah sandbox dibuat sekali pakai sebagai default atau persisten untuk pemulihan sesi adalah keputusan desain yang bergantung pada prioritas keamanan, biaya, dan kesinambungan workflow
14. Semantic layer
- Teknik arsitektur data yang memperkenalkan lapisan logika bisnis bersama di antara data store dan aplikasi konsumen seperti alat BI, agen AI, dan API
- Dengan memusatkan definisi metrik, join, aturan akses, dan istilah bisnis, konsumen berbagi definisi yang sama; konsep ini sudah ada sebelum modern data stack, tetapi kembali mendapat perhatian lewat pendekatan code-first seperti metrics stores
- Tanpa semantic layer, logika bisnis tersebar di tabel warehouse ad hoc, dashboard, dan aplikasi downstream, sementara definisi metrik diam-diam bercabang
- Masalah ini makin parah dengan agentic AI — saat LLM melakukan penerjemahan text-to-SQL yang naif, hasil yang salah sering muncul terutama ketika aturan bisnis seperti pengakuan pendapatan berada di luar skema
- Platform cloud mulai menanamkan semantic layer secara langsung: Snowflake menyebutnya Semantic Views, Databricks menyebutnya Metric Views, sementara alat mandiri seperti dbt MetricFlow dan Cube menyediakan lapisan portabel lintas sistem
- Open Semantic Interchange (OSI) v1.0 baru-baru ini dirilis, dan dukungan dari berbagai vendor menandakan meluasnya standardisasi dan interoperabilitas di seluruh platform analitik, AI, dan BI
- Biaya utamanya adalah investasi awal dalam pemodelan data; disarankan mulai dari satu domain alih-alih rollout ke seluruh enterprise
15. Server-driven UI
- Memisahkan rendering ke container umum dan membuat server menyediakan struktur serta data, sehingga tim mobile dapat menghindari siklus review app store yang panjang di setiap iterasi
- Dengan format berbasis JSON yang memungkinkan pembaruan real-time, ini sangat meningkatkan time-to-release, dan kompleksitasnya berkurang seiring munculnya pola yang lebih matang dari perusahaan seperti Airbnb dan Lyft
- Dulu ada peringatan tentang risiko menjadi "kekacauan mengerikan yang terlalu bisa dikonfigurasi" yang sering ditimbulkan framework proprietari, tetapi pada aplikasi skala besar investasinya kini lebih mudah dibenarkan
- Tetap memerlukan business case yang kuat dan rekayasa yang disiplin; penting untuk menghindari terciptanya "god-protocol" yang sulit dipelihara
- Direkomendasikan untuk area yang sangat dinamis, bukan sebagai pengganti seluruh pengembangan UI aplikasi
Assess
16. Lingkungan reinforcement learning agentik
- Menggabungkan konteks, alat, dan umpan balik sebagai arena pelatihan untuk agen berbasis LLM guna menyelesaikan tugas multilangkah
- Pendekatan ini menyusun ulang post-training LLM dari keluaran satu giliran yang sederhana menjadi perilaku agentik seperti penalaran dan penggunaan alat, dengan memberi reward atau penalti pada setiap tindakan
- Teknik seperti RLVR memastikan reward dapat diverifikasi dan tahan terhadap gamifikasi
- Lab riset AI saat ini memimpin pengembangan, terutama untuk agen coding dan penggunaan komputer; Composer dari Cursor adalah contoh di luar frontier lab berupa model coding khusus yang dilatih di dalam lingkungan produk
- Proses ini makin disederhanakan dengan munculnya framework dan platform seperti Environments Hub dari Prime Intellect, Agent Lightning, dan NVIDIA NeMo Gym
17. Pengurangan architecture drift dengan LLM
- Dengan meningkatnya penggunaan agen coding AI, drift dari desain codebase dan arsitektur yang dimaksudkan makin cepat; jika dibiarkan, agen dan manusia akan menyalin pola yang ada, termasuk yang sudah menurun kualitasnya, sehingga drift makin menumpuk dan membentuk loop umpan balik di mana kode buruk menghasilkan kode yang lebih buruk
- Menggabungkan alat analisis deterministik (Spectral, ArchUnit, Spring Modulith) dengan evaluasi berbasis LLM untuk mendeteksi pelanggaran struktural maupun semantik
- Diterapkan pada definisi architecture zone yang menegakkan panduan kualitas API di seluruh layanan dan mengarahkan perbaikan hasil generasi agen
- Seperti linting tradisional, pemindaian awal akan memunculkan banyak pelanggaran sehingga perlu klasifikasi dan prioritisasi, dan LLM dapat membantu di sini
- Perbaikan yang dihasilkan agen perlu dijaga tetap kecil dan terfokus agar mudah ditinjau, dan loop verifikasi tambahan wajib ada untuk memastikan perubahan memperbaiki sistem tanpa regresi
- Memperluas gagasan feedback sensors for coding agents ke tahap yang lebih akhir dalam lifecycle delivery; seperti ungkapan tim OpenAI, pengurangan drift bekerja dalam bentuk "garbage collection"
18. Code intelligence sebagai tooling agentik
- LLM memproses kode sebagai aliran token dan tidak memiliki pemahaman native tentang call graph, hierarki tipe, atau relasi simbol
- Untuk eksplorasi kode, saat ini sebagian besar agen coding pada dasarnya memakai pencarian berbasis teks, penyebut bersama paling kuat lintas semua bahasa; untuk refactoring cepat ala shortcut IDE, agen perlu membuat banyak text diff
- Agen menghabiskan banyak token untuk membangun ulang informasi yang sebenarnya sudah ada di AST
- Berikan akses agen ke alat yang memahami AST, misalnya melalui Language Server Protocol (LSP), agar operasi seperti "menemukan semua referensi ke simbol ini" atau "mengganti nama tipe ini di semua tempat" bisa dijalankan sebagai aksi kelas satu
- Alat codemod seperti OpenRewrite bekerja pada representasi kode Lossless Semantic Tree(LST) yang lebih kaya; delegasi tugas yang tepat ke alat deterministik mengurangi edit halusinatif dan menekan konsumsi token
- Claude Code, OpenCode, dan lainnya terintegrasi dengan server LSP yang berjalan lokal; JetBrains menyediakan server MCP yang mengekspos navigasi IDE dan refactoring ke agen eksternal, sementara server MCP Serena menyediakan pencarian dan pengeditan kode semantik
19. Context graph
- Teknik representasi pengetahuan yang memodelkan keputusan, kebijakan, pengecualian, preseden, bukti, dan hasil sebagai node terhubung kelas satu dalam sebuah graf, disusun untuk dikonsumsi AI
- Jika system of record menangkap apa yang terjadi, context graph menangkap mengapa — mengubah penalaran institusional yang terkubur di thread Slack, rantai persetujuan, dan kepala orang menjadi struktur yang dapat dibaca mesin dan di-query
- Penting untuk efektivitas agen; misalnya, agen yang menangani pengecualian diskon bisa salah bernalar jika tidak dapat menentukan apakah ini kebijakan standar atau override satu kali. Context graph memungkinkan penelusuran jejak keputusan, penerapan preseden terkait, dan penalaran rantai kausal multi-hop dengan mengekspos sumber secara langsung
- Berbeda dengan GraphRAG yang dibangun dari korpus dokumen statis, context graph menjaga validitas temporal pada setiap edge; fakta yang digantikan tidak ditimpa, melainkan dinyatakan tidak berlaku
- Layak dievaluasi untuk aplikasi agentik yang membutuhkan memori persisten lintas sesi atau penalaran keputusan yang dapat dilacak
20. Feedback flywheel
- Tim yang bekerja dengan agen coding makin banyak mengadopsi workflow spec-driven development; terlepas dari apakah framework-nya ringan atau opinionated, alurnya mengikuti spec → plan → implement
- Feedback flywheel memperluas alur ini dengan tahap tambahan yang berfokus pada perbaikan berkelanjutan pada harness coding agent
- Mirip retrospektif, tim menangkap keberhasilan dan kegagalan selama sesi agen coding lalu menggunakannya untuk meningkatkan prediktabilitas sesi berikutnya, dengan efek majemuk seiring waktu
- Ini adalah teknik meta di mana human on the loop berfokus pada peningkatan kontrol feedforward seperti curated shared instructions dan feedback sensors for coding agents
- Level berikutnya adalah agentic feedback flywheel, di mana agen memutuskan perbaikan yang diperlukan berdasarkan umpan balik yang terakumulasi; untuk saat ini tetap dibutuhkan human-in-the-loop guna mencegah context rot dan umpan balik berisik yang bisa menyesatkan agen
- Dapat digunakan untuk mengevaluasi keseluruhan harness coding agent seiring evolusi lingkungan, terutama saat mengadopsi model baru, karena apa yang bekerja pada satu model bisa jadi tidak lagi diperlukan pada model berikutnya
21. HTML Tools
- dengan alat agentic, makin mudah membangun utilitas kecil untuk tugas spesifik, sehingga tantangan utamanya adalah cara menerapkan dan membagikannya
- HTML Tools adalah pendekatan untuk mengemas skrip atau utilitas yang bisa dibagikan ke dalam satu file HTML
- dapat dijalankan langsung di browser, di-host di mana saja, atau sekadar dibagikan sebagai file, sehingga menghindari overhead distribusi alat CLI yang memerlukan pembagian biner atau penggunaan package manager
- lebih sederhana daripada membangun aplikasi web penuh dengan hosting khusus
- dari sudut pandang keamanan, menjalankan file yang tidak tepercaya tetap berisiko, tetapi sandbox browser dan kemungkinan memeriksa source code memberi sedikit mitigasi
- untuk utilitas ringan, satu file HTML menawarkan cara yang sangat mudah diakses dan portabel
22. Evaluasi LLM menggunakan semantic entropy
- confabulation, bentuk halusinasi pada aplikasi QA berbasis LLM, sulit diatasi dengan metode evaluasi tradisional
- salah satu pendekatan adalah menggunakan entropi informasi untuk mengukur ketidakpastian dengan menganalisis variasi leksikal output terhadap input tertentu
- evaluasi LLM menggunakan Semantic entropy memperluas ide ini dengan berfokus pada perbedaan makna alih-alih variasi di tingkat permukaan
- karena yang dinilai adalah makna, bukan urutan kata, pendekatan ini dapat diterapkan lintas dataset dan tugas tanpa pengetahuan awal, serta mampu melakukan generalisasi dengan baik pada tugas yang belum dikenal
- membantu mengidentifikasi prompt yang berpotensi memicu confabulation dan merekomendasikan kehati-hatian bila diperlukan
- entropi naif sering gagal mendeteksi confabulation, sedangkan semantic entropy lebih efektif untuk menyaring klaim palsu
23. Mengukur kualitas kolaborasi dengan coding agent
- saat menggunakan coding agent, peningkatan produktivitas nyata memang terlihat, tetapi sebagian besar metrik evaluasi masih terlalu berfokus pada coding throughput seperti waktu ke output pertama, jumlah baris kode yang dihasilkan, atau jumlah tugas yang selesai
- agar tim tidak terjebak dalam speed trap, fokus perlu digeser ke seberapa efektif manusia dan agent berkolaborasi
- metrik seperti first-pass acceptance rate, jumlah siklus iterasi per tugas, rework setelah merge, build yang gagal, dan beban review memberi sinyal yang lebih bermakna dibanding kecepatan semata
- tim yang menggunakan Claude Code dapat membuat laporan tentang keberhasilan sesi agent dan refleksi tantangan melalui perintah
/insights, dan juga bereksperimen melacak first-pass acceptance dari perintah/reviewyang dikustomisasi - siklus umpan balik yang pendek dan berkurangnya build gagal menjadi indikator interaksi yang lebih efektif dengan agent
- di tingkat tim, bukan individu, kualitas kolaborasi dapat dilacak bersama metrik DORA untuk membangun gambaran yang lebih utuh tentang adopsi coding agent
24. MITRE ATLAS
- sistem agentic dan alat coding memperkenalkan arsitektur baru dan ancaman keamanan yang muncul
- MITRE ATLAS adalah basis pengetahuan tentang taktik dan teknik adversarial yang menargetkan sistem AI dan ML
- lebih terfokus dan dirancang sebagai pelengkap dibanding kerangka kerja MITRE ATT&CK yang lebih luas, dengan menyediakan klasifikasi ancaman untuk pipeline ML, aplikasi LLM, dan sistem agentic
- tanpa kosakata bersama, risiko keamanan sering terlewat atau direduksi menjadi sekadar latihan checklist, dan ATLAS membantu mengatasi hal ini
- berdasarkan studi atas insiden nyata dan pola teknis, tim dapat menggunakan kerangka ini untuk mendukung threat modeling
- menjadi pelengkap alami bagi kerangka kontrol seperti SAIF, dan membantu menjelaskan lanskap ancaman yang terus berkembang pada sistem AI
25. Ralph loop
- teknik autonomous coding agent yang juga dikenal sebagai Wiggum loop, yang memberi agent prompt tetap dalam loop tak terbatas
- setiap iterasi dimulai dengan context window baru — agent memilih pekerjaan dari spesifikasi atau rencana, mengimplementasikannya, lalu memulai ulang loop dengan konteks baru
- wawasan intinya adalah kesederhanaan: alih-alih mengoordinasikan teams of coding agents atau coding agent swarms, satu agent bekerja secara mandiri terhadap spesifikasi, dengan harapan codebase akan semakin mendekati spesifikasi melalui iterasi berulang
- penggunaan context window baru pada setiap iterasi membantu menghindari penurunan kualitas akibat akumulasi konteks, meski dengan biaya token yang besar
- alat seperti goose mengimplementasikan pola ini, dan dalam beberapa kasus memperluasnya dengan review lintas model antar iterasi
26. Reverse engineering untuk design system
- organisasi sering bergulat dengan antarmuka legacy yang terfragmentasi, di mana "standar desain" hanya ada sebagai kumpulan longgar halaman web, materi pemasaran, dan screenshot yang terpisah
- secara historis, mengaudit artefak ini untuk membangun dasar yang terpadu adalah proses manual dan memakan waktu
- dengan multimodal LLM, ekstraksi ini dapat diotomatisasi, sehingga design system dapat di-reverse engineer secara efektif dari aset visual yang ada
- dengan memberi website, screenshot, dan potongan UI ke alat khusus atau model AI bervisi, tim dapat mengekstrak design token inti seperti palet warna, skala tipografi, dan aturan spacing, sekaligus mengidentifikasi pola komponen yang berulang
- AI menyintesis data visual tak terstruktur ini menjadi representasi semantik terstruktur dari design system, dan ketika diintegrasikan dengan alat seperti Figma, output ini sangat mempercepat pembentukan library komponen yang terdokumentasi dan dapat dipelihara
- selain mengurangi upaya audit visual, ini juga berfungsi sebagai batu loncatan untuk membangun design system yang "AI-ready"
- bagi enterprise yang terbebani design debt brownfield, menetapkan baseline design system dengan AI menjadi titik awal yang praktis sebelum redesign menyeluruh atau standardisasi frontend
27. Isolasi kontekstual berbasis peran dalam RAG
- teknik arsitektur yang memindahkan kontrol akses dari lapisan aplikasi ke lapisan pencarian
- pada saat indexing, setiap data chunk diberi tag izin berbasis peran, lalu pada waktu query mesin pencari membatasi ruang pencarian berdasarkan identitas terautentikasi pengguna dan mencocokkannya dengan metadata tiap chunk
- karena model AI difilter pada tahap retrieval, pendekatan ini memastikan konteks yang tidak diizinkan tidak bisa diakses, sekaligus menyediakan fondasi zero trust bagi basis pengetahuan internal
- banyak vector database seperti Milvus atau layanan berbasis Amazon S3 mendukung metadata filtering berperforma tinggi, sehingga penerapannya tetap praktis bahkan pada basis pengetahuan berskala besar
28. Skills sebagai dokumentasi onboarding yang dapat dieksekusi
- Agent Skills, curated shared instructions, dan teknik context engineering lainnya muncul di seluruh edisi Radar ini; use case yang ingin ditekankan dalam konteks coding adalah skills sebagai dokumentasi onboarding yang dapat dijalankan
- Dapat diterapkan di berbagai level; di dalam codebase, skill
/_setupdapat berperan sebagai skripgo.shsekaligus file README, menggabungkan semantik eksekusi LLM dengan skrip untuk langkah-langkah yang tidak bisa sepenuhnya diskriptkan - Melampaui apa yang bisa dilakukan skrip, ini memungkinkan mempertimbangkan secara dinamis keadaan terkini codebase dan environment
- Pembuat library dan API dapat menyediakan skills kepada pengguna sebagai bagian dari dokumentasi, melalui registry skill internal maupun eksternal (seperti Tessl)
- Berguna untuk onboarding platform internal tim, menurunkan hambatan penggunaan teknologi inti atau mengurangi friksi saat adopsi design system; sejauh ini banyak bergantung pada server MCP, tetapi kini mulai beralih ke skills
- Seperti bentuk dokumentasi lain, tantangan untuk menjaganya tetap mutakhir tidak hilang; namun dokumentasi yang dapat dieksekusi, tidak seperti dokumentasi statis, membantu menyadari keusangan jauh lebih awal
29. Small language models
- SLM terus membaik dan mulai memberikan kecerdasan yang lebih baik per dolar dibanding LLM untuk use case tertentu
- Tim mengevaluasi SLM untuk menurunkan biaya inferensi dan meningkatkan kecepatan workflow agentic; kemajuan terbaru menunjukkan peningkatan konsisten dalam kepadatan kecerdasan, sehingga kompetitif dengan LLM lama pada tugas seperti peringkasan dan coding dasar
- Ini mencerminkan pergeseran dari "semakin besar semakin baik" ke data berkualitas lebih tinggi, model distillation, dan quantization
- Model seperti Phi-4-mini dan Ministral 3 3B membuktikan bahwa model hasil distilasi mempertahankan banyak kemampuan model guru yang lebih besar
- Model ultra-kecil seperti Qwen3-0.6B dan Gemma-3-270M juga kini bisa dijalankan di edge device
- Untuk use case agentic yang sebelumnya cukup ditangani LLM lama, pertimbangkan SLM sebagai alternatif berbiaya rendah, berlatensi rendah, dan dengan kebutuhan resource yang lebih kecil
30. Team of coding agents
- Pada Radar sebelumnya dijelaskan sebagai teknik di mana developer mengorkestrasi kelompok kecil agen berdasarkan peran untuk berkolaborasi dalam tugas coding
- Sejak itu hambatan adopsi menurun; dukungan sub-agent telah menjadi fitur default di berbagai tool coding agent yang ada, termasuk fitur agent teams yang menyediakan orkestrasi bawaan di Claude Code
- Dalam tim agen, orkestrator utama biasanya mengatur sequencing tugas dan paralelisasi, dan agen harus bisa berkomunikasi bukan hanya dengan orkestrator tetapi juga satu sama lain
- Use case umum adalah tim reviewer atau kelompok implementer yang menangani bagian aplikasi yang berbeda seperti backend dan frontend
- Sebagian industri menggunakan "agent teams" dan "agent swarms" secara bergantian (Claude Code menjelaskan fitur agent teams sebagai "our implementation of swarms"), tetapi pembedaan ini tetap bernilai
- Tim agen yang kecil dan disengaja berkolaborasi pada suatu tugas sangat berbeda dari swarm besar dalam hal hambatan masuk, kompleksitas, dan use case
31. Temporal fakes
- Merupakan perluasan dari gagasan simulasi sistem dunia nyata yang telah lama digunakan di platform IoT dan industri
- Agen coding AI mengurangi upaya membangun simulator, sehingga jauh lebih mudah membuat replika dependensi eksternal dengan fidelitas tinggi
- Berbeda dari mock tradisional yang mengembalikan pasangan request-response statis, temporal fakes mempertahankan state machine internal dan memodelkan evolusi temporal sistem nyata
- Satu tim menggunakan teknik ini untuk mengembangkan stack observability bagi data center GPU besar, sehingga dapat menghindari pengadaan hardware fisik
- Menguji aturan alert, dashboard, dan deteksi anomali terhadap sistem nyata tidak praktis (misalnya sengaja membuat GPU terlalu panas untuk memverifikasi alert thermal throttle)
- Sebagai gantinya, mereka membangun fake untuk domain hardware seperti NVIDIA DCGM dan fabric InfiniBand dengan Go
- Dengan simulator, skenario kegagalan seperti thermal throttling, badai error XID, link flap, dan kegagalan PSU bisa diaktifkan dengan intensitas dan durasi yang dapat dikonfigurasi, lalu diorkestrasi dengan stack process-compose
- Registry terpusat mendefinisikan skenario kegagalan yang valid, dan server MCP mengekspos injeksi skenario kepada agen
- Agen dapat memicu fault seperti menyuntikkan thermal throttle pada GPU tertentu, lalu memverifikasi bahwa metrik berubah sesuai harapan, alert terpicu, dan dashboard diperbarui
- Fidelitas temporal inilah yang membuat teknik ini bernilai untuk menguji sistem kompleks dengan kegagalan berantai; tetapi jika fake tidak setia pada perilaku dunia nyata, ada risiko menimbulkan rasa percaya diri yang keliru dalam pipeline otomatis
32. Toxic flow analysis for AI
- Kemampuan agen sedang melampaui praktik keamanan, dan kemunculan agen yang rakus izin (permission-hungry) seperti OpenClaw membuat makin banyak tim men-deploy agen ke environment yang terpapar lethal trifecta — akses ke data privat, paparan pada konten tak tepercaya, dan kemampuan berkomunikasi ke luar
- Seiring kemampuan meningkat, permukaan serangan juga bertambah, sehingga sistem terekspos pada risiko seperti prompt injection dan tool poisoning
- Toxic flow analysis terus diakui sebagai teknik utama untuk menyelidiki sistem agentic guna mengidentifikasi jalur data yang tidak aman dan potensi vektor serangan
- Risiko tidak lagi terbatas pada integrasi MCP; pola serupa juga terlihat pada Agent Skills — pelaku jahat dapat mengemas skill yang tampak berguna tetapi menyisipkan instruksi tersembunyi untuk membocorkan data sensitif
- Sangat disarankan agar tim kerja agen melakukan toxic flow analysis dan menggunakan tool seperti Agent Scan untuk mengidentifikasi jalur data yang tidak aman sebelum dieksploitasi
33. Vision language models untuk parsing dokumen end-to-end
- Parsing dokumen bergantung pada pipeline multilangkah yang menggabungkan deteksi layout, OCR tradisional, dan skrip pascapemrosesan, dan kesulitan menghadapi layout kompleks serta rumus matematika
- Parsing dokumen end-to-end menggunakan VLM menyederhanakan arsitektur dengan memperlakukan citra dokumen sebagai modalitas input tunggal, sambil mempertahankan urutan baca yang alami dan konten terstruktur
- Model open source yang dilatih khusus untuk tujuan ini seperti olmOCR-2, DeepSeek-OCR (3B) yang efisien dalam token, dan PaddleOCR-VL yang ultra-ringkas menghasilkan hasil yang sangat efisien
- Walau VLM dapat menggantikan pipeline multilangkah dan mengurangi kompleksitas arsitektur, sifat generatifnya membuatnya rentan berhalusinasi
- Use case dengan toleransi kesalahan rendah masih memerlukan pendekatan hibrida atau OCR deterministik
- Tim yang memproses koleksi dokumen dalam jumlah besar perlu mengevaluasi pendekatan terintegrasi ini untuk menentukan apakah pendekatan tersebut dapat mengurangi overhead pemeliharaan jangka panjang sambil menjaga akurasi
Caution
34. Pembengkakan instruksi agent
- File konteks seperti
AGENTS.mddanCLAUDE.mdseiring waktu menumpuk dengan ringkasan codebase, penjelasan arsitektur, konvensi, dan aturan tambahan - Setiap tambahan berguna jika dilihat secara terpisah, tetapi sering kali menyebabkan agent instruction bloat, membuat instruksi menjadi panjang dan kadang saling bertentangan
- Model cenderung kurang memperhatikan isi yang terkubur di tengah konteks panjang, dan panduan yang berada jauh di dalam riwayat percakapan panjang bisa terlewat
- Seiring bertambahnya instruksi, kemungkinan aturan penting diabaikan meningkat
- Banyak tim kini membuat file
AGENTS.mddengan AI, tetapi riset menunjukkan bahwa versi yang ditulis tangan sering kali lebih efektif daripada yang dihasilkan LLM - Saat menggunakan alat agentic, instruksi harus dipilih secara sengaja dan selektif, ditambahkan sesuai kebutuhan, lalu terus disempurnakan menjadi set yang minimal dan konsisten
- Pertimbangkan penggunaan progressive context disclosure agar hanya instruksi dan kemampuan yang diperlukan untuk tugas saat ini yang ditampilkan
35. Shadow IT yang dipercepat AI
- AI terus menurunkan hambatan bagi non-coder untuk membangun sistem kompleks, memungkinkan eksperimen dan validasi awal kebutuhan, tetapi juga membawa risiko shadow IT yang dipercepat AI
- Selain platform workflow no-code yang mengintegrasikan API AI seperti OpenAI atau Anthropic, semakin banyak alat agentic seperti Claude Cowork yang tersedia bagi non-coder
- Ketika spreadsheet yang diam-diam menjalankan bisnis berevolusi menjadi workflow agentic kustom tanpa tata kelola, hal itu membawa risiko keamanan besar dan mendorong menjamurnya solusi bersaing untuk masalah serupa
- Membedakan antara workflow sekali pakai dan proses penting yang memerlukan implementasi yang tahan lama dan siap produksi adalah kunci untuk menyeimbangkan eksperimen dan kontrol
- Organisasi perlu memprioritaskan tata kelola sebagai bagian dari strategi adopsi AI mereka, sambil tetap mendorong eksperimen dalam lingkungan yang terkendali
- Sandbox internal yang terinstrumentasi dengan baik dapat memberi non-coder tempat untuk menerapkan prototipe dengan penggunaan yang bisa dilacak
- Jika dipasangkan dengan katalog berbagi workflow yang sudah ada, ini membantu tim menemukan apa yang telah dibangun dan menghindari upaya duplikatif
36. Utang kognitif codebase
- Kesenjangan yang terus membesar antara implementasi sistem dan pemahaman bersama tim tentang bagaimana dan mengapa sistem itu bekerja
- Saat AI meningkatkan kecepatan perubahan, terutama dengan banyak kontributor atau Coding Agent Swarms, tim bisa kehilangan jejak niat desain dan keterkaitan tersembunyi
- Dikombinasikan dengan utang teknis yang meningkat, hal ini membentuk loop penguatan yang membuat sistem makin sulit dipahami
- Pemahaman sistem yang lemah mengurangi kemampuan developer untuk mengarahkan AI secara efektif, mengantisipasi edge case, dan menuntun agent menjauh dari jebakan arsitektural
- Jika tidak dikelola, ini bisa mencapai titik kritis ketika perubahan kecil memicu kegagalan tak terduga, perbaikan menimbulkan regresi, dan upaya perapian justru meningkatkan risiko alih-alih menguranginya
- Hindari sikap terlalu santai terhadap kode hasil AI dan terapkan langkah penanggulangan eksplisit — feedback sensors for coding agents, pelacakan beban kognitif tim, dan fungsi kebugaran arsitektur untuk terus menegakkan batasan inti saat AI mempercepat output
37. Kawanan coding agent
- Jika team of coding agents adalah kelompok kecil yang disengaja, maka coding agent swarm menerapkan puluhan hingga ratusan agent pada sebuah masalah, dengan AI yang secara dinamis menentukan konfigurasi dan ukurannya
- Proyek seperti Gas Town dan Ruflo (sebelumnya Claude Flow) adalah contoh yang baik
- Pola awal implementasi swarm mulai muncul — pemisahan peran hierarkis (orkestrator, supervisor, worker sementara), ledger tugas tahan lama yang membantu agent membagi dan mengoordinasikan pekerjaan (Gas Town menggunakan beads), dan mekanisme merge untuk menangani benturan kerja paralel
- Dua eksperimen swarm sangat menonjol — pembuatan compiler C oleh Anthropic dan eksperimen agent scaling dari Cursor (membangun browser selama seminggu)
- Kedua tim sama-sama memilih use case yang dapat mengandalkan spesifikasi rinci yang sudah ada, termasuk test suite komprehensif yang memberi umpan balik jelas dan terukur dalam kasus compiler C
- Kondisi ini tidak mewakili pengembangan produk pada umumnya, yang kebutuhannya kurang terdefinisi dan lebih sulit divalidasi
- Meski begitu, eksperimen ini berkontribusi pada pola yang sedang muncul yang membuat swarm jangka panjang layak secara teknis; karena masih mahal dan jauh dari matang, adopsi secara hati-hati dianjurkan
38. Coding throughput sebagai ukuran produktivitas
- Asisten coding AI memang meningkatkan produktivitas nyata dan dengan cepat menjadi alat standar bagi developer
- Namun, organisasi semakin sering mengukur keberhasilan dengan metrik dangkal seperti jumlah baris kode yang dihasilkan atau jumlah pull request (PR)
- Jika metrik coding throughput ini digunakan secara terpisah, hal itu dapat berdampak negatif pada perilaku karyawan
- Hasilnya sering kali berupa banjir kode yang tidak selaras yang memperlambat review, merusak throughput delivery, dan menimbulkan risiko keamanan, ketika engineer mengajukan PR yang dipenuhi output AI yang ditinjau secara tidak memadai, sehingga menambah waktu siklus karena bolak-balik berulang dengan reviewer
- Metrik ini gagal menangkap upaya sisa yang diperlukan untuk menyesuaikan kode buatan AI dengan arsitektur, konvensi, dan pola tim
- Ada indikator awal yang lebih bermakna — first-pass acceptance rate, yaitu seberapa sering output AI dapat digunakan dengan pengerjaan ulang minimal
- Mengukurnya dapat menyingkap upaya tersembunyi dan memungkinkan tindakan perbaikan, sehingga tim dapat terus meningkatkan tingkat penerimaan melalui penyempurnaan prompt, perbaikan dokumen priming, dan penguatan percakapan desain
- Ini menciptakan siklus positif ketika output AI membutuhkan lebih sedikit revisi, dan first-pass acceptance terhubung secara alami dengan metrik DORA — tingkat penerimaan yang rendah cenderung meningkatkan change failure rate, sementara pengulangan siklus iterasi memperpanjang lead time for changes
- Seiring asisten AI makin umum digunakan, organisasi perlu mengalihkan fokus dari coding throughput semata ke metrik yang mencerminkan dampak nyata dan hasil delivery
39. Mengabaikan durability dalam workflow agent
- Antipola yang diamati di banyak tim, yang bekerja saat development tetapi gagal di production
- Tantangan yang dihadapi sistem terdistribusi menjadi makin menonjol saat membangun agent, dan pola pikir yang mengantisipasi kegagalan serta pulih dengan anggun lebih unggul daripada pendekatan reaktif
- LLM dan pemanggilan tool dapat gagal karena gangguan jaringan dan crash server, menyebabkan progres agent terhenti serta pengalaman pengguna yang buruk dan kenaikan biaya operasional
- Beberapa sistem dapat menoleransi hal ini ketika tugasnya berumur pendek, tetapi workflow kompleks yang berjalan berhari-hari atau berminggu-minggu membutuhkan durability
- Framework agent seperti LangGraph dan Pydantic AI sedang mengintegrasikan eksekusi yang durable
- Ini menyediakan persistensi status untuk progres dan pemanggilan tool, sehingga agent dapat melanjutkan tugas setelah kegagalan
- Pada workflow yang melibatkan human in the loop, eksekusi durable memungkinkan progres dijeda saat menunggu input
- Platform durable computing seperti Temporal, Restate, dan Golem juga menyediakan dukungan agent
- Observabilitas atas eksekusi tool bawaan dan pelacakan keputusan mempermudah debugging serta meningkatkan pemahaman terhadap sistem production
- Mulailah dengan dukungan eksekusi durable bawaan di framework agent, lalu gunakan platform independen saat workflow menjadi lebih penting atau lebih kompleks
40. MCP sebagai default
- Model Context Protocol (MCP) mendapat banyak perhatian, dan tim serta vendor cenderung mengadopsinya sebagai lapisan integrasi default antara agent AI dan sistem eksternal meski ada alternatif yang lebih sederhana
- Perlu berhati-hati menggunakan MCP sebagai default; MCP benar-benar menambah nilai pada kontrak tool yang terstruktur, batas autentikasi berbasis OAuth, dan akses multitenan yang dikelola
- Namun ini juga menghadirkan apa yang disebut Justin Poehnelt sebagai "abstraction tax" — setiap lapisan protokol antara agent dan API menyebabkan hilangnya fidelitas, dan API yang kompleks memperbesar kehilangan ini
- Dalam praktiknya, CLI yang dirancang dengan baik dengan output
--helpyang bagus, respons JSON terstruktur, dan penanganan error yang dapat diprediksi dapat memberi agent semua yang dibutuhkan tanpa overhead protokol - Seperti dicatat Simon Willison, "hampir semua yang bisa dicapai dengan MCP dapat ditangani dengan alat CLI"
- Ini bukan penolakan terhadap MCP, tetapi tim sebaiknya menghindari adopsi default dan lebih dulu bertanya apakah sistem mereka benar-benar memerlukan interoperabilitas tingkat protokol
- MCP masuk akal ketika manfaat tata kelola dan integrasinya lebih besar daripada tambahan kompleksitas dan potensi hilangnya fidelitas
41. Lingkungan pengembangan dengan pixel streaming
- Menggunakan desktop atau workstation jarak jauh bergaya VDI untuk pengembangan software, di mana editing, build, dan debugging dilakukan melalui desktop streaming alih-alih mesin lokal atau lingkungan remote yang berpusat pada kode
- Organisasi terus mengadopsinya, terutama untuk memenuhi tujuan keamanan, standardisasi, dan onboarding pada tim offshore serta program cloud lift-and-shift
- Namun dalam praktiknya, trade-off-nya sering buruk — latensi, input lag, dan respons layar yang tidak konsisten menciptakan gesekan kognitif terus-menerus, memperlambat delivery dan membuat pekerjaan development sehari-hari lebih melelahkan
- Tidak seperti lingkungan pengembangan di cloud, Google Cloud Workstations, Coder, dan VS Code Remote Development — yang memindahkan komputasi lebih dekat ke kode tanpa streaming seluruh desktop
- Pengaturan pixel-streamed memprioritaskan kontrol terpusat daripada alur kerja developer, dan sering dipaksakan tanpa masukan yang cukup dari engineer yang menggunakannya
- Kecuali kebutuhan keamanan yang kuat atau batasan regulasi jelas lebih penting daripada biaya produktivitas, lingkungan pengembangan pixel-streamed tidak direkomendasikan sebagai pilihan default untuk software delivery
[Platforms]
Adopt
— tidak ada
Trial
42. AG-UI Protocol
- Protokol dan library terbuka yang dirancang untuk menstandarkan komunikasi antara antarmuka pengguna yang kaya dan agent AI backend
- Secara historis, membangun UI agentic memerlukan pekerjaan plumbing kustom untuk kolaborasi dua arah yang menyimpan status; AG-UI mengatasinya dengan arsitektur berbasis event yang konsisten yang mendukung transport seperti server-sent events (SSE) dan WebSockets
- Mendukung streaming langkah penalaran, sinkronisasi status, dan rendering komponen UI dinamis
- Namun, lanskap arsitektur antarmuka agent berubah cepat, dan AG-UI sengaja ditempatkan di luar MCP untuk berperan sebagai lapisan antarmuka antara frontend dan backend agent
- Sementara itu, pendekatan lain juga muncul pada aplikasi berbasis MCP baru yang mengemas HTML dan widget UI langsung di dalam server MCP atau skill
- Seiring komponen UI dapat di-embed dan disajikan bersama tool — pola yang berkaitan dengan standar sekitar seperti MCP-UI — hal ini mempertanyakan perlunya lapisan protokol UI terpisah seperti AG-UI
- Ini tetap menjadi pilihan yang solid untuk memisahkan UX frontend dan orkestrasi backend, tetapi perannya perlu dievaluasi dengan mempertimbangkan tren integrasi logika tool dan UI di dalam ekosistem MCP
43. Apache APISIX
- Gateway open-source, berkinerja tinggi, dan cloud-native yang mengatasi keterbatasan solusi legacy berbasis Nginx
- Dibangun di atas LuaJIT milik Nginx dan OpenResty, menggunakan etcd sebagai penyimpanan konfigurasi untuk menghilangkan latensi akibat reload, sehingga cocok untuk arsitektur microservices dinamis dan serverless
- Kekuatan utamanya adalah arsitektur yang sepenuhnya dinamis dan dapat diperluas dengan plugin, dengan ekosistem plugin multibahasa termasuk API dan WASM untuk menyesuaikan manajemen trafik, keamanan, dan observabilitas
- Dengan dukungan Kubernetes Gateway API, Apache APISIX dapat digunakan sebagai gateway Kubernetes, menjadikannya kandidat kuat pengganti ingress controller Nginx legacy
44. AWS Bedrock AgentCore
- Platform agentic untuk membangun, menjalankan, dan mengoperasikan agen secara aman dalam skala besar tanpa overhead pengelolaan infrastruktur, mirip dengan GCP Vertex AI Agent Builder dan Azure AI Foundry Agent Service
- Mudah mengadopsi platform sebagai black box monolitik, tetapi keberhasilan lebih besar datang dari arsitektur yang terperinci dan terpisah — gunakan runtime AgentCore untuk kebutuhan produksi seperti isolasi sesi, keamanan, dan observabilitas, sementara logika orkestrasi dipertahankan di framework eksternal seperti LangGraph
- Pemisahan concern ini memungkinkan pemanfaatan keunggulan infrastruktur terkelola sambil tetap luwes beradaptasi saat lingkungan LLM berkembang
- Fokus yang mengutamakan runtime memungkinkan organisasi memindahkan beban kerja agentic ke produksi secara bertahap tanpa menyerahkan kendali logika inti ke lapisan orkestrasi spesifik vendor
45. Graphiti
- Mesin knowledge graph temporal open-source dari Zep yang menunjukkan kelayakan produksi untuk menyelesaikan masalah memori LLM
- Sementara vector store datar dalam pipeline RAG gagal melacak perubahan fakta dari waktu ke waktu, Graphiti mengumpulkan data sebagai episode terpisah dan mempertahankan jendela validitas bitemporal pada edge graf, sehingga fakta lama dibatalkan alih-alih ditimpa
- Berbeda dari GraphRAG yang berorientasi batch, graf diperbarui secara bertahap, dan pencarian hibrida yang menggabungkan semantic search, BM25, dan penelusuran graf memberikan pencarian sub-detik tanpa pemanggilan LLM saat query
- Dua faktor mendorong adopsi — benchmark yang ditinjau sejawat melaporkan peningkatan akurasi 18.5% dan penurunan latensi 90%, serta peluncuran server MCP kelas satu yang memungkinkan agen kompatibel Model Context Protocol menambahkan memori temporal permanen dengan upaya integrasi minimal
- Adopsi komunitas yang kuat menjadi sinyal tambahan kesiapan produksi
- Neo4j adalah backend utama, dengan FalkorDB sebagai alternatif yang lebih ringan
- Perlu mempertimbangkan biaya ekstraksi LLM per penulisan dan mengunci dependensi karena status rilis sebelum 1.0
46. Langfuse
- Platform rekayasa LLM open-source yang mencakup observabilitas, manajemen prompt, evaluasi, dan pengelolaan dataset
- Sejak evaluasi terakhir, proyek ini telah jauh lebih matang; arsitektur v3 memperkenalkan ClickHouse, Redis, dan S3 sebagai komponen backend, sehingga skalabilitas meningkat tetapi kompleksitas self-hosting juga bertambah
- SDK Python dan TypeScript sama-sama dibangun secara native di atas OpenTelemetry, sehingga cocok secara alami untuk tim yang sudah menggunakan observabilitas berbasis OTEL
- Fitur baru seperti experiment runner SDK dan dukungan structured output untuk eksperimen prompt memperluas Langfuse dari sekadar tracing menjadi workflow evaluasi yang sistematis
- Layak dipertimbangkan di ruang yang makin padat, bersama Arize Phoenix, Helicone, dan LangSmith
- Tim yang terutama membangun di atas Pydantic AI juga dapat mempertimbangkan Pydantic Logfire, yang mengambil pendekatan lebih luas sebagai platform observabilitas OTEL full-stack alih-alih kumpulan alat khusus LLM
- Pilihan tepercaya bagi tim yang membutuhkan tracing, evaluasi, dan manajemen prompt terintegrasi dalam satu platform yang dapat di-self-host, tetapi jika kebutuhan utama hanya visibilitas biaya dan latensi pada lapisan model, perlu menilai apakah alat yang lebih sempit seperti Helicone sudah memadai
47. Port
- Portal pengembang internal komersial yang dirancang untuk meningkatkan pengalaman developer, dengan menyediakan satu sumber kebenaran untuk workflow swalayan bagi tim platform melalui sentralisasi aset perangkat lunak, otomatisasi workflow, dan penegakan standar engineering
- Menjadi makin penting ketika organisasi ingin menstandarkan workflow engineering sambil mengekspos template, API, otomatisasi, dan agen dalam bentuk yang benar-benar bisa digunakan developer
- Selain sebagai portal mandiri, Port juga bisa digunakan langsung dari IDE melalui API dan lapisan MCP miliknya
- Cocok untuk organisasi yang menginginkan kapabilitas portal yang sudah diproduktisasi tanpa investasi besar di platform engineering
- Dalam keterlibatan klien, solusi ini membantu tim platform yang relatif kecil mendukung ribuan developer sambil menghadirkan swalayan yang efektif dengan cepat
- Layak dievaluasi bagi organisasi yang membutuhkan kapabilitas portal pengembang internal dengan cepat dan dapat menerima batasan platform komersial serta ketergantungan vendor
48. Replit
- Platform pengembangan kolaboratif cloud-native yang menghadirkan lingkungan pengembangan instan, coding real-time, dan asisten AI terintegrasi langsung di browser
- Menggabungkan editor, runtime, deployment, dan workflow coding AI ke dalam satu platform terpadu, sehingga developer dapat langsung mulai menulis kode tanpa setup lokal
- IDE kolaboratif berbasis AI sangat membantu mengurangi friksi onboarding dan cocok untuk prototyping bersama sebagai tim
- Juga sangat efektif untuk sesi pelatihan, berbagi pengetahuan, dan bootcamp
- Sebagian orang mungkin melihat Replit sebagai tempat untuk proyek hobi berbantuan AI, tetapi lingkungannya cukup kuat untuk bersaing dengan IDE lokal tradisional, sehingga iterasi dan kolaborasi menjadi jauh lebih mudah
49. SigNoz
- Platform observabilitas open-source yang native OpenTelemetry dengan dukungan terpadu untuk log, metrik, dan trace
- Menjawab kebutuhan APM dan instrumentasi untuk microservices modern serta arsitektur terdistribusi sambil menghindari vendor lock-in
- Memanfaatkan ClickHouse sebagai database kolumnar inti untuk menyediakan penyimpanan yang scalable, berkinerja tinggi, dan hemat biaya dengan query cepat, sehingga menjadi alternatif self-hosted yang kuat untuk platform seperti Datadog
- Mendukung query yang fleksibel melalui PromQL dan ClickHouse SQL, serta notifikasi melalui banyak kanal alert
- Dalam praktiknya, SigNoz terbukti mengurangi konsumsi sumber daya infrastruktur dan total biaya observabilitas tanpa mengorbankan performa
- Layanan cloud terkelola tersedia, tetapi image Docker dan chart Helm siap pakai menjadi pilihan praktis bagi organisasi yang ingin tetap mengendalikan data dan infrastruktur mereka
Assess
50. Agent Trace
- Spesifikasi terbuka untuk standardisasi atribusi kode AI yang diusulkan oleh Cursor
- Dengan meningkatnya adopsi agen coding, pemahaman tentang siapa yang memodifikasi kode meluas melampaui developer manusia hingga mencakup perubahan yang dihasilkan AI
- Alat lama seperti
git blamedapat menunjukkan bahwa sebuah baris kode telah diubah, tetapi gagal menangkap apakah perubahan tersebut dilakukan oleh manusia, AI, atau keduanya - Agent Trace mengambil pendekatan netral vendor untuk mendefinisikan cara melacak perubahan kode, tanpa menentukan opini tentang bagaimana jejak disimpan
- Kompatibel dengan banyak sistem kontrol versi termasuk Git, Mercurial, dan Jujutsu
- Spesifikasinya mendefinisikan jenis kontributor seperti human, AI, mixed, dan unknown serta record pelacakan yang menjelaskan sumber setiap kontribusi
- Ada sinyal awal adopsi melalui dukungan dari alat seperti Cline dan OpenCode serta implementasi seperti Git AI
51. ClickStack
- Platform observability open-source yang kompatibel dengan OpenTelemetry dan menyatukan log, trace, metric, dan sesi dalam satu penyimpanan data berkinerja tinggi berbasis ClickHouse
- Seiring pertumbuhan infrastruktur dan kenaikan biaya observability, banyak tim kesulitan dengan toolchain telemetry yang terfragmentasi dan platform vendor yang mahal
- ClickStack memanfaatkan penyimpanan kolumnar ClickHouse untuk memungkinkan kueri sub-detik dengan kardinalitas tinggi di data telemetry dalam volume besar, sehingga menyediakan fondasi observability yang lebih sederhana dan hemat biaya
52. Coder
- Alternatif yang baik untuk pixel-streamed development environments, dengan memisahkan lokasi eksekusi kode dan cara developer berinteraksi
- Alih-alih melakukan streaming seluruh antarmuka desktop, developer menghubungkan IDE lokal seperti VS Code atau browser ke environment jarak jauh, menghasilkan pengalaman yang lebih responsif tanpa mengorbankan usability
- Kode dijalankan di infrastruktur jarak jauh yang dapat diskalakan, dan environment didefinisikan serta dikelola sebagai code, sehingga tim bisa menstandarkan setup development dan menyederhanakan onboarding developer baru
- Juga memudahkan penyediaan akses terkontrol ke sistem internal dan menyederhanakan akses bagi agen coding AI yang sudah disetujui sebelumnya
- Coder dipandang sebagai titik tengah antara development lokal dan desktop virtual yang sepenuhnya tervirtualisasi — memberikan kontrol dan governance terpusat tanpa keterbatasan usability dari pixel-streamed VDI
- Pilihan yang baik untuk organisasi yang membutuhkan environment eksekusi jarak jauh atau terkontrol, terutama yang memerlukan komputasi lebih tinggi atau akses yang aman
- Perlu mengevaluasi overhead operasional dan tanggung jawab keamanan yang muncul dari pengelolaan environment seperti ini
53. Databricks Agent Bricks
- Saat pendekatan berbasis agen menjadi arus utama, platform data berkembang agar mendukung workload ini secara native, bukan sebagai modul tambahan
- Databricks Agent Bricks menyediakan komponen siap pakai dan teroptimasi otomatis untuk pola AI umum seperti knowledge assistant dan data analyst
- Mengikuti pendekatan deklaratif — developer mendefinisikan tujuan dan data dasarnya, lalu framework menangani eksekusi dan optimisasi
- Dengan menyederhanakan LLMOps dan mengurangi upaya yang dibutuhkan untuk data curation, tim dapat lebih fokus pada hasil bisnis daripada boilerplate
- Sebuah tim menggunakannya bersama agen kustom untuk mengevaluasi dan membangun solusi RAG yang kompleks untuk R&D praklinis
- Jika Anda sudah berinvestasi di ekosistem Databricks dan sedang mengeksplorasi pendekatan berbasis agen untuk use case umum seperti chatbot dan ekstraksi dokumen, ini layak dipertimbangkan
54. DuckLake
- Format data lake dan katalog terpadu yang menyederhanakan arsitektur lakehouse dengan menggunakan database SQL standar untuk katalog dan pengelolaan metadata
- Sementara format tabel terbuka tradisional seperti Iceberg atau Delta Lake bergantung pada struktur metadata berbasis file yang kompleks, DuckLake menyimpan metadata di database katalog seperti SQLite, PostgreSQL, atau DuckDB, sambil mempertahankan data sebagai file Parquet di disk lokal atau object storage kompatibel S3
- Pendekatan hybrid ini meningkatkan latensi perencanaan kueri dan keandalan transaksi saat update serentak
- DuckDB berperan sebagai query engine melalui ekstensi
ducklake, menyediakan antarmuka SQL yang familier untuk operasi DDL dan DML standar - Tetap mempertahankan karakteristik lakehouse seperti partitioning, tetapi menghilangkan index serta primary/foreign key
- Dengan dukungan untuk time travel, schema evolution, dan kepatuhan ACID, ini memberi opsi berkompleksitas rendah bagi tim yang mencari stack analitik yang mandiri
- Meski masih pada tahap kematangan awal, ini merupakan alternatif yang menjanjikan dan ringan untuk arsitektur lakehouse tradisional
- Cocok untuk environment data yang disederhanakan dan ingin menghindari overhead operasional yang terkait dengan ekosistem berbasis Spark atau Trino
55. FalkorDB
- Database graf berbasis Redis yang mendukung Cypher, cocok untuk tim yang menginginkan kemampuan graf tanpa harus mengadopsi platform graf yang berat
- Opsi praktis bagi organisasi yang membangun AI kaya relasi dan workload aplikasi, ketika friksi operasional yang rendah penting dan layanan graf berbasis server lebih disukai daripada penyimpanan embedded
- Meski arsitekturnya menjanjikan dan model developernya mudah diakses, sebelum memutuskan adopsi luas perlu memverifikasi perilaku produksi FalkorDB terkait skala, alat operasional, dan kematangan ekosistem jangka panjang FalkorDB
56. Google Dialogflow CX
- Platform AI percakapan terkelola dari Google Cloud yang menggabungkan state machine berbasis graf yang dibangun dari Flows dan Pages dengan kemampuan generatif berbasis Vertex AI Gemini
- Sebelumnya, pendahulunya yaitu Dialogflow pernah dilacak di Radar
- CX mewakili redesain besar, dan mendapat perhatian setelah Google mengintegrasikan model Vertex AI Gemini pada 2024, memperkenalkan Generative Playbooks untuk agen berbasis instruksi dan Data Store RAG yang melakukan grounding respons pada konten yang telah diindeks
- Digunakan untuk membangun agen data discovery berbasis natural language, dengan memilih Dialogflow CX dibanding pendekatan SDK kustom karena environment low-code dan Generative Playbooks
- Dikonfigurasi dengan few-shot prompting untuk menerjemahkan kueri natural language menjadi SQL
- Tim yang membangun di atas Google Cloud menemukan percepatan delivery saat membuat antarmuka natural language di atas data internal terstruktur dibanding stack agen kustom
- Namun, tidak ada free tier, ketergantungan mendalam pada Google Cloud membawa vendor lock-in yang signifikan, dan perlu merencanakan upaya context engineering
57. MCP Apps
- Ekstensi resmi pertama dari Model Context Protocol, yang memungkinkan server MCP mengembalikan antarmuka HTML interaktif yang dirender langsung di dalam percakapan sebagai dashboard, form, atau visualisasi
- Dikembangkan bersama oleh Anthropic, OpenAI, dan kontributor open-source, ini menstandarkan skema resource
ui://yang memungkinkan alat mendeklarasikan template UI yang dirender dalam sandboxed iframe dan bisa graceful degradation menjadi teks jika host tidak mendukung UI - Berbeda dari AG-UI yang berfungsi sebagai lapisan library terpisah, MCP Apps mengemas UI langsung di dalam server MCP
- Dengan desain dua arah, model dapat mengamati tindakan pengguna, sementara antarmuka menangani data real-time dan manipulasi langsung yang tidak bisa dilakukan teks
- Klien termasuk Claude, ChatGPT, VS Code, dan Goose sudah meluncurkan dukungan
- Tim yang mengeksplorasi interaksi agen yang lebih kaya perlu menilai apakah kompleksitas tambahan ini memang sepadan untuk use case mereka dibanding respons teks biasa
58. Monarch
- Kerangka pemrograman terdistribusi open-source yang membawa kesederhanaan workload PyTorch pada satu mesin ke klaster GPU besar
- Menyediakan API Python untuk membuat proses dan actor jarak jauh, lalu mengelompokkannya ke dalam koleksi mesh yang mendukung messaging broadcast
- Menyediakan fault tolerance melalui supervision tree, sehingga kegagalan merambat ke atas hierarki untuk penanganan error yang rapi dan pemulihan yang terperinci
- Mendukung transfer RDMA point-to-point untuk perpindahan memori GPU·CPU yang efisien, serta menyediakan abstraksi tensor terdistribusi yang memungkinkan actor bekerja dengan tensor yang dipartisi di seluruh proses sambil mempertahankan model pemrograman imperatif
- Monarch dibangun di atas backend Rust berkinerja tinggi
- Masih berada pada tahap awal pengembangan, tetapi abstraksi yang membuat tensor terdistribusi bekerja seolah-olah lokal sangat kuat dan berpotensi sangat mengurangi kompleksitas pelatihan AI terdistribusi skala besar
59. Neutree
- Platform open-source untuk mengelola dan melayani LLM di infrastruktur privat, diposisikan sebagai lapisan layanan model untuk enterprise AI
- Menyediakan control plane terpadu untuk manajemen siklus hidup model, inferencing serving, dan penjadwalan komputasi di berbagai hardware heterogen seperti akselerator NVIDIA·AMD·Intel
- Seiring organisasi beralih dari hosted API ke deployment self-hosted yang terkelola, Neutree menutup celah yang jelas — menjalankan workload LLM dengan kapabilitas kelas enterprise seperti multitenancy, access control, usage accounting, dan abstraksi infrastruktur
- Dengan memisahkan model serving dari logika aplikasi, tim dapat men-deploy, menskalakan, dan merutekan model di berbagai lingkungan termasuk bare metal, VM, dan container tanpa terikat kuat pada penyedia cloud tertentu
- Namun, ini masih relatif baru, sehingga adopsinya perlu dilakukan dengan hati-hati
- Ekosistem, kematangan operasional, dan kemampuan integrasinya masih terus berkembang dibanding platform ML yang lebih mapan
- Menjanjikan, tetapi paling cocok untuk tim yang bersedia berinvestasi dalam mengevaluasi dan membentuk infrastruktur enterprise AI yang sedang berkembang
60. OptScale
- Platform FinOps multicloud open-source yang mendukung workload AI/ML berat, di mana biaya GPU dan eksperimen bisa meningkat sangat cepat
- Mengumpulkan data penagihan dan penggunaan dari cloud API, lalu dalam satu sistem menggabungkan visibilitas biaya, rekomendasi optimasi, pelacakan anggaran, dan deteksi anomali dengan alert berbasis kebijakan yang selaras dengan tim atau struktur bisnis
- Dibandingkan OpenCost, OptScale mencakup use case FinOps non-Kubernetes yang lebih luas sambil tetap menyediakan analisis tingkat Kubernetes
- Dibanding suite enterprise seperti IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost, dan Flexera One, solusi ini memberi kontrol lebih besar dan vendor lock-in lebih rendah
- Trade-off-nya adalah overhead operasional yang lebih tinggi, kompleksitas deployment, edge case pada connector, dan kekhawatiran terkait kebersihan keamanan image container
- Perlu diperlakukan bukan sebagai produk plug-and-play, melainkan sebagai investasi kapabilitas platform
61. Rhesis
- Platform pengujian open-source untuk LLM dan aplikasi agentic, yang memungkinkan tim mendefinisikan perilaku yang diharapkan dalam bahasa alami, menghasilkan skenario pengujian adversarial, dan mengevaluasi hasil melalui UI maupun SDK atau API
- Sementara pendekatan pengujian tradisional mengasumsikan perilaku deterministik, sistem AI gagal dengan cara yang lebih subtil — termasuk jailbreak, interaksi multi-turn, pelanggaran kebijakan, dan edge case yang bergantung pada konteks
- Platform yang berguna bagi tim yang membutuhkan lebih dari sekadar evaluasi prompt sederhana
- Fitur seperti conversation simulator, pengujian adversarial, tracing berbasis OpenTelemetry, dan self-hosting melalui Docker adalah cara praktis untuk membawa tim produk, domain, dan engineering ke dalam workflow pengujian bersama
- Manfaat utamanya adalah peningkatan validasi sebelum produksi untuk sistem non-deterministik
- Tetap perlu mempertimbangkan trade-off umum seperti biaya evaluasi, keterbatasan metrik LLM-as-judge, dan kebutuhan akan requirement yang terdefinisi dengan baik sebelum platform ini dapat memberikan nilai
- Layak dievaluasi oleh tim yang membangun sistem LLM atau agentic yang membutuhkan pengujian kolaboratif dan berulang melampaui pemeriksaan prompt dasar
62. RunPod
- Ketika organisasi meningkatkan eksperimen pelatihan dan fine-tuning LLM, hyperscaler seperti AWS dan Google Cloud dapat menghadirkan biaya tinggi serta ketersediaan hardware yang terbatas
- RunPod menawarkan alternatif yang hemat biaya untuk workload AI yang intensif komputasi
- Beroperasi sebagai marketplace GPU yang terdistribusi secara global, menyediakan akses on-demand ke berbagai hardware mulai dari klaster H100 kelas enterprise hingga RTX 4090 kelas konsumen, sering kali dengan biaya yang jauh lebih rendah dibanding penyedia cloud tradisional
- Opsi praktis yang layak dievaluasi bagi tim yang membutuhkan infrastruktur fleksibel dan ramah anggaran untuk mengembangkan, melatih, dan men-deploy model AI tanpa komitmen jangka panjang atau vendor lock-in
63. Sprites
- Lingkungan sandbox stateful dari Fly.io yang dirancang untuk eksekusi terisolasi AI coding agent
- Sementara sebagian besar sandbox agent bersifat ephemeral dan dibuat lalu hilang untuk suatu tugas, Sprites menyediakan lingkungan Linux persisten dengan kemampuan checkpoint dan restore tanpa batas
- Developer dapat mengambil snapshot seluruh status lingkungan termasuk dependensi yang terpasang, konfigurasi runtime, dan perubahan file system, sehingga dapat melakukan rollback ketika agent keluar jalur
- Ini melampaui apa yang dapat dipulihkan oleh Git saja, dengan menangkap status sistem yang tidak dilacak oleh version control
- Seiring tim makin mengadopsi sandboxed execution for coding agents sebagai default yang masuk akal, Sprites mewakili salah satu ujung spektrum — pendekatan stateful non-ephemeral yang menukar kesederhanaan container ephemeral dengan opsi pemulihan yang lebih kaya
- Tim yang mengevaluasi agent sandboxing dapat mempertimbangkan Sprites bersama alternatif ephemeral seperti Dev Containers, sesuai kebutuhan dan workflow mereka
64. torchforge
- Library reinforcement learning native PyTorch yang dirancang untuk post-training skala besar pada language model
- Menyediakan abstraksi tingkat tinggi yang memisahkan logika algoritme dari concern infrastruktur, dengan mengorkestrasi Monarch untuk koordinasi, vLLM untuk inferensi, dan torchtitan untuk pelatihan terdistribusi
- Pendekatan ini memungkinkan peneliti mengekspresikan workflow reinforcement learning yang kompleks dengan API mirip pseudocode, sambil menskalakan workload ke ribuan GPU tanpa harus mengelola concern tingkat rendah seperti sinkronisasi resource, penjadwalan, dan fault tolerance
- Dengan memisahkan "apa" (desain algoritme) dari "bagaimana" (eksekusi terdistribusi), torchforge menyederhanakan eksperimen dan iterasi pada sistem alignment berskala besar
- Langkah yang berguna untuk membuat teknik post-training tingkat lanjut lebih mudah diakses, tetapi tim tetap perlu mengevaluasi kematangan dan kecocokannya dalam infrastruktur ML yang ada
65. torchtitan
- Platform native PyTorch untuk pre-training skala besar model AI generatif, menyediakan implementasi referensi yang rapi dan modular untuk pelatihan terdistribusi berkinerja tinggi
- Menggabungkan primitive terdistribusi tingkat lanjut ke dalam sistem yang kohesif untuk mendukung paralelisme 4D dari data·tensor·pipeline·context parallelism
- Karena pelatihan model pada skala Llama 3.1 405B menuntut skala dan efisiensi yang besar, torchtitan menyediakan landasan praktis untuk membangun dan menjalankan workload pelatihan besar
- Desain modularnya memudahkan tim bereksperimen dan mengembangkan strategi paralelisasi sambil tetap menjaga kesiapan produksi
- Langkah yang berguna untuk menstandarkan pelatihan model skala besar di ekosistem PyTorch, terutama cocok untuk tim yang membangun infrastruktur pre-training mereka sendiri
[Tools]
Adopt
66. Axe-core
- Alat pengujian open source untuk mendeteksi masalah aksesibilitas pada situs web dan aplikasi lain berbasis HTML
- Memeriksa halaman agar mematuhi standar seperti WCAG — termasuk tingkat kesesuaian A, AA, AAA — serta menandai praktik terbaik aksesibilitas umum
- Sejak pertama muncul di Radar sebagai Trial pada 2021, beberapa tim telah mengadopsi klien dan Axe-core
- Aksesibilitas makin menjadi atribut kualitas yang esensial, dan di Eropa regulasi seperti European Accessibility Act mewajibkan organisasi memenuhi persyaratan aksesibilitas layanan digital
- Cocok dengan workflow pengembangan modern karena memungkinkan pemeriksaan otomatis di pipeline CI
- Membantu tim mencegah regresi, menjaga kepatuhan, dan mendapatkan umpan balik dini selama pengembangan, terutama dengan memastikan aksesibilitas menjadi bagian dari loop umpan balik saat AI-assisted dan alat coding agentic diadopsi secara luas
67. Claude Code
- Alat coding AI agentic dari Anthropic untuk merencanakan dan mengeksekusi workflow kompleks bertahap banyak
- Tim di dalam dan luar Thoughtworks rutin memakainya untuk pengiriman software produksi, dan alat ini diperlakukan luas sebagai benchmark kemampuan dan usability, sehingga dipindahkan ke Adopt
- Ekosistem agen CLI berkembang cepat dengan alat seperti OpenAI Codex CLI, Google Gemini CLI, OpenCode, dan pi, tetapi Claude Code tetap menjadi opsi favorit banyak tim
- Penggunaannya melampaui penulisan kode ke eksekusi workflow yang lebih luas, mencakup spesifikasi, story, konfigurasi, infrastruktur, dokumentasi, dan proses bisnis yang didefinisikan dengan markdown
- Terus menghadirkan fitur yang kemudian diikuti alat lain, seperti skills, subagent, remote control, dan workflow tim agentic
- Tim yang mengadopsi tetap memerlukan praktik operasional yang disiplin dan pairing, karena coding agentic menggeser upaya developer dari implementasi manual ke spesifikasi intent, constraint, dan batas review
- Dapat mempercepat delivery, tetapi juga meningkatkan risiko kelengahan terhadap kode hasil AI, yang membuat sistem lebih sulit dipelihara dan dikembangkan, baik bagi manusia maupun agen
- Minat terhadap context engineering yang membuat workflow agentic lebih andal (kesadaran topik, pemilihan konteks berbasis cakupan), serta cara menerapkan curated shared instructions, mendorong perhatian lebih besar pada harness engineering
68. Cursor
- Bersama Claude Code, konsisten muncul sebagai salah satu agen coding yang paling luas diadopsi dan menjadi pilihan utama tim delivery
- Telah matang menjadi lingkungan agentic komprehensif dengan fitur seperti plan mode, hooks, subagents
- Agen berbasis terminal juga populer, tetapi banyak developer merasa pengawasan agen di dalam IDE memberi pengalaman yang lebih kaya untuk meninjau dan menyempurnakan rencana sebelum eksekusi
- Adopsi Agent Client Protocol menurunkan hambatan bagi basis pengguna JetBrains yang besar, sehingga kemampuan Cursor dapat diakses dari IDE tersebut
- Kemampuan memeriksa langkah-langkah agen secara individual atau rollback ke tahap sebelumnya saat rencana menyimpang dinilai sangat berharga
- Pemanfaatan Agent Skills membantu tim mengemas instruksi yang bisa dipakai ulang dan menstandarkan cara agen berinteraksi dengan codebase yang kompleks
- Keuntungan produktivitasnya jelas, tetapi otonomi agentic tetap memerlukan automated testing yang ketat dan pengawasan manusia untuk menangkap regresi halus
69. Kafbat UI
- Web UI open source gratis untuk memantau dan mengelola cluster Apache Kafka
- Sangat berguna terutama ketika tim perlu memeriksa payload yang sulit dibaca saat debugging sehari-hari
- Tim sering terhambat saat men-debug pesan terenkripsi, dan dukungan SerDes bawaan serta yang bisa diperluas melalui plugin di Kafbat UI memberi cara praktis untuk menerapkan dekripsi atau decoding kustom agar pesan bisa dibaca kembali
- Memberikan umpan balik lebih cepat dibanding skrip debug sekali pakai serta pengalaman operasional yang lebih baik untuk tim developer dan support
- Direkomendasikan untuk lingkungan yang sangat bergantung pada Kafka, di mana inspeksi pesan yang aman dan penyelesaian masalah yang efisien harus menjadi praktik standar
70. mise
- Sejak evaluasi terakhir, telah berevolusi dari alternatif berkinerja tinggi untuk asdf menjadi frontend default untuk environment pengembangan
- Menyatukan tiga area perhatian yang sebelumnya terfragmentasi — manajemen versi alat dan bahasa, manajemen environment variable, dan eksekusi task — ke dalam satu alat berbasis Rust berkinerja tinggi, yang dikonfigurasi lewat file deklaratif
mise.toml - mise mudah dikonfigurasi dan bekerja baik dengan pipeline CI/CD
- Menambahkan lapisan keamanan supply chain yang sering tidak ada pada version manager lain melalui integrasi dengan Cosign dan GitHub Artifact Attestations
- Menjadi default yang direkomendasikan bagi tim yang ingin menstandarkan setup environment developer
- Sangat berguna di lingkungan polyglot dengan banyak microservice saat codebase mengadopsi versi bahasa baru secara bersamaan
- Juga bekerja dengan alat spesifik bahasa yang sudah ada, sehingga tim tidak perlu memigrasikan semuanya sekaligus
Trial
71. cargo-mutants
- Alat mutation testing untuk Rust, membantu bergerak melampaui metrik code coverage sederhana
- Secara otomatis menyuntikkan bug kecil yang disengaja seperti penukaran operator atau pengembalian nilai default, untuk memverifikasi apakah test yang ada benar-benar menangkap regresi
- Pendekatan tanpa konfigurasi sangat efektif, dan tidak seperti alat sebelumnya, tidak memerlukan perubahan pada source tree
- Memberikan loop umpan balik yang berguna bagi tim yang baru menggunakan Rust, membantu mengidentifikasi edge case yang terlewat dan meningkatkan keandalan unit test maupun integration test
- cargo-mutants adalah implementasi khusus dari mutation testing yang juga sedang dicoba di ekosistem lain
- Biaya utamanya adalah waktu eksekusi test yang meningkat, karena setiap mutant memerlukan incremental build
- Untuk mengelolanya, disarankan menargetkan modul tertentu saat development lokal atau menjalankan seluruh suite secara asinkron di CI
- Terkadang perlu memfilter mutant yang setara secara logis, tetapi peningkatan keandalan test yang dihasilkan lebih besar daripada noise tambahannya
72. Claude Code plugin marketplace
- Sebelumnya, berbagi perintah kustom, agen khusus, server MCP, dan skill merupakan proses manual di mana developer menyalin dan menempel instruksi dari Confluence atau sumber eksternal lain
- Hal ini sering menyebabkan version drift, sehingga anggota tim menggunakan instruksi proyek yang sudah usang
- Tim memanfaatkan Claude Code plugin marketplace untuk menggunakan model distribusi berbasis Git guna mendistribusikan perintah, prompt, dan skill bersama
- Dengan meng-host marketplace tim internal di GitHub atau platform serupa, organisasi dapat mendistribusikan artefak ini dengan lebih aman dan konsisten
- Developer dapat langsung menyinkronkan workflow dan alat berbasis AI ke lingkungan lokal melalui CLI
- Agen coding lain seperti Cursor juga mendukung plugin marketplace tim, memungkinkan cara yang lebih ringkas dan terkelola untuk berbagi artefak ini
73. Dev Containers
- Menggunakan file konfigurasi
devcontainer.jsonsebagai cara terstandarisasi untuk mendefinisikan lingkungan pengembangan terkontainerisasi yang dapat direproduksi - Awalnya dirancang untuk memberi tim setup pengembangan yang konsisten, tetapi ditemukan kasus penggunaan baru yang menarik sebagai lingkungan eksekusi sandbox untuk agen coding
- Saat agen coding AI dijalankan di dalam Dev Container, ia terisolasi dari file system host, kredensial, dan jaringan, sehingga tim bisa memberi agen hak akses yang luas tanpa risiko pada mesin host
- Spesifikasi terbuka didukung secara native di alat berbasis VS Code seperti VS Code dan Cursor
- DevPod memperluas dukungan devcontainer ke editor atau workflow terminal apa pun melalui SSH
- Mengadopsi pendekatan default yang ephemeral (yakni, container dibangun ulang dari konfigurasi setiap kali dijalankan), memberikan batas keamanan yang bersih dengan konsekuensi biaya instal ulang tool dan dependensi
- Untuk tim yang membutuhkan state persisten atau kemampuan checkpoint dan restore, pendekatan lain seperti Sprites menjadi alternatif
- Selain untuk sandboxing agen, juga memberi manfaat keamanan supply chain, karena toolchain didefinisikan dalam konfigurasi deklaratif sehingga mengurangi paparan terhadap package yang disusupi dan dependensi tak terduga
74. Figma Make
- Sebelumnya merupakan blip self-serve UI prototyping with GenAI, teknik ini kini diadopsi luas oleh tim pengembangan termasuk product manager dan desainer untuk membuat prototipe high-fidelity yang dapat diuji pengguna
- Figma Make adalah opsi kuat yang memanfaatkan komponen dan layer nyata dari design system sehingga hasilnya sangat mirip dengan aplikasi produksi
- Menggunakan model AI kustom yang dilatih dengan pola desain berkualitas tinggi
- Tim menggunakannya untuk membuat layar desain baru, meningkatkan layar yang sudah ada, dan membangun prototipe yang dapat dibagikan untuk mengumpulkan umpan balik pengguna dengan cepat
75. OpenAI Codex
- Berevolusi menjadi alat coding agentic mandiri yang tersedia lewat aplikasi macOS dan CLI
- Dirancang untuk delegasi tugas otonom — setelah diberi prompt, ia merencanakan, mengimplementasikan, dan mengiterasi lintas file dengan intervensi minimal
- Efektif sebagai alat draf cepat, khususnya berguna untuk pekerjaan greenfield dan tugas implementasi berulang
- Namun, OpenAI Codex cenderung mengusulkan pola library yang logis tetapi sudah usang secara fungsional, sehingga pengujian otomatis dan review manusia tetap penting
- Seperti alat agentic lain di Radar ini, risiko akumulasi technical debt yang halus itu nyata dan sebanding dengan tingkat otonomi yang diberikan tim
76. Typst
- Sistem typesetting berbasis markup yang memosisikan diri sebagai penerus modern LaTeX untuk pembuatan dokumen terprogram
- Menggabungkan tipografi berkualitas tinggi dengan sintaks yang lebih sederhana, serta menyediakan pipeline kompilasi yang sangat cepat yang dapat mengompilasi dokumen sangat besar dalam sebagian kecil waktu dibanding toolchain LaTeX tradisional
- Typst menyediakan pesan error yang lebih jelas dan kemampuan scripting bawaan seperti conditional dan loop
- Dapat memuat data terstruktur dari JSON atau CSV, sehingga sangat cocok untuk pembuatan dokumen otomatis
- Tim menggunakannya untuk membuat statement dan laporan bagi pelanggan perbankan dan layanan keuangan yang perlu dihasilkan dalam skala besar dengan format konsisten
- Compiler open source-nya dapat di-self-host, dan ekosistemnya yang terus berkembang mencakup package kontribusi komunitas
- Lebih mudah diakses daripada LaTeX sambil tetap memberikan kualitas tipografi yang sebanding
Assess
77. Agent Scan
- Pemindai keamanan untuk ekosistem agen yang menemukan komponen lokal termasuk server MCP dan skill, lalu menandai risiko seperti prompt injection, tool poisoning, toxic flow, secret yang di-hardcode, dan penanganan kredensial yang tidak aman
- Mengatasi kesenjangan yang mulai muncul dalam visibilitas supply chain agen, dengan menyediakan cara praktis untuk menginventarisasi dan menguji permukaan agen yang tumbuh cepat
- Namun, adopsinya harus disengaja — pemindaian ini memerlukan metadata komponen dibagikan ke Snyk API, dan kualitas sinyal serta tingkat false positive perlu divalidasi di lingkungan masing-masing
- Penting bagi tim untuk memastikan nilai operasional sebelum menjadikan Agent Scan sebagai bagian dari gerbang delivery wajib
78. Beads
- Pelacak issue berbasis Git yang dirancang sebagai lapisan memori persisten untuk agen coding
- Alih-alih bergantung pada rencana Markdown sementara, ia memberi agen graf tugas dengan struktur yang ramah branch untuk hubungan blocker, deteksi pekerjaan yang siap dikerjakan, dan koordinasi tugas jangka panjang lintas sesi
- Beads dibangun di atas Dolt, database SQL dengan version control bawaan yang mendukung branch, merge, diff, dan replikasi tabel mirip repositori Git
- Mewakili kategori baru alat memori proyek dan pelacakan tugas yang native untuk agen
- Proyek awal lain di area ini mencakup ticket dan tracer
- Tidak seperti sistem ticketing tradisional seperti GitHub Issues dan Jira, ini memungkinkan workflow baru untuk koordinasi eksekusi multi-agen secara otonom, termasuk agen saling menetapkan pekerjaan
79. Bloom
- Alat Anthropic untuk peneliti keamanan AI yang mengevaluasi perilaku LLM
- Mendeteksi perilaku seperti sycophancy dan self-preservation
- Dibanding benchmark statis, alat ini menggunakan konfigurasi seed yang mendefinisikan perilaku target dan parameter evaluasi untuk secara dinamis menghasilkan beragam percakapan pengujian lalu mengevaluasi hasilnya
- Pendekatan terhadap evaluasi perilaku otomatis ini penting untuk mengikuti kecepatan rilis model, dan memungkinkan tim riset eksternal melakukan evaluasi
- Petri adalah alat pendamping yang mengidentifikasi perilaku apa yang muncul pada model tertentu, sementara Bloom mengidentifikasi dalam skenario apa dan seberapa sering perilaku tersebut muncul; bersama-sama keduanya membentuk suite evaluasi yang lebih lengkap
- Salah satu kekhawatiran adalah Bloom memerlukan model guru (atau evaluator) untuk menilai model siswa tertentu; model guru dapat memiliki blind spot dan bias, sehingga penggunaan banyak evaluator dapat mengurangi bias hasil
- Layak dievaluasi oleh tim riset keamanan AI sebagai pelengkap benchmark statis untuk menilai perilaku model yang sedang muncul
80. CDK Terrain
- Fork komunitas dari Cloud Development Kit for Terraform(CDKTF) yang dihentikan penggunaannya dan diarsipkan oleh HashiCorp pada Desember 2025
- CDK Terrain (CDKTN) melanjutkan dari titik saat CDKTF dihentikan, memungkinkan tim mendefinisikan infrastruktur dengan TypeScript, Python, dan Go lalu melakukan provisioning melalui Terraform atau OpenTofu
- Bagi tim yang sudah berinvestasi pada CDKTF, ini mempertahankan kode dan workflow yang ada serta menyediakan jalur migrasi alih-alih memaksa pindah ke HCL atau Pulumi
- Proyek ini merilis pembaruan setiap bulan dan menambahkan dukungan OpenTofu sebagai target kelas satu
- Namun, fork pemeliharaan komunitas untuk proyek yang ditinggalkan vendor membawa risiko inheren terkait dukungan jangka panjang, dan pendekatan CDKTF belum mencapai adopsi luas
- Saat menghentikannya, HashiCorp menyebut kurangnya product-market fit
- Tim yang saat ini memakai CDKTF dapat menilai CDK Terrain sebagai opsi keberlanjutan, sambil menimbang apakah ini saat yang tepat untuk migrasi ke pendekatan dengan dukungan yang lebih luas
81. CodeScene
- Blip social code analysis dari 2017, alat seperti CodeScene kini mendapat perhatian baru seiring meningkatnya adopsi coding agent
- Alat analisis kode berbasis perilaku yang menggabungkan metrik kompleksitas kode dengan riwayat version control untuk mengidentifikasi utang teknis
- Tidak seperti analisis statis tradisional, alat ini menyoroti "hotspot" untuk membantu tim memprioritaskan refactoring berdasarkan aktivitas pengembangan nyata dan dampak bisnis
- Kini juga menyediakan panduan untuk desain kode yang ramah AI
- Tim menemukan bahwa kualitas kode menjadi semakin penting karena coding agent dapat memodifikasi kode jauh lebih cepat daripada developer manusia
- Metrik CodeHealth dari CodeScene berguna sebagai guardrail dengan mengidentifikasi area yang terlalu kompleks bagi LLM untuk direfaktor dengan aman tanpa risiko halusinasi
- Direkomendasikan untuk dievaluasi sebagai guardrail bagi adopsi coding agent, karena metrik CodeHealth menyoroti target refactoring yang aman dan menunjukkan area yang perlu diperbaiki sebelum agent diterapkan
82. ConfIT
- Library untuk mendefinisikan pengujian API gaya integrasi dan komponen secara deklaratif dalam JSON, alih-alih menulisnya secara imperatif sebagai kode
- Ketertarikan pada pendekatan ini meningkat karena test suite besar sering menumpuk boilerplate di sekitar HTTP client, konfigurasi request, dan assertion
- Pengembangan berbantuan AI memperkuat tren ini, karena definisi pengujian yang terstruktur lebih mudah dibuat dan dipelihara dibanding kode prosedural yang panjang
- Berdasarkan pengalaman klien dan evaluasi, lapisan deklaratif ini mengurangi duplikasi antara pengujian komponen dan integrasi, meningkatkan keterbacaan, dan memudahkan evolusi niat pengujian di seluruh tim
- Namun, ConfIT sendiri memiliki adopsi komunitas yang terbatas dan ekosistem yang kecil, sehingga sulit direkomendasikan secara luas meski ada manfaat tersebut
- Layak dievaluasi oleh tim .NET yang mengeksplorasi pengujian API berbasis spesifikasi, tetapi tetap perlu memverifikasi kelayakan pemeliharaan jangka panjang, kecocokan ekosistem, dan trade-off operasional
83. Entire CLI
- Terhubung ke workflow Git untuk menangkap sesi AI coding agent — transkrip, prompt, pemanggilan alat, file yang disentuh, penggunaan token — sebagai metadata yang dapat dicari dan disimpan di branch repositori khusus
- Mendukung Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid, dan GitHub Copilot CLI
- Seiring AI agent menjadi kontributor utama pada codebase, tim menghadapi kesenjangan yang makin besar antara apa yang dilacak Git dan apa yang sebenarnya terjadi selama sesi coding
- Entire CLI menciptakan audit trail aktivitas agent dengan merekam seluruh sesi bersama commit tanpa mencemari riwayat branch utama
- Sistem checkpoint juga memungkinkan pemulihan yang praktis, sehingga tim dapat memundurkan ke kondisi baik yang sudah diketahui saat agent menyimpang dan melanjutkan lagi dari checkpoint mana pun
- Meski alat ini masih sangat baru dan ekosistem pelacakan sesi agent masih terbentuk, penangkapan sesi yang native untuk Git merupakan pilihan alami bagi tim dengan kebutuhan kepatuhan atau audit terkait kode yang dihasilkan AI
84. Git AI
- Ekstensi Git open-source untuk melacak kode yang dihasilkan AI di repositori, dengan menghubungkan setiap baris yang ditulis AI ke agent, model, dan prompt yang membuatnya
- Git AI menggunakan checkpoint dan hook untuk melacak perubahan kode inkremental antara awal dan akhir commit
- Setiap checkpoint mencakup diff antara status saat ini dan checkpoint sebelumnya, lalu ditandai sebagai ditulis oleh AI atau manusia
- Pendekatan ini lebih akurat daripada pendekatan yang hanya berfokus menghitung jumlah baris kode pada saat penyisipan
- Menggunakan standar terbuka berbasis Git Notes untuk pelacakan kode hasil AI
- Meski ekosistem agent yang didukung masih terus matang, alat ini layak dievaluasi oleh tim yang ingin menjaga akuntabilitas dan maintainability jangka panjang dalam workflow agentic
- Baik manusia maupun AI agent dapat menggunakan skill
/askuntuk merujuk sesi agent yang diarsipkan dan menanyakan niat awal serta keputusan arsitektur di balik blok kode tertentu
85. Google Antigravity
- Fork VS Code independen yang dibangun di atas teknologi berlisensi dari Windsurf, dan dirilis sebagai public preview bersama Gemini 3 pada November 2025
- Merombak IDE dengan fokus pada orkestrasi multi-agent — Agent Manager menjalankan banyak agent secara paralel di berbagai tugas, browser Chromium bawaan memungkinkan agent berinteraksi langsung dengan UI live, dan sistem skill menyimpan instruksi agent yang dapat digunakan ulang di repositori
- Agent Manager berfungsi sebagai dashboard "Mission Control" alih-alih sidebar chat standar, yang menandakan pergeseran mendasar peran developer dari menulis kode baris demi baris menjadi mengorkestrasi banyak workstream otonom
- Jika diperlukan, developer tetap bisa masuk ke editor untuk mempertahankan kontrol human-in-the-loop (HITL)
- Google Antigravity terintegrasi dengan Google Cloud dan Firebase melalui Model Context Protocol, serta mendukung pengembangan agent dengan Agent Development Kit
- Masih berstatus public preview tanpa tanggal GA, dan postur keamanan serta kesiapan enterprise masih terus berkembang
- Model eksekusi multi-agent dan akses browser otonomnya menjadi sinyal arah perkembangan IDE agentic
86. Google Mainframe Assessment Tool
- Membantu organisasi dalam reverse engineering aplikasi yang berjalan di mainframe, menganalisis seluruh portofolio atau sistem individual
- Pada intinya, alat ini bergantung pada parser bahasa deterministik untuk memetakan alur pemanggilan dan dependensi data di seluruh codebase, serta menghasilkan tampilan terstruktur tentang cara aplikasi saling berinteraksi
- Di atas fondasi ini, kemampuan AI generatif menyediakan ringkasan, dokumentasi, pembuatan test case, dan usulan modernisasi
- Pendekatan ini selaras dengan pola yang lebih luas dalam memahami codebase legacy dengan GenAI, di mana insight yang kuat tentang sistem menjadi dasar penggunaan AI yang efektif
- Google Mainframe Assessment Tool belum mendukung semua stack teknologi mainframe utama, tetapi berkembang dengan cepat
- Tim menemukan alat ini membantu dalam engagement klien yang berfokus pada discovery dan modernisasi aplikasi mainframe
87. OpenCode
- Dengan pengalaman terminal-first yang kuat, OpenCode cepat muncul sebagai salah satu coding agent open source yang paling menonjol
- Kekuatan utamanya adalah fleksibilitas model — mendukung frontier model yang di-host, endpoint self-hosted, dan model lokal
- Ini membuat OpenCode menarik untuk kontrol biaya, kustomisasi, dan lingkungan terbatas termasuk setup air-gapped
- Ini juga berarti pengguna harus eksplisit soal lisensi dan ketentuan penyedia saat menggunakan langganan atau API
- Model ekstensi OpenCode adalah bagian penting lain dari daya tariknya, dengan dukungan untuk plugin dan integrasi MCP untuk workflow, tool, dan guardrail per tim
- Banyak pengguna memanfaatkan Oh My OpenCode, harness opsional tetapi populer yang menawarkan setup yang lebih opinionated dan batteries-included dengan tim agen yang telah disetel dan pola orkestrasi yang lebih kaya
88. OpenSpec
- Seiring evolusi kemampuan AI coding agent, developer makin sering menghadapi tantangan predictability dan maintainability ketika requirement dan konteks hanya ada dalam riwayat chat yang bersifat sementara
- Untuk mengatasi ini, mulai muncul tool spec-driven development (SDD)
- OpenSpec adalah framework SDD open source yang memperkenalkan lapisan spesifikasi ringan untuk memastikan developer manusia dan agen AI selaras tentang apa yang akan dibangun sebelum code generation
- Pembeda utamanya adalah workflow yang cair dan minimal, sering kali diringkas menjadi tiga tahap — propose → apply → archive
- Banyak framework SDD (GitHub Spec Kit, misalnya) atau workflow Agentic Skills (Superpowers, misalnya) lebih cocok untuk proyek greenfield daripada brownfield
- Alih-alih mendefinisikan spesifikasi lengkap di awal, fokus OpenSpec pada spec deltas sangat baik untuk sistem yang sudah ada
- Berbeda dengan alternatif yang lebih berat yang memaksa workflow lebih ketat (BMAD, misalnya) atau yang memerlukan integrasi IDE spesifik vendor (Kiro, misalnya), OpenSpec bersifat iteratif dan tool-agnostic
- Ini adalah framework yang ramah developer dan layak dievaluasi bagi tim yang ingin menghadirkan struktur dan predictability ke development berbantuan AI tanpa mengadopsi proses yang berat
- Pada saat yang sama, seiring model dan coding agent menjadi lebih kuat, tim juga disarankan memantau dan meninjau ulang kemampuan native serta mengevaluasi kembali kebutuhan akan tool SDD
89. PageIndex
- Tool untuk membangun indeks hierarkis dokumen bagi pipeline RAG berbasis reasoning tanpa vektor, alih-alih bergantung pada pencarian tradisional berbasis embedding
- Saat dokumen dipecah menjadi vektor, informasi struktur bisa hilang dan visibilitas atas alasan hasil retrieval menjadi terbatas; sebaliknya, PageIndex membangun indeks bergaya daftar isi yang ditelusuri LLM langkah demi langkah untuk mengambil konten yang relevan
- Mirip cara manusia memindai heading lalu menelusuri ke bagian tertentu, alat ini menghasilkan jejak penalaran eksplisit yang menjelaskan mengapa bagian tertentu dipilih
- Ini bekerja baik untuk dokumen yang maknanya sangat bergantung pada struktur, seperti laporan keuangan dengan data numerik, dokumen hukum dengan klausul referensi silang, serta dokumen klinis atau ilmiah yang kompleks
- Namun ada trade-off: karena reasoning LLM menjadi bagian dari proses retrieval, pendekatan ini dapat menambah latensi dan biaya yang signifikan, terutama untuk dokumen besar
90. Pencil
- Tool kanvas desain yang terintegrasi dengan IDE dan coding agent seperti Cursor dan Claude Code
- Tidak seperti Figma yang saat ini hanya menyediakan akses baca, Pencil menjalankan server MCP lokal dua arah yang memberi akses baca dan tulis untuk memanipulasi kanvas secara langsung
- Seperti tool seperti Figma Make dan Builder.io, Pencil juga menawarkan kemampuan design-to-code, tetapi dengan pendekatan yang lebih berpusat pada developer — file desain disimpan di repositori dalam format JSON terbuka bernama
.pen, sehingga aset desain bisa dikelola versinya bersama code - Integrasi dengan tool yang familier bagi developer membantu menjembatani kesenjangan handoff desain-ke-development
- Untuk sistem desain yang besar dan kompleks, Figma tetap menjadi standar kolaborasi lintas peran
- Namun ini layak dipertimbangkan bagi tim tanpa desainer khusus atau tim dengan developer yang memiliki skill desain kuat
91. Pi
- Coding agent terminal open source minimalis yang ditulis dalam TypeScript
- Opsi yang menarik bagi tinkerer dan eksperimentator, bukan default enterprise arus utama
- Pi adalah harness bare-bones yang lebih bisa dikustomisasi dibanding agen yang lebih lengkap seperti OpenCode
- Lebih mudah diadaptasi daripada membangun agen baru dengan framework agentic seperti ADK, LangGraph, dan Mastra
- Meski memiliki momentum kuat dan rilis aktif, proyek ini masih berada pada tahap awal dan sebagian besar digerakkan oleh maintainer
- Pi perlu diperlakukan sebagai building block yang menghadap engineer, bukan platform enterprise lengkap dengan guardrail dan dukungan penuh
92. Qwen 3 TTS
- Model text-to-speech open source yang secara signifikan mempersempit kesenjangan kualitas dengan produk komersial, sekaligus memberi kontrol developer yang lebih besar dibanding banyak API berbayar
- Mendukung banyak bahasa, memungkinkan voice cloning dari sampel singkat (sekitar 10-15 detik), dan mengizinkan fine-tuning pascapelatihan untuk suara spesifik domain atau karakter
- Ini menjadi opsi menarik bagi tim yang membutuhkan suara spesifik brand atau kontrol on-prem
- Qwen 3 TTS masih baru dirilis, sehingga tim perlu memverifikasi stabilitas, kontrol keamanan, kecocokan lisensi, dan kematangan operasional sebelum mengadopsinya untuk workload suara yang penting bagi produksi
93. SGLang
- framework serving berperforma tinggi yang mengurangi overhead komputasi inferensi LLM melalui co-design bahasa pemrograman frontend dan runtime backend
- memperkenalkan RadixAttention, teknik manajemen memori yang secara agresif melakukan caching dan penggunaan ulang state KV (key-value) di seluruh prompt
- pendekatan ini memberikan peningkatan performa yang signifikan dibandingkan engine serving standar seperti vLLM dalam skenario dengan prefix overlap tinggi
- bagi tim yang membangun agen otonom kompleks, bergantung pada system prompt panjang, dan banyak memakai few-shot prompting dengan contoh bersama, SGLang dapat memberikan keuntungan besar dalam latensi dan efisiensi
94. ty
- seiring Python terus tumbuh populer, terutama di ranah AI dan data science, memiliki sistem tipe yang kuat menjadi semakin bernilai
- Ty adalah type checker dan language server Python yang sangat cepat dan ditulis dalam Rust
- bagian dari ekosistem Astral, yang juga mencakup alat seperti uv dan ruff
- memberikan umpan balik cepat dan terintegrasi baik dengan editor umum seperti Visual Studio Code
- menggunakan ty bersama alat Astral lain dapat menyederhanakan pengembangan Python di organisasi besar
- seiring agentic coding menjadi makin umum, memiliki type checker deterministik dengan feedback loop cepat membantu menangkap kesalahan lebih dini dan mengurangi upaya code review untuk error sederhana
95. Warp
- sejak terakhir dimasukkan ke Radar, Warp telah berevolusi jauh melampaui deskripsi sebagai “terminal dengan kemampuan AI”
- sambil mempertahankan kekuatan inti — output perintah berbasis blok, saran berbasis AI, dan kemampuan notebook — Warp meluas ke area yang secara tradisional ditempati IDE
- kini dapat merender Markdown, menampilkan file tree, dan membuka file langsung dari terminal, sekaligus mendukung workflow pengembangan agentic penuh di seluruh panel — agen coding seperti Claude Code di satu panel, shell di panel lain, dan tampilan file workspace di panel ketiga
- manfaat praktis yang teramati adalah Warp lebih mampu menangani output teks berthroughput tinggi yang dihasilkan agen coding modern dibanding terminal tradisional, di mana kecepatan rendering dan keterbacaan bisa menjadi bottleneck
- juga menambahkan coding assistant bawaan, meski belum dievaluasi secara luas oleh tim
- Warp baru-baru ini meluncurkan Oz, platform orkestrasi untuk agen cloud yang terintegrasi dengan terminal, tetapi blip ini berfokus pada terminalnya sendiri
- bagi tim yang lebih suka terminal ringan dan bisa dikomposisikan, serta ingin membawa alat AI sendiri, Ghostty mungkin lebih cocok — pendekatan yang sengaja minimalis, berlawanan dengan filosofi batteries-included milik Warp
- kecepatan fitur baru dan ambisi platform Warp yang lebih luas membuat perpindahan ke Trial masih terlalu dini sebelum produk lebih stabil dan ada lebih banyak pengalaman lapangan terhadap kemampuan barunya
96. WuppieFuzz
- fuzzer open source untuk REST API yang menggunakan definisi OpenAPI untuk menghasilkan request valid, memutasinya untuk mengeksplorasi edge case, dan mengandalkan feedback coverage sisi server untuk memprioritaskan input yang mencapai jalur eksekusi baru
- kebanyakan tim masih mengandalkan integrasi berbasis contoh dan contract testing, serta hampir tidak mengeksplorasi input tak terduga, urutan request yang tidak biasa, dan jalur yang sarat kegagalan, padahal API sering menjadi permukaan integrasi utama sistem modern
- berdasarkan evaluasi awal, WuppieFuzz tampak sebagai pelengkap yang menjanjikan untuk pengujian tersebut — mampu menemukan isu seperti exception yang tidak tertangani, celah otorisasi, kebocoran data sensitif, error sisi server, dan cacat logika yang bisa terlewat oleh pengujian berbasis skrip
- tim tetap perlu menilai bagaimana alat ini cocok dengan CI, overhead runtime yang ditimbulkan, dan seberapa berguna hasilnya dalam praktik
- karena itu, alat ini layak dievaluasi oleh tim yang membangun REST API penting atau yang terekspos ke publik
Caution
97. OpenClaw
- proyek open source dalam kategori yang oleh pembuatnya disebut “hyper-personal AI assistant”
- pengguna dapat meng-host instance sendiri, menjaganya tetap tersedia secara persisten melalui kanal pesan seperti WhatsApp atau iMessage, dan menjalankan tugas melalui alat yang terhubung
- dengan memori permanen atas percakapan, preferensi, dan kebiasaan, ini menciptakan pengalaman pribadi yang persisten yang terasa sangat berbeda dari antarmuka chat GenAI atau agen coding pada umumnya
- model ini jelas menarik dan telah menginspirasi pengikut seperti Claude Cowork
- alasan OpenClaw ditempatkan di Caution adalah karena model ini menuntut trade-off keamanan yang signifikan
- semakin banyak akses ke kalender, email, file, dan komunikasi yang diberikan, semakin berguna sistem ini, sekaligus memusatkan izin dengan pola yang tepat seperti yang diperingatkan dalam toxic flow analysis for AI
- risiko ini tidak unik untuk OpenClaw, dan juga berlaku pada implementasi lain dengan pola serupa, termasuk produk vendor mapan
- ada saran untuk tim yang mempertimbangkan OpenClaw dan tulisan tentang lingkungan eksekusi sandbox, sementara alternatif seperti NanoClaw atau ZeroClaw dapat mengurangi blast radius
- namun, pola hyper-personal assistant itu sendiri bersifat permission-seeking dan tetap berisiko tinggi
[Languages and Frameworks]
Adopt
98. Apache Iceberg
- format tabel terbuka untuk dataset analitik berskala besar yang mendefinisikan bagaimana file data, metadata, dan skema diatur di sistem penyimpanan seperti S3
- telah berkembang pesat dalam beberapa tahun terakhir dan memantapkan diri sebagai building block dasar untuk arsitektur lakehouse yang netral terhadap teknologi
- didukung oleh semua vendor platform data utama, termasuk AWS (Athena, EMR, Redshift), Snowflake, Databricks, dan Google BigQuery, menjadikannya opsi kuat untuk menghindari vendor lock-in
- yang membedakan Apache Iceberg dari format tabel terbuka lain adalah keterbukaannya dalam fitur dan governance, berbeda dengan alternatif yang kapabilitasnya dibatasi atau dikendalikan oleh satu vendor
- dari sisi keandalan, desain berbasis snapshot memberikan serializable isolation, penulisan bersamaan yang aman melalui optimistic concurrency, dan riwayat versi termasuk rollback, menghadirkan jaminan akurasi yang kuat tanpa bottleneck performa
- Apache Spark adalah engine yang paling umum, tetapi Trino, Flink, DuckDB, dan lainnya juga didukung dengan baik, sehingga cocok untuk berbagai use case mulai dari platform data enterprise hingga analisis lokal yang ringan
- telah mendapatkan kepercayaan kuat sebagai format data yang stabil dan terbuka di banyak tim, dan direkomendasikan sebagai pilihan default bagi organisasi yang membangun platform data modern
99. Declarative Automation Bundles
- Sebelumnya dikenal sebagai Databricks Asset Bundles, dan telah berevolusi menjadi alat utama untuk menerapkan praktik rekayasa perangkat lunak dan CI/CD di ekosistem Databricks
- Sudah jauh lebih matang sehingga tim dapat mengelola sebagian besar resource platform sebagai kode, termasuk cluster, pipeline ETL, job, model machine learning, dan dashboard
- Dengan perintah
databricks bundle plan, tim dapat meninjau perubahan sebelumnya dan menerapkan praktik deployment yang dapat diulang untuk artefak Databricks, mirip seperti mengelola infrastruktur dengan alat seperti Terraform - Dengan memperlakukan aset yang secara tradisional mudah berubah seperti dashboard dan pipeline ML sebagai kode, kini aset tersebut dapat dikelola versinya, diuji, dan di-deploy dengan disiplin yang sama seperti microservice tradisional
- Berdasarkan pengalaman di lingkungan production, Declarative Automation Bundles telah menjadi pendekatan tepercaya untuk mengelola workflow data dan ML di Databricks
- Untuk tim dengan cakupan kerja yang luas di ekosistem Databricks, disarankan mempertimbangkan adopsi untuk menstandarkan praktik pengelolaan infrastruktur
100. React JS
- Sejak 2016 menjadi pilihan default untuk pengembangan UI JavaScript, tetapi kini layak ditinjau kembali berkat rilis stabil React Compiler sebagai bagian dari React 19 (pada Oktober lalu)
- Dengan menangani memoization saat build time,
useMemodanuseCallbackmanual menjadi sebagian besar tidak diperlukan lagi, meski disarankan tetap mempertahankannya sebagai escape hatch saat tim perlu kontrol presisi atas dependensi effect - Sudah battle-tested di Meta dan didukung oleh Expo SDK 54, Vite, serta Next.js, sehingga menghilangkan satu kategori boilerplate performa yang lama menjadi biaya dalam pekerjaan React skala besar
- React 19 juga memperkenalkan Actions dan hooks seperti
useActionStatesertauseOptimistic, yang menyederhanakan penanganan form dan mutasi data tanpa bergantung pada library eksternal - Pada 2025, React Foundation diluncurkan di bawah Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion, dan Vercel bergabung dengan Meta — memperkuat stabilitas jangka panjang library ini dan menjawab kekhawatiran yang secara historis sering dikutip oleh tim yang berhati-hati saat mempertimbangkan adopsi
101. React Native
- Dipindahkan ke Adopt sebagai pilihan default untuk pengembangan mobile lintas platform
- Sebelumnya berada di Trial, tetapi rollout New Architecture — khususnya JSI dan Fabric — telah menjawab kekhawatiran lama terkait bottleneck bridge dan kecepatan inisialisasi
- Peningkatan performa yang signifikan diamati pada transisi UI yang kompleks dan workload yang intensif data
- Dengan meninggalkan asynchronous bridge, React Native kini dapat memberikan responsivitas yang sebanding dengan implementasi native sambil tetap mempertahankan satu codebase
- Telah berhasil digunakan di banyak proyek production, dan ekosistem yang berpusat pada Expo serta React kini sudah matang dan stabil
- Manajemen state memang masih memerlukan perencanaan yang cermat, tetapi keuntungan produktivitas dari workflow fast refresh dan skill set bersama lebih besar daripada biaya tersebut
- Untuk sebagian besar use case mobile hybrid, ini adalah rekomendasi utama bagi tim yang mengejar performa, konsistensi, dan kecepatan
102. Svelte
- Framework UI JavaScript yang mengompilasi komponen menjadi JavaScript yang dioptimalkan saat build time, tanpa bergantung pada runtime besar di sisi browser atau virtual DOM
- Sejak terakhir diperkenalkan sebagai Trial, lebih banyak tim telah berhasil menggunakannya di production, dan SvelteKit membuatnya menjadi pilihan yang lebih kuat untuk SSR dan aplikasi web full-stack, sehingga keyakinan untuk memindahkannya ke Adopt meningkat
- Alasan awal memilih Svelte tetap valid — menghasilkan bundle kecil, performa runtime yang kuat, dan model komponen yang lebih sederhana
- Kemampuan baru di Svelte 5 seperti runes dan snippets membuat reaktivitas dan komposisi UI menjadi lebih eksplisit dan fleksibel
- Dibanding framework frontend yang lebih berat, ia menawarkan pengalaman pengembangan yang lebih bersih dengan kode yang lebih sedikit
- Umpan balik dari tim semakin menempatkannya sebagai alternatif yang tepercaya untuk React atau Vue, bukan lagi opsi niche
- Walau keakraban ekosistem, rekrutmen, dan kecocokan platform tetap perlu dipertimbangkan, ini direkomendasikan sebagai default yang masuk akal untuk membangun aplikasi web modern ketika performa dan kesederhanaan delivery itu penting
103. Typer
- Library Python untuk membangun CLI dari fungsi dengan type annotation standar, menyediakan teks bantuan otomatis, shell autocompletion, dan jalur yang jelas dari skrip kecil ke aplikasi CLI besar
- Relevansinya meningkat seiring tim mengubah alat internal, otomasi, dan workflow developer yang berdekatan dengan AI menjadi CLI kelas satu
- Typer mudah diadopsi pada proyek nyata, dan tim sangat menghargai seberapa cepat ia memungkinkan pembuatan perintah yang jelas dan mudah dibaca
- Kelebihannya — API berbasis type hint, bantuan dan autocompletion otomatis, serta jalur rendah hambatan dari skrip sederhana ke CLI multi-perintah
- Namun, ini adalah solusi khusus Python dan mungkin bukan pilihan terbaik bila dibutuhkan perilaku CLI yang sangat dikustomisasi atau konsistensi lintas bahasa
- Direkomendasikan untuk tim yang membangun CLI untuk workflow delivery, operasional, dan developer experience
Trial
104. Agent Development Kit (ADK)
- Framework Google untuk membangun dan mengoperasikan agen AI, menyediakan abstraksi yang berorientasi rekayasa perangkat lunak untuk orkestrasi, tools, evaluasi, dan deployment
- Sejak dimasukkan ke Assess, ekosistem dan kapabilitas operasionalnya telah sangat matang, dengan pengembangan multibahasa yang aktif serta fitur observability dan runtime yang lebih kuat
- Framework agen native dari vendor kini menjadi area yang padat — opsi pesaing seperti Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, dan Claude Agent SDK juga terus berkembang
- Alternatif open source seperti LangGraph dan CrewAI tetap menjadi pilihan kuat bagi tim yang memprioritaskan portabilitas framework dan ekosistem yang lebih luas
- Meski ADK di beberapa bagian masih berstatus pre-GA, dengan bagian-bagian yang sesekali terasa kasar dan friksi saat upgrade, semakin banyak penggunaan sukses yang diamati, terutama pada proyek yang berinvestasi pada platform Google
105. DeepEval
- framework open-source berbasis Python untuk evaluasi performa LLM
- Dapat digunakan untuk mengevaluasi sistem dan aplikasi RAG yang dibangun dengan framework seperti LlamaIndex atau LangChain, serta untuk baseline dan benchmark model
- Melampaui metrik pencocokan kata sederhana dengan memberikan evaluasi yang lebih andal di skenario dunia nyata melalui penilaian akurasi, relevansi, dan konsistensi
- Mencakup kemampuan seperti deteksi halusinasi, skor relevansi jawaban, dan optimasi hyperparameter; yang особенно berguna adalah fitur yang memungkinkan tim mendefinisikan metrik khusus untuk tiap use case
- Baru-baru ini DeepEval diperluas untuk mendukung workflow agentic yang kompleks dan sistem percakapan multi-turn
- Selain evaluasi output akhir, juga menyediakan metrik bawaan untuk tool correctness, step efficiency, dan task completion, termasuk evaluasi interaksi dengan server MCP
- Juga memperkenalkan conversation simulation yang secara otomatis menghasilkan test case untuk stress test aplikasi multi-turn skala besar
106. Docling
- pustaka open-source Python dan TypeScript untuk mengubah dokumen tidak terstruktur menjadi output yang rapi dan dapat dibaca mesin
- Menggunakan pendekatan berbasis computer vision untuk memahami tata letak dan makna, memproses input kompleks seperti PDF termasuk dokumen hasil pindaian ke format terstruktur seperti JSON dan Markdown
- Cocok untuk pipeline RAG dan pembuatan structured output from LLMs, berlawanan dengan pendekatan pencarian vision-first seperti ColPali
- Docling menyediakan alternatif open-source self-hosted untuk layanan cloud terkelola proprietari seperti Azure Document Intelligence, Amazon Textract, dan Google Document AI, serta terintegrasi baik dengan framework seperti LangGraph
- Berjalan baik pada workload ekstraksi skala produksi di berbagai PDF digital dan hasil pindaian, termasuk file yang sangat besar dengan teks, tabel, dan gambar
- Memberikan keseimbangan kualitas dan biaya yang kuat untuk workflow agentic RAG downstream
107. LangExtract
- pustaka Python untuk mengekstrak informasi terstruktur dari teks tidak terstruktur berdasarkan instruksi kustom pengguna, termasuk grounding sumber yang presisi yang menghubungkan setiap entitas yang diekstrak ke lokasi dalam dokumen asli
- Menangani materi spesifik domain seperti catatan klinis dan laporan
- Kekuatan utamanya adalah keterlacakan sumber, memastikan setiap titik data hasil ekstraksi dapat ditelusuri kembali ke sumbernya
- Entitas yang diekstrak dapat diekspor ke file JSONL, format standar untuk data model bahasa, dan dapat divisualisasikan lewat antarmuka HTML interaktif untuk peninjauan kontekstual
- Tim yang mempertimbangkan structured output from LLMs untuk pemrosesan dokumen perlu mengevaluasi LangExtract bersama pendekatan penegakan skema seperti Pydantic AI
- LangExtract lebih cocok untuk materi sumber yang panjang dan tidak terstruktur, sementara Pydantic AI unggul dalam membatasi format output untuk input yang lebih pendek dan lebih dapat diprediksi
108. LangGraph
- Sejak Radar sebelumnya, diamati bahwa arsitektur LangGraph yang memperlakukan semua sistem multi-agent sebagai graf stateful dengan status bersama global tidak selalu merupakan cara terbaik untuk membangun sistem agentic
- Pendekatan alternatif seperti yang digunakan dalam framework seperti Pydantic AI juga bekerja dengan baik
- Alih-alih memulai dengan graf yang kaku dan status bersama berskala besar, pendekatan ini lebih memilih komunikasi agen yang sederhana lewat eksekusi kode, lalu menambahkan struktur graf nanti bila diperlukan
- Dalam banyak use case, ini menghasilkan sistem yang lebih ringkas dan efektif, karena setiap agen hanya mengakses status yang dibutuhkan sehingga lebih mudah untuk ditalar, diuji, dan di-debug
- Akibatnya berpindah dari Adopt; tetap merupakan alat yang kuat, tetapi tidak lagi dianggap sebagai pilihan default untuk membangun semua sistem agentic
109. LiteLLM
- Dimulai sebagai lapisan abstraksi tipis di atas banyak penyedia LLM lalu berkembang menjadi AI gateway yang matang
- Melampaui penyederhanaan integrasi API dengan menangani perhatian lintas fungsi umum pada sistem GenAI — termasuk retry dan failover, load balancing antarpenyedia, serta pelacakan biaya termasuk kontrol anggaran
- Tim semakin banyak mengadopsi LiteLLM sebagai default yang masuk akal untuk aplikasi berbasis AI
- Gateway menyediakan tempat yang konsisten untuk menangani aspek tata kelola, termasuk pelacakan permintaan, kontrol akses, manajemen API key, pemfilteran konten, dan guardrail tingkat edge seperti modifikasi serta masking data
- Namun, tim yang bergantung pada kemampuan penyedia yang berbeda sering tetap memerlukan parameter spesifik penyedia, sehingga menghadirkan kembali coupling yang ingin dihilangkan gateway
- Mode
drop_paramsmembuang parameter yang tidak didukung secara diam-diam, yang dapat menyebabkan hilangnya kemampuan tanpa visibilitas di seluruh keputusan routing - Ini pilihan praktis untuk kontrol operasional, tetapi memanfaatkan kemampuan spesifik penyedia berarti tetap mempertahankan baik dependensi gateway maupun kode yang terikat ke penyedia
110. Modern.js
- meta-framework React dari ByteDance, ditempatkan di Trial untuk tim dengan kebutuhan micro frontend berbasis Module Federation
- Pemicu utamanya bersifat praktis —
nextjs-mfmengarah ke end-of-life, Pages Router hanya akan menerima perbaikan backport kecil, tidak ada pengembangan baru yang direncanakan, dan pengujian CI diperkirakan dihapus pada pertengahan hingga akhir 2026 - Karena tidak adanya dukungan resmi Module Federation di Next.js dan penghentian bertahap plugin komunitas, tim inti Module Federation merekomendasikan Modern.js sebagai framework pendukung utama untuk arsitektur berbasis federation
- Plugin
@module-federation/modern-js-v3langsung menyediakan wiring build otomatis, dan streaming SSR serta Bridge API dapat digunakan sebagai kemampuan terpisah - Namun ada batasan pada coupling —
@module-federation/bridge-reactmasih belum kompatibel dengan environment Node sehingga Bridge tidak bisa digunakan dalam skenario SSR - Pengalaman awal positif, dan jalur migrasi jelas untuk tim yang sudah menggunakan Module Federation
- Ekosistem di luar ByteDance masih terus matang, dengan kebutuhan akan dokumentasi yang lebih tipis dan rencana keterlibatan yang lebih erat dengan upstream
- Saat ini, investasinya layak untuk use case Module Federation yang belum memiliki alternatif dengan dukungan lebih baik
Assess
111. Agent Lightning
- Kerangka kerja optimasi dan pelatihan agen yang memungkinkan optimasi prompt otomatis, fine-tuning terawasi, dan reinforcement learning agentic
- Sebagian besar framework agen berfokus pada pembangunan agen, tetapi tidak berfokus pada peningkatan seiring waktu
- Agent Lightning mendukung framework seperti AutoGen dan CrewAI, serta memungkinkan peningkatan berkelanjutan pada agen yang sudah ada tanpa mengubah implementasi dasarnya
- Hal ini dicapai melalui pendekatan bernama Training-Agent Disaggregation, yang memperkenalkan sebuah layer di antara pelatihan dan framework agen
- Dua komponen inti — Lightning Server mengelola proses pelatihan dan mengekspos API untuk model yang diperbarui, sementara Lightning Client berperan sebagai runtime yang mengumpulkan trace dan mengirimkannya ke server untuk mendukung pelatihan
- Direkomendasikan untuk dieksplorasi oleh tim yang sudah memiliki deployment agen mapan sebagai cara untuk terus meningkatkan performa agen
112. GitHub Spec Kit
- Dalam diskusi siklus kali ini, spec-driven development menonjol, dengan munculnya dua kubu besar — tim yang mengandalkan kemampuan agen coding untuk terus membaik dengan struktur minimum, dan tim yang lebih menyukai workflow terdefinisi serta spesifikasi detail
- Sejumlah tim sedang bereksperimen dengan praktik spec-driven menggunakan GitHub Spec Kit, terutama di lingkungan brownfield
- Konsep inti Spec Kit adalah constitution, yaitu buku aturan dasar yang menyelaraskan siklus hidup pengembangan perangkat lunak
- Constitution yang benar-benar berguna biasanya menangkap cakupan proyek, konteks domain, versi teknologi, standar coding, dan struktur repositori (misalnya arsitektur heksagonal, modul berlapis), sehingga membantu agen bekerja dalam batas arsitektur yang dimaksud
- Tantangan seperti instruction bloat juga muncul — kumpulan instruksi agen yang terus membesar karena penambahan konteks proyek, dan pada akhirnya context rot; satu tim mengatasinya dengan mengekstrak panduan yang dapat digunakan ulang menjadi skills, menjaga instruksi agen tetap ringkas dan hanya memuat konteks detail saat diperlukan
- Dalam sistem brownfield, banyak pekerjaan ulang berasal dari niat yang tidak jelas, asumsi tersembunyi, dan keterlambatan menemukan batasan; satu tim terbantu menampakkan isu lebih awal dengan menerapkan siklus hidup spec → plan → tasks → coding → review
- Seiring waktu, konteks yang bisa diulang dipindahkan ke file seperti
.github/prompts/speckit.<command>.prompt.md, membuat prompt lebih pendek dan perilaku agen lebih konsisten - Dilaporkan ada beberapa bagian kasar, seperti pemeriksaan defensif yang tidak perlu dan output markdown yang terlalu bertele-tele
- Sebagian masalah diatasi dengan mengustomisasi template dan instruksi Spec Kit, misalnya membatasi jumlah file markdown yang dihasilkan dan mengurangi verbositas konsol
- Pada akhirnya, insinyur berpengalaman dengan praktik clean coding dan arsitektur yang kuat memperoleh nilai paling besar dari workflow spec-driven
113. Mastra
- Framework open source native TypeScript untuk membangun aplikasi dan agen AI
- Menyediakan mesin workflow berbasis graf, pendekatan terintegrasi untuk berbagai penyedia LLM, pause/resume human-in-the-loop, serta primitive untuk RAG dan memori
- Juga mencakup penulisan server MCP dan alat bawaan untuk evaluasi serta observabilitas, didukung dokumentasi developer yang jelas
- Mastra menawarkan alternatif terhadap stack berat berbasis Python, memungkinkan tim membangun kapabilitas AI yang kaya langsung di dalam ekosistem web yang sudah ada seperti Node.js atau Next.js
- Layak dievaluasi oleh tim yang berinvestasi di ekosistem TypeScript dan ingin menghindari beralih ke Python hanya untuk layer AI
114. Pipecat
- Framework open source untuk membangun agen suara real-time dan multimodal dengan model pipeline modular untuk orkestrasi STT, LLM, TTS, dan transport
- Menarik perhatian kuat karena memungkinkan tim beriterasi cepat pada perilaku percakapan dan berganti penyedia dengan friksi yang relatif rendah
- Dibandingkan LiveKit Agents, Pipecat menawarkan fleksibilitas framework yang lebih besar tetapi jalur produksi yang kurang terintegrasi, khususnya untuk deployment self-hosted, keandalan transport, dan penanganan giliran berlatensi rendah dalam skala besar
- Menawarkan fondasi yang kuat untuk eksplorasi teknis, tetapi memerlukan pekerjaan platform engineering yang signifikan sebelum diandalkan untuk workload produksi yang sangat penting bagi bisnis
115. Superpowers
- Dengan meningkatnya penggunaan agen coding, tidak ada satu workflow tunggal yang cocok untuk semua tim; sebagai gantinya, tim mengembangkan workflow khusus berdasarkan konteks dan batasan mereka
- Superpowers adalah salah satu workflow tersebut, dibangun dari skills yang dapat dikomposisikan
- Ia membungkus agen coding sebagai skill dalam workflow terstruktur, mendorong brainstorming sebelum coding, perencanaan detail sebelum implementasi, TDD dengan siklus red-green-refactor yang dipaksakan, debugging sistematis dengan prioritas pada akar masalah, dan code review setelah implementasi
- Didistribusikan sebagai plugin melalui Claude Code plugin marketplace dan Cursor plugin marketplace
116. TanStack Start
- Framework full-stack untuk React dan Solid yang dibangun di atas TanStack Router, sebanding dengan Next.js, serta mendukung SSR, caching, dan banyak fitur serupa
- TanStack Start menyediakan keamanan compile-time end-to-end di seluruh server function, loader, dan routing, sehingga mengurangi risiko link rusak atau bentuk data yang tidak konsisten di frontend
- Lebih menyukai konfigurasi eksplisit daripada konvensi, dengan pengalaman yang terasa lebih dekat ke bekerja dengan React biasa
- Kapabilitas SSR dapat ditambahkan secara bertahap sesuai kebutuhan
- Dibanding Next.js yang memiliki default lebih opinionated dan dapat memicu perilaku tak terduga bila belum memahami cara kerjanya secara internal, framework ini lebih eksplisit dan dapat diprediksi
- Ekosistem TanStack juga sudah semakin matang, menawarkan sekumpulan alat yang kuat untuk membangun aplikasi web modern
117. TOON (Token-Oriented Object Notation)
- Pengodean data JSON yang dapat dibaca manusia dan dirancang untuk mengurangi penggunaan token saat data terstruktur dikirim ke LLM
- Memungkinkan JSON tetap dipertahankan di sistem yang ada dan hanya dikonversi pada titik interaksi dengan model
- Biaya token, latensi, dan batas context window kini menjadi pertimbangan desain nyata dalam pipeline RAG, workflow agen, dan aplikasi lain yang berat pada AI
- JSON mentah sering kali menghabiskan token pada key yang berulang dan overhead struktural alih-alih konten yang berguna
- Dalam evaluasi awal, TOON merupakan optimasi last mile yang menarik untuk input prompt, terutama pada dataset besar dan teratur di mana format yang sadar skema lebih efisien dan lebih mudah diproses model dibanding JSON
- Ini bukan pengganti JSON untuk API, database, atau output model, dan sering menjadi pilihan yang buruk untuk struktur yang sangat bertingkat atau tidak seragam, array semi-seragam, serta data tabular datar di mana CSV lebih ringkas
- Mungkin juga kurang cocok untuk jalur sensitif latensi di mana JSON ringkas sudah bekerja dengan baik
- Layak dievaluasi oleh tim yang membangun aplikasi LLM ketika ukuran input terstruktur menjadi perhatian biaya atau kualitas yang berarti, dengan kebutuhan benchmark terhadap JSON atau CSV pada data dan stack model mereka sendiri
118. Unsloth
- Framework open-source yang berfokus membuat fine-tuning LLM dan reinforcement learning jauh lebih cepat serta efisien dalam penggunaan memori
- Fine-tuning LLM mencakup puluhan miliar perkalian matriks, sehingga mendapat manfaat dari akselerasi GPU; Unsloth mengoptimalkan operasi ini dengan mengubahnya menjadi custom kernel ber-efisiensi tinggi untuk GPU NVIDIA, sehingga biaya dan penggunaan memori berkurang drastis
- Memungkinkan fine-tuning model pada GPU konsumen kelas T4 ke atas alih-alih membutuhkan klaster H100 yang mahal
- Mendukung LoRA, full fine-tuning, pelatihan multi-GPU, fine-tuning long-context (hingga 500K token), untuk model populer termasuk Llama, Mistral, DeepSeek-R1, Qwen, dan Gemma
- Seiring aplikasi AI spesifik domain makin bergantung pada fine-tuning, Unsloth secara signifikan menurunkan hambatan masuk
Belum ada komentar.