Thoughtworks Technology Radar, Volume 34 dirilis

(thoughtworks.com)

12 poin oleh GN⁺ 2026-04-17 | Belum ada komentar. | Bagikan ke WhatsApp

Tren terbaru di bidang teknik/alat/platform/bahasa pemrograman dan framework divisualisasikan dan dijelaskan dalam empat tahap: "direkomendasikan untuk diadopsi, uji coba, evaluasi, perhatian"
Empat tema utama: era agen dan evaluasi teknologi, prinsip tetap dipertahankan tetapi pola perlu ditinjau ulang, masalah keamanan agen, harness agen pemrograman

Tantangan evaluasi teknologi di era agen

Dengan adopsi AI, evaluasi teknologi itu sendiri menjadi makin sulit, dan karena semantic diffusion istilah-istilah baru muncul cepat sebelum maknanya sempat stabil
- Istilah seperti spec-driven development dan harness engineering digunakan tanpa konsistensi atau dengan makna yang saling tumpang tindih
- Karena tidak ada definisi bersama, sulit menilai apakah ini teknik yang berbeda atau hanya nama lain untuk konsep yang sama
Tetap menjadi tantangan berkelanjutan untuk membedakan antara metodologi rekayasa independen yang matang dan penggunaan sehari-hari alat AI seperti coding assistant
Kecepatan perubahan memperbesar ketidakpastian; banyak alat yang bahkan belum berumur sebulan bermunculan, dan sebagian dipelihara oleh satu kontributor bersama coding agent
- Jika menunggu alat matang, panduannya akan usang; jika bergerak cepat, ada risiko menyoroti tren yang segera menghilang
- Ini menimbulkan pertanyaan tentang keberlanjutan hal-hal yang dibuat dengan cepat dan sedikit upaya
Utang kognitif basis kode (Codebase Cognitive Debt)
- Semakin banyak kode hasil generasi AI, semakin mudah mengadopsi solusi tanpa model mental tentang cara kerjanya
- Jika kesenjangan pemahaman ini menumpuk, sistem akan semakin sulit ditalar, di-debug, dan dikembangkan

Prinsip dipertahankan, pola ditinjau ulang

AI tidak hanya membuat kita melihat masa depan, tetapi juga dasar-dasar software craftsmanship kembali
- Teknik yang sudah ada seperti pair programming, arsitektur zero-trust, mutation testing, dan metrik DORA kembali mendapat perhatian
- Prinsip inti seperti clean code, desain yang disengaja, testability, dan aksesibilitas ditegaskan kembali sebagai prioritas utama
Ini bukan nostalgia, melainkan penyeimbang yang penting terhadap laju alat AI yang menghasilkan kompleksitas dengan cepat
Kebangkitan command line; selama bertahun-tahun ia diabstraksikan demi kemudahan penggunaan, tetapi alat agentic mendorong pengembang kembali ke terminal
Pengembangan berbantuan AI adalah pergeseran mendasar dalam praktik engineering, sehingga perlu meninjau ulang kolaborasi dan struktur tim
- Agent topologies perlu dipertimbangkan berdampingan dengan team topologies, dan siklus umpan balik perlu dirancang ulang
- Teknik seperti measuring collaboration quality with coding agents bahkan mendefinisikan ulang arti menjadi pengembang perangkat lunak
Dalam lingkungan yang digerakkan AI, pengelolaan utang kognitif menjadi tugas inti, dan penting mempertahankan prinsip bahwa "kecepatan tanpa disiplin akan memperbesar biaya"

Masalah keamanan agen yang haus izin

"Permission hungry" menggambarkan dilema mendasar situasi agen saat ini: semakin bernilai sebuah agen, semakin besar kebutuhan aksesnya ke segala hal
- OpenClaw dan Claude Cowork melakukan pengawasan pekerjaan nyata
- Gas Town mengoordinasikan swarm agen di seluruh codebase
- Semua ini menuntut akses luas ke data privat, komunikasi eksternal, dan sistem nyata
Perlindungan yang ada belum mampu mengimbangi ambisi tersebut; lewat prompt injection, model tidak dapat secara andal membedakan perintah tepercaya dan input yang tidak tepercaya
Definisi "lethal trifecta" dari Simon Willison — data privat, konten tak tepercaya, dan tindakan eksternal — berlaku pada sebagian besar agen yang berguna sebagai kondisi bawaan, bukan karena salah konfigurasi
Ada juga ancaman selain injection, yaitu inkonsistensi perilaku model
- Tidak ada jaminan tugas yang sekali berhasil akan berhasil lagi pada percobaan berikutnya
- Bahkan tanpa niat jahat, agen dapat menemukan jalur kebocoran yang kreatif, melakukan push ke branch yang seharusnya tidak disentuh, dan melumpuhkan checkpoint persetujuan/penolakan
Yang dapat dilakukan saat ini — zero-trust, hak akses minimum, perbaikan model, dan defense in depth adalah syarat dasar, tetapi tidak ada solusi tunggal
Sistem agen yang aman perlu dibangun sebagai pipeline agen yang lebih dibatasi, bukan agen monolitik, dengan pemantauan dan kontrol yang kuat
- Agent Skills dapat dimanfaatkan sebagai alternatif MCP yang lebih mudah dikendalikan
- Durable agents, teknik pencegahan agent instruction bloat, dan lainnya menunjukkan arah ini
Karena ruang ini berkembang cepat, kehati-hatian sangat penting untuk menghindari kesalahan mahal

Menjinakkan agen pemrograman

Dengan peningkatan kemampuan coding agent, godaan untuk mengeluarkan manusia dari loop makin besar, sehingga tim mulai berinvestasi pada coding agent harnesses
- Ini adalah mekanisme kontrol yang mengarahkan perilaku agen sebelum menghasilkan kode dan memungkinkannya memperbaiki diri melalui umpan balik sesudahnya
Kontrol feedforward
- Menyediakan hal-hal yang dibutuhkan di muka agar agen lebih mungkin benar pada percobaan pertama
- Agent Skills adalah kemajuan utama, memodularisasi instruksi dan konvensi lalu memuatnya saat diperlukan
- Superpowers adalah contoh katalog skill yang berguna untuk tim perangkat lunak
- Munculnya konsep plugin marketplaces memudahkan distribusi skill dan konfigurasi konteks
- Framework spec-driven development — GitHub Spec-Kit, OpenSpec, dan lainnya — menstrukturkan alur kerja perencanaan, desain, dan implementasi
Kontrol feedback
- Mengamati perilaku agen setelah bertindak untuk membentuk loop koreksi diri
- Feedback sensors for coding agents — gerbang kualitas deterministik seperti compiler, linter, type checker, dan test suite diintegrasikan langsung ke alur kerja agen
  - Jika gagal, perbaikan otomatis dipicu sebelum tinjauan manusia
- Contoh pada Radar kali ini mencakup cargo-mutants dan alat mutation testing, alat fuzz testing seperti WuppieFuzz, serta alat analisis kualitas kode seperti CodeScene
- Selain umpan balik in-loop, ada juga kasus yang mengurangi architecture drift dengan menggabungkan aturan struktur deterministik dan evaluasi berbasis LLM

[Techniques]

Adopt

1. Context engineering

Teknik ini telah berkembang menjadi perhatian arsitektur inti dalam sistem AI modern; berbeda dari prompt engineering yang berfokus pada susunan kata, context engineering memperlakukan context window sebagai permukaan desain dan dengan sengaja membangun lingkungan informasi AI
Semakin kompleks tugas yang ditangani agen, semakin besar pendekatan menuangkan data mentah ke context window besar memicu "context rot" dan penurunan penalaran; kini terjadi pergeseran dari prompt statis dan monolitik ke progressive context disclosure
Context setup menggunakan prompt caching untuk memuat lebih dulu instruksi statis sehingga mengurangi biaya dan memperbaiki waktu ke token pertama, sementara dynamic retrieval melampaui RAG dasar dengan pemilihan alat dan hanya memuat server MCP yang diperlukan
Context graphs memodelkan penalaran institusional seperti kebijakan, pengecualian, dan preseden sebagai data yang terstruktur dan dapat di-query, sementara stateful compression dan sub-agen merangkum keluaran antara dalam alur kerja jangka panjang
Memperlakukan konteks AI sebagai kotak teks statis adalah jalan pintas menuju halusinasi; untuk membangun agen enterprise yang tangguh, konteks harus direkayasa sebagai pipeline yang dinamis dan dikelola secara presisi

2. Instruksi bersama yang dikurasi untuk tim perangkat lunak

Praktik yang memandang penulisan prompt oleh tiap developer dari nol sebagai antipola, dan memperlakukan panduan AI sebagai aset rekayasa kolaboratif, bukan alur kerja pribadi
Pada awalnya fokus pada pemeliharaan pustaka prompt umum untuk tugas-tugas bersama, tetapi kini berkembang ke pendekatan yang lebih maju dengan menambatkan instruksi langsung ke template layanan
- Menempatkan file instruksi seperti CLAUDE.md, AGENTS.md, .cursorrules di repositori baseline untuk scaffolding layanan baru
Juga mengeksplorasi praktik terkait untuk menambatkan coding agent ke aplikasi referensi, dengan codebase hidup yang bisa dikompilasi berperan sebagai satu-satunya sumber kebenaran
Saat arsitektur dan standar pengodean berevolusi, aplikasi referensi dan instruksi tersemat sama-sama dapat diperbarui, dan repositori baru akan mewarisi alur kerja agent serta aturan terbaru secara default

3. Metrik DORA

Metrik yang didefinisikan oleh program riset DORA, mencakup lead time perubahan, frekuensi deployment, MTTR, change failure rate, serta metrik kelima yang baru, yaitu rework rate
Rework rate adalah metrik stabilitas yang mengukur proporsi pipeline delivery tim yang dihabiskan untuk mengerjakan ulang pekerjaan yang sudah selesai, seperti bug pengguna atau cacat
Di era pengembangan berbantuan AI, metrik DORA lebih penting dari sebelumnya; mengukur produktivitas dengan jumlah baris kode yang dihasilkan AI bersifat menyesatkan
- Tanpa penurunan lead time dan peningkatan frekuensi deployment, pembuatan kode yang lebih cepat tidak akan menghasilkan hasil yang lebih baik
- Metrik stabilitas, terutama penurunan rework rate, menjadi peringatan dini atas titik buta, utang teknis, dan risiko dari pengembangan berbantuan AI yang sembrono
Dibanding membangun dashboard yang rumit, mekanisme sederhana seperti check-in saat retrospektif lebih efektif untuk meningkatkan kapabilitas

4. Passkeys

Kredensial FIDO2 yang dipimpin oleh FIDO Alliance dan didukung Apple, Google, serta Microsoft, menggunakan kriptografi kunci publik asimetris untuk menggantikan kata sandi
Kunci privat disimpan di secure enclave berbasis hardware pada perangkat pengguna, dilindungi biometrik atau PIN dan tidak pernah bocor ke luar; setiap kredensial terikat ke origin domain relying party sehingga secara struktural tahan terhadap phishing
Phishing menjadi penyebab lebih dari sepertiga seluruh pelanggaran data; FIDO Alliance Passkey Index 2025 melaporkan lebih dari 15 miliar akun yang memenuhi syarat di seluruh dunia, Google meningkatkan tingkat keberhasilan login sebesar 30% di 800 juta pengguna, dan Amazon memverifikasi login 6 kali lebih cepat dibanding metode lama
NIST SP 800-63-4 (Juli 2025) mengklasifikasikan ulang synced passkeys sebagai patuh AAL2, sementara regulator di UEA, India, dan lembaga federal AS mewajibkan autentikasi tahan phishing untuk sistem keuangan dan pemerintahan
FIDO Credential Exchange Protocol memastikan portabilitas yang aman antar pengelola kredensial, penyedia identitas utama seperti Auth0, Okta, dan Azure AD mendukungnya sebagai fitur kelas satu, sehingga implementasi disederhanakan dari pekerjaan berbulan-bulan menjadi proyek 2 sprint
- Perlu berhati-hati dalam merancang pemulihan akun dan menghindari jalur fallback yang bisa dipancing phishing seperti SMS OTP
- Untuk skenario AAL3 (seperti akses berhak istimewa), kredensial yang terikat ke perangkat dari hardware security key tetap diperlukan

5. Structured output dari LLM

Praktik membatasi model agar merespons dalam format yang telah ditentukan sebelumnya, seperti JSON atau class bahasa pemrograman tertentu
Memberikan hasil yang dapat diandalkan di production, dan dianggap sebagai default yang masuk akal untuk aplikasi yang mengonsumsi respons LLM secara terprogram
Semua penyedia model utama menyediakan mode structured output native, dengan subset JSON Schema yang didukung berbeda-beda dan API yang berkembang cepat
Library Instructor atau framework Pydantic AI menyediakan abstraksi yang andal termasuk validasi dan retry otomatis, sementara Outlines direkomendasikan untuk pembuatan constraint pada model self-hosted

6. Arsitektur zero trust

Seiring memasuki era agent, ini menjadi default yang masuk akal untuk menghadapi risiko keamanan saat memberikan otonomi kepada sistem yang tak dapat diprediksi
"Jangan pernah percaya, selalu verifikasi", perlakukan keamanan berbasis identitas dan prinsip akses least privilege sebagai fondasi semua deployment agent
Menerapkan standar seperti SPIFFE pada agent untuk membangun fondasi berbasis identitas yang kuat, dan mengaktifkan autentikasi terperinci di lingkungan dinamis
Pemantauan dan verifikasi berkelanjutan atas perilaku agent penting untuk mengelola ancaman secara proaktif
Selain deployment agent, praktik seperti OIDC impersonation di GCP juga diterapkan pada hal-hal seperti pipeline CI/CD, menggantikan kunci statis jangka panjang dengan token jangka pendek yang diterbitkan setelah verifikasi identitas
Direkomendasikan untuk memperlakukan prinsip ZTA sebagai default yang tidak bisa ditawar, apa pun sistem yang dibangun

Trial

7. Agent Skills

Ketika AI agent berevolusi dari antarmuka chat sederhana menjadi eksekusi tugas otonom, context engineering menjadi tantangan utama; Agent Skills mengemas sumber daya terkait seperti instruksi, skrip yang dapat dijalankan, dan dokumentasi untuk menyediakan standar terbuka bagi modularisasi konteks
Agent memuat skill hanya saat diperlukan berdasarkan deskripsi, sehingga mengurangi konsumsi token dan meredakan habisnya context window serta masalah agent instruction bloat
Cepat diadopsi bukan hanya oleh coding agent tetapi juga asisten pribadi seperti OpenClaw; banyak use case dapat diselesaikan secara efektif dengan membuat agent menunjuk ke CLI atau skrip lokal, yang menjadi salah satu alasan tim lebih berhati-hati menggunakan MCP sebagai default
Plugin marketplaces mulai muncul sebagai cara untuk membuat versi dan membagikan skill, dan banyak eksplorasi sedang berlangsung tentang cara mengevaluasi efektivitas skill
Penggunaan ulang skill pihak ketiga tanpa peninjauan memerlukan kehati-hatian karena dapat menimbulkan risiko keamanan rantai pasok yang serius

8. Pengujian komponen berbasis browser

Di masa lalu, alat berbasis browser tidak direkomendasikan (sulit dikonfigurasi, lambat, dan flaky), tetapi sekarang telah jauh membaik sehingga menjadi pendekatan yang layak dan disukai dengan alat seperti Playwright
Menjalankan pengujian di browser nyata memberikan konsistensi yang lebih tinggi karena selaras dengan lingkungan tempat kode benar-benar dijalankan
Penurunan performa telah berkurang ke tingkat yang bisa diterima, dan flakiness juga menurun sehingga memberi nilai lebih dibanding lingkungan emulasi seperti jsdom

9. Sensor umpan balik untuk coding agent

Untuk membuat coding agent lebih efektif dan mengurangi beban reviewer manusia, diperlukan loop umpan balik yang dapat diakses langsung oleh agent, dengan umpan balik bertindak sebagai bentuk backpressure
Developer sejak lama bergantung pada quality gate deterministik seperti compiler, linter, architectural test, dan test suite; ini dapat dihubungkan ke alur kerja agentic untuk memicu koreksi diri tepat waktu saat terjadi kegagalan
Berbagai implementasi dimungkinkan, seperti menghadirkan agent reviewer yang menjalankan pemeriksaan dan memicu perbaikan, atau mengekspos pemeriksaan sebagai proses pendamping yang berjalan paralel
Berkat coding agent, biaya membangun linter kustom dan architectural test menjadi lebih murah, sehingga memperkuat loop umpan balik
Jika memungkinkan, jalankan selama sesi coding, bukan setelah commit, agar agent melaporkan hasil yang bersih sebelum commit

10. Memetakan code smell ke teknik refactoring

Teknik untuk mengarahkan agen agar menangani isu tertentu dengan pendekatan yang telah ditentukan
Lapisan pertama mengarahkan agen dengan referensi umum seperti Refactoring untuk kasus umum, sementara isu yang lebih spesialis memetakan smell spesifik ke teknik tertentu melalui Agent Skills, slash command, dan AGENTS.md
Saat diintegrasikan dengan alat linting, ini menghasilkan umpan balik deterministik yang memicu pendekatan refactoring yang sesuai setiap kali smell terdeteksi
Sangat efektif terutama pada stack legacy seperti .NET Framework 2.0 atau Java 8, berguna ketika data pelatihan umum tidak memadai
Tanpa arahan tujuan, agen cenderung default ke pola umum alih-alih kebutuhan yang spesifik

11. Mutation testing

Sinyal paling jujur untuk menilai kemampuan nyata test suite dalam mendeteksi cacat, berbeda dari code coverage tradisional yang hanya melacak eksekusi baris, dengan cara memasukkan bug yang disengaja (mutations) ke source code dan memverifikasi apakah test gagal saat perilaku rusak
Jika mutasi tidak terdeteksi, itu mengungkap celah dalam validasi, bukan sekadar kurangnya coverage, dan sangat penting di era pengembangan berbantuan AI — coverage tinggi dapat menyamarkan test yang kosong secara logis atau kode hasil generasi yang tidak memiliki assertion bermakna
Dengan makin lazimnya test case buatan AI, ini berfungsi sebagai lapisan penguat untuk menangkap test "selalu hijau (perpetually green)" yang lolos terlepas dari perubahan logika karena assertion yang hilang atau mock yang terisolasi
Dengan alat seperti Stryker, Pitest, dan cargo-mutants, fokus bergeser ke seberapa banyak kode yang benar-benar tervalidasi dalam logika domain inti

12. Progressive context disclosure

Teknik dalam praktik Context engineering, yang alih-alih membanjiri agen secara proaktif dengan instruksi, memberi tahap discovery ringan yang memilih kebutuhan berdasarkan prompt pengguna
Cocok untuk skenario RAG, di mana agen terlebih dahulu mengidentifikasi domain yang relevan dari kueri pengguna lalu mengambil instruksi dan data yang spesifik
Sama seperti cara banyak alat coding agentic menangani Agent Skills: alih-alih satu set instruksi monolitik tunggal yang penuh syarat dan peringatan, agen terlebih dahulu menentukan skill yang relevan untuk tugas lalu memuat instruksi detailnya
Saat membangun sistem agentic, mudah terjebak dalam jebakan menggelembungkan instruksi dengan aturan "DO" dan "DO NOT" yang tak ada habisnya, yang pada akhirnya menurunkan performa
Menjaga context window tetap ringkas dan mencegah context rot

13. Sandboxed execution for coding agents

Praktik menjalankan agen dalam lingkungan terisolasi dengan akses file system terbatas, koneksi jaringan terkontrol, dan penggunaan sumber daya yang dibatasi
Seiring coding agent memperoleh otonomi untuk mengeksekusi kode, build, dan berinteraksi dengan file system, akses tanpa batas menimbulkan risiko nyata mulai dari kerusakan tak sengaja hingga paparan kredensial, sehingga ini menjadi default yang masuk akal, bukan peningkatan opsional
Spektrum opsi sandboxing sangat luas — banyak coding agent menyediakan mode sandbox bawaan, sementara Dev Containers menawarkan isolasi berbasis container yang familiar
Shuru mem-boot microVM sementara yang di-reset pada setiap eksekusi, sementara Sprites menyediakan lingkungan stateful dengan dukungan checkpoint/restore
Untuk isolasi native Linux, Bubblewrap menyediakan sandboxing ringan berbasis namespace, sedangkan di macOS sandbox-exec menawarkan perlindungan serupa
Selain isolasi dasar, perlu juga mempertimbangkan semua yang dibutuhkan untuk build dan test, autentikasi yang aman dan sederhana ke layanan seperti GitHub dan penyedia model, port forwarding, serta CPU dan memori yang memadai
Apakah sandbox dijadikan default sementara atau persisten untuk pemulihan sesi adalah keputusan desain yang bergantung pada prioritas keamanan, biaya, dan kesinambungan workflow

14. Semantic layer

Teknik arsitektur data yang memperkenalkan lapisan logika bisnis bersama di antara data store dan aplikasi konsumen seperti alat BI, agen AI, dan API
Dengan memusatkan definisi metrik, join, aturan akses, dan istilah bisnis, konsumen memiliki definisi bersama; ini adalah konsep yang sudah ada sebelum modern data stack, tetapi kembali mendapat perhatian lewat pendekatan code-first seperti metrics stores
Tanpa semantic layer, logika bisnis tersebar di tabel warehouse ad hoc, dashboard, dan aplikasi downstream, sementara definisi metrik diam-diam bercabang
Masalah ini makin parah dengan agentic AI — saat melakukan terjemahan text-to-SQL yang naif menggunakan LLM, hasil yang keliru sering muncul, terutama ketika aturan bisnis seperti pengakuan pendapatan berada di luar skema
Platform cloud mulai menyematkan semantic layer secara langsung; Snowflake menyebutnya Semantic Views, Databricks menyebutnya Metric Views, sementara alat mandiri seperti dbt MetricFlow dan Cube menyediakan lapisan yang portabel di seluruh sistem
Open Semantic Interchange (OSI) v1.0 baru-baru ini dirilis, dan dukungan dari banyak vendor menandakan meluasnya standardisasi dan interoperabilitas di platform analitik, AI, dan BI
Biaya utamanya adalah investasi awal dalam pemodelan data, dan disarankan memulai dari satu domain alih-alih rollout ke seluruh perusahaan

15. Server-driven UI

Memisahkan rendering ke dalam container umum dan menyediakan struktur serta data melalui server, sehingga tim mobile dapat melewati siklus review app store yang panjang pada setiap iterasi
Dengan format berbasis JSON, ini memungkinkan pembaruan real-time dan sangat meningkatkan waktu rilis, sementara kemunculan pola yang matang dari perusahaan seperti Airbnb dan Lyft mengurangi kompleksitas
Sebelumnya ada peringatan tentang potensi menjadi "kekacauan mengerikan yang terlalu bisa dikonfigurasi" yang dibuat oleh framework proprietary, tetapi investasi kini lebih mudah dibenarkan pada aplikasi berskala besar
Tetap memerlukan business case yang kuat dan rekayasa yang terkendali, dan penting untuk mencegah terbentuknya "god-protocol" yang sulit dipelihara
Direkomendasikan untuk diterapkan pada area yang sangat dinamis, bukan sebagai pengganti seluruh pengembangan UI aplikasi

Assess

16. Agentic reinforcement learning environments

Sebagai arena pelatihan untuk agen berbasis LLM, pendekatan ini menggabungkan konteks, alat, dan umpan balik untuk menyelesaikan tugas multilangkah
Pendekatan ini membentuk ulang post-training LLM dari sekadar output single-turn menjadi perilaku agentic seperti penalaran dan penggunaan alat, dengan menetapkan reward atau penalti untuk tiap tindakan
Dengan teknik seperti RLVR, reward dijamin dapat diverifikasi dan tahan terhadap gamifikasi
Lab riset AI saat ini memimpin pengembangan, khususnya untuk agen coding dan penggunaan komputer; Composer milik Cursor menjadi contoh di luar frontier lab, yaitu model coding spesialis yang dilatih di dalam lingkungan produk
Munculnya framework dan platform seperti Environments Hub dari Prime Intellect, Agent Lightning, dan NVIDIA NeMo Gym membantu menyederhanakan proses

17. Architecture drift reduction with LLMs

Dengan meningkatnya penggunaan agen coding AI, drift dari codebase dan desain arsitektur yang dimaksud ikut makin cepat; bila dibiarkan, agen dan manusia akan menyalin pola yang ada—termasuk yang sudah menurun kualitasnya—sehingga drift makin menumpuk dan terbentuk loop umpan balik di mana kode buruk melahirkan kode yang lebih buruk
Menggabungkan alat analisis deterministik seperti Spectral, ArchUnit, dan Spring Modulith dengan evaluasi berbasis LLM memungkinkan pelanggaran struktural maupun semantik sama-sama terdeteksi
Diterapkan untuk mendefinisikan architecture zone yang menegakkan pedoman kualitas API di seluruh layanan sekaligus memandu peningkatan hasil generasi agen
Seperti linting tradisional, pemindaian awal akan memunculkan banyak pelanggaran sehingga perlu klasifikasi dan penentuan prioritas, dan LLM dapat membantu di sini
Perbaikan yang dihasilkan agen perlu dijaga tetap kecil dan terfokus agar mudah direview, serta loop validasi tambahan wajib ada untuk memastikan perubahan benar-benar memperbaiki sistem tanpa menimbulkan regresi
Ini memperluas ide feedback sensors for coding agents ke tahap yang lebih akhir dalam lifecycle delivery; seperti istilah tim OpenAI, pengurangan drift bekerja dalam bentuk "garbage collection"

18. Code intelligence as agentic tooling

LLM memproses kode sebagai aliran token dan tidak memiliki pemahaman native tentang call graph, hierarki tipe, maupun relasi simbol
Untuk eksplorasi kode, kebanyakan agen coding saat ini pada dasarnya memakai pencarian berbasis teks—common denominator paling kuat lintas semua bahasa—sementara untuk refactoring cepat yang di IDE cukup dengan shortcut, agen perlu membuat beberapa text diff
Agen menghabiskan banyak token untuk merekonstruksi informasi yang sebenarnya sudah ada di AST
Berikan agen akses ke alat yang memahami AST, misalnya melalui Language Server Protocol (LSP), agar operasi seperti “find all references to this symbol” atau “rename this type everywhere” dapat dijalankan sebagai tindakan kelas satu
Alat codemod seperti OpenRewrite bekerja di atas representasi kode Lossless Semantic Tree (LST) yang lebih kaya; delegasi tugas yang tepat ke alat deterministik mengurangi edit halusinatif sekaligus menekan konsumsi token
Claude Code, OpenCode, dan lainnya telah terintegrasi dengan server LSP yang berjalan lokal; JetBrains menyediakan server MCP yang mengekspos navigasi dan refactoring IDE ke agen eksternal, sementara server MCP Serena menyediakan pencarian dan pengeditan kode semantik

19. Context graph

Teknik representasi pengetahuan yang memodelkan keputusan, kebijakan, pengecualian, preseden, bukti, dan hasil sebagai node terhubung kelas satu dalam sebuah graf, disusun untuk konsumsi AI
Jika system of record menangkap apa yang terjadi, context graph menangkap mengapa—mengubah penalaran institusional yang terkubur dalam thread Slack, rantai persetujuan, dan kepala orang-orang menjadi struktur yang bisa dibaca mesin dan di-query
Ini penting bagi efektivitas agen; misalnya, agen yang menangani pengecualian diskon bisa bernalar salah bila tidak dapat menentukan apakah hal itu adalah kebijakan standar atau override sekali pakai, sedangkan context graph secara langsung mengekspos asal-usulnya sehingga agen dapat menelusuri jejak keputusan, menerapkan preseden terkait, dan menalar rantai kausal multihop
Berbeda dengan GraphRAG yang dibangun dari korpus dokumen statis, context graph menjaga validitas temporal pada setiap edge; fakta yang sudah tergantikan tidak ditimpa, melainkan dibuat tidak berlaku
Layak dievaluasi untuk aplikasi agentic yang memerlukan memori persisten lintas sesi atau penalaran keputusan yang dapat dilacak

20. Feedback flywheel

Tim yang bekerja dengan agen coding makin banyak mengadopsi workflow spec-driven development; terlepas dari apakah framework-nya ringan atau opinionated, alurnya mengikuti spec → plan → implement
Feedback flywheel memperluas alur ini dengan tahap tambahan yang berfokus pada perbaikan berkelanjutan terhadap coding agent harness
Mirip retrospektif, tim menangkap keberhasilan dan kegagalan selama sesi agen coding lalu memakainya untuk meningkatkan prediktabilitas sesi berikutnya, dengan efek majemuk seiring waktu
Teknik meta ini menempatkan human on the loop untuk berfokus pada peningkatan kontrol feedforward seperti curated shared instructions dan feedback sensors for coding agents
Level berikutnya adalah agentic feedback flywheel, di mana agen memutuskan peningkatan yang diperlukan berdasarkan umpan balik yang terakumulasi; saat ini tetap dibutuhkan human-in-the-loop untuk mencegah context rot dan umpan balik berisik yang bisa menyesatkan agen
Seiring lingkungan berevolusi, ini digunakan untuk mengevaluasi keseluruhan coding agent harness, terutama saat mengadopsi model baru, karena apa yang efektif pada satu model bisa jadi tidak lagi diperlukan pada model berikutnya

21. HTML Tools

dengan alat agentic, semakin mudah membangun utilitas kecil per tugas, sehingga tantangan utamanya adalah cara deployment dan berbagi
HTML Tools adalah pendekatan untuk mengemas skrip atau utilitas yang bisa dibagikan ke dalam satu file HTML
dapat dijalankan langsung di browser, di-host di mana saja, atau cukup dibagikan sebagai file, sehingga menghindari overhead distribusi alat CLI yang memerlukan pembagian biner atau penggunaan package manager
lebih sederhana daripada membangun aplikasi web penuh dengan hosting khusus
dari sudut pandang keamanan, menjalankan file yang tidak tepercaya tetap berisiko, tetapi sandbox browser dan kemungkinan memeriksa source code memberi sedikit mitigasi
untuk utilitas ringan, satu file HTML menawarkan cara yang sangat mudah diakses dan portabel

22. Evaluasi LLM menggunakan semantic entropy

confabulation, salah satu bentuk halusinasi pada aplikasi tanya jawab LLM, sulit ditangani dengan metode evaluasi tradisional
salah satu pendekatan adalah menggunakan information entropy untuk mengukur ketidakpastian dengan menganalisis variasi leksikal pada output untuk input tertentu
evaluasi LLM yang menggunakan Semantic entropy memperluas ide ini dengan berfokus pada perbedaan makna alih-alih variasi di tingkat permukaan
karena yang dinilai adalah makna, bukan urutan kata, pendekatan ini bisa diterapkan ke berbagai dataset dan tugas tanpa pengetahuan awal, serta dapat digeneralisasi dengan baik ke tugas yang belum dikenal
membantu mengidentifikasi prompt yang berpotensi memicu confabulation dan menyarankan kehati-hatian bila perlu
entropy yang naif sering gagal mendeteksi confabulation, sementara semantic entropy lebih efektif untuk menyaring klaim palsu

23. Mengukur kualitas kolaborasi dengan coding agent

walau ada peningkatan produktivitas nyata saat menggunakan coding agent, sebagian besar metrik evaluasi masih terlalu berfokus pada coding throughput seperti waktu ke output pertama, jumlah baris kode yang dihasilkan, atau tugas yang selesai
agar tim tidak terjebak dalam speed trap, fokus perlu digeser ke seberapa efektif manusia dan agent berkolaborasi
metrik seperti first-pass acceptance rate, jumlah siklus iterasi per tugas, rework setelah merge, build yang gagal, dan beban review memberi sinyal yang lebih bermakna dibanding kecepatan semata
tim yang menggunakan Claude Code dapat membuat laporan tentang keberhasilan sesi agent dan refleksi tugas dengan perintah /insights, dan juga bereksperimen melacak first-pass acceptance dari perintah /review yang dikustomisasi
siklus umpan balik yang pendek dan berkurangnya build gagal adalah indikator interaksi yang lebih efektif dengan agent
pada level tim, bukan individu, lacak kualitas kolaborasi bersama metrik DORA untuk membangun gambaran yang lebih lengkap tentang adopsi coding agent

24. MITRE ATLAS

sistem agentic dan alat coding memperkenalkan arsitektur baru dan ancaman keamanan yang muncul
MITRE ATLAS adalah basis pengetahuan tentang taktik dan teknik adversarial yang menargetkan sistem AI dan ML
dirancang sebagai pelengkap yang lebih terfokus dibanding framework MITRE ATT&CK yang lebih luas, serta menyediakan klasifikasi ancaman untuk pipeline ML, aplikasi LLM, dan sistem agentic
tanpa kosakata bersama, risiko keamanan sering terlewat atau direduksi menjadi latihan checklist, dan ATLAS membantu mengatasi hal ini
berdasarkan riset atas insiden nyata dan pola teknis, tim dapat menggunakan framework ini untuk mendukung threat modeling
menjadi pelengkap alami untuk framework kontrol seperti SAIF, serta membantu menjelaskan lanskap ancaman yang terus berkembang pada sistem AI

25. Ralph loop

teknik autonomous coding agent yang juga dikenal sebagai Wiggum loop, yaitu memberi agent prompt tetap dalam loop tak berujung
setiap iterasi dimulai dengan context window baru — agent memilih pekerjaan dari spesifikasi atau rencana, mengimplementasikannya, lalu memulai ulang loop dengan konteks baru
wawasan intinya adalah kesederhanaan: alih-alih mengorkestrasi teams of coding agents atau coding agent swarms, satu agent bekerja secara otonom terhadap spesifikasi, dengan harapan codebase akan makin mendekati spesifikasi lewat iterasi berulang
penggunaan context window baru pada tiap iterasi membantu menghindari penurunan kualitas akibat konteks yang menumpuk, meski harus menanggung biaya token yang besar
alat seperti goose menerapkan pola ini, dan dalam beberapa kasus memperluasnya dengan review lintas model antariterasi

26. Reverse engineering untuk design system

organisasi sering bergulat dengan antarmuka legacy yang terfragmentasi, ketika "standar desain" hanya ada sebagai kumpulan longgar halaman web, materi pemasaran, dan screenshot yang terpisah-pisah
secara historis, mengaudit artefak semacam ini untuk membangun dasar konsolidasi adalah proses manual yang memakan waktu
dengan multimodal LLM, ekstraksi ini dapat diotomatisasi, sehingga design system dapat di-reverse-engineer secara efektif dari aset visual yang sudah ada
dengan memberi situs web, screenshot, dan potongan UI ke alat khusus atau model AI vision-capable, tim dapat mengekstrak design token inti seperti palet warna, skala tipografi, dan aturan spacing, serta mengidentifikasi pola komponen yang berulang
AI menyintesis data visual tak terstruktur ini menjadi representasi semantik terstruktur dari design system, dan jika diintegrasikan dengan alat seperti Figma, output ini sangat mempercepat pembuatan library komponen yang terformalkan dan mudah dipelihara
selain mengurangi upaya audit visual, ini juga menjadi batu loncatan untuk membangun design system yang "AI-ready"
bagi enterprise yang terbebani utang desain brownfield, membangun baseline design system dengan AI menjadi titik awal yang praktis sebelum redesign penuh atau standardisasi frontend

27. Isolasi kontekstual berbasis peran dalam RAG

teknik arsitektural yang memindahkan access control dari lapisan aplikasi ke lapisan retrieval
pada saat indexing, semua data chunk diberi tag izin berbasis peran, lalu pada saat query, search engine membatasi ruang pencarian berdasarkan identitas terautentikasi pengguna dan mencocokkannya dengan metadata tiap chunk
karena model AI difilter pada tahap retrieval, pendekatan ini memastikan tidak ada akses ke konteks yang tidak diizinkan, serta menyediakan dasar zero trust untuk knowledge base internal
banyak vector database seperti Milvus atau layanan berbasis Amazon S3 mendukung metadata filtering berperforma tinggi, sehingga penerapannya praktis bahkan untuk knowledge base berukuran besar

28. Skill sebagai dokumentasi onboarding yang dapat dieksekusi

Agent Skills, instruksi bersama yang dikurasi, dan teknik context engineering lainnya muncul di seluruh Radar kali ini; kasus penggunaan yang ingin ditekankan dalam konteks coding adalah skill sebagai dokumentasi onboarding yang dapat dieksekusi
Dapat diterapkan di berbagai level; di dalam codebase, skill /_setup berperan sebagai skrip go.sh sekaligus file README, menggabungkan semantik eksekusi LLM dengan skrip untuk langkah-langkah yang tidak bisa discript-kan
Melampaui apa yang bisa dilakukan skrip, ini juga memungkinkan mempertimbangkan secara dinamis kondisi terkini codebase dan environment
Pembuat library dan API dapat menyediakan skill kepada konsumen sebagai bagian dari dokumentasi, melalui registry skill internal atau eksternal (seperti Tessl)
Berguna untuk onboarding platform internal tim, menurunkan hambatan penggunaan teknologi inti atau mengurangi friksi saat mengadopsi design system; sampai sekarang banyak bergantung pada server MCP, tetapi kini mulai beralih ke skill
Seperti bentuk dokumentasi lain, tantangan untuk menjaganya tetap mutakhir tidak hilang; namun dokumen yang dapat dieksekusi, tidak seperti dokumentasi statis, membantu menyadari bahwa dokumen sudah usang jauh lebih cepat

29. Small language models

SLM terus membaik dan mulai memberikan kecerdasan yang lebih baik per dolar dibanding LLM untuk kasus penggunaan tertentu
Untuk menurunkan biaya inferensi dan mempercepat workflow agentic, tim-tim mengevaluasi SLM; kemajuan terbaru menunjukkan peningkatan konsisten dalam kepadatan kecerdasan, sehingga menjadi kompetitif dengan LLM lama pada tugas seperti peringkasan dan coding dasar
Ini mencerminkan pergeseran dari “lebih besar selalu lebih baik” ke data berkualitas lebih tinggi, distilasi model, dan kuantisasi
Model seperti Phi-4-mini dan Ministral 3 3B membuktikan bahwa model hasil distilasi mempertahankan banyak kemampuan model guru yang lebih besar
Model ultra-kecil seperti Qwen3-0.6B dan Gemma-3-270M juga kini bisa dijalankan di edge device
Untuk kasus penggunaan agentic yang sebelumnya cukup ditangani LLM lama, pertimbangkan SLM sebagai alternatif berbiaya rendah, latensi rendah, dan kebutuhan resource lebih kecil

30. Tim agent coding

Pada Radar sebelumnya, ini dijelaskan sebagai teknik di mana developer mengorkestrasi subkelompok agent berdasarkan peran untuk berkolaborasi dalam tugas coding
Sejak itu, hambatan adopsi menurun; dukungan subagent telah menjadi fitur default di berbagai tool agent coding yang sudah ada, termasuk fitur agent teams yang menyediakan orkestrasi bawaan di Claude Code
Dalam tim agent, orchestrator utama biasanya mengatur sequencing dan paralelisasi tugas; agent harus bisa berkomunikasi bukan hanya dengan orchestrator, tetapi juga satu sama lain
Kasus penggunaan umum adalah tim reviewer atau kelompok implementer yang menangani bagian berbeda dari aplikasi seperti backend dan frontend
Sebagian industri menggunakan “agent teams” dan "agent swarms" secara saling menggantikan (Claude Code menjelaskan fitur agent teams sebagai “our implementation of swarms”), tetapi pembedaan ini tetap bernilai
Tim agent yang kecil dan disengaja berkolaborasi pada suatu tugas sangat berbeda dari swarm besar dalam hal hambatan masuk, kompleksitas, dan kasus penggunaan

31. Temporal fakes

Perluasan dari gagasan simulasi sistem dunia nyata yang sudah lama digunakan di platform IoT dan industri
Agent coding AI mengurangi upaya membangun simulator sehingga jauh lebih mudah membuat replika dependensi eksternal dengan fidelitas tinggi
Tidak seperti mock tradisional yang mengembalikan pasangan request-response statis, temporal fakes mempertahankan state machine internal dan memodelkan evolusi temporal sistem nyata
Satu tim menggunakan teknik ini saat mengembangkan stack observability untuk data center GPU besar, sehingga dapat menghindari pengadaan hardware fisik
- Pengujian aturan alert, dashboard, dan deteksi anomali pada sistem nyata tidak praktis (misalnya sengaja membuat GPU overheat untuk memverifikasi alert thermal throttle)
- Sebagai gantinya, mereka membangun fake untuk domain hardware seperti NVIDIA DCGM dan fabric InfiniBand dengan Go
- Dengan simulator, skenario kegagalan seperti thermal throttling, badai error XID, link flap, dan kegagalan PSU dapat diaktifkan dengan intensitas dan durasi yang dapat dikonfigurasi, lalu diorkestrasi dengan stack process-compose
Registry pusat mendefinisikan skenario kegagalan yang valid, dan server MCP mengekspos injeksi skenario itu kepada agent
Agent dapat memicu cacat seperti menyuntikkan thermal throttle pada GPU tertentu, lalu memverifikasi bahwa metrik berubah sesuai harapan, alert terpicu, dan dashboard diperbarui
Fidelitas temporal seperti ini membuat teknik tersebut bernilai untuk menguji sistem kompleks dengan kegagalan berantai, tetapi jika fake tidak cukup setia pada perilaku dunia nyata, ada risiko menciptakan rasa percaya diri yang keliru dalam pipeline otomatis

32. Toxic flow analysis untuk AI

Kemampuan agent sedang melampaui praktik keamanan; dengan munculnya agent yang rakus izin (permission-hungry) seperti OpenClaw, semakin banyak tim yang men-deploy agent ke environment yang terekspos pada lethal trifecta — akses ke data privat, paparan pada konten tak tepercaya, dan kemampuan berkomunikasi ke luar
Seiring kemampuan meningkat, attack surface juga bertambah, membuat sistem terekspos pada risiko seperti prompt injection dan tool poisoning
Toxic flow analysis terus diakui sebagai teknik utama untuk menelaah sistem agentic guna mengidentifikasi jalur data yang tidak aman dan vektor serangan potensial
Risiko tidak lagi terbatas pada integrasi MCP; pola serupa juga terlihat pada Agent Skills — pelaku jahat dapat mengemas skill yang tampak berguna tetapi menyisipkan instruksi tersembunyi untuk membocorkan data sensitif
Sangat disarankan agar tim yang mengerjakan agent melakukan toxic flow analysis dan menggunakan tool seperti Agent Scan untuk mengidentifikasi jalur data yang tidak aman sebelum dieksploitasi

33. Vision language models untuk parsing dokumen end-to-end

Parsing dokumen bergantung pada pipeline multitahap yang menggabungkan deteksi tata letak, OCR tradisional, dan skrip pascapemrosesan, dan kesulitan menghadapi tata letak kompleks serta rumus matematika
Parsing dokumen end-to-end menggunakan VLM menyederhanakan arsitektur dengan memperlakukan gambar dokumen sebagai satu modalitas input, sambil mempertahankan urutan baca yang alami dan konten terstruktur
Model open source yang dilatih khusus untuk tujuan ini seperti olmOCR-2, DeepSeek-OCR (3B) yang efisien token, dan PaddleOCR-VL yang sangat kecil menghasilkan hasil yang sangat efisien
Meski VLM mengurangi kompleksitas arsitektur dengan menggantikan pipeline multitahap, sifat generatifnya membuatnya rentan berhalusinasi
Kasus penggunaan dengan toleransi kesalahan rendah masih memerlukan pendekatan hibrida atau OCR deterministik
Tim yang memproses koleksi dokumen dalam jumlah besar perlu mengevaluasi pendekatan terintegrasi ini untuk menentukan apakah pendekatan ini dapat menjaga akurasi sambil menurunkan overhead pemeliharaan jangka panjang

Caution

34. Pembengkakan instruksi agent

File konteks seperti AGENTS.md dan CLAUDE.md seiring waktu menumpuk ringkasan codebase, penjelasan arsitektur, konvensi, dan aturan tambahan
Setiap tambahan berguna secara terpisah, tetapi sering kali menyebabkan agent instruction bloat, sehingga instruksi menjadi panjang dan kadang saling bertentangan
Model cenderung kurang memperhatikan isi yang terkubur di tengah konteks panjang, dan panduan yang berada jauh di dalam riwayat percakapan yang panjang bisa terlewat
Seiring bertambahnya instruksi, kemungkinan aturan penting diabaikan juga meningkat
Banyak tim kini membuat file AGENTS.md dengan AI, tetapi riset menunjukkan bahwa versi yang ditulis manual sering kali lebih efektif daripada yang dihasilkan LLM
Saat menggunakan alat agentic, kita perlu sengaja dan selektif terhadap instruksi, menambahkannya sesuai kebutuhan dan terus menyempurnakannya menjadi set yang minimal dan konsisten
Pertimbangkan penggunaan progressive context disclosure agar hanya instruksi dan kemampuan yang diperlukan untuk tugas saat ini yang dimunculkan

35. Shadow IT yang dipercepat AI

AI terus menurunkan hambatan bagi non-coder untuk membangun sistem kompleks, memungkinkan eksperimen dan validasi awal kebutuhan, tetapi juga menghadirkan risiko shadow IT yang dipercepat AI
Selain platform workflow no-code yang mengintegrasikan AI API seperti OpenAI atau Anthropic, lebih banyak alat agentic seperti Claude Cowork kini tersedia bagi non-coder
Ketika spreadsheet yang diam-diam menjalankan bisnis berevolusi menjadi workflow agentic kustom tanpa tata kelola, hal itu membawa risiko keamanan yang signifikan dan penyebaran solusi pesaing untuk masalah serupa
Membedakan antara workflow sekali pakai dan proses penting yang membutuhkan implementasi yang tahan lama serta siap produksi adalah kunci untuk menyeimbangkan eksperimen dan kontrol
Organisasi perlu memprioritaskan tata kelola sebagai bagian dari strategi adopsi AI mereka, sambil mendorong eksperimen dalam lingkungan yang terkontrol
Sandbox internal yang diinstrumentasi dengan baik dapat memberi non-coder tempat untuk menerapkan prototipe dengan penggunaan yang bisa dilacak
Jika dipasangkan dengan katalog bersama workflow yang sudah ada, ini membantu tim menemukan apa yang telah dibangun dan menghindari upaya yang duplikatif

36. Utang kognitif codebase

Kesenjangan yang terus membesar antara implementasi sistem dan pemahaman bersama tim tentang bagaimana dan mengapa sistem itu bekerja
Saat AI meningkatkan kecepatan perubahan, terutama dengan banyak kontributor atau Coding Agent Swarms, tim bisa kehilangan jejak niat desain dan coupling tersembunyi
Dikombinasikan dengan utang teknis yang terus bertambah, ini membentuk loop penguatan yang membuat sistem semakin sulit dipahami
Pemahaman sistem yang lemah mengurangi kemampuan developer untuk mengarahkan AI secara efektif, memprediksi edge case, dan membimbing agent menjauh dari jebakan arsitektural
Jika tidak dikelola, ini dapat mencapai titik kritis ketika perubahan kecil memicu kegagalan yang tak terduga, perbaikan menimbulkan regresi, dan upaya perapian justru meningkatkan risiko alih-alih menguranginya
Hindari sikap lengah terhadap kode hasil AI dan terapkan langkah penanganan yang eksplisit — feedback sensors for coding agents, pelacakan beban kognitif tim, dan architecture fitness functions untuk terus menegakkan batasan penting saat AI mempercepat output

37. Coding agent swarms

Jika team of coding agents adalah kelompok kecil yang disengaja, maka coding agent swarm menerapkan puluhan hingga ratusan agent pada sebuah masalah, dengan AI yang menentukan komposisi dan ukurannya secara dinamis
Proyek seperti Gas Town dan Ruflo (sebelumnya Claude Flow) adalah contoh yang baik
Pola awal implementasi swarm mulai muncul — pemisahan peran secara hierarkis (orkestrator, supervisor, pekerja sementara), buku besar tugas yang persisten untuk membantu agent membagi dan mengoordinasikan pekerjaan (Gas Town menggunakan beads), serta mekanisme merge untuk menangani konflik pekerjaan paralel
Dua eksperimen swarm sangat menonjol — pembuatan compiler C oleh Anthropic dan eksperimen agent scaling dari Cursor (membangun browser selama satu minggu)
Kedua tim sama-sama memilih kasus penggunaan yang dapat bergantung pada spesifikasi rinci yang sudah ada, termasuk test suite komprehensif yang memberikan umpan balik yang jelas dan terukur untuk compiler C
Kondisi-kondisi ini tidak mewakili pengembangan produk pada umumnya, yang kebutuhannya kurang terdefinisi dan validasinya lebih sulit
Meski demikian, eksperimen-eksperimen ini berkontribusi pada pola yang sedang berkembang yang membuat swarm berumur panjang layak secara teknis, tetapi masih mahal dan jauh dari matang sehingga disarankan berhati-hati dalam adopsinya

38. Coding throughput sebagai ukuran produktivitas

Asisten coding AI memang meningkatkan produktivitas nyata dan cepat menjadi alat standar bagi developer
Namun, semakin banyak organisasi yang mengukur keberhasilan dengan metrik dangkal seperti jumlah baris kode yang dihasilkan atau jumlah pull request (PR)
Jika metrik coding throughput ini digunakan secara terpisah, hal itu dapat berdampak negatif pada perilaku karyawan
Hasilnya sering berupa banjir kode yang tidak selaras, yang memperlambat review, merusak throughput delivery, dan menimbulkan risiko keamanan, ketika engineer mengajukan PR yang dipenuhi output AI yang ditinjau secara tidak memadai sehingga menambah waktu siklus karena bolak-balik berulang dengan reviewer
Metrik semacam ini gagal menangkap upaya sisa yang dibutuhkan untuk menyesuaikan kode buatan AI dengan arsitektur, konvensi, dan pola tim
Ada indikator awal yang lebih bermakna — first-pass acceptance rate, yaitu seberapa sering output AI dapat digunakan dengan pengerjaan ulang minimal
Mengukurnya membantu mengungkap upaya tersembunyi dan memungkinkan tindakan perbaikan, sehingga tim dapat terus meningkatkan penerimaan dengan menyempurnakan prompt, memperbaiki dokumen priming, dan memperkuat percakapan desain
Ini menciptakan siklus positif ketika output AI membutuhkan lebih sedikit revisi, dan first-pass acceptance terhubung secara alami dengan metrik DORA — tingkat penerimaan yang rendah cenderung meningkatkan change failure rate, sementara siklus iterasi yang berulang memperpanjang lead time for changes
Seiring asisten AI menjadi hal yang umum, organisasi perlu mengalihkan fokus dari coding throughput semata ke metrik yang mencerminkan dampak nyata dan hasil delivery

39. Mengabaikan durability dalam workflow agent

Antipola yang diamati di banyak tim, yang dalam pengembangan terlihat berjalan tetapi gagal di production
Tantangan yang dihadapi sistem terdistribusi menjadi makin menonjol saat membangun agent, dan pola pikir yang mengantisipasi kegagalan serta pulih dengan elegan lebih unggul daripada pendekatan reaktif
LLM dan pemanggilan tool bisa gagal karena gangguan jaringan dan crash server, menyebabkan kemajuan agent terhenti serta pengalaman pengguna yang buruk dan biaya operasional yang meningkat
Sebagian sistem dapat mentoleransi hal ini bila tugasnya berumur pendek, tetapi workflow kompleks yang berjalan selama berhari-hari atau berminggu-minggu memerlukan durability
Framework agent seperti LangGraph dan Pydantic AI mulai mengintegrasikan eksekusi yang durable
Ini menyediakan persistensi status untuk progres dan pemanggilan tool, sehingga agent dapat melanjutkan pekerjaan setelah kegagalan
Pada workflow yang melibatkan human in the loop, eksekusi yang durable memungkinkan progres dijeda saat menunggu input
Platform durable computing seperti Temporal, Restate, dan Golem juga menyediakan dukungan agent
Observabilitas untuk pelacakan keputusan dan eksekusi tool bawaan mempermudah debugging dan meningkatkan pemahaman terhadap sistem production
Mulailah dengan dukungan eksekusi durable native dari framework agent, lalu gunakan platform independen ketika workflow menjadi lebih penting atau lebih kompleks

40. MCP by default

Model Context Protocol (MCP) makin mendapat perhatian, dan tim maupun vendor cenderung mengadopsinya sebagai lapisan integrasi default antara agent AI dan sistem eksternal meskipun ada alternatif yang lebih sederhana
Perlu berhati-hati dalam memakai MCP sebagai default, karena MCP memang menambah nilai nyata pada kontrak tool terstruktur, batas autentikasi berbasis OAuth, dan akses multitenan yang dikelola
Namun, ini juga membawa apa yang disebut Justin Poehnelt sebagai "abstraction tax" — setiap lapisan protokol antara agent dan API dapat menyebabkan hilangnya fidelitas, dan API yang kompleks memperparah kehilangan ini
Dalam praktiknya, CLI yang dirancang dengan baik dengan output --help yang bagus, respons JSON terstruktur, dan penanganan error yang dapat diprediksi sudah memberi semua yang dibutuhkan agent tanpa overhead protokol
Seperti catatan Simon Willison, "hampir semua yang dapat dicapai dengan MCP dapat ditangani dengan alat CLI"
Ini bukan penolakan terhadap MCP, tetapi tim sebaiknya menghindari adopsi default dan lebih dulu bertanya apakah sistem mereka benar-benar memerlukan interoperabilitas tingkat protokol
MCP layak digunakan ketika manfaat tata kelola dan integrasinya lebih besar daripada tambahan kompleksitas dan potensi hilangnya fidelitas

41. Lingkungan pengembangan yang di-streaming sebagai piksel

Desktop atau workstation jarak jauh bergaya VDI digunakan untuk pengembangan perangkat lunak, sehingga editing, build, dan debugging dilakukan melalui desktop yang di-streaming alih-alih di mesin lokal atau lingkungan remote yang berpusat pada kode
Organisasi terus mengadopsinya terutama untuk memenuhi tujuan keamanan, standardisasi, dan onboarding, khususnya bagi tim offshore dan program cloud lift-and-shift
Namun dalam kenyataannya, trade-off yang muncul sering buruk — latensi, input lag, dan respons layar yang tidak konsisten menciptakan friksi kognitif terus-menerus, memperlambat kecepatan delivery dan membuat pekerjaan pengembangan sehari-hari lebih melelahkan
Tidak seperti lingkungan pengembangan cloud, Google Cloud Workstations, Coder, dan VS Code Remote Development — yang memindahkan komputasi lebih dekat ke kode tanpa men-streaming seluruh desktop
Setup pixel-streamed memprioritaskan kontrol terpusat dibanding alur kerja developer, dan sering dipaksakan tanpa masukan yang memadai dari engineer yang harus menggunakannya
Kecuali kebutuhan keamanan yang kuat atau kendala regulasi jelas lebih penting daripada biaya produktivitasnya, lingkungan pengembangan pixel-streamed tidak direkomendasikan sebagai pilihan default untuk software delivery

[Platforms]

Adopt

— Tidak ada

Trial

42. AG-UI Protocol

Protokol dan library terbuka yang dirancang untuk menstandarkan komunikasi antara antarmuka pengguna yang kaya dan agent AI backend
Secara historis, membangun UI agentic memerlukan pekerjaan plumbing khusus untuk kolaborasi dua arah yang mempertahankan status, dan AG-UI mengatasinya dengan arsitektur berbasis event yang konsisten yang mendukung transport seperti server-sent events (SSE) dan WebSockets
Mendukung streaming tahap penalaran, sinkronisasi status, dan rendering komponen UI dinamis
Namun, lanskap arsitektur antarmuka agent berubah cepat, dan AG-UI sengaja ditempatkan di luar MCP untuk berperan sebagai lapisan antarmuka antara frontend dan backend agent
Pendekatan lain juga mulai muncul, yaitu aplikasi berbasis MCP baru yang mengemas HTML dan widget UI langsung di dalam server MCP atau skill
Saat komponen UI dapat di-embed dan disajikan bersama tool — pola yang terkait dengan standar terdekat seperti MCP-UI — hal ini menimbulkan pertanyaan apakah lapisan protokol UI terpisah seperti AG-UI masih diperlukan
Ini tetap menjadi pilihan yang solid untuk memisahkan UX frontend dan orkestrasi backend, tetapi perannya perlu dievaluasi dengan mempertimbangkan tren integrasi logika tool dan UI di dalam ekosistem MCP

43. Apache APISIX

Gateway open-source, berkinerja tinggi, dan cloud-native yang mengatasi keterbatasan solusi lama berbasis Nginx
Dibangun di atas LuaJIT milik Nginx dan OpenResty, menggunakan etcd sebagai penyimpanan konfigurasi untuk menghilangkan latensi akibat reload, sehingga cocok untuk arsitektur microservice dinamis dan serverless
Kekuatan utamanya adalah arsitektur yang sepenuhnya dinamis dan dapat diperluas dengan plugin, dengan ekosistem plugin multibahasa termasuk API dan WASM untuk menyesuaikan manajemen trafik, keamanan, dan observabilitas
Dukungan untuk Kubernetes Gateway API memungkinkan Apache APISIX digunakan sebagai gateway Kubernetes, menjadikannya kandidat kuat untuk menggantikan ingress controller Nginx lama

44. AWS Bedrock AgentCore

Platform agentic untuk membangun, menjalankan, dan mengoperasikan agen secara aman dalam skala besar tanpa overhead pengelolaan infrastruktur, mirip dengan GCP Vertex AI Agent Builder dan Azure AI Foundry Agent Service
Memang mudah mengadopsi platform ini sebagai kotak hitam monolitik, tetapi keberhasilan lebih besar dicapai dengan arsitektur yang terperinci dan terpisah — gunakan runtime AgentCore untuk kebutuhan produksi seperti isolasi sesi, keamanan, dan observabilitas, sementara logika orkestrasi tetap berada di framework eksternal seperti LangGraph
Pemisahan perhatian seperti ini memungkinkan pemanfaatan keunggulan infrastruktur terkelola sambil tetap menjaga fleksibilitas untuk beradaptasi saat lingkungan LLM berkembang
Fokus yang mengutamakan runtime memungkinkan organisasi memindahkan workload agentic ke produksi secara bertahap tanpa menyerahkan kendali logika inti ke lapisan orkestrasi spesifik vendor

45. Graphiti

Mesin knowledge graph temporal open-source dari Zep yang menunjukkan kelayakan produksi untuk menyelesaikan masalah memori LLM
Sementara vector store datar dalam pipeline RAG gagal melacak perubahan fakta dari waktu ke waktu, Graphiti mengumpulkan data sebagai episode yang terpisah dan menjaga jendela validitas bitemporal pada edge graf, sehingga fakta lama dibatalkan alih-alih ditimpa
Berbeda dari GraphRAG yang berorientasi batch, graf diperbarui secara bertahap, dan pencarian hibrida yang menggabungkan semantic search, BM25, dan traversal graf memberikan pencarian subdetik tanpa pemanggilan LLM saat query
Dua faktor mendorong pergeseran ini — benchmark yang ditinjau sejawat melaporkan peningkatan akurasi 18,5% dan penurunan latensi 90%, serta peluncuran server MCP kelas satu yang memungkinkan agen kompatibel Model Context Protocol menambahkan memori temporal permanen dengan upaya integrasi minimal
Adopsi komunitas yang kuat menjadi sinyal tambahan kesiapan produksi
Neo4j adalah backend utama, dengan FalkorDB sebagai alternatif yang lebih ringan
Perlu mempertimbangkan biaya ekstraksi LLM per penulisan dan mengunci dependensi mengingat status rilis sebelum 1.0

46. Langfuse

Platform rekayasa LLM open-source yang menangani observabilitas, manajemen prompt, evaluasi, dan pengelolaan dataset
Sejak evaluasi terakhir, proyek ini telah jauh lebih matang; arsitektur v3 memperkenalkan ClickHouse, Redis, dan S3 sebagai komponen backend, sehingga skalabilitas meningkat tetapi kompleksitas self-hosting juga bertambah
SDK Python dan TypeScript sama-sama dibangun secara native di atas OpenTelemetry, sehingga sangat cocok bagi tim yang sudah menggunakan observabilitas berbasis OTEL
Fitur baru seperti SDK experiment runner dan dukungan structured output untuk eksperimen prompt memperluas Langfuse dari sekadar pelacakan menjadi alur kerja evaluasi yang sistematis
Layak dipertimbangkan di ruang yang makin padat, termasuk Arize Phoenix, Helicone, dan LangSmith
Tim yang terutama membangun di atas Pydantic AI juga dapat mempertimbangkan Pydantic Logfire, yang mengambil pendekatan lebih luas sebagai platform observabilitas OTEL full-stack alih-alih kumpulan alat khusus LLM
Pilihan tepercaya bagi tim yang membutuhkan pelacakan, evaluasi, dan manajemen prompt terintegrasi dalam satu platform yang bisa di-self-host, tetapi jika kebutuhan utama hanya visibilitas biaya dan latensi pada lapisan model, perlu dievaluasi apakah alat yang lebih sempit seperti Helicone sudah memadai

47. Port

Portal developer internal komersial yang dirancang untuk meningkatkan pengalaman pengembang, dengan menyediakan satu sumber kebenaran untuk workflow self-service bagi tim platform melalui sentralisasi aset perangkat lunak, otomatisasi workflow, dan penegakan standar engineering
Menjadi makin penting saat organisasi menstandarkan workflow engineering sambil berupaya mengekspos template, API, otomatisasi, dan agen dalam bentuk yang benar-benar bisa digunakan pengembang
Selain sebagai portal mandiri, Port juga dapat digunakan langsung dari IDE melalui API dan lapisan MCP-nya
Cocok untuk organisasi yang menginginkan kapabilitas portal yang siap pakai tanpa berinvestasi besar pada platform engineering
Dalam keterlibatan dengan klien, solusi ini memungkinkan tim platform yang relatif kecil menghadirkan self-service yang efektif dengan cepat sambil mendukung ribuan pengembang
Layak dievaluasi bagi organisasi yang membutuhkan kapabilitas portal developer internal dengan cepat dan dapat menerima platform komersial serta batasan ketergantungan vendor

48. Replit

Platform pengembangan kolaboratif cloud-native yang menghadirkan lingkungan pengembangan instan, coding real-time, dan asistensi AI terintegrasi langsung di browser
Menggabungkan editor, runtime, deployment, dan workflow coding AI ke dalam satu platform terpadu, sehingga pengembang dapat langsung mulai coding tanpa setup lokal
IDE kolaboratif berbasis AI sangat membantu mengurangi friksi onboarding dan cocok untuk prototyping bersama dalam tim
Juga sangat efektif untuk sesi pelatihan, berbagi pengetahuan, dan bootcamp
Sebagian orang mungkin memandang Replit sebagai tempat untuk proyek hobi berbantuan AI, tetapi lingkungannya cukup kuat untuk bersaing dengan IDE lokal tradisional, sehingga iterasi dan kolaborasi menjadi jauh lebih mudah

49. SigNoz

Platform observabilitas open-source yang native OpenTelemetry dengan dukungan terpadu untuk log, metrik, dan trace
Mengatasi kebutuhan APM dan instrumentasi pada microservice modern dan arsitektur terdistribusi sambil menghindari vendor lock-in
Memanfaatkan ClickHouse sebagai database kolumnar default untuk menyediakan penyimpanan yang skalabel, berkinerja tinggi, dan hemat biaya dengan query cepat, sehingga memposisikan diri sebagai alternatif self-hosted yang kuat terhadap platform seperti Datadog
Mendukung query yang fleksibel melalui PromQL dan ClickHouse SQL, serta notifikasi ke banyak kanal alert
Dalam praktiknya, SigNoz terbukti mengurangi konsumsi sumber daya infrastruktur dan total biaya observabilitas tanpa menurunkan performa
Layanan cloud terkelola memang tersedia, tetapi image Docker dan chart Helm yang siap pakai menjadi pilihan praktis bagi organisasi yang lebih memilih mempertahankan kendali atas data dan infrastruktur mereka

Assess

50. Agent Trace

Spesifikasi terbuka yang diusulkan Cursor untuk standarisasi atribusi kode AI
Dengan meningkatnya adopsi agen pemrograman, pemahaman tentang siapa yang memodifikasi kode meluas dari pengembang manusia hingga mencakup perubahan yang dihasilkan AI
Alat lama seperti git blame dapat menunjukkan bahwa baris kode telah diubah, tetapi gagal menangkap apakah perubahan dilakukan oleh manusia, AI, atau keduanya
Agent Trace mendefinisikan cara melacak perubahan kode dengan pendekatan netral vendor, tanpa menentukan cara penyimpanan jejaknya
Kompatibel dengan banyak sistem kontrol versi termasuk Git, Mercurial, dan Jujutsu
Spesifikasi ini mendefinisikan tipe kontributor seperti human, AI, mixed, dan unknown serta rekaman jejak yang menjelaskan sumber tiap kontribusi
Ada sinyal awal adopsi melalui dukungan dari alat seperti Cline dan OpenCode serta implementasi seperti Git AI

51. ClickStack

Platform observability open-source kompatibel OpenTelemetry yang menyatukan log, trace, metric, dan session dalam satu penyimpanan data berperforma tinggi berbasis ClickHouse
Seiring pertumbuhan infrastruktur dan naiknya biaya observability, banyak tim kesulitan dengan toolchain telemetri yang terfragmentasi dan platform vendor yang mahal
ClickStack memanfaatkan penyimpanan kolumnar ClickHouse untuk memungkinkan kueri sub-detik ber-kardinalitas tinggi di seluruh data telemetri skala besar, sehingga memberi fondasi observability yang lebih sederhana dan hemat biaya

52. Coder

Alternatif yang baik untuk pixel-streamed development environments, dengan memisahkan tempat kode dijalankan dari cara pengembang berinteraksi
Alih-alih melakukan streaming seluruh antarmuka desktop, pengembang menghubungkan IDE lokal seperti VS Code atau browser ke lingkungan jarak jauh, menghasilkan pengalaman yang lebih responsif tanpa mengorbankan kegunaan
Kode berjalan di infrastruktur jarak jauh yang dapat diskalakan, dan lingkungan didefinisikan serta dikelola sebagai kode, sehingga tim bisa menstandarkan setup pengembangan dan menyederhanakan onboarding pengembang baru
Juga memudahkan penyediaan akses terkontrol ke sistem internal dan penyederhanaan akses untuk agen pemrograman AI yang telah disetujui sebelumnya
Coder diposisikan sebagai titik tengah antara pengembangan lokal dan desktop virtual yang sepenuhnya tervirtualisasi — menghadirkan kontrol terpusat dan tata kelola tanpa batasan kegunaan dari VDI pixel-streamed
Opsi yang baik bagi organisasi yang membutuhkan lingkungan eksekusi jarak jauh atau terkontrol, terutama yang memerlukan komputasi lebih tinggi atau akses yang aman
Perlu mengevaluasi overhead operasional dan tanggung jawab keamanan yang menyertai pengelolaan lingkungan seperti ini

53. Databricks Agent Bricks

Seiring pendekatan berbasis agen menjadi arus utama, platform data berevolusi untuk mendukung workload ini secara native, bukan sebagai modul tambahan
Databricks Agent Bricks menyediakan komponen siap pakai yang dioptimalkan otomatis untuk pola AI umum seperti asisten pengetahuan dan analis data
Mengikuti pendekatan deklaratif — pengembang mendefinisikan tujuan dan data dasar, sementara framework menangani eksekusi dan optimisasi
Dengan menyederhanakan LLMOps dan mengurangi upaya yang dibutuhkan untuk kurasi data, tim dapat lebih fokus pada hasil bisnis daripada boilerplate
Satu tim menggunakannya bersama agen kustom untuk mengevaluasi dan membangun solusi RAG kompleks untuk R&D praklinis
Jika sudah berinvestasi di ekosistem Databricks dan sedang mengeksplorasi pendekatan berbasis agen untuk use case umum seperti chatbot dan ekstraksi dokumen, ini layak dipertimbangkan

54. DuckLake

Format data lake dan katalog terpadu yang menyederhanakan arsitektur lakehouse dengan menggunakan database SQL standar untuk katalog dan pengelolaan metadata
Sementara format tabel terbuka tradisional seperti Iceberg atau Delta Lake bergantung pada struktur metadata berbasis file yang kompleks, DuckLake menyimpan metadata di database katalog seperti SQLite, PostgreSQL, atau DuckDB, sambil menyimpan data sebagai file Parquet di disk lokal atau object storage kompatibel S3
Pendekatan hibrida ini meningkatkan latensi perencanaan kueri dan keandalan transaksi saat pembaruan bersamaan
DuckDB berperan sebagai mesin kueri melalui ekstensi ducklake, menyediakan antarmuka SQL yang familier untuk operasi DDL dan DML standar
Mempertahankan karakteristik lakehouse seperti partisi, namun menghilangkan indeks serta primary/foreign key
Dengan dukungan untuk time travel, evolusi skema, dan kepatuhan ACID, ini menawarkan opsi berkompleksitas rendah bagi tim yang mengejar stack analitik yang mandiri
Meski masih pada tahap kematangan awal, ini adalah alternatif yang menjanjikan dan ringan untuk arsitektur lakehouse tradisional
Cocok untuk lingkungan data yang disederhanakan dan ingin menghindari overhead operasional yang terkait dengan ekosistem berbasis Spark atau Trino

55. FalkorDB

Database graf berbasis Redis yang mendukung Cypher, cocok bagi tim yang menginginkan kemampuan graf tanpa mengadopsi platform graf yang berat
Opsi praktis untuk organisasi yang membangun workload AI dan aplikasi kaya relasi, ketika friksi operasional yang rendah penting dan layanan graf berbasis server lebih disukai daripada penyimpanan tersemat
Arsitekturnya menjanjikan dan model pengembangnya mudah diakses, tetapi sebelum keputusan adopsi yang luas, perlu memvalidasi perilaku produksi FalkorDB terkait skalabilitas, alat operasional, dan kematangan ekosistem jangka panjang dari FalkorDB

56. Google Dialogflow CX

Platform AI percakapan terkelola dari Google Cloud yang menggabungkan state machine berbasis graf yang dibangun dengan Flows dan Pages dengan kemampuan generatif berbasis Vertex AI Gemini
Sebelumnya, pendahulunya yaitu Dialogflow pernah dilacak di Radar
CX mewakili redesain besar, dan mendapat perhatian setelah Google mengintegrasikan model Vertex AI Gemini pada 2024, memperkenalkan Generative Playbooks untuk agen berbasis instruksi dan Data Store RAG yang me-landaskan respons pada konten yang telah diindeks
Digunakan untuk membangun agen penemuan data berbasis bahasa alami, dengan memilih Dialogflow CX dibanding pendekatan SDK kustom karena lingkungan low-code dan Generative Playbooks
Dikonfigurasi dengan few-shot prompting untuk menerjemahkan kueri bahasa alami ke SQL
Tim yang membangun di atas Google Cloud menemukan penyampaian yang lebih cepat saat membangun antarmuka bahasa alami di atas data internal terstruktur dibanding stack agen kustom
Namun, tidak ada free tier, ada ketergantungan mendalam pada Google Cloud yang membawa vendor lock-in yang signifikan, dan upaya context engineering perlu direncanakan

57. MCP Apps

Ekstensi resmi pertama dari Model Context Protocol, yang memungkinkan server MCP mengembalikan antarmuka HTML interaktif yang dirender langsung di dalam percakapan sebagai dashboard, formulir, atau visualisasi
Dikembangkan bersama oleh Anthropic, OpenAI, dan kontributor open-source, menstandarkan skema resource ui:// yang memungkinkan alat mendeklarasikan template UI yang dirender dalam sandboxed iframe dan menurun dengan elegan ke teks jika host tidak mendukung UI
Berbeda dengan AG-UI yang bekerja sebagai lapisan library terpisah, MCP Apps mengemas UI langsung di dalam server MCP
Dengan desain dua arah, model dapat mengamati tindakan pengguna, sementara antarmuka menangani data real-time dan manipulasi langsung yang tidak bisa dilakukan teks
Klien termasuk Claude, ChatGPT, VS Code, dan Goose sudah merilis dukungan
Tim yang mengeksplorasi interaksi agen yang lebih kaya perlu menilai apakah kompleksitas tambahan dibanding respons teks biasa memang sepadan untuk use case mereka

58. Monarch

Kerangka kerja pemrograman terdistribusi open-source yang membawa kesederhanaan workload PyTorch pada satu mesin ke klaster GPU besar
Menyediakan Python API untuk membuat proses dan actor jarak jauh, lalu mengelompokkannya ke dalam koleksi mesh yang mendukung broadcast messaging
Menyediakan toleransi kesalahan melalui supervision tree, sehingga kegagalan merambat ke atas hierarki untuk penanganan error yang rapi dan pemulihan yang terperinci
Mendukung transfer RDMA point-to-point untuk perpindahan memori GPU·CPU yang efisien, serta menyediakan abstraksi tensor terdistribusi yang memungkinkan actor bekerja dengan tensor yang dipartisi di seluruh proses sambil tetap mempertahankan model pemrograman imperatif
Monarch dibangun di atas backend Rust berkinerja tinggi
Masih pada tahap awal pengembangan, tetapi abstraksi yang membuat tensor terdistribusi bekerja seperti lokal sangat kuat dan berpotensi sangat mengurangi kompleksitas pelatihan AI terdistribusi skala besar

59. Neutree

Platform open-source untuk mengelola dan melayani LLM di infrastruktur privat, memosisikan diri sebagai lapisan layanan model untuk enterprise AI
Menyediakan control plane terpadu untuk manajemen siklus hidup model, inference serving, dan penjadwalan komputasi di berbagai hardware heterogen seperti akselerator NVIDIA·AMD·Intel
Seiring organisasi beralih dari hosted API ke deployment self-hosted yang terkelola, Neutree menjawab celah yang jelas — mengoperasikan workload LLM dengan kapabilitas kelas enterprise seperti multitenancy, kontrol akses, akuntansi penggunaan, dan abstraksi infrastruktur
Memisahkan model serving dari logika aplikasi sehingga tim dapat menerapkan, menskalakan, dan merutekan model di berbagai lingkungan termasuk bare metal, VM, dan container tanpa terikat kuat pada penyedia cloud tertentu
Namun, karena masih relatif baru, adopsinya perlu didekati dengan hati-hati
Ekosistem, kematangan operasional, dan kapabilitas integrasinya masih terus berkembang dibanding platform ML yang lebih mapan
Menjanjikan, tetapi paling cocok untuk tim yang bersedia berinvestasi dalam mengevaluasi dan membentuk infrastruktur enterprise AI yang sedang muncul

60. OptScale

Platform FinOps multicloud open-source yang mendukung workload AI/ML berat, di mana biaya GPU dan eksperimen dapat melonjak dengan cepat
Mengumpulkan data tagihan dan penggunaan dari cloud API, lalu menggabungkan visibilitas biaya, rekomendasi optimisasi, pelacakan anggaran, dan deteksi anomali dalam satu sistem dengan alert berbasis kebijakan yang selaras dengan tim atau struktur bisnis
Dibandingkan OpenCost, OptScale menyediakan analisis tingkat Kubernetes sekaligus mencakup kasus penggunaan FinOps non-Kubernetes yang lebih luas
Menawarkan lebih banyak kendali dan lebih sedikit vendor lock-in dibanding suite enterprise seperti IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost, dan Flexera One
Trade-off-nya adalah overhead operasional yang lebih tinggi, kompleksitas deployment, edge case pada connector, serta kekhawatiran terkait kebersihan keamanan image container
Perlu diperlakukan bukan sebagai produk plug-and-play, melainkan investasi pada kapabilitas platform

61. Rhesis

Platform pengujian open-source untuk LLM dan aplikasi agentic, yang memungkinkan tim mendefinisikan perilaku yang diharapkan dalam bahasa alami, menghasilkan skenario pengujian adversarial, dan mengevaluasi hasil baik melalui UI maupun SDK atau API
Sementara pendekatan pengujian tradisional mengasumsikan perilaku deterministik, sistem AI gagal dengan cara yang lebih subtil — termasuk jailbreak, interaksi multi-turn, pelanggaran kebijakan, dan edge case yang bergantung pada konteks
Platform yang berguna bagi tim yang membutuhkan lebih dari sekadar evaluasi prompt sederhana
Fitur seperti conversation simulator, pengujian adversarial, tracing berbasis OpenTelemetry, dan self-hosting melalui Docker adalah cara praktis untuk membawa tim produk, domain, dan engineering ke dalam workflow pengujian bersama
Manfaat utamanya adalah peningkatan validasi pra-produksi untuk sistem non-deterministik
Perlu mempertimbangkan trade-off umum seperti biaya evaluasi, keterbatasan metrik LLM-as-judge, dan kebutuhan akan requirement yang terdefinisi dengan baik sebelum platform dapat memberikan nilai
Layak dievaluasi bagi tim yang membangun sistem LLM atau agentic yang membutuhkan pengujian kolaboratif dan dapat diulang di luar pengecekan prompt dasar

62. RunPod

Saat organisasi meningkatkan eksperimen pelatihan dan fine-tuning LLM, hyperscaler seperti AWS dan Google Cloud dapat menimbulkan biaya tinggi serta ketersediaan hardware yang terbatas
RunPod menawarkan alternatif yang hemat biaya untuk workload AI yang intensif komputasi
Beroperasi sebagai marketplace GPU yang terdistribusi secara global, menyediakan akses on-demand ke berbagai hardware mulai dari klaster H100 kelas enterprise hingga RTX 4090 kelas konsumen, sering kali dengan biaya yang jauh lebih rendah dibanding penyedia cloud tradisional
Opsi praktis yang layak dievaluasi bagi tim yang membutuhkan infrastruktur fleksibel dan ramah anggaran untuk mengembangkan, melatih, dan menerapkan model AI tanpa komitmen jangka panjang atau vendor lock-in

63. Sprites

Lingkungan sandbox stateful dari Fly.io yang dirancang untuk eksekusi terisolasi agen coding AI
Sementara kebanyakan sandbox agen bersifat ephemeral dan dibuat lalu hilang demi sebuah tugas, Sprites menyediakan lingkungan Linux persisten dengan kemampuan checkpoint dan restore tanpa batas
Developer dapat membuat snapshot seluruh status lingkungan termasuk dependency yang terpasang, konfigurasi runtime, dan perubahan file system, lalu melakukan rollback bila agen keluar jalur
Ini menangkap status sistem yang tidak dilacak oleh version control, melampaui apa yang dapat dipulihkan oleh Git saja
Seiring tim semakin mengadopsi sandboxed execution for coding agents sebagai default yang masuk akal, Sprites mewakili salah satu ujung spektrum — pendekatan stateful non-ephemeral yang menukar kesederhanaan container ephemeral dengan opsi pemulihan yang lebih kaya
Tim yang mengevaluasi sandboxing agen dapat mempertimbangkan Sprites bersama alternatif ephemeral seperti Dev Containers, sesuai kebutuhan dan workflow mereka

64. torchforge

Library reinforcement learning native PyTorch yang dirancang untuk post-training skala besar pada language model
Menyediakan abstraksi tingkat tinggi yang memisahkan logika algoritme dari concern infrastruktur, dengan mengorkestrasi Monarch untuk coordination, vLLM untuk inference, dan torchtitan untuk pelatihan terdistribusi
Pendekatan ini memungkinkan peneliti mengekspresikan workflow reinforcement learning yang kompleks dengan API mirip pseudocode, lalu menskalakan workload ke ribuan GPU tanpa harus mengelola concern level rendah seperti sinkronisasi resource, penjadwalan, dan toleransi kesalahan
Dengan memisahkan "apa" (desain algoritme) dari "bagaimana" (eksekusi terdistribusi), torchforge menyederhanakan eksperimen dan iterasi dalam sistem alignment skala besar
Langkah yang berguna untuk membuat teknik post-training tingkat lanjut lebih mudah diakses, tetapi tim tetap perlu mengevaluasi kematangan dan kecocokannya dalam infrastruktur ML yang ada

65. torchtitan

Platform native PyTorch untuk pre-training skala besar model AI generatif, menyediakan implementasi referensi yang rapi dan modular untuk pelatihan terdistribusi berkinerja tinggi
Menggabungkan primitive terdistribusi tingkat lanjut ke dalam sistem yang kohesif untuk mendukung paralelisasi 4D pada data, tensor, pipeline, dan context
Karena pelatihan model berskala Llama 3.1 405B menuntut skala dan efisiensi yang besar, torchtitan menyediakan fondasi praktis untuk membangun dan mengoperasikan workload pelatihan besar
Desain modularnya memudahkan tim bereksperimen dan mengembangkan strategi paralelisasi sambil tetap menjaga kesiapan produksi
Langkah yang berguna untuk standarisasi pelatihan model skala besar di ekosistem PyTorch, terutama cocok untuk tim yang membangun infrastruktur pre-training mereka sendiri

[Tools]

Adopt

66. Axe-core

alat pengujian open source untuk mendeteksi masalah aksesibilitas pada situs web dan aplikasi berbasis HTML lainnya
memeriksa halaman agar mematuhi standar seperti WCAG — termasuk tingkat kesesuaian A, AA, AAA — serta menandai praktik terbaik aksesibilitas umum
sejak pertama kali muncul di Radar sebagai Trial pada 2021, beberapa tim telah mengadopsi Axe-core bersama klien
aksesibilitas semakin menjadi atribut kualitas yang wajib, dan di Eropa regulasi seperti European Accessibility Act mewajibkan organisasi memenuhi persyaratan aksesibilitas layanan digital
cocok dengan alur kerja pengembangan modern melalui pengaktifan pemeriksaan otomatis di pipeline CI
membantu tim mencegah regresi, menjaga kepatuhan, dan mendapatkan umpan balik dini selama pengembangan, terutama untuk memastikan aksesibilitas menjadi bagian dari loop umpan balik saat dukungan AI dan alat coding agentic diadopsi secara luas

67. Claude Code

alat coding AI agentic dari Anthropic untuk merencanakan dan mengeksekusi alur kerja kompleks bertahap
tim di dalam dan luar Thoughtworks rutin menggunakannya untuk pengiriman software produksi, dan alat ini diperlakukan luas sebagai tolok ukur kapabilitas dan kegunaan, sehingga dipindahkan ke Adopt
ekosistem agen CLI berkembang cepat dengan alat seperti Codex CLI dari OpenAI, Gemini CLI dari Google, OpenCode, dan pi, tetapi Claude Code tetap menjadi opsi pilihan banyak tim
penggunaannya telah meluas melampaui penulisan kode menjadi eksekusi alur kerja yang mencakup spesifikasi, story, konfigurasi, infrastruktur, dokumentasi, dan proses bisnis yang didefinisikan dengan markdown
terus memperkenalkan fitur yang kemudian diikuti alat lain, seperti skills, subagent, kendali jarak jauh, dan alur kerja tim agentic
tim yang mengadopsinya tetap memerlukan praktik operasional yang disiplin dan pairing, karena coding agentic mengalihkan upaya developer dari implementasi manual ke penjabaran niat, batasan, dan batas review
dapat mempercepat pengiriman, tetapi juga meningkatkan risiko sikap terlalu santai terhadap kode hasil AI, yang membuat sistem lebih sulit dipelihara dan dikembangkan baik oleh manusia maupun agen
ada minat yang meningkat pada context engineering (kesadaran topik, pemilihan konteks berbasis cakupan) dan curated shared instructions sebagai cara menerapkan harness engineering agar alur kerja agentic lebih andal

68. Cursor

bersama Claude Code, konsisten muncul sebagai salah satu agen coding yang paling luas diadopsi dan pilihan default bagi tim delivery
telah matang menjadi lingkungan agentic yang komprehensif dengan fitur seperti plan mode, hooks, dan subagents
agen berbasis terminal juga populer, tetapi banyak developer mendapati pengawasan agen di dalam IDE memberikan pengalaman yang lebih kaya untuk meninjau dan menyempurnakan rencana sebelum eksekusi
dengan adopsi Agent Client Protocol, hambatan bagi basis pengguna besar JetBrains menjadi lebih rendah, sehingga kapabilitas Cursor bisa diakses dari IDE tersebut
kemampuan memeriksa langkah agen individual atau melakukan rollback ke langkah sebelumnya saat rencana menyimpang dianggap sangat bernilai
pemanfaatan Agent Skills membantu tim mengemas instruksi yang dapat digunakan ulang dan menstandarkan cara agen berinteraksi dengan codebase yang kompleks
keuntungan produktivitasnya jelas, tetapi otonomi agentic tetap memerlukan pengujian otomatis yang ketat dan pengawasan manusia untuk menangkap regresi halus

69. Kafbat UI

web UI open source gratis untuk memantau dan mengelola cluster Apache Kafka
sangat berguna ketika tim perlu memeriksa payload yang sulit dibaca selama debugging sehari-hari
tim sering terhambat saat men-debug pesan terenkripsi, dan dukungan SerDes bawaan maupun yang dapat dipasang sebagai plugin pada Kafbat UI menyediakan cara praktis untuk menerapkan dekripsi atau decoding kustom agar pesan bisa dibaca kembali
memberikan umpan balik lebih cepat dan pengalaman operasional yang lebih baik bagi developer serta tim support dibanding skrip debug sekali pakai
direkomendasikan untuk lingkungan yang sangat bergantung pada Kafka, di mana inspeksi pesan yang aman dan penyelesaian masalah yang efisien seharusnya menjadi praktik standar

70. mise

sejak evaluasi terakhir, telah berevolusi dari alternatif berperforma tinggi untuk asdf menjadi frontend default untuk lingkungan pengembangan
menyatukan tiga kebutuhan yang sebelumnya terfragmentasi — manajemen versi alat dan bahasa, manajemen variabel lingkungan, serta eksekusi task — ke dalam satu alat berbasis Rust berperforma tinggi, yang dikonfigurasi melalui file deklaratif mise.toml
mise mudah dikonfigurasi dan bekerja baik dengan pipeline CI/CD
melalui integrasi dengan Cosign dan GitHub Artifact Attestations, ia menambahkan lapisan keamanan rantai pasok yang sering hilang pada version manager lain
menjadi pilihan default yang direkomendasikan bagi tim yang ingin menstandarkan pengaturan environment developer
sangat berguna di lingkungan polyglot dengan banyak microservice ketika codebase secara bersamaan mengadopsi versi bahasa baru
juga dapat bekerja dengan alat yang sudah ada per bahasa, sehingga tim tidak perlu bermigrasi semuanya sekaligus

Trial

71. cargo-mutants

alat mutation testing untuk Rust, membantu bergerak melampaui metrik code coverage yang sederhana
secara otomatis menyuntikkan bug kecil yang disengaja, seperti pertukaran operator atau pengembalian nilai default, untuk memverifikasi apakah pengujian yang ada benar-benar menangkap regresi
pendekatan tanpa konfigurasi sangat efektif, dan tidak seperti alat sebelumnya, tidak memerlukan perubahan pada source tree
memberikan loop umpan balik yang berguna bagi tim yang baru mengenal Rust, membantu mengidentifikasi edge case yang terlewat dan meningkatkan keandalan pengujian unit maupun integrasi
cargo-mutants adalah implementasi khusus dari mutation testing, yang juga sedang dicoba di ekosistem lain
biaya utamanya adalah peningkatan waktu eksekusi pengujian, karena tiap mutant memerlukan incremental build
untuk mengelolanya, disarankan menargetkan modul tertentu saat pengembangan lokal atau menjalankan keseluruhan suite secara asinkron di CI
terkadang perlu menyaring mutant yang secara logis setara, tetapi peningkatan keandalan pengujian yang dihasilkan lebih besar daripada noise tambahan

72. Claude Code plugin marketplace

Sebelumnya, berbagi perintah kustom, agen spesialis, server MCP, dan skill merupakan proses manual di mana developer menyalin-tempel instruksi dari Confluence atau sumber eksternal lainnya
Akibatnya, version drift sering terjadi, dan anggota tim menggunakan instruksi proyek yang sudah usang
Tim memanfaatkan Claude Code plugin marketplace untuk menggunakan model distribusi berbasis Git guna menyebarkan perintah, prompt, dan skill bersama
Dengan meng-host marketplace tim internal di GitHub atau platform serupa, organisasi dapat mendistribusikan artefak ini dengan lebih aman dan konsisten
Developer dapat langsung menyinkronkan workflow dan alat berbasis AI ke lingkungan lokal melalui CLI
Agen coding lain seperti Cursor juga mendukung plugin marketplace tim, sehingga memungkinkan cara yang lebih ringkas dan terkelola untuk berbagi artefak ini

73. Dev Containers

Menggunakan file konfigurasi devcontainer.json sebagai cara terstandarisasi untuk mendefinisikan lingkungan pengembangan dalam kontainer yang dapat direproduksi
Awalnya dirancang untuk memberi tim pengaturan pengembangan yang konsisten, tetapi ditemukan kasus penggunaan baru yang menarik sebagai lingkungan eksekusi sandbox untuk agen coding
Saat agen coding AI dijalankan di dalam Dev Container, ia terisolasi dari file system host, kredensial, dan jaringan, sehingga tim dapat memberikan hak akses luas kepada agen tanpa membahayakan mesin host
Spesifikasi terbuka ini didukung secara native di alat berbasis VS Code seperti VS Code dan Cursor
DevPod memperluas dukungan devcontainer ke workflow editor atau terminal apa pun melalui SSH
Menerapkan pendekatan default yang ephemeral (yakni, kontainer dibangun ulang dari konfigurasi setiap kali dijalankan), memberikan batas keamanan yang bersih dengan konsekuensi harus memasang ulang alat dan dependensi
Untuk tim yang membutuhkan state persisten atau kemampuan checkpoint dan restore, ada pendekatan lain seperti Sprites
Selain sandboxing agen, ini juga memberi manfaat keamanan supply chain, karena toolchain didefinisikan dalam konfigurasi deklaratif sehingga mengurangi paparan terhadap paket yang dikompromikan dan dependensi tak terduga

74. Figma Make

Sebelumnya merupakan blip self-serve UI prototyping with GenAI, dan kini teknik ini telah diadopsi luas oleh tim pengembangan termasuk manajer produk dan desainer untuk membuat prototipe high-fidelity yang dapat diuji pengguna
Figma Make adalah opsi yang kuat karena memanfaatkan komponen dan layer nyata dari design system, sehingga hasilnya sangat mirip dengan aplikasi produksi
Menggunakan model AI kustom yang dilatih dengan pola desain berkualitas tinggi
Tim menggunakannya untuk membuat layar desain baru, meningkatkan layar yang ada, dan membangun prototipe yang bisa dibagikan untuk mengumpulkan umpan balik pengguna dengan cepat

75. OpenAI Codex

Berevolusi menjadi alat coding agentic mandiri yang tersedia melalui aplikasi macOS dan CLI
Dirancang untuk pendelegasian pekerjaan secara otonom — ketika diberi prompt, alat ini merencanakan, mengimplementasikan, dan mengiterasi lintas file dengan intervensi minimal
Efektif sebagai alat pembuatan draf cepat, terutama berguna untuk pekerjaan greenfield dan tugas implementasi berulang
Namun, OpenAI Codex cenderung mengusulkan pola library yang logis tetapi sudah usang secara fungsional, sehingga pengujian otomatis dan review manusia tetap wajib
Seperti alat agentic lain dalam Radar ini, risiko akumulasi technical debt yang halus itu nyata, dan besarnya sebanding dengan tingkat otonomi yang diberikan tim

76. Typst

Sistem typesetting berbasis markup yang memposisikan diri sebagai penerus modern LaTeX untuk pembuatan dokumen secara terprogram
Menggabungkan tipografi berkualitas tinggi dengan sintaks yang lebih sederhana, serta menawarkan pipeline kompilasi yang sangat cepat yang dapat mengompilasi dokumen sangat besar hanya dalam sebagian kecil waktu dibanding toolchain LaTeX tradisional
Typst menyediakan pesan error yang lebih jelas serta kemampuan scripting bawaan seperti conditional dan loop
Dapat memuat data terstruktur dari JSON atau CSV, sehingga sangat cocok untuk pembuatan dokumen otomatis
Tim menggunakannya untuk membuat laporan rekening dan laporan bagi pelanggan perbankan dan layanan keuangan yang perlu dihasilkan dalam skala besar dengan format konsisten
Compiler open-source-nya dapat di-self-host, dan ekosistemnya yang terus berkembang mencakup paket kontribusi komunitas
Lebih mudah diakses daripada LaTeX sambil tetap memberikan kualitas tipografi yang sebanding

Assess

77. Agent Scan

Pemindai keamanan untuk ekosistem agen yang menemukan komponen lokal termasuk server MCP dan skill, lalu menandai risiko seperti prompt injection, tool poisoning, toxic flow, secret yang di-hardcode, dan penanganan kredensial yang tidak aman
Menangani kesenjangan yang mulai muncul dalam visibilitas supply chain agen, dengan menyediakan cara praktis untuk menginventarisasi dan menguji permukaan agen yang tumbuh cepat
Namun, adopsinya harus disengaja — pemindaian ini mengharuskan metadata komponen dibagikan ke Snyk API, dan kualitas sinyal serta tingkat false positive perlu divalidasi di lingkungan masing-masing
Penting bagi tim untuk memastikan nilai operasional sebelum menjadikan Agent Scan sebagai bagian dari gate wajib delivery

78. Beads

Pelacak isu berbasis Git yang dirancang sebagai lapisan memori persisten untuk agen coding
Alih-alih bergantung pada rencana Markdown sementara, ini memberi agen graf tugas dengan struktur ramah branch untuk hubungan blocker, deteksi pekerjaan yang siap dikerjakan, dan koordinasi tugas jangka panjang lintas sesi
Beads dibangun di atas Dolt, database SQL dengan version control bawaan yang mendukung branch, merge, diff, dan penyalinan tabel mirip repositori Git
Mewakili kategori baru alat memori proyek dan pelacakan tugas yang native untuk agen
Proyek awal lain di ruang ini adalah ticket dan tracer
Berbeda dari sistem ticketing tradisional seperti GitHub Issues dan Jira, ini memungkinkan workflow baru untuk koordinasi eksekusi multi-agen secara otonom, termasuk agen yang saling menetapkan pekerjaan

79. Bloom

Alat Anthropic untuk peneliti keamanan AI yang mengevaluasi perilaku LLM
Mendeteksi perilaku seperti sycophancy (menjilat) dan self-preservation (mempertahankan diri)
Dibanding benchmark statis, alat ini menggunakan konfigurasi seed yang mendefinisikan perilaku target dan parameter evaluasi untuk menghasilkan beragam percakapan uji secara dinamis lalu mengevaluasi hasilnya
Pendekatan terhadap evaluasi perilaku otomatis ini penting untuk mengikuti kecepatan rilis model, dan memungkinkan tim riset eksternal melakukan evaluasi
Petri adalah alat pendamping untuk mengidentifikasi perilaku apa yang muncul pada model tertentu, sedangkan Bloom mengidentifikasi dalam skenario apa dan seberapa sering perilaku tersebut muncul; keduanya bersama-sama membentuk rangkaian evaluasi yang lebih lengkap
Salah satu kekhawatiran adalah Bloom memerlukan model guru (atau evaluator) untuk menilai model siswa yang diberikan; model guru dapat memiliki blind spot dan bias, sehingga penggunaan banyak evaluator dapat mengurangi bias hasil
Layak dievaluasi oleh tim riset keamanan AI sebagai pelengkap benchmark statis untuk menilai perilaku model yang sedang muncul

80. CDK Terrain

Fork komunitas dari Cloud Development Kit for Terraform(CDKTF) yang dihentikan penggunaannya dan diarsipkan oleh HashiCorp pada Desember 2025
CDK Terrain (CDKTN) melanjutkan dari titik saat CDKTF dihentikan, memungkinkan tim mendefinisikan infrastruktur dengan TypeScript, Python, dan Go lalu melakukan provisioning melalui Terraform atau OpenTofu
Bagi tim yang sudah berinvestasi pada CDKTF, ini mempertahankan kode dan alur kerja yang ada serta menyediakan jalur migrasi alih-alih memaksa perpindahan ke HCL atau Pulumi
Proyek ini merilis pembaruan setiap bulan dan menambahkan dukungan OpenTofu sebagai target kelas satu
Namun, fork pemeliharaan komunitas untuk proyek yang ditinggalkan vendor membawa risiko bawaan terkait dukungan jangka panjang, dan pendekatan CDKTF tidak berhasil mencapai adopsi luas
HashiCorp menyebut kurangnya product-market fit saat menghentikannya
Tim yang saat ini menggunakan CDKTF dapat mengevaluasi CDK Terrain sebagai opsi keberlanjutan, sambil menimbang apakah ini saat yang tepat untuk bermigrasi ke pendekatan dengan dukungan lebih luas

81. CodeScene

Pernah menjadi blip social code analysis pada 2017, dan adopsi coding agent yang meningkat memunculkan minat baru pada alat seperti CodeScene
Alat analisis kode berbasis perilaku yang mengidentifikasi utang teknis dengan menggabungkan metrik kompleksitas kode dan riwayat version control
Berbeda dari analisis statis tradisional, alat ini menyoroti "hotspot" untuk membantu tim memprioritaskan refactoring berdasarkan aktivitas pengembangan nyata dan dampak bisnis
Kini juga menyediakan panduan untuk desain kode yang ramah AI
Tim menemukan bahwa kualitas kode menjadi semakin penting karena coding agent dapat memodifikasi kode jauh lebih cepat daripada pengembang manusia
Metrik CodeHealth dari CodeScene membantu mengidentifikasi area yang terlalu kompleks untuk direfaktor dengan aman oleh LLM tanpa risiko halusinasi, sehingga memberi guardrail yang berguna
Direkomendasikan untuk dievaluasi sebagai guardrail dalam adopsi coding agent, dengan metrik CodeHealth yang menyoroti target refactoring yang aman dan menunjukkan area yang perlu diperbaiki sebelum agent diterapkan

82. ConfIT

Library yang mendefinisikan pengujian API gaya integrasi dan komponen secara deklaratif dalam JSON alih-alih menuliskannya secara imperatif sebagai kode
Minat pada pendekatan ini meningkat karena test suite besar sering menumpuk boilerplate di sekitar HTTP client, konfigurasi request, dan assertion
Pengembangan berbantuan AI memperkuat tren ini, karena definisi pengujian yang terstruktur lebih mudah dibuat dan dipelihara daripada kode prosedural yang panjang
Berdasarkan pengalaman klien dan evaluasi, lapisan deklaratif mengurangi duplikasi antara pengujian komponen dan integrasi, meningkatkan keterbacaan, dan memudahkan evolusi niat pengujian di seluruh tim
Namun, ConfIT sendiri memiliki adopsi komunitas yang terbatas dan ekosistem kecil, sehingga sulit direkomendasikan secara luas meskipun ada manfaat tersebut
Layak dievaluasi oleh tim .NET yang mengeksplorasi pengujian API berbasis spesifikasi, tetapi tetap perlu memverifikasi keberlanjutan pemeliharaan jangka panjang, kecocokan ekosistem, dan trade-off operasional

83. Entire CLI

Mengait ke workflow Git untuk menangkap sesi AI coding agent — transkrip, prompt, pemanggilan alat, file yang disentuh, penggunaan token — sebagai metadata yang dapat dicari dan disimpan di branch repositori khusus
Mendukung Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid, dan GitHub Copilot CLI
Saat AI agent menjadi kontributor utama dalam codebase, tim menghadapi kesenjangan yang makin besar antara apa yang dilacak Git dan apa yang benar-benar terjadi selama sesi coding
Entire CLI mencatat seluruh sesi bersama commit tanpa mencemari riwayat branch utama, sehingga menciptakan jejak audit aktivitas agent
Sistem checkpoint-nya juga memungkinkan pemulihan yang praktis, sehingga tim dapat memutar ulang ke kondisi baik yang diketahui saat agent menyimpang dan melanjutkan kembali dari checkpoint mana pun
Meski alat ini masih sangat baru dan ekosistem keterlacakan sesi agent masih terus terbentuk, penangkapan sesi yang native Git merupakan kecocokan alami bagi tim yang memiliki persyaratan kepatuhan atau audit terkait kode hasil AI

84. Git AI

Ekstensi Git open-source untuk melacak kode yang dihasilkan AI di repositori, menghubungkan setiap baris yang ditulis AI ke agent, model, dan prompt yang membuatnya
Git AI menggunakan checkpoint dan hook untuk melacak perubahan kode inkremental antara awal dan akhir commit
Setiap checkpoint mencakup diff antara status saat ini dan checkpoint sebelumnya, lalu ditandai sebagai ditulis AI atau manusia
Pendekatan ini lebih akurat daripada pendekatan yang berfokus menghitung jumlah baris kode pada saat penyisipan
Menggunakan standar terbuka berbasis Git Notes untuk pelacakan kode hasil AI
Meski ekosistem agent yang didukung masih terus matang, alat ini layak dievaluasi oleh tim yang ingin menjaga akuntabilitas dan keterpeliharaan jangka panjang dalam workflow agentic
Baik manusia maupun AI agent dapat merujuk sesi agent yang diarsipkan melalui skill /ask untuk mengkueri niat awal dan keputusan arsitektur di balik blok kode tertentu

85. Google Antigravity

Fork VS Code independen yang dibangun di atas teknologi berlisensi dari Windsurf, dan dirilis sebagai public preview bersama Gemini 3 pada November 2025
Menyusun ulang IDE dengan orkestrasi multi-agent sebagai pusatnya — Agent Manager menjalankan banyak agent secara paralel di berbagai tugas, browser Chromium bawaan memungkinkan agent berinteraksi langsung dengan UI live, dan sistem skill menyimpan instruksi agent yang dapat digunakan ulang di repositori
Agent Manager berperan sebagai dasbor "Mission Control" alih-alih sidebar chat standar, menandai pergeseran mendasar peran pengembang dari menulis kode baris demi baris menjadi mengorkestrasi banyak alur kerja otonom
Jika perlu, pengembang tetap bisa masuk ke editor untuk mempertahankan kontrol human-in-the-loop (HITL)
Google Antigravity terintegrasi dengan Google Cloud dan Firebase melalui Model Context Protocol, serta mendukung pengembangan agent dengan Agent Development Kit
Masih berstatus public preview, belum ada tanggal GA, dan postur keamanan serta kesiapan enterprise masih terus berkembang
Model eksekusi multi-agent dan akses browser otonomnya memberi sinyal arah perkembangan IDE agentic

86. Google Mainframe Assessment Tool

Membantu organisasi melakukan rekayasa balik aplikasi yang berjalan di mainframe, menganalisis seluruh portofolio atau sistem individual
Pada intinya, alat ini bergantung pada parser bahasa deterministik untuk memetakan alur pemanggilan dan ketergantungan data di seluruh codebase, serta membuat tampilan terstruktur tentang bagaimana aplikasi saling berinteraksi
Di atas fondasi ini, kemampuan AI generatif menyediakan ringkasan, dokumentasi, pembuatan test case, dan usulan modernisasi
Pendekatan ini selaras dengan pola yang lebih luas dalam memahami codebase legacy menggunakan GenAI, di mana wawasan kuat tentang sistem menjadi dasar penggunaan AI yang efektif
Meskipun Google Mainframe Assessment Tool belum mendukung semua stack teknologi mainframe utama, alat ini berkembang pesat
Tim menemukan alat ini membantu dalam engagement klien yang berfokus pada penemuan dan modernisasi aplikasi mainframe

87. OpenCode

Cepat muncul sebagai salah satu coding agent open-source paling menonjol dengan pengalaman yang sangat berorientasi terminal
Kekuatan utamanya adalah fleksibilitas model — mendukung frontier model yang di-host, endpoint self-hosted, dan model lokal
Ini membuat OpenCode menarik untuk pengendalian biaya, kustomisasi, dan lingkungan terbatas termasuk konfigurasi air-gapped
Ini berarti pengguna perlu secara eksplisit memahami lisensi dan ketentuan penyedia saat menggunakan langganan atau API
Model ekstensi OpenCode adalah daya tarik utama lainnya, dengan dukungan untuk plugin dan integrasi MCP bagi workflow, tool, dan guardrail per tim
Banyak pengguna memanfaatkan Oh My OpenCode, sebuah harness opsional namun populer yang lebih opinionated dan menyediakan konfigurasi batteries-included dengan tim agent yang telah diatur serta pola orkestrasi yang lebih kaya

88. OpenSpec

Seiring evolusi kemampuan AI coding agent, developer makin sering menghadapi tantangan prediktabilitas dan maintainability ketika requirement dan konteks hanya ada dalam riwayat chat yang sementara
Untuk mengatasi ini, muncullah alat spec-driven development (SDD)
OpenSpec adalah framework SDD open-source yang memperkenalkan lapisan spesifikasi ringan untuk memastikan developer manusia dan AI agent selaras tentang apa yang akan dibangun sebelum pembuatan kode
Pembeda utamanya adalah workflow yang cair dan minimal, sering kali dipadatkan menjadi tiga langkah — propose → apply → archive
Banyak framework SDD (GitHub Spec Kit, misalnya) atau workflow Agentic Skills (Superpowers, misalnya) lebih cocok untuk proyek greenfield daripada brownfield
Fokus pada spec deltas alih-alih mendefinisikan spesifikasi lengkap di awal sangat baik, dan sangat cocok untuk sistem yang sudah ada
Tidak seperti alternatif yang lebih berat yang memaksakan workflow lebih ketat (BMAD, misalnya) atau yang memerlukan integrasi IDE spesifik vendor (Kiro, misalnya), OpenSpec bersifat iteratif dan tool-agnostic
Framework yang ramah developer ini layak dievaluasi oleh tim yang ingin menghadirkan struktur dan prediktabilitas ke pengembangan berbantuan AI tanpa mengadopsi proses yang berat
Pada saat yang sama, seiring model dan coding agent menjadi semakin kuat, tim juga disarankan untuk memantau dan meninjau kembali kemampuan native serta mengevaluasi ulang kebutuhan akan alat SDD

89. PageIndex

Alat untuk membangun indeks hierarkis dokumen bagi pipeline RAG berbasis penalaran tanpa vektor, alih-alih bergantung pada pencarian tradisional berbasis embedding
Sementara pemecahan dokumen menjadi vektor dapat menghilangkan informasi struktur dan membatasi visibilitas atas alasan hasil ditemukan, PageIndex membangun indeks daftar isi yang ditelusuri LLM langkah demi langkah untuk mengambil konten relevan
Mirip cara manusia memindai heading lalu menelusuri ke bagian tertentu, alat ini menghasilkan jejak penalaran eksplisit yang menjelaskan mengapa bagian tertentu dipilih
Bekerja baik untuk dokumen yang maknanya sangat bergantung pada struktur ketimbang semantik, misalnya laporan keuangan dengan data numerik, dokumen hukum dengan klausul silang, serta dokumen klinis atau ilmiah yang kompleks
Namun ada trade-off, karena penalaran LLM menjadi bagian dari proses pengambilan, ini dapat menambah latensi dan biaya yang signifikan, terutama untuk dokumen besar

90. Pencil

Alat design canvas yang terintegrasi dengan IDE dan coding agent seperti Cursor dan Claude Code
Tidak seperti Figma, yang saat ini hanya menyediakan akses baca, Pencil menjalankan server MCP lokal dua arah yang menyediakan akses baca dan tulis untuk memanipulasi canvas secara langsung
Seperti alat seperti Figma Make dan Builder.io, Pencil juga menawarkan kemampuan design-to-code, tetapi dengan pendekatan yang lebih berpusat pada developer — file desain disimpan di repositori sebagai format JSON terbuka bernama .pen, sehingga aset desain bisa diberi version control bersama kode
Integrasi dengan tool yang akrab bagi developer membantu menjembatani kesenjangan dalam handoff antara desain dan pengembangan
Untuk sistem desain yang besar dan kompleks, Figma tetap menjadi standar kolaborasi lintas peran
Namun, alat ini layak dipertimbangkan untuk tim tanpa desainer khusus atau tim yang memiliki developer dengan keterampilan desain yang kuat

91. Pi

Terminal coding agent open-source minimalis yang ditulis dalam TypeScript
Opsi yang menarik bagi tinkerer dan eksperimenter, bukan default utama enterprise
Pi adalah harness bare-bones yang lebih dapat dikustomisasi dibanding agent lengkap seperti OpenCode
Lebih mudah diadaptasi daripada membangun agent baru dengan framework agentic seperti ADK, LangGraph, atau Mastra
Meski memiliki momentum kuat dan rilis yang aktif, proyek ini masih berada pada tahap awal dan terutama digerakkan oleh maintainer
Pi perlu diperlakukan sebagai building block yang ditujukan untuk engineer, bukan platform enterprise lengkap dengan guardrail dan dukungan penuh

92. Qwen 3 TTS

Model text-to-speech open-source yang secara signifikan memperkecil kesenjangan kualitas dengan produk komersial sambil memberi developer kendali yang lebih besar dibanding banyak API berbayar
Mendukung banyak bahasa, dapat melakukan voice cloning dari sampel pendek (sekitar 10–15 detik), dan memungkinkan fine-tuning pascapelatihan untuk suara spesifik domain atau karakter
Opsi yang menarik bagi tim yang memerlukan suara spesifik merek atau kontrol on-prem
Qwen 3 TTS masih baru dirilis, sehingga sebelum mengadopsinya untuk workload suara yang penting bagi produksi, tim perlu memverifikasi stabilitas, kontrol keamanan, kesesuaian lisensi, dan kematangan operasional

93. SGLang

framework serving berperforma tinggi yang mengurangi overhead komputasi inferensi LLM melalui co-design bahasa pemrograman frontend dan runtime backend
mengadopsi RadixAttention, teknik manajemen memori yang secara agresif melakukan cache dan reuse status KV (key-value) di seluruh prompt
pendekatan ini memberikan peningkatan performa yang signifikan dibanding mesin serving standar seperti vLLM dalam skenario dengan prefix overlap tinggi
bagi tim yang membangun agen otonom kompleks, bergantung pada system prompt panjang, dan menggunakan few-shot prompting secara luas dengan contoh bersama, SGLang dapat memberi keuntungan besar dalam latensi dan efisiensi

94. ty

seiring Python terus tumbuh popularitasnya, khususnya di ranah AI dan data science, memiliki sistem tipe yang kuat menjadi makin bernilai
Ty adalah type checker dan language server Python yang sangat cepat yang ditulis dalam Rust
bagian dari ekosistem Astral yang juga mencakup alat seperti uv dan ruff
memberikan umpan balik cepat dan terintegrasi dengan baik dengan editor umum seperti Visual Studio Code
menggunakan ty bersama alat Astral lainnya dapat menyederhanakan pengembangan Python di organisasi besar
seiring agentic coding menjadi semakin umum, memiliki type checker deterministik dengan loop umpan balik cepat membantu menangkap kesalahan lebih awal dan mengurangi upaya code review untuk error sederhana

95. Warp

sejak terakhir dimasukkan ke Radar, Warp telah berevolusi jauh melampaui deskripsi sebagai "terminal dengan kemampuan AI"
sambil mempertahankan kekuatan intinya — output perintah berbasis blok, saran berbasis AI, dan kemampuan notebook — Warp meluas ke area yang secara tradisional ditempati IDE
kini mendukung rendering Markdown, menampilkan file tree, dan membuka file langsung dari terminal, serta mendukung workflow pengembangan agentic penuh di seluruh panel — agen coding seperti Claude Code di satu panel, shell di panel lain, dan tampilan file workspace di panel ketiga
manfaat praktis yang diamati adalah Warp menangani output teks berthroughput tinggi yang dihasilkan agen coding modern lebih baik daripada terminal tradisional, di mana kecepatan rendering dan keterbacaan bisa menjadi bottleneck
juga menambahkan coding assistant bawaan, meski belum dievaluasi secara luas oleh tim
Warp baru-baru ini meluncurkan platform orkestrasi Oz untuk cloud agent yang terintegrasi dengan terminal, tetapi blip ini berfokus pada terminalnya sendiri
bagi tim yang lebih menyukai terminal ringan dan composable serta ingin membawa alat AI mereka sendiri, Ghostty mungkin lebih cocok — pendekatannya sengaja minimalis, berlawanan dengan filosofi Warp yang batteries-included
laju fitur baru dan ambisi platform Warp yang lebih luas membuat perpindahan ke Trial masih terlalu dini sampai produk lebih stabil dan ada lebih banyak pengalaman lapangan terhadap kemampuan barunya

96. WuppieFuzz

fuzzer open source untuk REST API yang menggunakan definisi OpenAPI untuk menghasilkan request valid, memutasinya untuk mengeksplorasi edge case, dan mengandalkan umpan balik coverage sisi server untuk memprioritaskan input yang mencapai jalur eksekusi baru
kebanyakan tim masih mengandalkan pengujian integrasi dan contract testing berbasis contoh, dan hampir tidak pernah mengeksplorasi input tak terduga, urutan request abnormal, atau jalur yang sarat kegagalan, padahal API sering menjadi permukaan integrasi utama sistem modern
berdasarkan evaluasi awal, WuppieFuzz tampak sebagai pelengkap yang menjanjikan untuk pengujian tersebut — dapat menemukan masalah seperti exception yang tidak tertangani, celah otorisasi, kebocoran data sensitif, error sisi server, dan cacat logika yang mungkin terlewat oleh script test
tim masih perlu mengevaluasi bagaimana alat ini cocok di CI, overhead runtime yang diperkenalkan, dan seberapa berguna hasilnya dalam praktik
karena itu, alat ini layak dievaluasi oleh tim yang membangun REST API penting atau yang terekspos ke publik

Caution

97. OpenClaw

proyek open source yang oleh penulisnya disebut sebagai kategori "hyper-personal AI assistant"
pengguna dapat meng-host instance mereka sendiri, menjaganya tetap tersedia untuk digunakan terus-menerus melalui kanal pesan seperti WhatsApp atau iMessage, dan menjalankan tugas melalui alat yang terhubung
dengan memori permanen atas percakapan, preferensi, dan kebiasaan, ini menciptakan pengalaman pribadi yang persisten yang terasa sangat berbeda dari antarmuka chat GenAI atau agen coding pada umumnya
model ini jelas menarik dan sudah menginspirasi pengikut seperti Claude Cowork
alasan OpenClaw ditempatkan di Caution adalah karena model ini memerlukan trade-off keamanan yang signifikan
semakin banyak akses yang diberikan ke kalender, email, file, dan komunikasi, semakin berguna sistem ini, sekaligus memusatkan izin dalam pola persis seperti yang diperingatkan dalam toxic flow analysis for AI
risiko ini tidak unik bagi OpenClaw; hal yang sama berlaku untuk implementasi lain dari pola serupa, termasuk produk vendor mapan
mereka telah menerbitkan saran bagi tim yang mempertimbangkan OpenClaw dan lingkungan eksekusi sandbox, dan alternatif seperti NanoClaw atau ZeroClaw dapat mengurangi blast radius
namun, pola hyper-personal assistant itu sendiri cenderung rakus akan izin dan tetap berisiko tinggi

[Languages and Frameworks]

Adopt

98. Apache Iceberg

format tabel terbuka untuk dataset analitik skala besar yang mendefinisikan bagaimana file data, metadata, dan skema diatur di sistem penyimpanan seperti S3
telah berevolusi pesat dalam beberapa tahun terakhir dan memantapkan diri sebagai building block dasar bagi arsitektur lakehouse yang netral secara teknologi
didukung oleh semua penyedia platform data utama, termasuk AWS (Athena, EMR, Redshift), Snowflake, Databricks, dan Google BigQuery, menjadikannya opsi kuat untuk menghindari vendor lock-in
yang membedakan Apache Iceberg dari format tabel terbuka lain adalah keterbukaannya di seluruh fitur dan tata kelola, berbeda dengan alternatif yang kapabilitasnya dibatasi atau dikendalikan oleh satu vendor
dari sisi keandalan, desain berbasis snapshot memberikan serializable isolation, penulisan konkuren yang aman melalui optimistic concurrency, dan riwayat versi termasuk rollback, sehingga menghadirkan jaminan korektness yang kuat tanpa bottleneck performa
Apache Spark adalah engine yang paling umum, tetapi Trino, Flink, DuckDB dan lainnya juga didukung dengan baik, sehingga cocok untuk beragam use case mulai dari platform data enterprise hingga analisis lokal yang ringan
telah memperoleh kepercayaan kuat sebagai format data yang stabil dan terbuka di banyak tim, dan direkomendasikan sebagai pilihan default bagi organisasi yang membangun platform data modern

99. Declarative Automation Bundles

Sebelumnya dikenal sebagai Databricks Asset Bundles, dan telah berevolusi menjadi alat utama untuk menerapkan praktik rekayasa perangkat lunak dan CI/CD ke dalam ekosistem Databricks
Sudah jauh lebih matang sehingga tim kini dapat mengelola sebagian besar sumber daya platform sebagai kode, termasuk cluster, pipeline ETL, job, model machine learning, dan dashboard
Dengan perintah databricks bundle plan, tim dapat meninjau perubahan terlebih dahulu dan menerapkan praktik deployment yang dapat diulang untuk artefak Databricks, mirip dengan cara alat seperti Terraform mengelola infrastruktur
Dengan memperlakukan aset yang secara tradisional bisa berubah seperti dashboard dan pipeline ML sebagai kode, kini dimungkinkan untuk melakukan versioning, pengujian, dan deployment dengan tingkat ketelitian yang sama seperti microservice tradisional
Berdasarkan pengalaman di lingkungan production, Declarative Automation Bundles telah memantapkan diri sebagai pendekatan tepercaya untuk mengelola workflow data dan ML di Databricks
Untuk tim yang bekerja secara luas dalam ekosistem Databricks, disarankan mempertimbangkan adopsi untuk menstandarkan praktik manajemen infrastruktur

100. React JS

Sejak 2016 menjadi pilihan default untuk pengembangan UI JavaScript, tetapi layak dikunjungi kembali karena rilis stabil React Compiler sebagai bagian dari React 19 (Oktober lalu)
Dengan menangani memoization saat build time, useMemo dan useCallback manual menjadi sebagian besar tidak diperlukan, meski tim disarankan tetap mempertahankannya sebagai escape hatch saat perlu kontrol presisi atas dependensi effect
Sudah battle-tested di Meta, didukung oleh Expo SDK 54, Vite, dan Next.js, serta menghilangkan satu kategori boilerplate performa yang selama ini menjadi biaya lama saat mengerjakan React dalam skala besar
React 19 juga memperkenalkan Actions serta hooks seperti useActionState dan useOptimistic, yang menyederhanakan penanganan form dan mutasi data tanpa bergantung pada library eksternal
Pada 2025, React Foundation diluncurkan di bawah Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion, dan Vercel bergabung dengan Meta — memperkuat stabilitas jangka panjang library ini dan menjawab kekhawatiran yang secara historis sering dikutip oleh tim yang berhati-hati saat mempertimbangkan adopsi

101. React Native

Dipindahkan ke Adopt sebagai pilihan default untuk pengembangan mobile lintas platform
Sebelumnya berada di Trial, tetapi rollout New Architecture — khususnya JSI dan Fabric — telah menjawab kekhawatiran lama terkait bottleneck bridge dan kecepatan inisialisasi
Diamati memberikan peningkatan performa yang signifikan pada transisi UI kompleks dan workload yang intensif data
Dengan meninggalkan asynchronous bridge, React Native kini dapat memberikan responsivitas yang menyaingi implementasi native sambil tetap mempertahankan satu codebase
Telah berhasil digunakan di banyak proyek production, dan ekosistem yang berpusat pada Expo serta React sudah matang dan stabil
Manajemen state memang masih memerlukan perencanaan yang cermat, tetapi keuntungan produktivitas dari workflow fast refresh dan skill set bersama lebih besar daripada biaya tersebut
Menjadi rekomendasi utama bagi tim yang mengejar performa, konsistensi, dan kecepatan untuk sebagian besar use case mobile hybrid

102. Svelte

Framework UI JavaScript yang mengompilasi komponen menjadi JavaScript yang teroptimasi saat build time, tanpa bergantung pada runtime besar di sisi browser atau virtual DOM
Sejak terakhir diperkenalkan sebagai Trial, lebih banyak tim telah berhasil menggunakannya di production, dan SvelteKit telah membuatnya menjadi pilihan yang lebih kokoh untuk SSR dan aplikasi web full-stack, sehingga meningkatkan keyakinan untuk memindahkannya ke Adopt
Alasan awal memilih Svelte tetap valid — menghasilkan bundle kecil, performa runtime yang kuat, dan model komponen yang lebih sederhana
Kapabilitas baru di Svelte 5 seperti runes dan snippets membuat reaktivitas dan komposisi UI menjadi lebih eksplisit dan fleksibel
Dibandingkan framework frontend yang lebih berat, Svelte memberikan pengalaman pengembangan yang lebih bersih dengan lebih sedikit kode
Umpan balik tim semakin menempatkannya sebagai alternatif yang dapat diandalkan untuk React atau Vue, bukan lagi opsi niche
Familiaritas ekosistem, perekrutan, dan kecocokan platform tetap perlu dipertimbangkan, tetapi direkomendasikan sebagai default yang masuk akal untuk membangun aplikasi web modern ketika performa dan kesederhanaan delivery itu penting

103. Typer

Library Python untuk membangun CLI dari fungsi dengan type annotation standar, menyediakan help text otomatis, shell autocompletion, dan jalur yang jelas dari skrip kecil ke aplikasi CLI besar
Relevansinya meningkat seiring tim mengubah alat internal, otomatisasi, dan workflow developer yang berdekatan dengan AI menjadi CLI kelas satu
Typer mudah diadopsi dalam proyek nyata, dan tim sangat menghargai seberapa cepat ia menghasilkan perintah yang jelas dan mudah dibaca
Kelebihannya meliputi API berbasis type hint, help dan autocompletion otomatis, serta jalur berfriksi rendah dari skrip sederhana ke CLI multi-perintah
Namun, ini adalah solusi yang spesifik untuk Python dan mungkin bukan pilihan terbaik jika dibutuhkan perilaku CLI yang sangat dikustomisasi atau konsistensi lintas bahasa
Direkomendasikan untuk tim yang membangun CLI untuk workflow delivery, operasional, dan developer experience

Trial

104. Agent Development Kit (ADK)

Framework Google untuk membangun dan mengoperasikan agen AI, menyediakan abstraksi berorientasi rekayasa perangkat lunak untuk orkestrasi, alat, evaluasi, dan deployment
Sejak dimasukkan ke Assess, ekosistem dan kapabilitas operasionalnya telah berkembang pesat, dengan pengembangan multibahasa yang aktif serta fitur observability dan runtime yang lebih kuat
Framework agen native vendor kini menjadi area yang padat — opsi pesaing seperti Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, dan Claude Agent SDK juga terus berkembang
Alternatif open source seperti LangGraph dan CrewAI tetap menjadi pilihan kuat bagi tim yang memprioritaskan portabilitas framework dan ekosistem yang lebih luas
ADK masih berstatus pre-GA di beberapa bagian, dengan beberapa sisi yang sesekali terasa kasar dan friksi saat upgrade, tetapi semakin banyak penggunaan yang berhasil diamati, terutama pada proyek yang berinvestasi pada platform Google

105. DeepEval

Framework open-source berbasis Python untuk evaluasi performa LLM
Dapat digunakan untuk mengevaluasi sistem dan aplikasi RAG yang dibangun dengan framework seperti LlamaIndex atau LangChain, serta untuk baseline dan benchmark model
Melampaui metrik pencocokan kata sederhana dengan menyediakan evaluasi akurasi, relevansi, dan konsistensi yang lebih andal dalam skenario dunia nyata
Mencakup kemampuan seperti deteksi halusinasi, skor relevansi jawaban, dan optimasi hyperparameter; yang sangat berguna adalah kemampuan tim untuk mendefinisikan metrik khusus sesuai use case
Baru-baru ini DeepEval diperluas untuk mendukung workflow agentic yang kompleks dan sistem percakapan multi-turn
Selain evaluasi output akhir, menyediakan metrik bawaan untuk tool correctness, step efficiency, dan task completion, termasuk evaluasi interaksi dengan server MCP
Juga memperkenalkan conversation simulation yang secara otomatis membuat test case untuk stress test aplikasi multi-turn berskala besar

106. Docling

Library open-source Python dan TypeScript untuk mengubah dokumen tidak terstruktur menjadi output yang rapi dan dapat dibaca mesin
Menggunakan pendekatan berbasis computer vision untuk memahami tata letak dan makna, memproses input kompleks seperti PDF termasuk dokumen hasil pemindaian ke format terstruktur seperti JSON dan Markdown
Cocok untuk pipeline RAG dan menghasilkan structured output from LLMs, berbeda dengan pendekatan retrieval yang mengutamakan vision seperti ColPali
Docling menyediakan alternatif open-source self-hosted untuk layanan cloud terkelola proprietary seperti Azure Document Intelligence, Amazon Textract, dan Google Document AI, serta terintegrasi dengan baik dengan framework seperti LangGraph
Berjalan baik pada workload ekstraksi skala produksi di berbagai PDF digital dan hasil pemindaian, termasuk file sangat besar yang memuat teks, tabel, dan gambar
Memberikan keseimbangan kuat antara kualitas dan biaya untuk workflow agentic RAG downstream

107. LangExtract

Library Python untuk mengekstrak informasi terstruktur dari teks tidak terstruktur berdasarkan instruksi yang ditentukan pengguna, termasuk grounding sumber yang presisi yang menghubungkan setiap entitas yang diekstrak ke lokasi dalam dokumen asli
Memproses materi spesifik domain seperti catatan klinis dan laporan
Kekuatan utamanya adalah traceability sumber, memastikan setiap titik data yang diekstrak dapat ditelusuri kembali ke sumbernya
Entitas yang diekstrak dapat diekspor ke file JSONL, format standar untuk data model bahasa, dan dapat divisualisasikan melalui antarmuka HTML interaktif untuk peninjauan kontekstual
Tim yang mempertimbangkan structured output from LLMs untuk pemrosesan dokumen perlu mengevaluasi LangExtract bersama pendekatan enforcement schema seperti Pydantic AI
LangExtract lebih cocok untuk materi sumber panjang dan tidak terstruktur, sementara Pydantic AI unggul dalam membatasi format output untuk input yang lebih pendek dan dapat diprediksi

108. LangGraph

Sejak Radar sebelumnya, diamati bahwa arsitektur LangGraph yang memperlakukan semua sistem multi-agent sebagai graf stateful dengan status bersama global tidak selalu menjadi cara terbaik untuk membangun sistem agentic
Pendekatan alternatif yang digunakan di framework seperti Pydantic AI juga bekerja dengan baik
Alih-alih memulai dengan graf yang kaku dan status bersama berskala besar, pendekatan ini lebih memilih komunikasi agen yang sederhana melalui eksekusi kode, lalu menambahkan struktur graf jika memang diperlukan
Dalam banyak use case, ini menghasilkan sistem yang lebih ringkas dan efektif, karena setiap agen hanya mengakses status yang diperlukan sehingga lebih mudah untuk ditalar, diuji, dan di-debug
Akibatnya, bergeser dari Adopt; meski tetap merupakan alat yang kuat, ini tidak lagi dianggap sebagai pilihan default untuk membangun semua sistem agentic

109. LiteLLM

Berawal sebagai lapisan abstraksi tipis di atas banyak penyedia LLM lalu berkembang menjadi AI gateway yang serius
Melampaui penyederhanaan integrasi API untuk menangani perhatian lintas sistem GenAI yang umum — termasuk retry dan failover, load balancing antarpenyedia, serta pelacakan biaya yang mencakup kontrol anggaran
Tim semakin banyak mengadopsi LiteLLM sebagai default yang masuk akal untuk aplikasi berbasis AI
Gateway menyediakan tempat yang konsisten untuk menangani isu tata kelola dengan guardrail tingkat edge seperti pelacakan request, kontrol akses, manajemen API key, content filtering, serta modifikasi dan masking data
Namun, tim yang bergantung pada fitur penyedia yang membedakan sering kali tetap memerlukan parameter spesifik penyedia, sehingga menghadirkan kembali coupling yang justru ingin dihilangkan gateway
Mode drop_params dapat membuang parameter yang tidak didukung secara diam-diam, sehingga berpotensi kehilangan kapabilitas tanpa visibilitas di seluruh keputusan routing
Ini pilihan yang praktis untuk kontrol operasional, tetapi memanfaatkan kapabilitas spesifik penyedia berarti tetap mempertahankan dependensi pada gateway sekaligus kode yang ter-couple ke penyedia

110. Modern.js

Meta-framework React dari ByteDance, ditempatkan di Trial untuk tim yang memiliki kebutuhan micro frontend berbasis Module Federation
Pemicunya bersifat praktis — nextjs-mf mengarah ke akhir masa pakai (end-of-life), Pages Router hanya akan menerima perbaikan backport kecil, tidak ada rencana pengembangan baru, dan pengujian CI diperkirakan dihapus pada pertengahan hingga akhir 2026
Dengan tidak adanya dukungan Module Federation resmi di Next.js dan penghentian bertahap plugin komunitas, tim inti Module Federation merekomendasikan Modern.js sebagai framework dukungan utama untuk arsitektur berbasis federation
Plugin @module-federation/modern-js-v3 langsung menyediakan wiring build otomatis, dan streaming SSR serta Bridge API tersedia sebagai kapabilitas terpisah
Namun, ada keterbatasan pada coupling — @module-federation/bridge-react belum kompatibel dengan lingkungan Node sehingga Bridge tidak bisa digunakan dalam skenario SSR
Pengalaman awal positif, dan jalur migrasi terdefinisi dengan baik untuk tim yang sudah menggunakan Module Federation
Ekosistem di luar ByteDance masih terus matang, memerlukan dokumentasi yang lebih tebal dan rencana keterlibatan yang lebih erat dengan upstream
Untuk saat ini, investasi ini layak dibenarkan pada use case Module Federation yang belum memiliki alternatif dengan dukungan lebih baik

Assess

111. Agent Lightning

Kerangka kerja optimasi dan pelatihan agen yang memungkinkan optimasi prompt otomatis, fine-tuning terawasi, dan reinforcement learning agentic
Sebagian besar kerangka kerja agen berfokus pada pembangunan agen, tetapi tidak berfokus pada peningkatan seiring waktu
Agent Lightning mendukung framework seperti AutoGen dan CrewAI, serta memungkinkan peningkatan berkelanjutan pada agen yang sudah ada tanpa mengubah implementasi dasarnya
Hal ini dicapai melalui pendekatan yang disebut Training-Agent Disaggregation, yang memperkenalkan sebuah lapisan di antara pelatihan dan framework agen
Dua komponen inti — Lightning Server mengelola proses pelatihan dan mengekspos API untuk model yang diperbarui, sementara Lightning Client berperan sebagai runtime yang mengumpulkan jejak lalu mengirimkannya ke server untuk mendukung pelatihan
Direkomendasikan untuk dieksplorasi oleh tim yang sudah memiliki deployment agen mapan sebagai cara untuk terus meningkatkan performa agen

112. GitHub Spec Kit

Dalam diskusi siklus ini, spec-driven development menonjol, dengan muncul dua kubu besar — tim yang mengandalkan kemampuan agen coding untuk terus membaik dengan struktur minimal dan tim yang lebih menyukai workflow terdefinisi dan spesifikasi detail
Sejumlah tim sedang bereksperimen dengan praktik spec-driven menggunakan GitHub Spec Kit, terutama di lingkungan brownfield
Konsep inti Spec Kit adalah constitution, buku aturan dasar yang menyelaraskan siklus hidup pengembangan perangkat lunak
Constitution yang benar-benar berguna biasanya menangkap cakupan proyek, konteks domain, versi teknologi, standar coding, dan struktur repositori (misalnya arsitektur heksagonal, modul berlapis), sehingga membantu agen bekerja dalam batas arsitektur yang dimaksud
Tantangan seperti instruction bloat juga muncul — set instruksi agen yang terus membesar akibat penambahan konteks proyek secara berkelanjutan, dan pada akhirnya context rot; satu tim mengatasinya dengan mengekstrak panduan yang bisa digunakan ulang menjadi skill, menjaga instruksi agen tetap ringkas, dan hanya memuat konteks detail saat diperlukan
Pada sistem brownfield, banyak pengerjaan ulang berasal dari niat yang tidak jelas, asumsi tersembunyi, dan penemuan terlambat atas berbagai batasan; satu tim mendapati bahwa memperkenalkan siklus hidup spec → plan → tasks → coding → review membantu memunculkan isu lebih awal
Seiring waktu, konteks yang bisa diulang dipindahkan ke file seperti .github/prompts/speckit.<command>.prompt.md, sehingga prompt menjadi lebih pendek dan perilaku agen lebih konsisten
Dilaporkan adanya bagian yang kasar seperti pemeriksaan defensif yang tidak perlu dan output markdown yang terlalu bertele-tele
Beberapa masalah dapat diatasi dengan menyesuaikan template dan instruksi Spec Kit, misalnya membatasi jumlah file markdown yang dihasilkan dan mengurangi verbosity konsol
Pada akhirnya, insinyur berpengalaman dengan praktik clean coding dan arsitektur yang kuat memperoleh nilai paling besar dari workflow spec-driven

113. Mastra

Framework open-source native TypeScript untuk membangun aplikasi AI dan agen
Menyediakan mesin workflow berbasis graf, pendekatan terpadu untuk integrasi berbagai penyedia LLM, pause dan resume human-in-the-loop, serta primitive RAG dan memori
Juga mencakup penulisan server MCP dan alat bawaan untuk evaluasi serta observabilitas, dengan dukungan dokumentasi developer yang jelas
Mastra menawarkan alternatif terhadap stack berat berbasis Python, sehingga tim dapat langsung membangun kapabilitas AI yang kaya di dalam ekosistem web yang sudah ada seperti Node.js atau Next.js
Layak dievaluasi oleh tim yang berinvestasi pada ekosistem TypeScript dan ingin menghindari beralih ke Python hanya untuk lapisan AI

114. Pipecat

Framework open-source untuk membangun agen suara real-time dan multimodal dengan model pipeline modular untuk orkestrasi STT, LLM, TTS, dan transport
Menarik minat kuat karena tim dapat mengiterasi perilaku percakapan dengan cepat dan berganti penyedia dengan friksi yang relatif rendah
Dibanding LiveKit Agents, Pipecat menawarkan fleksibilitas framework yang lebih besar tetapi jalur produksi yang kurang terintegrasi, khususnya untuk deployment self-hosted, keandalan transport, dan penanganan giliran latensi rendah dalam skala besar
Memberikan fondasi yang kuat untuk engineering berbasis antarmuka percakapan, tetapi memerlukan pekerjaan platform engineering yang signifikan sebelum diandalkan untuk workload produksi yang business-critical

115. Superpowers

Seiring meningkatnya penggunaan agen coding, tidak ada satu workflow tunggal yang cocok untuk semua tim; sebagai gantinya, tim mengembangkan workflow khusus berdasarkan konteks dan kendala mereka
Superpowers adalah salah satu workflow semacam itu, yang dibangun dari skill yang dapat dikombinasikan
Ia membungkus agen coding sebagai skill dalam workflow terstruktur, mendorong brainstorming sebelum coding, perencanaan detail sebelum implementasi, TDD dengan siklus red-green-refactor yang dipaksakan, debugging sistematis dengan prioritas pada akar masalah, serta code review setelah implementasi
Didistribusikan sebagai plugin melalui Claude Code plugin marketplace dan Cursor plugin marketplace

116. TanStack Start

Framework full-stack untuk React dan Solid yang dibangun di atas TanStack Router, sebanding dengan Next.js, dengan dukungan SSR, caching, dan banyak fitur serupa
TanStack Start memberikan keamanan compile-time end-to-end di seluruh fungsi server, loader, dan routing, sehingga mengurangi risiko broken link atau bentuk data yang tidak cocok di frontend
Lebih menyukai konfigurasi eksplisit daripada konvensi, dengan pengalaman yang lebih dekat ke bekerja dengan React biasa
Kapabilitas SSR dapat ditambahkan secara bertahap sesuai kebutuhan
Dibanding Next.js yang memiliki default lebih opinionated dan dapat menimbulkan perilaku tak terduga bila tidak memahami cara kerjanya secara internal, framework ini lebih eksplisit dan dapat diprediksi
Ekosistem TanStack juga telah matang secara signifikan, menyediakan set alat yang kuat untuk membangun aplikasi web modern

117. TOON (Token-Oriented Object Notation)

Encoding data JSON yang dapat dibaca manusia dan dirancang untuk mengurangi penggunaan token ketika data terstruktur dikirim ke LLM
Memungkinkan JSON tetap dipertahankan dalam sistem yang ada dan hanya dikonversi pada titik interaksi dengan model
Biaya token, latensi, dan batas context window kini menjadi pertimbangan desain nyata dalam pipeline RAG, workflow agen, dan aplikasi lain yang sangat bergantung pada AI
JSON mentah sering kali menghabiskan token pada key berulang dan overhead struktural alih-alih konten yang benar-benar berguna
Dalam evaluasi awal, TOON merupakan optimasi last-mile yang menarik untuk input prompt, khususnya pada dataset besar dan teratur di mana format yang sadar skema lebih efisien dan lebih mudah diproses model dibanding JSON
Ini bukan pengganti JSON pada API, database, atau output model, dan sering menjadi pilihan yang keliru untuk struktur yang sangat bertingkat atau tidak seragam, array semi-seragam, atau data tabular datar di mana CSV lebih ringkas
Mungkin juga kurang cocok untuk jalur latensi-kritis di mana JSON ringkas sudah bekerja dengan baik
Layak dievaluasi oleh tim yang membangun aplikasi LLM ketika ukuran input terstruktur menjadi perhatian biaya atau kualitas yang berarti, dengan kebutuhan benchmarking terhadap JSON atau CSV menggunakan data dan stack model mereka sendiri

118. Unsloth

Framework open-source yang berfokus membuat fine-tuning LLM dan reinforcement learning jauh lebih cepat serta efisien dalam penggunaan memori
Fine-tuning LLM melibatkan puluhan miliar perkalian matriks dan diuntungkan oleh akselerasi GPU; Unsloth mengoptimalkan operasi ini dengan mengubahnya menjadi kernel kustom berefisiensi tinggi untuk GPU NVIDIA, sehingga biaya dan penggunaan memori turun drastis
Memungkinkan fine-tuning model pada GPU konsumen T4 atau yang lebih tinggi, alih-alih harus menggunakan klaster H100 yang mahal
Mendukung LoRA, full fine-tuning, pelatihan multi-GPU, fine-tuning konteks panjang (hingga 500K token), serta model populer termasuk Llama, Mistral, DeepSeek-R1, Qwen, dan Gemma
Seiring aplikasi AI spesifik domain makin bergantung pada fine-tuning, Unsloth secara signifikan menurunkan hambatan masuk

Thoughtworks Technology Radar, Volume 34 dirilis

Tantangan evaluasi teknologi di era agen

Prinsip dipertahankan, pola ditinjau ulang

Masalah keamanan agen yang haus izin

Menjinakkan agen pemrograman

[Techniques]

Adopt

Trial

Assess

Caution

[Platforms]

Adopt

Trial

Assess

[Tools]

Adopt

Trial

Assess

Caution

[Languages and Frameworks]

Adopt

Trial

Assess

Bacaan terkait

Belum ada komentar.