- Qwen3.7-Max adalah model proprietary yang berfokus pada agen untuk coding dan debugging, otomasi perkantoran, serta eksekusi otonom ratusan hingga ribuan langkah
- Model ini bersaing dengan model pesaing pada evaluasi coding, agen umum, penalaran, dan multibahasa, dengan mencatat 69,7 poin di Terminal Bench 2.0-Terminus dan 92,4 poin di GPQA Diamond
- Dalam optimalisasi kernel otonom selama 35 jam, model ini melakukan 1.158 pemanggilan alat dan 432 evaluasi, mencapai peningkatan kecepatan geometric mean 10,0x dibanding baseline Triton
- Dengan memisahkan instance pelatihan menjadi Task·Harness·Verifier, model ini melakukan pelatihan RL lintas harness dan mendorong pemecahan masalah yang tergeneralisasi alih-alih jalan pintas harness tertentu
- API akan segera tersedia melalui Alibaba Cloud Model Studio, dan dapat diintegrasikan dengan framework agen seperti Claude Code, OpenClaw, dan Qwen Code
Evaluasi performa
- Qwen3.7-Max dievaluasi bersama beberapa model pembanding di bidang agen coding, agen umum, STEM dan penalaran, kemampuan umum, serta multibahasa
- Sel kosong (
--) berarti skor belum disediakan
-
Agen coding
- Mencatat 69,7 poin di Terminal Bench 2.0-Terminus, melampaui 67,9 poin DS-V4-Pro Max
- Di SWE-Verified, mencatat 80,4 poin, setara dengan Opus-4.6 Max 80,8 poin dan DS-V4-Pro Max 80,6 poin
- Mencatat SWE-Pro 60,6 poin, SWE-Multilingual 78,3 poin, SciCode 53,5 poin, dan QwenSVG 1608 poin
- NL2repo dievaluasi dengan Claude Code, dan perintah Bash seperti
pip download, pip install, git clone yang mencoba mengakses repositori tertentu dinonaktifkan
- QwenWebDev adalah benchmark internal pembuatan kode frontend dwibahasa Inggris-Tionghoa, menggunakan 7 kategori, rendering otomatis, penilaian multimodal, serta rating BT/Elo
-
Agen umum
- Di MCP-Mark, model ini meraih 60,8 poin, melampaui 57,5 poin GLM-5.1, dan di MCP-Atlas meraih 76,4 poin, melampaui 75,8 poin Opus-4.6
- Di Skillsbench, meraih 59,2 poin, lebih tinggi dari 56,2 poin K2.6
- Di Kernel Bench L3, mencatat peningkatan kecepatan median 1,98x dan win rate 96%, menunjukkan kemampuan optimalisasi kernel GPU
- Dengan BFCL-V4 75,0 poin, Qwenclaw 64,3 poin, dan ClawEval 65,2 poin, performanya mendekati Opus-4.6 Max
- Di SpreadSheetBench-v1, mencatat 87,0 poin, menunjukkan performa tinggi juga pada benchmark otomasi perkantoran
- QwenClawBench adalah benchmark agen Claw open source yang mencerminkan distribusi pengguna nyata
- CoWorkBench adalah benchmark kolaborasi internal yang menangani tugas jangka panjang di domain produktivitas seperti ilmu komputer, keuangan, hukum, dan medis
-
Penalaran
- Di GPQA Diamond, meraih 92,4 poin, melampaui 91,3 poin Opus-4.6
- Di HLE, meraih 41,4 poin, melampaui 40,0 poin Opus-4.6, dan di HMMT 2026 Feb meraih 97,1 poin, melampaui 96,2 poin Opus-4.6
- Di IMOAnswerBench, meraih 90,0 poin, melampaui 89,8 poin DS-V4-Pro, dan di Apex meraih 44,5 poin, melampaui 38,3 poin DS-V4-Pro
- Untuk skenario penalaran, prompt sistem yang diawali dengan
Reasoning effort is set to xhigh... direkomendasikan
-
Kemampuan umum dan multibahasa
- Di IFBench, meraih 79,1 poin, melampaui 77,0 poin DS-V4-Pro, menunjukkan performa mengikuti instruksi yang presisi
- Di WMT24++, mencatat 85,8 poin, dan di MAXIFE 89,2 poin, menunjukkan kekuatan dalam pemahaman multibahasa dan kualitas terjemahan
- Di SuperGPQA, mencatat 73,6 poin, dan di QwenWorldBench 57,3 poin
- WMT24++ adalah subset WMT24 yang lebih sulit, menggunakan skor rata-rata XCOMET-XXL pada 55 bahasa
- MAXIFE mengukur akurasi pada 23 pengaturan prompt berbahasa Inggris dan multibahasa
- MMLU-ProX menggunakan akurasi rata-rata dari 29 bahasa
Kondisi evaluasi dan detail benchmark
- Terminal-Bench 2.0 dievaluasi dengan harness Harbor/Terminus-2, batas 5 jam, 12 CPU/24GB RAM,
temp=1.0, top_p=0.95, top_k=20, maksimum 80K token, konteks 256K, dan rata-rata 5 kali
- Keluarga SWE-Bench menggunakan scaffold agen internal serta alat Bash dan pengeditan file, dan dievaluasi dengan
temp=1.0, top_p=0.95, jendela konteks 200K
- SkillsBench dievaluasi dengan OpenCode, menggunakan rata-rata 5 kali pada 78 tugas setelah mengecualikan 9 tugas yang bergantung pada API eksternal
- MCP-Mark menggunakan GitHub MCP v0.30.3 dan memotong respons Playwright pada 32K token
- MCP-Atlas adalah skor set publik dan menggunakan penilai
gemini-2.5-pro
- Kernel Bench L3 melaporkan median peningkatan kecepatan per masalah dibanding baseline PyTorch eager pada 50 masalah, serta proporsi masalah yang lebih cepat daripada
torch.compile
- Setiap sampel uji Kernel Bench L3 dijalankan dalam container Docker terisolasi dengan 1 GPU H100 80GB, dan akses internet dibatasi ke codebase CUTLASS dan dokumentasi resmi CUDA
- Kernel Bench L3 menggunakan batas 500 pemanggilan alat dan penghentian dini setelah 100 giliran tanpa perbaikan, mendeteksi potensi perilaku hacking dengan GPT-5.4(xhigh), dan mengukur timing level kernel dengan CUPTI
- MRCR-v2 adalah subset konteks 128K yang mencakup 8 needle dan mengadopsi protokol mrcr_v2 di Google DeepMind eval_hub
Asisten produktivitas kolaboratif
- Qwen3.7-Max menargetkan peran rekan kerja tingkat lanjut untuk produktivitas kerja nyata, melakukan sintesis informasi kompleks, analisis dan pemodelan data mendalam, serta pembuatan dokumen dan visualisasi yang layak terbit
- Model ini memiliki kompatibilitas dasar dengan harness agen utama dan mendukung perencanaan otonom serta eksekusi berkelanjutan selama berjam-jam pada tugas jangka panjang
- Melalui ribuan pemanggilan alat dan puluhan iterasi perbaikan, kualitas output ditingkatkan secara bertahap
- Disebutkan mampu menyelesaikan proyek kompleks end-to-end dalam beberapa jam, yang biasanya membutuhkan tim profesional selama 1–2 minggu
Pelatihan agen dan generalisasi
- Berdasarkan pendekatan environment scaling yang diperkenalkan di Qwen3.5, Qwen3.7 memperluas kualitas dan keragaman lingkungan pelatihan agen
- Pendekatan ini berangkat dari observasi bahwa seperti model bahasa yang melakukan generalisasi dari beragam teks pra-pelatihan, kemampuan agen juga melakukan generalisasi dari beragam lingkungan pelatihan
- Semua benchmark dalam evaluasi terdiri dari lingkungan out-of-domain yang sepenuhnya baru dan tidak dimasukkan dalam pelatihan
- Environment scaling menciptakan lintasan peningkatan yang jelas dan konsisten, dan Qwen3.7-Max mencapai peringkat rata-rata top-3 yang mendekati Claude-4.6-Opus-Max
- Peningkatan performa pada subset benchmark cukup konsisten untuk memprediksi peningkatan relatif pada benchmark yang tersisa dan rata-rata keseluruhan, menunjukkan generalisasi kemampuan alih-alih perbaikan spesifik benchmark
- Analisis tambahan tentang dinamika scaling dan metodologi akan dibahas dalam laporan teknis mendatang
Generalisasi lintas harness
- Infrastruktur lingkungan rollout memisahkan setiap instance pelatihan menjadi tiga komponen ortogonal: Task, Harness, Verifier
- Infrastruktur ini mendukung berbagai harness dan versinya, serta menggunakan lingkungan yang berbasis dunia nyata, bukan proxy sintetis
- Desain terpisah ini memungkinkan scaling kombinatorial dengan mengombinasikan tugas yang sama dengan berbagai tipe dan versi harness serta verifier dengan biaya tambahan minimal
- Melalui pelatihan RL lintas harness dan lintas verifier, yang mempertemukan tugas yang sama dalam konfigurasi harness berbeda, model didorong untuk mempelajari strategi pemecahan masalah yang dapat digeneralisasi, bukan jalan pintas harness tertentu
- Di QwenClawBench dan CoWorkBench, Qwen3.7-Max menunjukkan performa yang kuat dan konsisten terlepas dari harness yang digunakan saat evaluasi
Evolusi diri di lingkungan nyata
- Extend Attention adalah operator attention multi-head panjang variabel tingkat produksi di SGLang
- Skenario pengujian menangani kernel sensitif terhadap memori dan latensi pada serving LLM, yang menghitung skor attention antara token yang baru dibuat bersama MTP dan prefix KV-cache hingga 32K entri
- Implementasi baseline adalah implementasi resmi Triton milik SGLang
-
Optimalisasi kernel pada arsitektur PPU yang belum dikenal
- Qwen3.7-Max mengoptimalkan kernel ini pada instance ECS dengan T-Head ZW-M890 PPU yang belum pernah dilihat selama pelatihan
- Model memulai tanpa data profiling awal, dokumentasi hardware, atau contoh kernel untuk arsitektur tersebut
- Workspace kosong hanya berisi deskripsi tugas, implementasi SGLang yang ada, dan skrip evaluasi
- Selama sekitar 35 jam eksekusi otonom berkelanjutan, model melakukan 1.158 pemanggilan alat dan 432 evaluasi kernel
- Model secara mandiri melakukan diagnosis kegagalan kompilasi, memperbaiki bug correctness, mengidentifikasi bottleneck berbasis runtime profiling, dan mendesain ulang arsitektur kernel
- Hasil akhirnya adalah peningkatan kecepatan geometric mean 10,0x dibanding baseline Triton pada berbagai workload
- Bahkan setelah 30 jam berlalu, model masih menemukan perbaikan yang bermakna, menunjukkan produktivitas optimalisasi otonom jangka panjang
-
Lintasan optimalisasi
- Dengan paralelisasi Split-KV yang membagi prefix KV-cache menjadi beberapa thread block per query dan memperkenalkan kernel reduction yang menggabungkan hasil parsial dengan online softmax rescaling, performa meningkat dari 0,33x menjadi 2,58x dalam sekitar 2 jam
- Dengan mengganti
cudaMalloc/cudaFree per panggilan menjadi tensor torch::empty yang dipra-alokasikan, menghapus cudaMemcpy sinkron, dan melakukan unroll loop internal 2x, performa meningkat menjadi 5,37x dalam sekitar 2,5 jam
- Dengan mengganti fixed split divisor menjadi heuristik berbasis ukuran workload dan meningkatkan SM wave occupancy pada arsitektur 36-SM, performa meningkat menjadi 6,85x dalam sekitar 3 jam
- Dengan menggabungkan penghapusan shared memory barrier, loading K/V berbasis register, persistent static tensor, batched softmax update, dan pre-scaling Q, performa meningkat menjadi 8,50x pada rentang 3–25 jam
- Kernel khusus MTP γ=4 memproses 4 token query sekaligus per blok dan berbagi loading K/V antar-query, mencapai 10,0x pada rentang 32–35 jam
-
Perbandingan dalam kondisi yang sama
- GLM 5.1 mencapai 7,3x, Kimi K2.6 5,0x, DeepSeek V4 Pro 3,3x, dan Qwen3.6-Plus 1,1x
- Model yang dihentikan lebih awal secara sukarela mengakhiri sesi setelah menilai tidak bisa lagi maju karena gagal menghasilkan pemanggilan alat selama 5 kali berturut-turut
-
Pembuatan kernel GPU NVIDIA
- Qwen3.7-Max tidak hanya membuat kernel PPU, tetapi juga menghasilkan kernel tingkat produksi pada berbagai GPU NVIDIA
- Di KernelBench L3, Qwen3.7-Max dapat membuat kernel yang dipercepat pada 96% skenario
- Angka pembandingnya adalah Opus-4.6 98%, GLM 5.1 78%, Kimi K2.6 80%, DeepSeek V4 Pro 54%, dan Qwen3.6-Plus 48%
-
Karakteristik agen otonom jangka panjang
- Model menunjukkan ketahanan penalaran jangka panjang yang menjaga strategi optimalisasi selama lebih dari 1.000 pemanggilan alat tanpa kehilangan konteks atau mengalami regresi
- Model menunjukkan generalisasi in-context yang membangun kernel kompetitif di arsitektur yang tidak terlihat saat pelatihan berdasarkan umpan balik runtime, bukan pengetahuan hardware yang dihafal
Pemantauan reward hacking
- Qwen3.7-Max diintegrasikan ke dalam pemantauan RL untuk tugas rekayasa perangkat lunak, membentuk framework self-monitoring reward hacking dan self-evolution aturan
- Selama eksperimen RL lebih dari 80 jam, model secara otonom mencari dan memutar ulang lintasan pelatihan sambil menjalankan lebih dari 10.000 pemanggilan
- Model secara sistematis mengidentifikasi pola hacking kandidat, seperti upaya melewati batasan untuk mengakses jawaban di GitHub
- Model melakukan verifikasi aturan, penambangan counterexample, dan optimasi iteratif
- Melalui beberapa putaran self-evolution aturan, model menambahkan 13 aturan heuristik baru dan secara akurat menandai 1.618 kasus hacking
- Proses ini menjamin stabilitas reward RL dan mendorong perbaikan diri berkelanjutan model sebagai agen rekayasa perangkat lunak yang canggih
Perencanaan dan eksekusi jangka panjang dalam manajemen startup
- Dalam framework Dynamic Cumulative Survival Games, kompleksitas waktu tugas pelatihan diperluas untuk memperkuat kemampuan perencanaan dan eksekusi jangka panjang
- Hal ini meningkatkan konsistensi kebijakan agen pada lintasan pengambilan keputusan berurutan lebih dari seribu langkah, sehingga agen dapat terus membangun hipotesis, menyesuaikan strategi berdasarkan umpan balik lingkungan, serta mengakumulasi pengalaman dan memori jangka panjang
- Model mempertahankan ritme eksekusi yang stabil bahkan dalam rentang waktu panjang, serta tahan terhadap degradasi konteks dan penyimpangan instruksi
-
Hasil YC-Bench
- YC-Bench adalah benchmark yang mensimulasikan seluruh siklus hidup startup selama 1 tahun
- Agen harus mempertahankan margin laba di tengah biaya tenaga kerja yang meningkat sambil membuat keputusan selama ratusan ronde, seperti manajemen SDM, peninjauan kontrak, dan identifikasi pelanggan berbahaya
- Qwen3.7-Max mencapai pendapatan total 2,08 juta dolar, 2x dari 1,05 juta dolar milik Qwen3.6-Plus dan 5,9x dari 352 ribu dolar milik Qwen3.5-Plus
- Jumlah tugas yang diselesaikan adalah 237
- Model melakukan pencarian prospek pelanggan, mengidentifikasi jebakan berbahaya dan memasukkannya ke daftar hitam, memprioritaskan sumber pendapatan yang stabil, dan melakukan pemulihan otonom saat krisis menengah
- Pada akhirnya, model berkonvergensi ke loop eksekusi yang stabil dan sangat efisien
Membangun dengan Qwen3.7
- Qwen3.7-Max akan segera tersedia melalui Alibaba Cloud Model Studio, dan dapat diintegrasikan ke framework agen populer serta asisten coding
-
Penggunaan API
-
Coding frontend
- Qwen3.7-Max dapat membuat aplikasi web interaktif dari satu prompt, termasuk scene 3D Three.js, animasi Canvas, layout halaman penuh, dan SVG dinamis
- Contoh prompt meminta implementasi HTML dengan efek rotasi 3D yang mendeteksi telapak tangan membuka/mengepal lewat kamera untuk mengendalikan kontraksi dan penyebaran kumpulan partikel, serta membentuk teks
hello, world dan I’am Qwen sesuai gesture jari 1 dan 2
-
Asisten perkantoran
- Qwen3.7-Max dapat berfungsi sebagai asisten perkantoran cerdas melalui integrasi alat
- Dalam contoh, model membaca aturan format skripsi universitas lalu memformat ulang draf yang berantakan melalui pemanggilan alat office-cli secara otonom
- Model memperbaiki tata letak halaman, gaya judul, font, margin, daftar isi, dan format referensi
- Makalah contoh dibuat oleh AI untuk demo
-
Agen navigasi dunia fisik
- Qwen3.7-Max dapat mengendalikan anjing robot melalui pemanggilan alat
- Model melakukan pemahaman fisik, perencanaan, memori, dan pengambilan keputusan di lingkungan fisik
- Digunakan harness agen robotika Qwen-RobotClaw, model berbasis navigasi Qwen-RobotNav, dan berbagai alat visi yang dibangun dengan model Qwen-plus
- Panel kiri pada demo menunjukkan alur interaksi pemanggilan alat agen selama 20 menit di dunia fisik, bagian tengah menunjukkan sudut pandang orang pertama di sepanjang lintasan robot berkaki empat, dan bagian kanan menunjukkan memori jangka panjang agen
-
Integrasi asisten coding
- Qwen3.7-Max diintegrasikan ke framework agen populer dan asisten coding
-
Claude Code
-
OpenClaw
- OpenClaw dapat dihubungkan melalui Model Studio
- Setelah mengatur
DASHSCOPE_API_KEY, jalankan openclaw dashboard, lalu tetapkan modelstudio/qwen3.7-max sebagai model default di ~/.openclaw/openclaw.json
- Contoh konfigurasi mencakup
contextWindow 1000000, maxTokens 65536, dan reasoning true
-
Qwen Code
- Qwen Code dioptimalkan secara mendalam untuk seri Qwen
- Instal dengan
npm install -g @qwen-code/qwen-code@latest lalu jalankan dengan perintah qwen
1 komentar
Pendapat Hacker News
Dalam AA-omniscience, rasio respons non-halusinasi ada di level tertinggi, lebih baik daripada Opus 4.7, Gemini 3.1 Pro, dan GPT5.5. Selamat untuk timnya
Saya harus menambahkannya sendiri ke chart, bukan muncul di tampilan default, dan saya penasaran apakah ini tingkat halusinasi terendah di dataset itu
Misalnya, saat menjalankan Step 3.5 Flash secara lokal, secara umum kemampuannya mengejutkan bagus, tetapi efisiensi token-nya terlalu buruk, jadi dalam waktu nyata model itu kalah dari sebagian besar model lain. Bahkan setelah menyisipkan dukungan MTP ke
llama.cppdengan hack, di Spark kecepatannya cuma naik dari 20tk/s ke 30tk/s, dan meski dilatih dengan tiga head, MTP 2 adalah titik yang paling masuk akalModel DeepSeek dan Qwen 3.5 Plus juga mirip, jadi dibandingkan Opus, terutama GPT 5.5, mereka memakai jauh lebih banyak token untuk menghasilkan jawaban yang sama
Saya benar-benar berharap Qwen 3.7 membaik di bagian ini dan tidak sabar ingin mencobanya. Sebagai catatan, menjalankan DeepSeek v4 Flash di Spark terasa benar-benar luar biasa, dan kalau antirez melihat ini saya ingin bilang terima kasih
Pada akhirnya, itu berarti seberapa cocok model tersebut dengan keyakinan pihak pembuat tes, yang bisa saja benar atau salah
Tadi malam saya hampir menyentuh batas mingguan Claude Code, jadi saya menyuruh Claude menyiapkan Qwen3.6 dengan
llama.cppdan OpenCode. Jujur saja ini alternatif gratis yang sangat bagus untuk Claude Code, dan untuk banyak tugas yang lebih kecil dan tidak terlalu rumit, kualitasnya sudah lebih dari cukupSaya juga tidak sabar mencoba versi baru ini. Sangat mengesankan bahwa model open-source bisa sedekat ini dengan garis depan
Minggu lalu saya mencoba qwen3.6-27b Q6_k GUFF di M2 MacBook Pro 32GB dengan
llama.cppdan LM Studio, dan keduanya nyaris tidak mencapai 1 token per detikSaya tidak tahu kecepatan seperti apa yang seharusnya diharapkan. Dua tahun lalu saat menjalankan model keluarga Llama 3 34b lewat
llama.cpp, saya ingat masih bisa dapat beberapa token per detik, jadi saya bingung apakah konfigurasi saya benar-benar salah atau ekspektasi saya yang tidak realistisSaya juga bertanya-tanya apakah qwen 3.x memang lebih lambat karena suatu alasan. Saya juga penasaran apakah ini arsitektur mixture-of-experts (MoE). Saya tidak berharap respons instan, tetapi pada kecepatan sekarang ini memang sulit dipakai
Saya juga ingin tahu apakah memakai MCP atau alat lain untuk optimasi performa seperti context-mode atau dynamic context pruning. Saya sudah lumayan banyak memakai model lokal, tetapi baru mulai dengan opencode, dan meskipun hasilnya belum bagus, saya berharap setidaknya bagus untuk tugas-tugas sederhana. Ada juga masalah opencode yang baru saya pasang memakai CPU iTerm 100% bahkan saat idle
Kalau semua pekerjaan terkait kode saya kerjakan dengan Opus 4.7, tagihan bulanan saya akan 10~20 kali lebih mahal dibanding saat masih bisa memakai Sonnet
Kalau mereka mulai merilis lebih banyak model proprietari, saya benar-benar berharap mereka bermitra dengan salah satu hyperscaler besar di AS agar model-model seperti ini bisa dipakai lewat penyedia yang berbasis di AS
Saya paham sekali kenapa itu mungkin tidak masuk akal atau tidak sesuai dengan kepentingan mereka. Benar juga bahwa AS pun sama sekali tidak otomatis melakukan hal yang sebaliknya. Tetap saja, akan bagus kalau saya bisa benar-benar mengujinya pada workload produksi nyata
Angkanya sendiri sangat bagus. Tapi saya tetap tidak mengerti kenapa tulisan seperti ini tidak membandingkannya dengan model pesaing terbaru. Orang-orang pasti sadar juga
OpenAI dan Anthropic juga sama, sering memakai dataset evaluasi yang berbeda-beda
Tulisan seperti ini juga tidak muncul begitu saja, bahkan untuk LLM. Kalau Anda punya set benchmark target untuk model sendiri, mempertahankan set model pembanding yang bisa dibandingkan secara berdampingan juga merupakan beban pemeliharaan tersendiri
Secara realistis, saya rasa mereka berharap pembaca tidak menangkap detail-detail itu
Model Qwen sangat bagus untuk ukuran open-weight, tetapi rilisan sebelumnya dalam penggunaan nyata tidak sebaik angka benchmark-nya. Karena mereka tahu optimasi angka benchmark itu efektif, ya mereka mengarah ke sana
Kalau Anda bilang bisa dibandingkan dengan 4.7, maka model acuan evaluasi itu otomatis menempel di kepala orang
Saya penasaran apakah ini tipe yang seminggu kemudian akan ada rilis di Hugging Face. Atau memang sudah pasti tahu bahwa ini akan tetap eksklusif
Saya berharap ada lebih banyak rilis open-weight dari Qwen. Terutama 122B dan 397B yang paling saya tunggu
Begitu lewat Qwen 9B saja, mesin saya berisiko macet total
Di benchmark tidak ada Opus 4.7, GPT5.5, Gemini Flash 3.5
Saya memakai pi agent dan ingin mencoba model Qwen yang di-host. Penasaran opsi bagusnya apa
Penyedia resminya tidak mencantumkan Alibaba. Saya juga penasaran apakah layanan seperti OpenRouter cukup cepat. Sebagai catatan, DeepSeek v4 sangat dibatasi di layanan proxy seperti ini
Saya baru mulai mencoba-coba LLM lokal dan jujur cukup terkesan. Saya memakai workstation laptop dengan NVIDIA A1000 (VRAM 6GB) dan RAM 96GB
GPU hampir tidak pernah saya pakai, paling sesekali untuk desain CAD atau machine learning berbasis OpenCV. Saya mencoba menjalankan llama3:latest dan ternyata berjalan cukup cepat, jadi saya penasaran bagaimana Qwen akan berjalan di sistem saya
Pola yang paling saya percaya adalah menambahkan artefak verifikasi kecil untuk setiap tindakan eksternal. Agent sering gagal lebih cepat bukan karena kurang dalam penalaran, melainkan karena state drift diam-diam