civStation – Agen berbasis VLM computer-use yang mengendalikan Civilization VI pada level strategi (hingga Human in the loop)

ironman0722 · 2026-03-31T14:03:37+09:00

Harness VLM computer-use untuk memainkan Civilization VI dengan perintah bahasa alami “Perluas ke timur”, “fokus ekonomi”, “kemenangan sains”, dll. sebagai input intent tingkat tinggi → agen menjalankan kontrol secara nyata Arsitektur 3 layer yang memisahkan strategi dan eksekusi (Strategy / Action / HITL) Strategy Layer: bahasa alami → mengubah menjadi tujuan terstruktur, mempertahankan strategi jangka panjang, dan melakukan dekomposisi tugas Action Layer: pengenalan status berbasis layar (VLM) + eksekusi dengan mouse/keyboard (tanpa game API) HITL Layer: struktur controllable autonomy yang memungkinkan intervensi/koreksi/penghentian selama eksekusi Satu strategi → dipecah menjadi beberapa action sequence, dengan 2–16 panggilan model per tugas Berbasis sub-agen untuk mengeksekusi tugas terbatas seperti pengelolaan kota, pergerakan unit, dll. Eksperimen peralihan “intent → action interface”, bukan pendekatan RL/IL/skrip konvensional Pendekatannya bukan manipulasi langsung, melainkan pendelegasian strategi dan orkestrasi agen Isu teknis utama: kesalahan persepsi VLM, execution drift, sulit memverifikasi keberhasilan pada eksekusi multi-step, latency dan biaya API meningkat, serta kualitas strategi fallback menurun Bukan otomasi penuh; sistem ini memungkinkan revisi dan kontrol strategi secara real-time berbasis human-in-the-loop Sistem eksperimental yang membahas masalah agent control / verification di lingkungan UI-only Fokusnya bukan pada gameplay itu sendiri, melainkan pada “menaikkan antarmuka manusia-sistem ke level strategi”

(github.com/NomaDamas)

7 poin oleh ironman0722 2026-03-31 | 1 komentar | Bagikan ke WhatsApp

Harness VLM computer-use untuk memainkan Civilization VI dengan perintah bahasa alami
“Perluas ke timur”, “fokus ekonomi”, “kemenangan sains”, dll. sebagai input intent tingkat tinggi → agen menjalankan kontrol secara nyata
Arsitektur 3 layer yang memisahkan strategi dan eksekusi (Strategy / Action / HITL)
- Strategy Layer: bahasa alami → mengubah menjadi tujuan terstruktur, mempertahankan strategi jangka panjang, dan melakukan dekomposisi tugas
- Action Layer: pengenalan status berbasis layar (VLM) + eksekusi dengan mouse/keyboard (tanpa game API)
- HITL Layer: struktur controllable autonomy yang memungkinkan intervensi/koreksi/penghentian selama eksekusi
Satu strategi → dipecah menjadi beberapa action sequence, dengan 2–16 panggilan model per tugas
Berbasis sub-agen untuk mengeksekusi tugas terbatas seperti pengelolaan kota, pergerakan unit, dll.
Eksperimen peralihan “intent → action interface”, bukan pendekatan RL/IL/skrip konvensional
Pendekatannya bukan manipulasi langsung, melainkan pendelegasian strategi dan orkestrasi agen
Isu teknis utama:
- kesalahan persepsi VLM,
- execution drift,
- sulit memverifikasi keberhasilan
- pada eksekusi multi-step, latency dan biaya API meningkat, serta kualitas strategi fallback menurun
Bukan otomasi penuh; sistem ini memungkinkan revisi dan kontrol strategi secara real-time berbasis human-in-the-loop
Sistem eksperimental yang membahas masalah agent control / verification di lingkungan UI-only
Fokusnya bukan pada gameplay itu sendiri, melainkan pada “menaikkan antarmuka manusia-sistem ke level strategi”

1 komentar

bus710 2026-04-01

Saat sibuk mengejar kemenangan dominasi/budaya/sains/diplomasi, tahu-tahu malah kena serang dari belakang oleh kemenangan agama.

civStation – Agen berbasis VLM computer-use yang mengendalikan Civilization VI pada level strategi (hingga Human in the loop)

Bacaan terkait

1 komentar