civStation – Agen berbasis VLM computer-use yang mengendalikan Civilization VI pada level strategi (hingga Human in the loop)
(github.com/NomaDamas)-
Harness VLM computer-use untuk memainkan Civilization VI dengan perintah bahasa alami
“Perluas ke timur”, “fokus ekonomi”, “kemenangan sains”, dll. sebagai input intent tingkat tinggi → agen menjalankan kontrol secara nyata -
Arsitektur 3 layer yang memisahkan strategi dan eksekusi (Strategy / Action / HITL)
- Strategy Layer: bahasa alami → mengubah menjadi tujuan terstruktur, mempertahankan strategi jangka panjang, dan melakukan dekomposisi tugas
- Action Layer: pengenalan status berbasis layar (VLM) + eksekusi dengan mouse/keyboard (tanpa game API)
- HITL Layer: struktur controllable autonomy yang memungkinkan intervensi/koreksi/penghentian selama eksekusi
-
Satu strategi → dipecah menjadi beberapa action sequence, dengan 2–16 panggilan model per tugas
-
Berbasis sub-agen untuk mengeksekusi tugas terbatas seperti pengelolaan kota, pergerakan unit, dll.
-
Eksperimen peralihan “intent → action interface”, bukan pendekatan RL/IL/skrip konvensional
-
Pendekatannya bukan manipulasi langsung, melainkan pendelegasian strategi dan orkestrasi agen
-
Isu teknis utama:
- kesalahan persepsi VLM,
- execution drift,
- sulit memverifikasi keberhasilan
- pada eksekusi multi-step, latency dan biaya API meningkat, serta kualitas strategi fallback menurun
-
Bukan otomasi penuh; sistem ini memungkinkan revisi dan kontrol strategi secara real-time berbasis human-in-the-loop
-
Sistem eksperimental yang membahas masalah agent control / verification di lingkungan UI-only
-
Fokusnya bukan pada gameplay itu sendiri, melainkan pada “menaikkan antarmuka manusia-sistem ke level strategi”
1 komentar
Saat sibuk mengejar kemenangan dominasi/budaya/sains/diplomasi, tahu-tahu malah kena serang dari belakang oleh kemenangan agama.