- Factorio Learning Environment (FLE) yang berbasis game Factorio adalah lingkungan untuk menguji perencanaan jangka panjang, pembuatan program, dan optimisasi sumber daya.
- FLE menyediakan tantangan yang dapat diskalakan dari otomatisasi dasar hingga pabrik yang kompleks, serta mencakup dua pengaturan: 'Lab-play', yang menjalankan 24 tugas terstruktur dengan sumber daya tetap, dan 'Open-play', yang menyediakan tugas tanpa batas.
- Pentingnya FLE
- FLE menyediakan infrastruktur, API, dan metrik untuk mengevaluasi pembuatan kode, penalaran spasial, dan perencanaan jangka panjang.
- Agen harus mengekstrak sumber daya dan mengelola rantai produksi yang kompleks, sambil menetapkan dan mencapai tujuan yang semakin rumit.
- Lingkungan dan agen
- Agen berinteraksi dengan lingkungan melalui Python API, mengirimkan program, dan menerima umpan balik untuk menyempurnakan strategi.
- Program agen menghasilkan skor produksi (PS) dan milestone yang menunjukkan kemajuan teknologi.
- Pengaturan eksperimen
- Dua pengaturan eksperimen: 'Open-play' dan 'Lab-play'.
- Enam model bahasa mutakhir dievaluasi: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
- Open-Play
- Agen memiliki tujuan untuk "membangun pabrik terbesar" di dunia yang dibuat secara prosedural.
- Kemampuan agen dievaluasi melalui skor produksi, dan model yang lebih unggul menunjukkan skor yang lebih tinggi serta kurva pertumbuhan yang lebih curam.
- Lab-Play
- Agen diberi sumber daya dan harus mencapai tujuan dalam waktu yang terbatas.
- Agen menjalankan tugas untuk memproduksi 24 entitas target, dan setiap entitas menjadi semakin kompleks.
- Wawasan utama
- Kemampuan coding memprediksi performa, sementara investasi teknologi dan perencanaan mendorong pertumbuhan.
- Penalaran spasial dan pemulihan dari kesalahan merupakan tantangan utama.
- Model menunjukkan gaya pemrograman yang berbeda-beda.
- Kesimpulan
- Bahkan LLM terbaru pun mengalami kesulitan dalam masalah koordinasi dan optimisasi pada tugas otomatisasi.
- Kompleksitas pohon teknologi Factorio tetap memberikan skenario evaluasi yang menantang meskipun riset AI terus berkembang.
- FLE tersedia sebagai platform open source untuk meneliti kemampuan agen dalam domain yang kompleks dan tak terbatas.
1 komentar
Komentar Hacker News
Ingin melamar ke lab riset Factorio Anthropic. Penasaran apakah ada transmisi data multimodal. Qwen 2.5 VLM yang baru dirilis tampak kuat untuk ukurannya
Pernah ada postingan HN tentang tim yang menamatkan Pokémon Red dengan menggunakan reinforcement learning. Penasaran apakah pendekatan ini bisa dipakai untuk Factorio
Semua model menunjukkan keterbatasan dalam perencanaan ruang saat membangun pabrik multi-bagian
LLM bisa digunakan sebagai agen tingkat tinggi untuk secara otonom membangun pabrik besar yang efisien
Banyak hal menarik untuk dieksperimenkan. Skenario laboratorium yang punya unsur waktu tampak seperti ide bagus
Penasaran apakah ada benchmark pemain manusia untuk gaya antarmuka seperti ini
Penasaran apakah beberapa tahun lagi semua lawan dalam game akan menjadi LLM yang punya akses ke API kontrol game
Sebagai kategori lain dari tugas "Lab Play", desain balancer sepertinya akan menarik
Ingin melihat lebih banyak gambar pabrik yang lebih besar
Menarik bahwa hanya ada beberapa skenario kompleks