1 poin oleh GN⁺ 2025-03-12 | 1 komentar | Bagikan ke WhatsApp
  • Factorio Learning Environment (FLE) yang berbasis game Factorio adalah lingkungan untuk menguji perencanaan jangka panjang, pembuatan program, dan optimisasi sumber daya.
  • FLE menyediakan tantangan yang dapat diskalakan dari otomatisasi dasar hingga pabrik yang kompleks, serta mencakup dua pengaturan: 'Lab-play', yang menjalankan 24 tugas terstruktur dengan sumber daya tetap, dan 'Open-play', yang menyediakan tugas tanpa batas.
  • Pentingnya FLE
    • FLE menyediakan infrastruktur, API, dan metrik untuk mengevaluasi pembuatan kode, penalaran spasial, dan perencanaan jangka panjang.
    • Agen harus mengekstrak sumber daya dan mengelola rantai produksi yang kompleks, sambil menetapkan dan mencapai tujuan yang semakin rumit.
  • Lingkungan dan agen
    • Agen berinteraksi dengan lingkungan melalui Python API, mengirimkan program, dan menerima umpan balik untuk menyempurnakan strategi.
    • Program agen menghasilkan skor produksi (PS) dan milestone yang menunjukkan kemajuan teknologi.
  • Pengaturan eksperimen
    • Dua pengaturan eksperimen: 'Open-play' dan 'Lab-play'.
    • Enam model bahasa mutakhir dievaluasi: Claude 3.5-Sonnet, GPT-4o, GPT-4o-Mini, Deepseek-v3, Gemini-2-Flash, Llama-3.3-70B-Instruct.
  • Open-Play
    • Agen memiliki tujuan untuk "membangun pabrik terbesar" di dunia yang dibuat secara prosedural.
    • Kemampuan agen dievaluasi melalui skor produksi, dan model yang lebih unggul menunjukkan skor yang lebih tinggi serta kurva pertumbuhan yang lebih curam.
  • Lab-Play
    • Agen diberi sumber daya dan harus mencapai tujuan dalam waktu yang terbatas.
    • Agen menjalankan tugas untuk memproduksi 24 entitas target, dan setiap entitas menjadi semakin kompleks.
  • Wawasan utama
    • Kemampuan coding memprediksi performa, sementara investasi teknologi dan perencanaan mendorong pertumbuhan.
    • Penalaran spasial dan pemulihan dari kesalahan merupakan tantangan utama.
    • Model menunjukkan gaya pemrograman yang berbeda-beda.
  • Kesimpulan
    • Bahkan LLM terbaru pun mengalami kesulitan dalam masalah koordinasi dan optimisasi pada tugas otomatisasi.
    • Kompleksitas pohon teknologi Factorio tetap memberikan skenario evaluasi yang menantang meskipun riset AI terus berkembang.
    • FLE tersedia sebagai platform open source untuk meneliti kemampuan agen dalam domain yang kompleks dan tak terbatas.

1 komentar

 
GN⁺ 2025-03-12
Komentar Hacker News
  • Ingin melamar ke lab riset Factorio Anthropic. Penasaran apakah ada transmisi data multimodal. Qwen 2.5 VLM yang baru dirilis tampak kuat untuk ukurannya

    • Ada banyak pembahasan tentang kurangnya kemampuan spasial. Penasaran pendapat soal apakah gambar juga dikirim
    • Pekerjaan ini mengagumkan. Ingin ikut proyek ini sekarang juga
    • MCP tampak seperti tugas wajib yang alami untuk mengaktifkan library Python
  • Pernah ada postingan HN tentang tim yang menamatkan Pokémon Red dengan menggunakan reinforcement learning. Penasaran apakah pendekatan ini bisa dipakai untuk Factorio

    • "Tugas wajib" utama di Factorio adalah menyiapkan otomatisasi item baru dan science pack
    • Fungsi reward bisa mencakup reward kecil untuk laju produksi tiap item, reward menengah untuk otomatisasi item baru, dan reward besar untuk otomatisasi science pack baru
    • Mengatakan kepada agen Factorio "bangun pabrik besar" sama seperti mengatakan kepada agen Pokémon Red "menangkan gamenya"
  • Semua model menunjukkan keterbatasan dalam perencanaan ruang saat membangun pabrik multi-bagian

    • Alasan LLM lemah dalam penalaran spasial mungkin karena data latihnya tidak banyak
    • Penasaran kemampuan penalaran tambahan apa yang akan muncul jika penalaran spasial terpecahkan
  • LLM bisa digunakan sebagai agen tingkat tinggi untuk secara otonom membangun pabrik besar yang efisien

    • Menetapkan tujuan untuk produksi sumber daya
    • Membuat grafik pabrik dan menghitung pengangkutan sumber daya
    • Memetakan grafik ke bahasa deskripsi perangkat keras
    • Mengompilasi ke layout FPGA 2D
    • Memetakan rencana ke desain Factorio yang konkret
  • Banyak hal menarik untuk dieksperimenkan. Skenario laboratorium yang punya unsur waktu tampak seperti ide bagus

    • Saya suka desain framework yang berbeda dari eksperimen DOTA 2 atau StarCraft 2
    • Penasaran apakah ada rencana benchmark optimasi layout
  • Penasaran apakah ada benchmark pemain manusia untuk gaya antarmuka seperti ini

    • Penasaran seperti apa rasanya Factorio yang terprogram
  • Penasaran apakah beberapa tahun lagi semua lawan dalam game akan menjadi LLM yang punya akses ke API kontrol game

    • Penasaran apakah ada jenis tugas tertentu yang membuat model kesulitan
  • Sebagai kategori lain dari tugas "Lab Play", desain balancer sepertinya akan menarik

    • Balancer kecil pun bisa rumit
  • Ingin melihat lebih banyak gambar pabrik yang lebih besar

    • Ini dengan jelas menunjukkan kelemahan besar LLM saat ini
    • Berharap ada peningkatan lebih besar dari pembelajaran/adaptasi online
  • Menarik bahwa hanya ada beberapa skenario kompleks

    • Saya selalu berpikir agen game ML memerlukan ratusan puzzle kecil agar benar-benar mempelajari mekanisme game
    • Skenario bisa dihasilkan secara terprogram dan digunakan seperti bank soal tes IQ
    • Saya berasumsi agen ML akan belajar lebih cepat saat sampel dievaluasi dari bank skenario yang lebih besar