Mengajarkan Agen AI Cara Bertanya yang Lebih Baik dengan Memanfaatkan Game 'Battleship'

Membangun testbed untuk mengukur kemampuan agen AI mengajukan pertanyaan yang baik di lingkungan penuh ketidakpastian, dengan merekonstruksi game deduksi klasik Battleship ke dalam bentuk tanya-jawab bahasa alami
Permainan berlangsung dengan struktur kapten (captain) yang menanyakan lokasi kapal tersembunyi, dan pengamat (spotter) yang menjawab secara real time; dari data permainan lebih dari 40 orang dibuat dataset BattleshipQA
Bahkan tanpa pelatihan awal, model besar seperti GPT-5 menang dalam lebih sedikit giliran dibanding manusia, tetapi model kecil kurang mahir membuat pertanyaan yang berguna sehingga diterapkan strategi inferensi Monte Carlo
Llama 4 Scout naik dari tingkat kemenangan 8% melawan manusia menjadi 82% sebelum perbaikan, melampaui GPT-5 dengan biaya hanya sekitar 1%
Ini membuktikan bahwa model kecil dapat melampaui model besar secara efisien dari sisi biaya, sekaligus menunjukkan potensi di bidang penemuan ilmiah yang memerlukan pencarian solusi langka (needle-in-a-haystack)

Latar belakang riset: batasan eksplorasi informasi pada agen AI

Pada 2026, ekspektasi terhadap agen AI lebih tinggi dari sebelumnya, dan tugas yang terdefinisi jelas seperti layanan pelanggan serta pengembangan perangkat lunak dijalankan berbasis model bahasa (LM)
Bidang seperti diagnosis medis dan penemuan ilmiah, yang harus mengeksplorasi ruang solusi luas di lingkungan tidak pasti, masih sulit bagi LM
Untuk menganalisis masalah inti LM dalam situasi berisiko tinggi, peneliti dari MIT CSAIL dan Harvard SEAS mengadopsi Battleship, yang telah digunakan dalam ilmu kognitif untuk meneliti pencarian informasi manusia, sebagai pengujian

Game ini direkonstruksi dengan fokus pada tanya-jawab bahasa alami; satu peserta berperan sebagai kapten yang menanyakan lokasi kapal tersembunyi, sementara anggota tim berperan sebagai pengamat yang menjawab secara real time
Lebih dari 40 orang bermain bersama, dan pertanyaan serta jawaban ya/tidak yang terkumpul digunakan untuk membangun dataset BattleshipQA
Data ini dipakai sebagai tolok ukur saat menguji LM terbaru seperti GPT-5 dan model kecil seperti Llama 4 Scout
Bahkan tanpa pelatihan awal, LM papan atas dapat "menang" dengan menyelesaikan permainan dalam lebih sedikit giliran daripada manusia, tetapi sistem kecil jauh lebih tidak rasional

Masalah utamanya adalah banyak model gagal menghasilkan pertanyaan yang berguna
Setiap model diberi strategi inferensi Monte Carlo yang mengukur kemungkinan tiap pilihan menjadi jawaban benar pada setiap respons, dan hasilnya mampu mengalahkan pemain biasa tanpa memandang skala model
LM memperlakukan kemungkinan tebakan sebagai partikel (particle) individual, lalu secara adaptif menaikkan bobot pada tebakan yang tampak lebih masuk akal setiap kali pengamat memberi jawaban
- Ini bekerja seperti bola permainan yang mengembang atau menyusut di setiap giliran, sehingga kapten dapat menarik jauh lebih banyak informasi dari pengamat
Sebagai model kecil, Llama 4 Scout awalnya hanya mencatat tingkat kemenangan 8% melawan manusia, tetapi setelah strategi inferensinya diperbaiki berhasil mencapai 82%, melampaui GPT-5 dengan biaya sekitar 1% saja

GPT-5 adalah pengamat yang andal, tetapi sistem kecil memiliki kecenderungan menjawab lokasi kapal secara salah
Pertanyaan dari kapten diubah otomatis menjadi perintah terenkode agar LM pengamat dapat memverifikasi jawabannya, sehingga akurasi rata-rata meningkat 15%
- Contoh: "Apakah ada kapal yang membentang dua baris di kolom 1?" → diubah menjadi perintah untuk menelusuri area tersebut dan mengevaluasi lebar bidak permainan
Ketika model diberi instruksi yang jelas dalam bahasa Python, yang sangat dipahaminya, tingkat jawaban benar meningkat tajam
- Model ringan GPT-4o-mini meningkat sekitar 30%, sementara model besar Claude 4 Opus juga naik sekitar 8 poin
Berdasarkan keberhasilan strategi auto-formalization, di mana LM menghasilkan kode untuk memverifikasi solusi, riset ini menunjukkan kemungkinan menghasilkan solusi yang lebih baik lewat peningkatan kemampuan eksplorasi dan pengumpulan informasi

Teknik yang sama juga diterapkan pada Guess Who?, yang mempersempit 100 pilihan untuk menebak karakter tersembunyi
Llama 4 Scout naik dari 30% menjadi lebih dari 72%, dan GPT-4o dari 62% menjadi 90%, dengan GPT-5 berperan sebagai pengamat di tiap permainan
Model masih kesulitan menjawab pertanyaan yang kompleks dibanding manusia
- GPT-5 mengalahkan pemain Battleship rata-rata dan sedikit membaik setelah teknik ini diterapkan, tetapi tidak seperti catur, semua model tetap sulit mengalahkan pemain ahli

Agen AI memiliki potensi dalam pencarian needle-in-a-haystack untuk menemukan solusi langka di tengah ruang pilihan yang sangat besar
- Ini dapat dimanfaatkan sebagai asisten riset yang unggul untuk tugas ilmiah seperti mengidentifikasi struktur molekul suatu senyawa
Collaborative Battleship adalah testbed yang relatif sederhana, sehingga masih perlu validasi lanjutan di lingkungan kompleks yang menuntut pertimbangan lebih banyak pilihan
Rencana berikutnya mencakup penelitian efek kolaborasi manusia-AI, fine-tuning berbasis simulasi game, dan penguatan kemampuan inferensi tingkat lanjut melalui sumber daya komputasi yang lebih besar
Semakin otonom agen, semakin sulit masalah sosial seperti melacak landasan bersama, menyelesaikan kesalahpahaman, dan beradaptasi dengan mitra; penilaiannya adalah bottleneck sesungguhnya bukan sekadar menghitung pertanyaan optimal, melainkan inferensi praktis untuk memanfaatkan jawaban semaksimal mungkin