Turnamen poker tempat para LLM saling bertarung
(pokerbattle.ai)- LLM bertanding dalam turnamen uang tunai pertama di dunia untuk menguji kemampuan penalaran AI dalam permainan dengan informasi tidak lengkap
- Saat ini Grok 4 berada di posisi pertama, diikuti Gemini 2.5 Pro, Claude Sonnet 4.5, DeepSeek R1, dan OpenAI o3
- Turnamen menggunakan format cash game Texas Hold’em $10/$20, dengan 4 meja berisi 9 pemain berlangsung secara bersamaan, dan model yang mengumpulkan dana terbanyak selama satu minggu menjadi pemenang
- Semua model peserta menggunakan system prompt yang sama, dan pada setiap titik pengambilan keputusan, LLM menghasilkan penilaian dan aksi berdasarkan kartu tangan, stack, statistik lawan, serta catatan
- Turnamen berlangsung hanya dengan kompetisi antarmodel tanpa pemain manusia, sehingga efisiensi algoritme dan hasil pembelajaran bisa dibandingkan secara langsung
- Setelah turnamen, dataset penalaran per hand dan proses berpikir dari tiap model akan dianalisis untuk digunakan sebagai bahan evaluasi kualitas pemikiran strategis LLM
- Eksperimen ini merupakan upaya untuk menguji keandalan penalaran AI dan potensi pembelajaran strategis, serta mendapat perhatian sebagai bentuk riset baru untuk memahami pola pikir probabilistik yang berpusat pada manusia
Ikhtisar PokerBattle.ai
- PokerBattle.ai adalah turnamen poker uang tunai pertama yang ditujukan untuk LLM
- Pesertanya bukan manusia, melainkan language model, dan setiap model menjalankan strategi pokernya sendiri
- Ada hadiah uang sungguhan, sehingga hasil kompetisi terhubung langsung dengan nilai finansial
- Proyek ini dirancang sebagai platform eksperimental untuk memverifikasi kemampuan pengambilan keputusan strategis AI
- Melalui poker sebagai permainan dengan informasi tidak lengkap, proyek ini mengevaluasi daya nalar dan kemampuan adaptasi model
- Fokusnya bukan pada generasi bahasa semata, melainkan pada evaluasi perilaku berbasis pengambilan keputusan
Gambaran turnamen dan tujuannya
- Poker adalah permainan yang inti utamanya terletak pada informasi tidak lengkap dan penilaian probabilistik, dengan struktur pengambilan keputusan yang kompleks dalam menyeimbangkan risiko dan imbalan
- Turnamen ini diselenggarakan untuk menguji apakah LLM dapat menafsirkan persoalan seperti ini secara rasional dan membangun strategi yang konsisten
- Tujuannya juga untuk memverifikasi apakah LLM dapat melakukan secara terpadu pendekatan tradisional dalam belajar poker (analisis hand, perhitungan matematis, penggunaan solver, dan lain-lain)
Cara pelaksanaan
- Semua pertandingan berlangsung dalam bentuk duel langsung antarsesama LLM
- Tidak ada pemain manusia yang ikut serta, dan setiap model menentukan aksinya secara mandiri
- Hasil dihitung otomatis sesuai aturan poker untuk menentukan menang-kalah dan hadiah uang
- Berlangsung secara real-time dan hasilnya dipublikasikan untuk memastikan transparansi
- Log aksi dan pilihan strategis masing-masing model dicatat sehingga dapat dianalisis
- Tahap 1: pengumpulan data (27–31 Oktober)
- Tahap 2: analisis hand dan penalaran
- Pada tahap 1, turnamen online real-time dijalankan sambil mengumpulkan data permainan dari tiap LLM
- Setelah itu, jalur penalaran (reasoning trace) masing-masing model dianalisis untuk membandingkan kemampuan pengambilan keputusan strategis
Aturan turnamen
- Format permainan: Texas Hold’em, blind $10/$20, tanpa ante/straddle
- Susunan: 4 meja simultan × 9 pemain
- Manajemen stack: isi ulang otomatis jika turun di bawah 100bb
- Syarat kemenangan: setelah satu minggu, model dengan bankroll terbesar menjadi pemenang
Cara kerja model
- Semua LLM peserta beroperasi berdasarkan system prompt yang sama
- Pada setiap giliran, model menerima input berikut:
- Informasi hand saat ini (posisi, stack, kartu)
- Statistik permainan lawan (VPIP, PFR, 3bet, dan sebagainya)
- Catatan lawan yang ditulis dari hand sebelumnya
- Output model:
- Penalaran logis atas keputusan
- Aksi yang akan dijalankan (call, raise, fold, dan sebagainya)
- Ringkasan untuk penonton (reasoning summary)
- Ada batas token, dan jika terjadi kesalahan respons atau waktu habis, hasilnya diperlakukan sebagai fold otomatis
Penyelenggara
- Max Pavlov — profesional manajemen produk sekaligus penggemar deep learning, AI, dan poker
- Ia merancang proyek ini untuk mengeksplorasi sejauh mana LLM dapat mewujudkan pemikiran probabilistik yang kompleks dan penalaran strategi ala manusia
2 komentar
Wow, kalau ada artikel, wawancara, atau kuliah terbuka dari orang yang melakukan tuning model ini, saya ingin melihatnya.
Opini Hacker News
Saya meraih gelar doktor di bidang teori permainan algoritmik dan pernah meneliti poker
Karena alasan-alasan ini, secara teknis mustahil bagi LLM saat ini untuk bermain poker dengan kuat. Tidak seperti catur, poker tidak punya strategi optimal deterministik, dan membutuhkan konsistensi
Bagian tersulitnya adalah menulis simulasi Monte Carlo secara efisien. Saya harus memberi bobot probabilistik berdasarkan riwayat hand pemain, sekaligus mencerminkan keacakan unik mereka
Saya tidak memakai teori permainan, tetapi kalau dipakai hasilnya mungkin akan jauh lebih baik. LLM sama sekali tidak mungkin memahami konsep seperti ini
Di masa depan, kemampuan LLM untuk memanggil game engine eksternal akan menjadi penting. Tapi kalau begitu, pada akhirnya yang bermain adalah engine-nya. Bot poker level pro juga sudah ada
Pluribus terbatas pada stack tetap, dan baik pelatihan maupun permainannya sangat mahal secara komputasi
Saya tidak setuju dengan klaim bahwa LLM tidak bisa mempelajari strategi campuran. LLM memang menghasilkan distribusi token lalu melakukan sampling acak darinya
Poker adalah permainan zero-sum, jadi keberuntungan bisa sangat berpengaruh di awal. Jika hanya satu turnamen, keandalan statistiknya rendah
Selain itu ada kejanggalan pada datanya — total uangnya lebih banyak $20, beberapa nomor hand hilang, dan meskipun ada ante $30, tetap ada pot $0.
Dari sini muncul keraguan soal reliabilitas hasilnya
Kalau LLM bisa berbicara satu sama lain sambil menggertak, rasanya itu akan jadi eksperimen yang sangat menarik. Ditonton pun sepertinya seru
Saya adalah ahli game informasi tidak lengkap, dan eksperimen ini sangat menarik
Game seperti poker atau Diplomacy jauh lebih sulit daripada catur, dan khususnya poker 3 pemain atau lebih bukan zero-sum sehingga ekuilibrium Nash tidak ada
Game seperti ini mirip dengan pengambilan keputusan di dunia nyata, jadi menjadi arena eksperimen yang bagus untuk riset LLM
AI poker terbaik saat ini berbasis Counterfactual Regret Minimization(CFR) dan digabungkan dengan pencarian waktu nyata
Noam Brown memperluas pendekatan ini ke pencarian saat waktu inferensi untuk membuat Pluribus, dan sistem itu mengalahkan para profesional
Setelah itu ia bergabung dengan OpenAI, dan tampaknya ide-ide seperti ini juga tercermin dalam fitur “thinking” pada model o1-preview
Riset AI poker memberi pengaruh besar pada perkembangan AI mutakhir
Saat kuliah saya menghasilkan $500.000 dari AI poker, lalu membuat PokerTableRatings.com untuk mendeteksi kecurangan
Saya menjual perusahaan itu ke Zynga dan bekerja sebagai CTO Zynga Poker, dan belakangan ini sedang mengembangkan platform pembelajaran berbasis Pluribus melalui pokerskill.com
Kami di TEN Protocol mengadakan turnamen poker LLM menggunakan blockchain dan pembangkitan angka acak berbasis TEE
Lima LLM bermain dalam berbagai kompetisi selama beberapa bulan, dan game terpanjang berlangsung lebih dari 50 jam
Lihat screenshot game, ringkasan tweet, dan tautan artikel
Kalau mau, kami bisa membuka turnamen baru agar bisa ditonton
Saya penasaran apakah LLM akan terus membaik. Saya juga ingin ikut serta sendiri
Tapi saat ini mereka bahkan kadang salah dalam mengenali hand dasar. Misalnya bilang “top pair” padahal sebenarnya bukan
Saya adalah pembuat rs-poker. Agar LLM bisa bermain poker dengan baik, dibutuhkan matematika, kebohongan, dan keacakan, dan saat ini semuanya masih kurang
Saya tahu cara menghitung langkah optimal, tetapi biaya komputasinya terlalu besar
Meski begitu, ada kemungkinan poker bisa dipecahkan dengan model attention berbasis BERT. Dibutuhkan dataset yang lebih baik dan pelatihan model khusus. Kalau tertarik, silakan hubungi saya (elliott.neil.clark@gmail.com)
Dengan struktur pelatihan yang sederhana pun, sepertinya model bisa dilatih cukup baik
Eksperimen ini menunjukkan bahwa LLM hanya kuat pada tugas seperti kompresi atau OCR, bukan penalaran logis
Misalnya, kesalahan dasar seperti “jika board menjadi paired maka straight bisa selesai” sering muncul
Pada level seperti ini, saya rasa jalan menuju AGI masih panjang
Struktur prompt saat LLM bermain telah dipublikasikan
Di setiap giliran, system prompt-nya sama, dan LLM merujuk pada statistik pemain (VPIP, PFR, 3bet, dll.) serta catatan sebelumnya
Responsnya mencakup alasan, aksi, dan ringkasan, serta ada batas token. Jika terjadi masalah, hasilnya dianggap fold
Agak mengecewakan bahwa model bisa langsung melihat statistik model lain.
Akan lebih menarik jika model hanya menilai dari catatan dan konteks. Mungkin ini dilakukan demi menghemat biaya
Menurut saya eksperimen ini benar-benar ide yang jenius
Dengan desain eksperimen seperti ini, AI tampaknya sulit mengembangkan strategi baru. Memperlakukan poker sebagai teks mirip dengan masalah kurangnya pemahaman realitas abstrak seperti pada matematika
Kalau percakapan dan bluffing diizinkan, itu sepertinya akan jadi eksperimen yang sangat lucu dan menarik 😄