Eksperimen yang Mensimulasikan Perdagangan Saham dengan 5 LLM Selama 8 Bulan, Masing-Masing Diberi Dana 140 Juta Won
(aitradearena.com)- Lima model bahasa besar seperti GPT-5, Claude, Gemini, Grok, DeepSeek melakukan perdagangan saham virtual selama 8 bulan berdasarkan data pasar nyata
- Setiap model memperdagangkan saham-saham utama secara harian dengan dana simulasi sebesar 100 ribu dolar AS, sambil mencatat semua pengambilan keputusan dan perubahan portofolio
- Hasilnya, Grok mencatat imbal hasil tertinggi, DeepSeek berada di posisi kedua dengan selisih tipis, dan Gemini menempati posisi terakhir dengan portofolio yang berfokus pada saham non-teknologi
- Eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, dan dibangun dalam lingkungan API dengan penyaringan berbasis waktu agar model hanya bisa mengakses data setelah titik waktu pelatihannya
- Tim peneliti menjadikan eksperimen ini sebagai titik awal, dan berencana memverifikasi kemampuan analisis finansial LLM secara sistematis melalui perdagangan real-time dan eksperimen dengan kontrol variabel
Gambaran AI Trade Arena
- AI Trade Arena adalah platform eksperimen yang dibangun untuk mengevaluasi kemampuan LLM dalam menganalisis dan memprediksi data keuangan nyata
- Dikembangkan bersama oleh Kam dan Josh
- Dirancang agar model melakukan perdagangan saham berdasarkan berita, laporan keuangan, dan data pasar
- Platform ini melacak saham yang dimiliki, riwayat transaksi, dan kinerja setiap model, serta membuka seluruh proses perdagangan melalui demo interaktif
Eksperimen pertama: perdagangan saham oleh 5 LLM
- Subjek eksperimen adalah GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Setiap model diberi dana simulasi sebesar 100 ribu dolar AS
- Perdagangan opsi dikecualikan, hanya saham utama yang diperdagangkan
- Semua transaksi dilakukan berdasarkan harga saham historis yang nyata, dan model hanya dapat mengakses informasi yang telah dipublikasikan pada saat itu
- API berita, informasi keuangan perusahaan, dan data pasar disediakan dengan penyaringan waktu
- Periode eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, sekitar 8 bulan
Konsep dan keterbatasan backtesting
- Backtest adalah metode untuk memverifikasi kinerja algoritme perdagangan menggunakan data historis
- Mensimulasikan keputusan yang akan diambil LLM pada titik waktu di masa lalu
- API dipisahkan berdasarkan deret waktu agar data masa depan tidak bocor
- Kelebihan
- Memungkinkan evaluasi model skala besar
- Berbagai skenario bisa diuji dengan cepat
- Memungkinkan diperolehnya hasil yang bermakna secara statistik
- Kekurangan
- Tidak dapat sepenuhnya mereproduksi lingkungan pasar nyata yang kompetitif dan bergantung pada likuiditas
- Ada risiko slippage, batas volume transaksi, dan kebocoran data masa depan
- Ada kemungkinan overfitting pada data historis
Hasil eksperimen dan pengamatan
- Semua model diuji hanya pada periode setelah cutoff data pelatihan
- Diatur agar model tidak melakukan perdagangan dengan mengandalkan hafalan atas hasil pasar di masa lalu
- Grok mencatat kinerja terbaik, DeepSeek berada di posisi kedua dengan selisih tipis
- Sebagian besar model membentuk portofolio berpusat pada saham teknologi dan mencatat imbal hasil tinggi
- Gemini memiliki porsi saham non-teknologi yang tinggi sehingga mencatat kinerja terburuk
- Tim peneliti mempublikasikan seluruh proses dan alasan transaksi untuk menjamin transparansi
- Dasar tiap transaksi dapat diperiksa langsung di UI
Rencana selanjutnya
- Tim peneliti berencana memperluas eksperimen tidak hanya pada backtest, tetapi juga ke uji perdagangan real-time
- Pendekatan 3 tahap: backtest skenario historis → perdagangan simulasi real-time → perdagangan di pasar nyata
- Tujuannya adalah memahami secara sistematis kemampuan analisis pasar keuangan dan kualitas pengambilan keputusan LLM
- Data pasar akan digunakan sebagai metrik evaluasi berbasis dunia nyata
- Mencoba membedakan keberuntungan dan kemampuan melalui hal-hal seperti analisis faktor Barra
- Melalui catatan transaksi, dimungkinkan untuk mengidentifikasi perbedaan antara penilaian berbasis hafalan dan penalaran yang sebenarnya
- Contoh: membedakan antara sekadar mengingat Nvidia lalu membeli, dengan memperoleh wawasan fundamental melalui analisis laporan 10-K
- Melalui analisis pengambilan keputusan yang transparan seperti ini, dimungkinkan untuk meningkatkan susunan alat dan alur kerja model
Partisipasi dan penelusuran data
- Di demo interaktif pada situs web, pengguna dapat menelusuri langsung transaksi, strategi, dan proses penalaran tiap model
- Tim peneliti sedang merencanakan eksperimen tambahan, dan mengumpulkan masukan melalui komunitas Discord dan DM Twitter
1 komentar
Opini Hacker News
Grok mencatat kinerja terbaik dan DeepSeek berada di posisi kedua dengan selisih tipis
Sebagian besar model tampaknya meraih hasil bagus karena memiliki portofolio yang berfokus pada saham teknologi
Sebaliknya, Gemini mencatat hasil terburuk karena porsi saham non-teknologinya tinggi
Saya bukan investor maupun peneliti, tetapi hasil ini terasa seperti ada metrik pengukuran yang keliru
Tetapi masalahnya adalah kita tidak bisa memprediksi waktu koreksi
Jika data tidak mencakup pasar turun, model tidak akan bisa mempelajari situasi itu
Akan lebih menarik jika datanya dibagi dua, satu bagian untuk pelatihan dan bagian lainnya untuk pengujian
Ini mengingatkan bahwa hedge fund pun bisa mengalahkan pasar selama 2~4 tahun, tetapi hampir mustahil melakukannya selama lebih dari 10 tahun
Hasilnya akan lebih bermakna jika model dilatih ulang per periode dan dilakukan backtesting
Saya dulu bekerja di brokerage API untuk algorithmic trading, dan strategi yang terlihat bagus saat backtest sering gagal di pasar nyata
Bahkan paper trading real-time pun bekerja berbeda dari pasar nyata
DeepSeek mencatat hasil bagus karena banyak memegang saham teknologi tanpa menjual, tetapi strategi yang terkonsentrasi pada satu sektor itu berisiko
Karena perdagangan hanya bisa dilakukan sekali sehari, ini bukan eksperimen pengambilan keputusan real-time
Jika LLM bisa berpindah sektor pada waktu yang tepat, itu benar-benar akan mengesankan
dan ada pula market impact saat peserta lain membatalkan order atau ikut masuk
Hal-hal seperti ini tidak terjadi dalam paper trading
Jika tiap model hanya dijalankan satu kali, itu bukan backtest yang layak
Jika hanya melihat hasil pada satu titik waktu, strategi sederhana seperti “beli saham terkait AI” pun bisa saja kebetulan berhasil
Perlu dijalankan 100 kali secara independen di 10 periode pasar yang berbeda agar statistiknya bermakna
Eksperimen ini saat ini tidak lebih dari random number generator yang mahal
Misalnya Claude menghabiskan biaya 200~300 dolar untuk menjalankan eksperimen selama 8 bulan
Saya ingin memperbesarnya agar menghasilkan hasil yang signifikan secara statistik
Saat ini kesannya seperti artikel yang berfokus pada hasil
Karena bahkan memilih saham secara acak pun punya peluang tinggi untuk mengalahkan S&P 500
Tetapi tidak ada orang yang akan memakai strategi itu apa adanya selama 15 tahun ke depan
Ada juga leaderboard nof1.ai yang sedang berjalan
Hasilnya di bawah ekspektasi, dan kebanyakan AI mengalami rugi karena fokus pada short-term trading saham teknologi Mag7
Kami sedang menjalankan eksperimen serupa untuk melengkapinya di rallies.ai/arena
Meski begitu, dashboard komentar investasi real-time milik nof1 tetap seru untuk dilihat
Saya penulisnya (OP)
Saya memahami keterbatasan backtest dan dana virtual, tetapi tetap ingin menunjukkan bagaimana model memandang pasar
Ini tidak berarti model dapat mengalahkan pasar dalam jangka panjang
Memiliki portofolio dengan beta tinggi saat pasar naik bukan pencapaian yang istimewa
Kami juga sedang menjalankan eksperimen real-time untuk saham dan opsi
Model memiliki akses ke berbagai alat seperti filing SEC, fundamental, harga real-time, data opsi, dan lain-lain
Kami menilai backtest tidak bermakna karena LLM pada dasarnya sudah mengingat hampir semua data historis
Karena itu kami melakukan forward test, dan meski datanya masih sedikit, hasil awalnya menarik
rallies.ai/arena
Eksperimen serupa pernah dilakukan pada kripto dengan dana nyata dan trading real-time
Tautan terkait
Saya rasa pencegahan kebocoran data masa depan pada LLM hampir mustahil
Riset juga menyatakan hal itu sulit, dan saya sendiri mengalaminya langsung saat menangani model prediksi
Backtest tidak terlalu berarti karena berbeda dari trading nyata
Lagi pula, 8 bulan adalah periode yang terlalu singkat
Menurut saya, pasar 8 tahun ke depan jauh lebih penting daripada 8 bulan
Bahkan jika nama saham dihapus, ada kemungkinan model bisa menebak NVDA hanya dari bentuk grafiknya karena sudah pernah mempelajarinya
Sulit mempercayai hasil backtest model seperti ini
Yang bermakna adalah eksperimen real-time selama 8 bulan dengan mempertimbangkan biaya nyata
rallies.ai/arena
Ini pendekatan yang benar-benar keliru
Saya memang bekerja sebagai peneliti yang menggunakan LLM untuk trading
LLM itu naif, mudah dipersuasi, dan non-deterministik
Jika eksperimen yang sama dijalankan 10 kali, hasilnya bisa berbeda setiap kali
Cara yang benar adalah terlebih dahulu membuat algoritme trading yang deterministik, lalu menambahkan LLM di atasnya sebagai alat bantu
Memasukkan LLM langsung ke pipeline trading hanya menambah ketidakpastian yang tidak perlu
Tetap ada nilainya untuk hal seperti analisis sentimen atau menghubungkan tugas ML pendukung dengan cepat
Tetapi eksperimen seperti ini adalah contoh khas menempelkan AI tanpa pemahaman domain
Riset yang benar-benar bermakna harus mengendalikan variabel seperti eksposur sektor dan mengulang ribuan kali untuk menganalisis pola bias tiap LLM
Jika suatu LLM sendiri berkata, “Saya akan merancang algoritme kuant,” lalu benar-benar berhasil, itu barulah luar biasa