Eksperimen yang Mensimulasikan Perdagangan Saham dengan 5 LLM Selama 8 Bulan, Masing-Masing Diberi Dana 140 Juta Won

(aitradearena.com)

11 poin oleh GN⁺ 2025-12-06 | 1 komentar | Bagikan ke WhatsApp

Lima model bahasa besar seperti GPT-5, Claude, Gemini, Grok, DeepSeek melakukan perdagangan saham virtual selama 8 bulan berdasarkan data pasar nyata
Setiap model memperdagangkan saham-saham utama secara harian dengan dana simulasi sebesar 100 ribu dolar AS, sambil mencatat semua pengambilan keputusan dan perubahan portofolio
Hasilnya, Grok mencatat imbal hasil tertinggi, DeepSeek berada di posisi kedua dengan selisih tipis, dan Gemini menempati posisi terakhir dengan portofolio yang berfokus pada saham non-teknologi
Eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, dan dibangun dalam lingkungan API dengan penyaringan berbasis waktu agar model hanya bisa mengakses data setelah titik waktu pelatihannya
Tim peneliti menjadikan eksperimen ini sebagai titik awal, dan berencana memverifikasi kemampuan analisis finansial LLM secara sistematis melalui perdagangan real-time dan eksperimen dengan kontrol variabel

Gambaran AI Trade Arena

AI Trade Arena adalah platform eksperimen yang dibangun untuk mengevaluasi kemampuan LLM dalam menganalisis dan memprediksi data keuangan nyata
- Dikembangkan bersama oleh Kam dan Josh
- Dirancang agar model melakukan perdagangan saham berdasarkan berita, laporan keuangan, dan data pasar
Platform ini melacak saham yang dimiliki, riwayat transaksi, dan kinerja setiap model, serta membuka seluruh proses perdagangan melalui demo interaktif

Eksperimen pertama: perdagangan saham oleh 5 LLM

Subjek eksperimen adalah GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Setiap model diberi dana simulasi sebesar 100 ribu dolar AS
- Perdagangan opsi dikecualikan, hanya saham utama yang diperdagangkan
Semua transaksi dilakukan berdasarkan harga saham historis yang nyata, dan model hanya dapat mengakses informasi yang telah dipublikasikan pada saat itu
- API berita, informasi keuangan perusahaan, dan data pasar disediakan dengan penyaringan waktu
Periode eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, sekitar 8 bulan

Konsep dan keterbatasan backtesting

Backtest adalah metode untuk memverifikasi kinerja algoritme perdagangan menggunakan data historis
- Mensimulasikan keputusan yang akan diambil LLM pada titik waktu di masa lalu
- API dipisahkan berdasarkan deret waktu agar data masa depan tidak bocor
Kelebihan
- Memungkinkan evaluasi model skala besar
- Berbagai skenario bisa diuji dengan cepat
- Memungkinkan diperolehnya hasil yang bermakna secara statistik
Kekurangan
- Tidak dapat sepenuhnya mereproduksi lingkungan pasar nyata yang kompetitif dan bergantung pada likuiditas
- Ada risiko slippage, batas volume transaksi, dan kebocoran data masa depan
- Ada kemungkinan overfitting pada data historis

Hasil eksperimen dan pengamatan

Semua model diuji hanya pada periode setelah cutoff data pelatihan
- Diatur agar model tidak melakukan perdagangan dengan mengandalkan hafalan atas hasil pasar di masa lalu
Grok mencatat kinerja terbaik, DeepSeek berada di posisi kedua dengan selisih tipis
- Sebagian besar model membentuk portofolio berpusat pada saham teknologi dan mencatat imbal hasil tinggi
- Gemini memiliki porsi saham non-teknologi yang tinggi sehingga mencatat kinerja terburuk
Tim peneliti mempublikasikan seluruh proses dan alasan transaksi untuk menjamin transparansi
- Dasar tiap transaksi dapat diperiksa langsung di UI

Rencana selanjutnya

Tim peneliti berencana memperluas eksperimen tidak hanya pada backtest, tetapi juga ke uji perdagangan real-time
- Pendekatan 3 tahap: backtest skenario historis → perdagangan simulasi real-time → perdagangan di pasar nyata
Tujuannya adalah memahami secara sistematis kemampuan analisis pasar keuangan dan kualitas pengambilan keputusan LLM
- Data pasar akan digunakan sebagai metrik evaluasi berbasis dunia nyata
- Mencoba membedakan keberuntungan dan kemampuan melalui hal-hal seperti analisis faktor Barra
Melalui catatan transaksi, dimungkinkan untuk mengidentifikasi perbedaan antara penilaian berbasis hafalan dan penalaran yang sebenarnya
- Contoh: membedakan antara sekadar mengingat Nvidia lalu membeli, dengan memperoleh wawasan fundamental melalui analisis laporan 10-K
Melalui analisis pengambilan keputusan yang transparan seperti ini, dimungkinkan untuk meningkatkan susunan alat dan alur kerja model

Partisipasi dan penelusuran data

Di demo interaktif pada situs web, pengguna dapat menelusuri langsung transaksi, strategi, dan proses penalaran tiap model
Tim peneliti sedang merencanakan eksperimen tambahan, dan mengumpulkan masukan melalui komunitas Discord dan DM Twitter

1 komentar

GN⁺ 2025-12-06

Opini Hacker News

Grok mencatat kinerja terbaik dan DeepSeek berada di posisi kedua dengan selisih tipis
Sebagian besar model tampaknya meraih hasil bagus karena memiliki portofolio yang berfokus pada saham teknologi
Sebaliknya, Gemini mencatat hasil terburuk karena porsi saham non-teknologinya tinggi
Saya bukan investor maupun peneliti, tetapi hasil ini terasa seperti ada metrik pengukuran yang keliru
- Jika percaya sektor teknologi akan terus naik, Anda bisa mengalahkan rata-rata pasar
  Tetapi masalahnya adalah kita tidak bisa memprediksi waktu koreksi
  Jika data tidak mencakup pasar turun, model tidak akan bisa mempelajari situasi itu
  Akan lebih menarik jika datanya dibagi dua, satu bagian untuk pelatihan dan bagian lainnya untuk pengujian
  Ini mengingatkan bahwa hedge fund pun bisa mengalahkan pasar selama 2~4 tahun, tetapi hampir mustahil melakukannya selama lebih dari 10 tahun
- Pendekatan yang lebih valid adalah membuat 100 portofolio untuk tiap model lalu menjalankan simulasi Monte Carlo untuk melihat kinerja rata-ratanya
- Akan bagus jika riset ini juga diulang dalam bear market (pasar bearish)
- S&P 500 juga punya porsi saham teknologi yang tinggi dan merupakan indeks yang sulit dikalahkan dalam jangka panjang
- Eksperimen ini tampaknya hanya menunjukkan kinerja terbaru tanpa mempertimbangkan konteks tiap periode
  Hasilnya akan lebih bermakna jika model dilatih ulang per periode dan dilakukan backtesting
Saya dulu bekerja di brokerage API untuk algorithmic trading, dan strategi yang terlihat bagus saat backtest sering gagal di pasar nyata
Bahkan paper trading real-time pun bekerja berbeda dari pasar nyata
DeepSeek mencatat hasil bagus karena banyak memegang saham teknologi tanpa menjual, tetapi strategi yang terkonsentrasi pada satu sektor itu berisiko
Karena perdagangan hanya bisa dilakukan sekali sehari, ini bukan eksperimen pengambilan keputusan real-time
Jika LLM bisa berpindah sektor pada waktu yang tepat, itu benar-benar akan mengesankan
- Di pasar nyata, order bisa lebih dulu dicocokkan oleh market maker (front running),
  dan ada pula market impact saat peserta lain membatalkan order atau ikut masuk
  Hal-hal seperti ini tidak terjadi dalam paper trading
- Saat uang sungguhan dipertaruhkan, faktor emosional ikut campur sehingga sulit sepenuhnya mempercayai penilaian mesin
- Jika mencoba sangat banyak strategi, secara kebetulan bisa saja muncul strategi yang cocok dengan data masa lalu, jadi backtest saja tidak bermakna
- Saya juga pernah melipatgandakan uang dua sampai tiga kali saat paper trading dengan ThinkOrSwim, tetapi gagal total di pasar nyata
Jika tiap model hanya dijalankan satu kali, itu bukan backtest yang layak
Jika hanya melihat hasil pada satu titik waktu, strategi sederhana seperti “beli saham terkait AI” pun bisa saja kebetulan berhasil
Perlu dijalankan 100 kali secara independen di 10 periode pasar yang berbeda agar statistiknya bermakna
Eksperimen ini saat ini tidak lebih dari random number generator yang mahal
- Anggarannya terbatas sehingga model tidak bisa dijalankan berkali-kali
  Misalnya Claude menghabiskan biaya 200~300 dolar untuk menjalankan eksperimen selama 8 bulan
  Saya ingin memperbesarnya agar menghasilkan hasil yang signifikan secara statistik
- Makalahnya memang menyatakan bahwa hasilnya tidak signifikan secara statistik, tetapi saya berharap poin itu lebih ditekankan
  Saat ini kesannya seperti artikel yang berfokus pada hasil
- Masalah lain adalah tidak ada metrik selain total return
  Karena bahkan memilih saham secara acak pun punya peluang tinggi untuk mengalahkan S&P 500
- Secara ekstrem, kita juga bisa membuat eksperimen seperti “saham apa yang harus dibeli pada 1 Januari 2010 agar keuntungan 15 tahun kemudian maksimal?”
  Tetapi tidak ada orang yang akan memakai strategi itu apa adanya selama 15 tahun ke depan
- Hasil dari satu kali percobaan pada dasarnya hanyalah random walk
Ada juga leaderboard nof1.ai yang sedang berjalan
Hasilnya di bawah ekspektasi, dan kebanyakan AI mengalami rugi karena fokus pada short-term trading saham teknologi Mag7
- Kelemahan nof1 adalah hampir tidak menggunakan data analisis perusahaan yang bisa dijadikan rujukan investor nyata
  Kami sedang menjalankan eksperimen serupa untuk melengkapinya di rallies.ai/arena
- Saya melihat ini ramai dibicarakan di X (Twitter) kemarin dan sempat mengira itu hasil nof1, ternyata eksperimen yang benar-benar berbeda
  Meski begitu, dashboard komentar investasi real-time milik nof1 tetap seru untuk dilihat
- Dari situsnya, tampaknya model hanya bisa memperdagangkan sedikit saham teknologi dan koin XYZ100
- Mungkin saja “model misterius” itu adalah model buatan mereka sendiri
- Karena informasi harga menyebar sangat cepat, hasilnya sangat bergantung pada arsitektur agen dan feedback loop
Saya penulisnya (OP)
Saya memahami keterbatasan backtest dan dana virtual, tetapi tetap ingin menunjukkan bagaimana model memandang pasar
Ini tidak berarti model dapat mengalahkan pasar dalam jangka panjang
- Akan bagus juga jika ada eksperimen terkontrol yang membandingkannya dengan peserta manusia
- Karena ini bukan transaksi dengan uang sungguhan, sama sekali tidak ada market impact
- Jika risk-adjusted return tidak dipublikasikan, makna hasilnya jadi lemah
  Memiliki portofolio dengan beta tinggi saat pasar naik bukan pencapaian yang istimewa
- Ungkapan yang benar adalah “came in a close second”, bukan “DeepSeek came close to second”
- Sebagai doktor peneliti pasar modal, saya rasa perlu dihitung abnormal return (alpha) untuk menilai apakah benar ada kelebihan kinerja
Kami juga sedang menjalankan eksperimen real-time untuk saham dan opsi
Model memiliki akses ke berbagai alat seperti filing SEC, fundamental, harga real-time, data opsi, dan lain-lain
Kami menilai backtest tidak bermakna karena LLM pada dasarnya sudah mengingat hampir semua data historis
Karena itu kami melakukan forward test, dan meski datanya masih sedikit, hasil awalnya menarik
rallies.ai/arena
- Ada pertanyaan apakah hasil seperti ini bisa dipercaya jika kode atau prompt-nya tidak open source
- Saya penasaran mengapa kinerja Qwen jauh lebih buruk dibanding model lain
Eksperimen serupa pernah dilakukan pada kripto dengan dana nyata dan trading real-time
Tautan terkait
Saya rasa pencegahan kebocoran data masa depan pada LLM hampir mustahil
Riset juga menyatakan hal itu sulit, dan saya sendiri mengalaminya langsung saat menangani model prediksi
Backtest tidak terlalu berarti karena berbeda dari trading nyata
Lagi pula, 8 bulan adalah periode yang terlalu singkat
Menurut saya, pasar 8 tahun ke depan jauh lebih penting daripada 8 bulan
- Untuk melakukan backtest LLM, data historis harus benar-benar dibersihkan (white-wash)
  Bahkan jika nama saham dihapus, ada kemungkinan model bisa menebak NVDA hanya dari bentuk grafiknya karena sudah pernah mempelajarinya
Sulit mempercayai hasil backtest model seperti ini
Yang bermakna adalah eksperimen real-time selama 8 bulan dengan mempertimbangkan biaya nyata
- Kami saat ini sedang menjalankan eksperimen live untuk saham dan opsi
  rallies.ai/arena
Ini pendekatan yang benar-benar keliru
Saya memang bekerja sebagai peneliti yang menggunakan LLM untuk trading
LLM itu naif, mudah dipersuasi, dan non-deterministik
Jika eksperimen yang sama dijalankan 10 kali, hasilnya bisa berbeda setiap kali
Cara yang benar adalah terlebih dahulu membuat algoritme trading yang deterministik, lalu menambahkan LLM di atasnya sebagai alat bantu
Memasukkan LLM langsung ke pipeline trading hanya menambah ketidakpastian yang tidak perlu
Tetap ada nilainya untuk hal seperti analisis sentimen atau menghubungkan tugas ML pendukung dengan cepat
Tetapi eksperimen seperti ini adalah contoh khas menempelkan AI tanpa pemahaman domain
Riset yang benar-benar bermakna harus mengendalikan variabel seperti eksposur sektor dan mengulang ribuan kali untuk menganalisis pola bias tiap LLM
Jika suatu LLM sendiri berkata, “Saya akan merancang algoritme kuant,” lalu benar-benar berhasil, itu barulah luar biasa

Eksperimen yang Mensimulasikan Perdagangan Saham dengan 5 LLM Selama 8 Bulan, Masing-Masing Diberi Dana 140 Juta Won

Gambaran AI Trade Arena

Eksperimen pertama: perdagangan saham oleh 5 LLM

Konsep dan keterbatasan backtesting

Hasil eksperimen dan pengamatan

Rencana selanjutnya

Partisipasi dan penelusuran data

Bacaan terkait

1 komentar

Opini Hacker News