11 poin oleh GN⁺ 2025-12-06 | 1 komentar | Bagikan ke WhatsApp
  • Lima model bahasa besar seperti GPT-5, Claude, Gemini, Grok, DeepSeek melakukan perdagangan saham virtual selama 8 bulan berdasarkan data pasar nyata
  • Setiap model memperdagangkan saham-saham utama secara harian dengan dana simulasi sebesar 100 ribu dolar AS, sambil mencatat semua pengambilan keputusan dan perubahan portofolio
  • Hasilnya, Grok mencatat imbal hasil tertinggi, DeepSeek berada di posisi kedua dengan selisih tipis, dan Gemini menempati posisi terakhir dengan portofolio yang berfokus pada saham non-teknologi
  • Eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, dan dibangun dalam lingkungan API dengan penyaringan berbasis waktu agar model hanya bisa mengakses data setelah titik waktu pelatihannya
  • Tim peneliti menjadikan eksperimen ini sebagai titik awal, dan berencana memverifikasi kemampuan analisis finansial LLM secara sistematis melalui perdagangan real-time dan eksperimen dengan kontrol variabel

Gambaran AI Trade Arena

  • AI Trade Arena adalah platform eksperimen yang dibangun untuk mengevaluasi kemampuan LLM dalam menganalisis dan memprediksi data keuangan nyata
    • Dikembangkan bersama oleh Kam dan Josh
    • Dirancang agar model melakukan perdagangan saham berdasarkan berita, laporan keuangan, dan data pasar
  • Platform ini melacak saham yang dimiliki, riwayat transaksi, dan kinerja setiap model, serta membuka seluruh proses perdagangan melalui demo interaktif

Eksperimen pertama: perdagangan saham oleh 5 LLM

  • Subjek eksperimen adalah GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • Setiap model diberi dana simulasi sebesar 100 ribu dolar AS
    • Perdagangan opsi dikecualikan, hanya saham utama yang diperdagangkan
  • Semua transaksi dilakukan berdasarkan harga saham historis yang nyata, dan model hanya dapat mengakses informasi yang telah dipublikasikan pada saat itu
    • API berita, informasi keuangan perusahaan, dan data pasar disediakan dengan penyaringan waktu
  • Periode eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, sekitar 8 bulan

Konsep dan keterbatasan backtesting

  • Backtest adalah metode untuk memverifikasi kinerja algoritme perdagangan menggunakan data historis
    • Mensimulasikan keputusan yang akan diambil LLM pada titik waktu di masa lalu
    • API dipisahkan berdasarkan deret waktu agar data masa depan tidak bocor
  • Kelebihan
    • Memungkinkan evaluasi model skala besar
    • Berbagai skenario bisa diuji dengan cepat
    • Memungkinkan diperolehnya hasil yang bermakna secara statistik
  • Kekurangan
    • Tidak dapat sepenuhnya mereproduksi lingkungan pasar nyata yang kompetitif dan bergantung pada likuiditas
    • Ada risiko slippage, batas volume transaksi, dan kebocoran data masa depan
    • Ada kemungkinan overfitting pada data historis

Hasil eksperimen dan pengamatan

  • Semua model diuji hanya pada periode setelah cutoff data pelatihan
    • Diatur agar model tidak melakukan perdagangan dengan mengandalkan hafalan atas hasil pasar di masa lalu
  • Grok mencatat kinerja terbaik, DeepSeek berada di posisi kedua dengan selisih tipis
    • Sebagian besar model membentuk portofolio berpusat pada saham teknologi dan mencatat imbal hasil tinggi
    • Gemini memiliki porsi saham non-teknologi yang tinggi sehingga mencatat kinerja terburuk
  • Tim peneliti mempublikasikan seluruh proses dan alasan transaksi untuk menjamin transparansi
    • Dasar tiap transaksi dapat diperiksa langsung di UI

Rencana selanjutnya

  • Tim peneliti berencana memperluas eksperimen tidak hanya pada backtest, tetapi juga ke uji perdagangan real-time
    • Pendekatan 3 tahap: backtest skenario historis → perdagangan simulasi real-time → perdagangan di pasar nyata
  • Tujuannya adalah memahami secara sistematis kemampuan analisis pasar keuangan dan kualitas pengambilan keputusan LLM
    • Data pasar akan digunakan sebagai metrik evaluasi berbasis dunia nyata
    • Mencoba membedakan keberuntungan dan kemampuan melalui hal-hal seperti analisis faktor Barra
  • Melalui catatan transaksi, dimungkinkan untuk mengidentifikasi perbedaan antara penilaian berbasis hafalan dan penalaran yang sebenarnya
    • Contoh: membedakan antara sekadar mengingat Nvidia lalu membeli, dengan memperoleh wawasan fundamental melalui analisis laporan 10-K
  • Melalui analisis pengambilan keputusan yang transparan seperti ini, dimungkinkan untuk meningkatkan susunan alat dan alur kerja model

Partisipasi dan penelusuran data

  • Di demo interaktif pada situs web, pengguna dapat menelusuri langsung transaksi, strategi, dan proses penalaran tiap model
  • Tim peneliti sedang merencanakan eksperimen tambahan, dan mengumpulkan masukan melalui komunitas Discord dan DM Twitter

1 komentar

 
GN⁺ 2025-12-06
Opini Hacker News
  • Grok mencatat kinerja terbaik dan DeepSeek berada di posisi kedua dengan selisih tipis
    Sebagian besar model tampaknya meraih hasil bagus karena memiliki portofolio yang berfokus pada saham teknologi
    Sebaliknya, Gemini mencatat hasil terburuk karena porsi saham non-teknologinya tinggi
    Saya bukan investor maupun peneliti, tetapi hasil ini terasa seperti ada metrik pengukuran yang keliru

    • Jika percaya sektor teknologi akan terus naik, Anda bisa mengalahkan rata-rata pasar
      Tetapi masalahnya adalah kita tidak bisa memprediksi waktu koreksi
      Jika data tidak mencakup pasar turun, model tidak akan bisa mempelajari situasi itu
      Akan lebih menarik jika datanya dibagi dua, satu bagian untuk pelatihan dan bagian lainnya untuk pengujian
      Ini mengingatkan bahwa hedge fund pun bisa mengalahkan pasar selama 2~4 tahun, tetapi hampir mustahil melakukannya selama lebih dari 10 tahun
    • Pendekatan yang lebih valid adalah membuat 100 portofolio untuk tiap model lalu menjalankan simulasi Monte Carlo untuk melihat kinerja rata-ratanya
    • Akan bagus jika riset ini juga diulang dalam bear market (pasar bearish)
    • S&P 500 juga punya porsi saham teknologi yang tinggi dan merupakan indeks yang sulit dikalahkan dalam jangka panjang
    • Eksperimen ini tampaknya hanya menunjukkan kinerja terbaru tanpa mempertimbangkan konteks tiap periode
      Hasilnya akan lebih bermakna jika model dilatih ulang per periode dan dilakukan backtesting
  • Saya dulu bekerja di brokerage API untuk algorithmic trading, dan strategi yang terlihat bagus saat backtest sering gagal di pasar nyata
    Bahkan paper trading real-time pun bekerja berbeda dari pasar nyata
    DeepSeek mencatat hasil bagus karena banyak memegang saham teknologi tanpa menjual, tetapi strategi yang terkonsentrasi pada satu sektor itu berisiko
    Karena perdagangan hanya bisa dilakukan sekali sehari, ini bukan eksperimen pengambilan keputusan real-time
    Jika LLM bisa berpindah sektor pada waktu yang tepat, itu benar-benar akan mengesankan

    • Di pasar nyata, order bisa lebih dulu dicocokkan oleh market maker (front running),
      dan ada pula market impact saat peserta lain membatalkan order atau ikut masuk
      Hal-hal seperti ini tidak terjadi dalam paper trading
    • Saat uang sungguhan dipertaruhkan, faktor emosional ikut campur sehingga sulit sepenuhnya mempercayai penilaian mesin
    • Jika mencoba sangat banyak strategi, secara kebetulan bisa saja muncul strategi yang cocok dengan data masa lalu, jadi backtest saja tidak bermakna
    • Saya juga pernah melipatgandakan uang dua sampai tiga kali saat paper trading dengan ThinkOrSwim, tetapi gagal total di pasar nyata
  • Jika tiap model hanya dijalankan satu kali, itu bukan backtest yang layak
    Jika hanya melihat hasil pada satu titik waktu, strategi sederhana seperti “beli saham terkait AI” pun bisa saja kebetulan berhasil
    Perlu dijalankan 100 kali secara independen di 10 periode pasar yang berbeda agar statistiknya bermakna
    Eksperimen ini saat ini tidak lebih dari random number generator yang mahal

    • Anggarannya terbatas sehingga model tidak bisa dijalankan berkali-kali
      Misalnya Claude menghabiskan biaya 200~300 dolar untuk menjalankan eksperimen selama 8 bulan
      Saya ingin memperbesarnya agar menghasilkan hasil yang signifikan secara statistik
    • Makalahnya memang menyatakan bahwa hasilnya tidak signifikan secara statistik, tetapi saya berharap poin itu lebih ditekankan
      Saat ini kesannya seperti artikel yang berfokus pada hasil
    • Masalah lain adalah tidak ada metrik selain total return
      Karena bahkan memilih saham secara acak pun punya peluang tinggi untuk mengalahkan S&P 500
    • Secara ekstrem, kita juga bisa membuat eksperimen seperti “saham apa yang harus dibeli pada 1 Januari 2010 agar keuntungan 15 tahun kemudian maksimal?”
      Tetapi tidak ada orang yang akan memakai strategi itu apa adanya selama 15 tahun ke depan
    • Hasil dari satu kali percobaan pada dasarnya hanyalah random walk
  • Ada juga leaderboard nof1.ai yang sedang berjalan
    Hasilnya di bawah ekspektasi, dan kebanyakan AI mengalami rugi karena fokus pada short-term trading saham teknologi Mag7

    • Kelemahan nof1 adalah hampir tidak menggunakan data analisis perusahaan yang bisa dijadikan rujukan investor nyata
      Kami sedang menjalankan eksperimen serupa untuk melengkapinya di rallies.ai/arena
    • Saya melihat ini ramai dibicarakan di X (Twitter) kemarin dan sempat mengira itu hasil nof1, ternyata eksperimen yang benar-benar berbeda
      Meski begitu, dashboard komentar investasi real-time milik nof1 tetap seru untuk dilihat
    • Dari situsnya, tampaknya model hanya bisa memperdagangkan sedikit saham teknologi dan koin XYZ100
    • Mungkin saja “model misterius” itu adalah model buatan mereka sendiri
    • Karena informasi harga menyebar sangat cepat, hasilnya sangat bergantung pada arsitektur agen dan feedback loop
  • Saya penulisnya (OP)
    Saya memahami keterbatasan backtest dan dana virtual, tetapi tetap ingin menunjukkan bagaimana model memandang pasar
    Ini tidak berarti model dapat mengalahkan pasar dalam jangka panjang

    • Akan bagus juga jika ada eksperimen terkontrol yang membandingkannya dengan peserta manusia
    • Karena ini bukan transaksi dengan uang sungguhan, sama sekali tidak ada market impact
    • Jika risk-adjusted return tidak dipublikasikan, makna hasilnya jadi lemah
      Memiliki portofolio dengan beta tinggi saat pasar naik bukan pencapaian yang istimewa
    • Ungkapan yang benar adalah “came in a close second”, bukan “DeepSeek came close to second”
    • Sebagai doktor peneliti pasar modal, saya rasa perlu dihitung abnormal return (alpha) untuk menilai apakah benar ada kelebihan kinerja
  • Kami juga sedang menjalankan eksperimen real-time untuk saham dan opsi
    Model memiliki akses ke berbagai alat seperti filing SEC, fundamental, harga real-time, data opsi, dan lain-lain
    Kami menilai backtest tidak bermakna karena LLM pada dasarnya sudah mengingat hampir semua data historis
    Karena itu kami melakukan forward test, dan meski datanya masih sedikit, hasil awalnya menarik
    rallies.ai/arena

    • Ada pertanyaan apakah hasil seperti ini bisa dipercaya jika kode atau prompt-nya tidak open source
    • Saya penasaran mengapa kinerja Qwen jauh lebih buruk dibanding model lain
  • Eksperimen serupa pernah dilakukan pada kripto dengan dana nyata dan trading real-time
    Tautan terkait
    Saya rasa pencegahan kebocoran data masa depan pada LLM hampir mustahil
    Riset juga menyatakan hal itu sulit, dan saya sendiri mengalaminya langsung saat menangani model prediksi

  • Backtest tidak terlalu berarti karena berbeda dari trading nyata
    Lagi pula, 8 bulan adalah periode yang terlalu singkat
    Menurut saya, pasar 8 tahun ke depan jauh lebih penting daripada 8 bulan

    • Untuk melakukan backtest LLM, data historis harus benar-benar dibersihkan (white-wash)
      Bahkan jika nama saham dihapus, ada kemungkinan model bisa menebak NVDA hanya dari bentuk grafiknya karena sudah pernah mempelajarinya
  • Sulit mempercayai hasil backtest model seperti ini
    Yang bermakna adalah eksperimen real-time selama 8 bulan dengan mempertimbangkan biaya nyata

    • Kami saat ini sedang menjalankan eksperimen live untuk saham dan opsi
      rallies.ai/arena
  • Ini pendekatan yang benar-benar keliru
    Saya memang bekerja sebagai peneliti yang menggunakan LLM untuk trading
    LLM itu naif, mudah dipersuasi, dan non-deterministik
    Jika eksperimen yang sama dijalankan 10 kali, hasilnya bisa berbeda setiap kali
    Cara yang benar adalah terlebih dahulu membuat algoritme trading yang deterministik, lalu menambahkan LLM di atasnya sebagai alat bantu
    Memasukkan LLM langsung ke pipeline trading hanya menambah ketidakpastian yang tidak perlu
    Tetap ada nilainya untuk hal seperti analisis sentimen atau menghubungkan tugas ML pendukung dengan cepat
    Tetapi eksperimen seperti ini adalah contoh khas menempelkan AI tanpa pemahaman domain
    Riset yang benar-benar bermakna harus mengendalikan variabel seperti eksposur sektor dan mengulang ribuan kali untuk menganalisis pola bias tiap LLM
    Jika suatu LLM sendiri berkata, “Saya akan merancang algoritme kuant,” lalu benar-benar berhasil, itu barulah luar biasa