11 poin oleh GN⁺ 2025-12-06 | Belum ada komentar. | Bagikan ke WhatsApp
  • Lima model bahasa besar seperti GPT-5, Claude, Gemini, Grok, DeepSeek melakukan perdagangan saham virtual selama 8 bulan berdasarkan data pasar nyata
  • Setiap model memperdagangkan saham-saham utama secara harian dengan dana simulasi sebesar 100 ribu dolar AS, sambil mencatat semua pengambilan keputusan dan perubahan portofolio
  • Hasilnya, Grok mencatat imbal hasil tertinggi, DeepSeek berada di posisi kedua dengan selisih tipis, dan Gemini menempati posisi terakhir dengan portofolio yang berfokus pada saham non-teknologi
  • Eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, dan dibangun dalam lingkungan API dengan penyaringan berbasis waktu agar model hanya bisa mengakses data setelah titik waktu pelatihannya
  • Tim peneliti menjadikan eksperimen ini sebagai titik awal, dan berencana memverifikasi kemampuan analisis finansial LLM secara sistematis melalui perdagangan real-time dan eksperimen dengan kontrol variabel

Gambaran AI Trade Arena

  • AI Trade Arena adalah platform eksperimen yang dibangun untuk mengevaluasi kemampuan LLM dalam menganalisis dan memprediksi data keuangan nyata
    • Dikembangkan bersama oleh Kam dan Josh
    • Dirancang agar model melakukan perdagangan saham berdasarkan berita, laporan keuangan, dan data pasar
  • Platform ini melacak saham yang dimiliki, riwayat transaksi, dan kinerja setiap model, serta membuka seluruh proses perdagangan melalui demo interaktif

Eksperimen pertama: perdagangan saham oleh 5 LLM

  • Subjek eksperimen adalah GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
    • Setiap model diberi dana simulasi sebesar 100 ribu dolar AS
    • Perdagangan opsi dikecualikan, hanya saham utama yang diperdagangkan
  • Semua transaksi dilakukan berdasarkan harga saham historis yang nyata, dan model hanya dapat mengakses informasi yang telah dipublikasikan pada saat itu
    • API berita, informasi keuangan perusahaan, dan data pasar disediakan dengan penyaringan waktu
  • Periode eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, sekitar 8 bulan

Konsep dan keterbatasan backtesting

  • Backtest adalah metode untuk memverifikasi kinerja algoritme perdagangan menggunakan data historis
    • Mensimulasikan keputusan yang akan diambil LLM pada titik waktu di masa lalu
    • API dipisahkan berdasarkan deret waktu agar data masa depan tidak bocor
  • Kelebihan
    • Memungkinkan evaluasi model skala besar
    • Berbagai skenario bisa diuji dengan cepat
    • Memungkinkan diperolehnya hasil yang bermakna secara statistik
  • Kekurangan
    • Tidak dapat sepenuhnya mereproduksi lingkungan pasar nyata yang kompetitif dan bergantung pada likuiditas
    • Ada risiko slippage, batas volume transaksi, dan kebocoran data masa depan
    • Ada kemungkinan overfitting pada data historis

Hasil eksperimen dan pengamatan

  • Semua model diuji hanya pada periode setelah cutoff data pelatihan
    • Diatur agar model tidak melakukan perdagangan dengan mengandalkan hafalan atas hasil pasar di masa lalu
  • Grok mencatat kinerja terbaik, DeepSeek berada di posisi kedua dengan selisih tipis
    • Sebagian besar model membentuk portofolio berpusat pada saham teknologi dan mencatat imbal hasil tinggi
    • Gemini memiliki porsi saham non-teknologi yang tinggi sehingga mencatat kinerja terburuk
  • Tim peneliti mempublikasikan seluruh proses dan alasan transaksi untuk menjamin transparansi
    • Dasar tiap transaksi dapat diperiksa langsung di UI

Rencana selanjutnya

  • Tim peneliti berencana memperluas eksperimen tidak hanya pada backtest, tetapi juga ke uji perdagangan real-time
    • Pendekatan 3 tahap: backtest skenario historis → perdagangan simulasi real-time → perdagangan di pasar nyata
  • Tujuannya adalah memahami secara sistematis kemampuan analisis pasar keuangan dan kualitas pengambilan keputusan LLM
    • Data pasar akan digunakan sebagai metrik evaluasi berbasis dunia nyata
    • Mencoba membedakan keberuntungan dan kemampuan melalui hal-hal seperti analisis faktor Barra
  • Melalui catatan transaksi, dimungkinkan untuk mengidentifikasi perbedaan antara penilaian berbasis hafalan dan penalaran yang sebenarnya
    • Contoh: membedakan antara sekadar mengingat Nvidia lalu membeli, dengan memperoleh wawasan fundamental melalui analisis laporan 10-K
  • Melalui analisis pengambilan keputusan yang transparan seperti ini, dimungkinkan untuk meningkatkan susunan alat dan alur kerja model

Partisipasi dan penelusuran data

  • Di demo interaktif pada situs web, pengguna dapat menelusuri langsung transaksi, strategi, dan proses penalaran tiap model
  • Tim peneliti sedang merencanakan eksperimen tambahan, dan mengumpulkan masukan melalui komunitas Discord dan DM Twitter

Belum ada komentar.

Belum ada komentar.