- Lima model bahasa besar seperti GPT-5, Claude, Gemini, Grok, DeepSeek melakukan perdagangan saham virtual selama 8 bulan berdasarkan data pasar nyata
- Setiap model memperdagangkan saham-saham utama secara harian dengan dana simulasi sebesar 100 ribu dolar AS, sambil mencatat semua pengambilan keputusan dan perubahan portofolio
- Hasilnya, Grok mencatat imbal hasil tertinggi, DeepSeek berada di posisi kedua dengan selisih tipis, dan Gemini menempati posisi terakhir dengan portofolio yang berfokus pada saham non-teknologi
- Eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, dan dibangun dalam lingkungan API dengan penyaringan berbasis waktu agar model hanya bisa mengakses data setelah titik waktu pelatihannya
- Tim peneliti menjadikan eksperimen ini sebagai titik awal, dan berencana memverifikasi kemampuan analisis finansial LLM secara sistematis melalui perdagangan real-time dan eksperimen dengan kontrol variabel
Gambaran AI Trade Arena
- AI Trade Arena adalah platform eksperimen yang dibangun untuk mengevaluasi kemampuan LLM dalam menganalisis dan memprediksi data keuangan nyata
- Dikembangkan bersama oleh Kam dan Josh
- Dirancang agar model melakukan perdagangan saham berdasarkan berita, laporan keuangan, dan data pasar
- Platform ini melacak saham yang dimiliki, riwayat transaksi, dan kinerja setiap model, serta membuka seluruh proses perdagangan melalui demo interaktif
Eksperimen pertama: perdagangan saham oleh 5 LLM
- Subjek eksperimen adalah GPT-5, Claude Sonnet 4.5, Gemini 2.5 Pro, Grok 4, DeepSeek
- Setiap model diberi dana simulasi sebesar 100 ribu dolar AS
- Perdagangan opsi dikecualikan, hanya saham utama yang diperdagangkan
- Semua transaksi dilakukan berdasarkan harga saham historis yang nyata, dan model hanya dapat mengakses informasi yang telah dipublikasikan pada saat itu
- API berita, informasi keuangan perusahaan, dan data pasar disediakan dengan penyaringan waktu
- Periode eksperimen berlangsung dari 3 Februari 2025 hingga 20 Oktober 2025, sekitar 8 bulan
Konsep dan keterbatasan backtesting
- Backtest adalah metode untuk memverifikasi kinerja algoritme perdagangan menggunakan data historis
- Mensimulasikan keputusan yang akan diambil LLM pada titik waktu di masa lalu
- API dipisahkan berdasarkan deret waktu agar data masa depan tidak bocor
- Kelebihan
- Memungkinkan evaluasi model skala besar
- Berbagai skenario bisa diuji dengan cepat
- Memungkinkan diperolehnya hasil yang bermakna secara statistik
- Kekurangan
- Tidak dapat sepenuhnya mereproduksi lingkungan pasar nyata yang kompetitif dan bergantung pada likuiditas
- Ada risiko slippage, batas volume transaksi, dan kebocoran data masa depan
- Ada kemungkinan overfitting pada data historis
Hasil eksperimen dan pengamatan
- Semua model diuji hanya pada periode setelah cutoff data pelatihan
- Diatur agar model tidak melakukan perdagangan dengan mengandalkan hafalan atas hasil pasar di masa lalu
- Grok mencatat kinerja terbaik, DeepSeek berada di posisi kedua dengan selisih tipis
- Sebagian besar model membentuk portofolio berpusat pada saham teknologi dan mencatat imbal hasil tinggi
- Gemini memiliki porsi saham non-teknologi yang tinggi sehingga mencatat kinerja terburuk
- Tim peneliti mempublikasikan seluruh proses dan alasan transaksi untuk menjamin transparansi
- Dasar tiap transaksi dapat diperiksa langsung di UI
Rencana selanjutnya
- Tim peneliti berencana memperluas eksperimen tidak hanya pada backtest, tetapi juga ke uji perdagangan real-time
- Pendekatan 3 tahap: backtest skenario historis → perdagangan simulasi real-time → perdagangan di pasar nyata
- Tujuannya adalah memahami secara sistematis kemampuan analisis pasar keuangan dan kualitas pengambilan keputusan LLM
- Data pasar akan digunakan sebagai metrik evaluasi berbasis dunia nyata
- Mencoba membedakan keberuntungan dan kemampuan melalui hal-hal seperti analisis faktor Barra
- Melalui catatan transaksi, dimungkinkan untuk mengidentifikasi perbedaan antara penilaian berbasis hafalan dan penalaran yang sebenarnya
- Contoh: membedakan antara sekadar mengingat Nvidia lalu membeli, dengan memperoleh wawasan fundamental melalui analisis laporan 10-K
- Melalui analisis pengambilan keputusan yang transparan seperti ini, dimungkinkan untuk meningkatkan susunan alat dan alur kerja model
Partisipasi dan penelusuran data
- Di demo interaktif pada situs web, pengguna dapat menelusuri langsung transaksi, strategi, dan proses penalaran tiap model
- Tim peneliti sedang merencanakan eksperimen tambahan, dan mengumpulkan masukan melalui komunitas Discord dan DM Twitter
Belum ada komentar.