Laporan Status AI OpenRouter: Studi Empiris 100 Triliun Token

(openrouter.ai)

7 poin oleh GN⁺ 2025-12-29 | Belum ada komentar. | Bagikan ke WhatsApp

Lebih dari 100 triliun token data penggunaan LLM nyata dianalisis dalam studi skala besar, melacak perubahan mendasar dalam cara penalaran AI sejak peluncuran model penalaran o1 pada Desember 2024
Model open source tumbuh hingga sekitar 30% dari total penggunaan, sementara model open source asal Tiongkok seperti DeepSeek V3 dan Kimi K2 dengan cepat memperluas pangsa pasar
Roleplay dan pemrograman menjadi dua poros utama penggunaan LLM, dengan lebih dari setengah penggunaan model open source terkonsentrasi pada roleplay, menghasilkan temuan yang bertentangan dengan asumsi berfokus produktivitas
Model penalaran memproses lebih dari 50% dari seluruh token, sementara penalaran agentic muncul sebagai pola dasar baru, dengan peningkatan pemanggilan alat dan tugas multi-langkah
Ditemukan efek "sepatu kaca" di mana pengguna awal menunjukkan retensi jangka panjang yang tinggi, mengindikasikan bahwa kecocokan model-beban kerja adalah daya saing inti

Gambaran riset dan metodologi

OpenRouter adalah platform penalaran AI multimodel yang mendukung lebih dari 300 model dan lebih dari 60 penyedia, melayani jutaan pengembang dan pengguna akhir di seluruh dunia
Dataset analisis terdiri dari sekitar 2 tahun metadata tingkat permintaan yang dianonimkan, tanpa mengakses prompt atau teks hasil lengkap itu sendiri
Seluruh analisis dilakukan melalui platform analitik Hex dengan kueri SQL yang dapat direproduksi, transformasi, dan pipeline visualisasi
Klasifikasi konten dilakukan dengan mengambil sampel acak sekitar 0,25% dari seluruh prompt dan memprosesnya melalui GoogleTagClassifier, lalu mengelompokkannya ke kategori seperti pemrograman, roleplay, terjemahan, tanya jawab umum, produktivitas/penulisan, pendidikan, sastra/kreatif, dan dewasa
Analisis wilayah menentukan lokasi pengguna berdasarkan billing location, yang digunakan sebagai proksi yang lebih stabil daripada berbasis IP
Periode analisis terutama mencakup 13 bulan dari November 2024 hingga November 2025, sementara analisis klasifikasi kategori didasarkan pada data setelah Mei 2025

Open source vs model tertutup

Model open source (OSS) didefinisikan sebagai model dengan bobot yang dipublikasikan, sedangkan model tertutup adalah model yang hanya bisa diakses melalui API terbatas (misalnya: Anthropic Claude)
Pangsa model open source meningkat stabil hingga mencapai sekitar 30% pada akhir 2025, selaras dengan peluncuran model open source utama seperti DeepSeek V3 dan Kimi K2
Model yang dikembangkan di Tiongkok melonjak dari pangsa mingguan 1,2% pada akhir 2024 menjadi sekitar 30% pada beberapa pekan, dengan rata-rata tahunan sekitar 13,0%
- Qwen dan DeepSeek memimpin pertumbuhan melalui rilis berulang yang cepat dan siklus peluncuran yang rapat
Model tertutup masih mendefinisikan batas atas dalam keandalan dan performa, serta unggul pada workload regulatif atau enterprise
Model OSS menarik dari sisi efisiensi biaya, transparansi, dan kustomisasi, dan saat ini membentuk titik keseimbangan di sekitar 30%
Kedua jenis model tidak saling eksklusif dan digunakan secara saling melengkapi dalam stack multimodel
Pemain open source utama
- DeepSeek menjadi kontributor terbesar di OSS dengan total 14,37 triliun token, tetapi pendatang baru dengan cepat merebut pangsa
- Peringkat berikutnya ditempati Qwen (5,59 triliun), Meta LLaMA (3,96 triliun), dan Mistral AI (2,92 triliun)
- Setelah Summer Inflection pada pertengahan 2025, struktur pasar bergeser dari nyaris monopoli menjadi lebih terdiversifikasi
  - Kimi K2 dari MoonshotAI, seri GPT-OSS dari OpenAI, dan MiniMax M2 mencapai adopsi tingkat produksi dalam hitungan pekan
- Pada akhir 2025, tidak ada satu model pun yang melampaui 25% token OSS, dengan pangsa tersebar pada 5–7 model
- Ekosistem OSS merupakan lingkungan kompetitif yang sangat dinamis, dengan siklus inovasi cepat dan kepemimpinan yang tidak terjamin
Ukuran model vs kecocokan pasar: menengah adalah kecil yang baru
- Klasifikasi ukuran model: kecil (di bawah 15B), menengah (15B–70B), besar (di atas 70B)
- Model kecil secara umum menunjukkan tren penurunan pangsa, dengan penggunaan yang menurun meski pasokan model baru terus hadir
- Model menengah mulai benar-benar membentuk kategori sejak peluncuran Qwen2.5 Coder 32B pada November 2024
  - Mistral Small 3 (Januari 2025) dan GPT-OSS 20B (Agustus 2025) muncul sebagai pesaing kuat
  - Ini menunjukkan bahwa pengguna mencari keseimbangan antara kemampuan dan efisiensi
- Segmen model besar juga makin terdiversifikasi dengan berbagai pesaing berperforma tinggi seperti Qwen3 235B A22B Instruct, Z.AI GLM 4.5 Air, dan OpenAI GPT-OSS-120B
- Era dominasi model kecil telah berakhir, dan pasar cenderung terbelah antara model menengah dan model besar
Kegunaan model open source
- Penggunaan terbesar model OSS adalah roleplay (sekitar 52%) dan pemrograman, dengan dua kategori ini mencakup mayoritas penggunaan token OSS
- Fakta bahwa roleplay menyumbang lebih dari 50% mencerminkan bahwa model terbuka memiliki filter konten yang lebih longgar, sehingga menarik untuk aplikasi fantasi atau hiburan
- Untuk model OSS asal Tiongkok, roleplay menjadi porsi terbesar sekitar 33%, tetapi pemrograman dan kategori teknis jika digabung mencapai 39%, yaitu mayoritas
  - Qwen dan DeepSeek semakin sering digunakan untuk pembuatan kode dan workload terkait infrastruktur
- Di kategori pemrograman, pangsa di dalam OSS berubah secara dinamis antara OSS Tiongkok dan OSS Barat
  - Pada pertengahan 2025, OSS Tiongkok memimpin, tetapi pada Q4 OSS Barat seperti Meta LLaMA-2 Code dan seri OpenAI GPT-OSS melonjak
- Trafik roleplay pada akhir 2025 hampir terbagi rata antara RoW OSS (43%) dan model tertutup (42%), berubah besar dari dominasi awal 70% oleh model tertutup

Kebangkitan penalaran agentic

Model penalaran mencakup lebih dari setengah total penggunaan
- Pangsa token melalui model yang dioptimalkan untuk penalaran melonjak dari level yang nyaris tidak signifikan pada awal 2025 menjadi lebih dari 50%
- Perubahan ini didorong oleh peluncuran sistem berperforma tinggi seperti GPT-5, Claude 4.5, dan Gemini 3, serta preferensi pengguna terhadap logika multi-langkah dan workflow bergaya agen
- Berdasarkan data terbaru, xAI Grok Code Fast 1 memiliki pangsa trafik penalaran terbesar, diikuti Google Gemini 2.5 Pro/Flash
- Model terbuka OpenAI gpt-oss-120b juga mempertahankan pangsa yang signifikan, menunjukkan pengembang lebih memilih OSS bila memungkinkan
Adopsi pemanggilan alat meningkat
- Pangsa token dari permintaan yang diklasifikasikan dengan alasan selesai Tool Call terus menunjukkan tren naik
- Pemanggilan alat awalnya terkonsentrasi pada OpenAI gpt-4o-mini dan seri Anthropic Claude 3.5/3.7, tetapi setelah pertengahan 2025 makin banyak model yang mendukung penyediaan alat
- Sejak akhir September 2025, Claude 4.5 Sonnet dengan cepat memperluas pangsa, sementara Grok Code Fast dan GLM 4.5 juga masuk
Perubahan bentuk prompt-completion
- Rata-rata token prompt meningkat hampir 4 kali dari sekitar 1,5K menjadi lebih dari 6K
- Rata-rata token completion juga naik hampir 3 kali dari sekitar 150 menjadi 400, terutama karena peningkatan token penalaran
- Tugas terkait pemrograman menjadi pendorong utama peningkatan token prompt, sering menggunakan lebih dari 20K token input
- Kategori lain relatif datar dan mempertahankan volume yang rendah
Urutan lebih panjang, interaksi lebih kompleks
- Panjang urutan rata-rata meningkat lebih dari 3 kali dalam 20 bulan terakhir, dari kurang dari 2.000 token menjadi lebih dari 5.400 token
- Prompt terkait pemrograman mencatat panjang token rata-rata 3–4 kali lebih panjang dibanding prompt tujuan umum
- Urutan yang panjang bukan disebabkan pengguna lebih bertele-tele, melainkan ciri workflow agentic canggih yang terintegrasi
Implikasi: penalaran agentic menjadi default baru
- Kenaikan pangsa penalaran, meluasnya penggunaan alat, urutan yang makin panjang, dan meningkatnya kompleksitas pemrograman menunjukkan pergeseran pusat gravitasi penggunaan LLM
- Permintaan LLM rata-rata bukan lagi sekadar pertanyaan sederhana atau instruksi terisolasi, melainkan bagian dari loop terstruktur mirip agen
- Bagi penyedia model, latensi, pemrosesan alat, dukungan konteks, dan ketahanan terhadap rantai alat berbahaya menjadi semakin penting
- Segera, jika belum sekarang, penalaran agentic diperkirakan akan mencakup mayoritas penalaran

Kategori: bagaimana orang menggunakan LLM?

Kategori dominan
- Pemrograman adalah kategori yang tumbuh paling konsisten, dari sekitar 11% pada awal 2025 menjadi baru-baru ini lebih dari 50%
- Seri Anthropic Claude secara konsisten menguasai lebih dari 60% pengeluaran terkait pemrograman
  - Pada pekan 17 November, untuk pertama kalinya turun di bawah 60%
- OpenAI memperluas pangsa dari sekitar 2% menjadi 8% sejak Juli, sementara Google tetap stabil di sekitar 15%
- MiniMax disorot sebagai pendatang baru yang naik dengan cepat
Komposisi tag dalam kategori
- Roleplay: sekitar 60% adalah Games/Roleplaying Games, lebih banyak dimanfaatkan sebagai roleplay terstruktur atau engine karakter daripada chatbot kasual
  - Juga mencakup Writers Resources (15,6%) dan konten Adult (15,4%)
- Pemrograman: lebih dari 2/3 diberi label Programming/Other, menunjukkan karakter prompt kode serbaguna yang luas
  - Development Tools (26,4%) dan pangsa kecil bahasa scripting menunjukkan tanda spesialisasi yang mulai muncul
- Terjemahan, sains, kesehatan dan lainnya memiliki struktur internal yang relatif datar
  - Terjemahan: hampir terbagi rata antara Foreign Language Resources (51,1%) dan Other
  - Sains: Machine Learning & AI (80,4%) mendominasi, sebagian besar berupa pertanyaan meta AI
  - Kesehatan: kategori paling tersegmentasi, tanpa satu subtag pun melebihi 25%
- Keuangan, akademik, hukum jauh lebih tersebar, sehingga tidak ada satu tag pun yang mencapai 20%
Insight per penyedia
- Anthropic Claude: penggunaan pemrograman + teknis melebihi 80%, dengan sedikit roleplay dan tanya-jawab umum
- Google: komposisi beragam seperti terjemahan, sains, teknis, pengetahuan umum, dll., dengan pangsa coding turun ke sekitar 18% pada akhir 2025
- xAI: selama sebagian besar periode, pemrograman melebihi 80%, lalu baru meluas ke teknis, roleplay, akademik, dll. pada akhir November
  - Terkait masuknya trafik non-developer akibat distribusi gratis
- OpenAI: pada awal 2025, pekerjaan sains menyumbang lebih dari setengah, tetapi turun menjadi kurang dari 15% di akhir tahun
  - Penggunaan terkait pemrograman dan teknis masing-masing mencapai 29%, totalnya lebih dari setengah
- DeepSeek: interaksi berorientasi roleplay, obrolan kasual, dan hiburan mendominasi lebih dari 2/3
- Qwen: pemrograman konsisten di kisaran 40~60% sepanjang periode, dengan volatilitas mingguan tinggi pada sains, teknis, roleplay, dll.

Wilayah: bagaimana penggunaan LLM berbeda menurut wilayah

Distribusi penggunaan per wilayah
- Amerika Utara adalah wilayah tunggal terbesar, tetapi menyumbang kurang dari setengah total pengeluaran pada sebagian besar periode observasi
- Eropa mempertahankan pangsa pengeluaran mingguan secara stabil di kisaran 10~20%
- Asia muncul bukan hanya sebagai produsen model frontier, tetapi juga sebagai konsumen yang berkembang pesat
  - Pangsa naik lebih dari dua kali lipat dari sekitar 13% pada awal dataset menjadi sekitar 31% baru-baru ini
- Distribusi per benua: Amerika Utara 47,22%, Asia 28,61%, Eropa 21,32%, Oseania 1,18%, Amerika Selatan 1,21%, Afrika 0,46%
- 10 negara teratas: Amerika Serikat (47,17%), Singapura (9,21%), Jerman (7,51%), Tiongkok (6,01%), Korea Selatan (2,88%), Belanda (2,65%), Inggris (2,52%), Kanada (1,90%), Jepang (1,77%), India (1,62%)
Distribusi bahasa
- Bahasa Inggris mendominasi dengan 82,87%
- Mandarin Sederhana (4,95%), Rusia (2,47%), Spanyol (1,43%), Thailand (1,03%), lainnya (7,25%)

Analisis retensi pengguna LLM

Fenomena 'sepatu kaca' Cinderella
- Sebagian besar grafik retensi didominasi churn tinggi dan penyusutan cohort yang cepat, tetapi cohort pengguna awal menunjukkan retensi yang tahan lama seiring waktu
- Foundational cohorts ini mewakili pengguna yang mencapai kecocokan workload-model yang dalam dan berkelanjutan
- Efek sepatu kaca: dalam ekosistem AI yang berubah cepat, setiap model frontier baru "dicoba" pada workload bernilai tinggi yang sebelumnya belum terpenuhi, dan saat cocok tepat dengan batasan teknis serta ekonomi, muncul efek lock-in yang kuat
- Cohort Juni 2025 dari Gemini 2.5 Pro dan cohort Mei dari Claude 4 Sonnet jauh lebih tinggi daripada cohort berikutnya, dengan retensi sekitar 40% pada bulan ke-5
- GPT-4o Mini: satu foundational cohort (Juli 2024) mendominasi saat peluncuran dan membentuk kecocokan workload-model yang kuat, sementara semua cohort setelahnya mengalami churn yang sama
- Gemini 2.0 Flash, Llama 4 Maverick: tidak membentuk foundational cohort dengan performa tinggi, sehingga semua cohort sama-sama lemah, dan tidak dianggap sebagai "frontier"
- Efek bumerang model DeepSeek: alih-alih penurunan monoton yang umum, terlihat fenomena revival jump
  - Retensi cohort April 2025 untuk DeepSeek R1 naik pada bulan ke-3, dan cohort Juli untuk DeepSeek Chat V3-0324 naik pada bulan ke-2
  - Ini menunjukkan pengguna yang kembali setelah mencoba alternatif
Implikasi
- Menjadi yang pertama menyelesaikan masalah berfungsi sebagai keunggulan berkelanjutan
- Pola retensi tingkat cohort adalah sinyal empiris diferensiasi model
- Keterbatasan waktu jendela frontier: jendela bagi model untuk memperoleh pengguna dasar sempit dan sementara, tetapi menentukan dinamika adopsi jangka panjang
- Foundational cohort adalah sidik jari kemajuan teknis nyata sekaligus titik saat model AI beralih dari hal baru menjadi kebutuhan pokok

Dinamika biaya vs penggunaan

Analisis segmentasi workload AI per kategori
- Kerangka empat kuadran dibangun berdasarkan biaya median $0.73/1M token
- Workload premium (kanan atas): aplikasi berbiaya tinggi dan penggunaan tinggi, mencakup technology dan science
  - technology adalah yang paling mahal sekaligus mempertahankan penggunaan tinggi, menunjukkan kebutuhan akan model kuat untuk desain sistem atau arsitektur yang kompleks
- Pendorong volume pasar massal (kiri atas): penggunaan tinggi-biaya rendah, didominasi roleplay, programming, science
  - programming adalah kategori "killer professional" dengan volume penggunaan tertinggi dan biaya menengah yang sangat teroptimasi
  - Volume roleplay setara dengan programming, menunjukkan roleplay berorientasi konsumen dapat mendorong keterlibatan setara dengan use case profesional teratas
- Spesialis profesional (kanan bawah): volume rendah-biaya tinggi, mencakup finance, academia, health, marketing
  - Domain profesional niche berisiko tinggi dengan permintaan besar akan akurasi, reliabilitas, dan pengetahuan spesifik domain
- Utilitas niche (kiri bawah): biaya rendah-volume rendah, mencakup translation, legal, trivia
  - Utilitas fungsional dan hemat biaya, sudah terkomoditisasi sehingga tersedia alternatif murah
Biaya efektif vs penggunaan model AI
- Pada skala log-log, korelasi antara harga dan penggunaan lemah, dengan garis tren yang hampir datar
- Permintaan relatif tidak elastis terhadap harga: penurunan harga 10% hanya meningkatkan penggunaan sekitar 0,5~0,7%
- Ada dua rezim yang jelas: model tertutup (OpenAI, Anthropic) berada di area biaya tinggi-penggunaan tinggi, sedangkan model terbuka (DeepSeek, Mistral, Qwen) berada di area biaya rendah-volume tinggi
- 4 arketipe penggunaan-biaya:
  - Pemimpin premium: Claude 3.7 Sonnet, Claude Sonnet 4, dll. mencapai penggunaan tinggi pada sekitar $2/1M token
  - Raksasa efisien: Gemini 2.0 Flash, DeepSeek V3 0324, dll. mencatat penggunaan serupa pada kurang dari $0.40/1M token
  - Long tail: Qwen 2 7B Instruct, IBM Granite 4.0 Micro, dll. hanya beberapa sen/1M token tetapi penggunaannya rendah karena performa lemah atau visibilitas terbatas
  - Spesialis premium: GPT-4, GPT-5 Pro, dll. sekitar $35/1M token dengan penggunaan rendah, terbatas pada workload berisiko tinggi
- Bukti paradoks Jevons: model yang sangat murah dan cepat dipakai untuk lebih banyak tugas sehingga total konsumsi token meningkat
- Kualitas dan kapabilitas sering kali mengungguli biaya: penggunaan tinggi pada model mahal (Claude, GPT-4) menunjukkan bahwa pengguna bersedia menanggung biaya lebih tinggi bila model secara nyata lebih unggul atau memiliki keunggulan kepercayaan

Diskusi

Ekosistem multi-model: tidak ada satu model pun yang mendominasi semua penggunaan, dan baik model tertutup maupun terbuka sama-sama meraih pangsa yang signifikan
Keragaman penggunaan di luar produktivitas: lebih dari separuh penggunaan model open-source adalah untuk roleplay dan storytelling
- Menyoroti peluang untuk aplikasi berorientasi konsumen, personalisasi, dan crossover antara AI dan IP hiburan
Agen vs manusia: kebangkitan penalaran agentic: pergeseran dari interaksi satu giliran ke penalaran agentic, dengan model yang merencanakan, bernalar, dan mengeksekusi lintas beberapa tahap
Prospek regional: penggunaan LLM semakin global dan terdesentralisasi, dengan pangsa Asia naik dari 13% menjadi 31%, dan Tiongkok muncul sebagai kekuatan utama
Dinamika biaya vs penggunaan: pasar LLM belum menjadi komoditas, harga saja tidak cukup menjelaskan volume penggunaan
- Model open-source terus mendorong efficient frontier, menekan kekuatan penetapan harga sistem tertutup
Retensi dan fenomena sepatu kaca Cinderella: ketika model dasar melesat maju, retensi menjadi tolok ukur sejati dari daya tahan kompetitif
- Kecocokan model-beban kerja adalah daya saing inti

Keterbatasan

Hanya memberikan pandangan parsial atas ekosistem yang lebih luas, berdasarkan pola yang diamati dalam jendela waktu terbatas pada satu platform (OpenRouter)
Penggunaan enterprise, deployment self-hosted, sistem internal tertutup, dan sebagainya berada di luar cakupan data
Sebagian analisis bergantung pada pengukuran proksi: identifikasi penalaran agentic melalui multi-langkah atau pemanggilan alat, inferensi wilayah berbasis penagihan, dan sebagainya
Hasil perlu ditafsirkan sebagai pola perilaku indikatif, bukan pengukuran yang definitif

Kesimpulan

Memberikan sudut pandang empiris tentang bagaimana LLM diintegrasikan ke dalam infrastruktur komputasi dunia
Dalam setahun terakhir, kemunculan model kelas o1 memicu perubahan bertahap dalam pemahaman tentang penalaran, menggeser evaluasi dari benchmark satu-shot ke metrik berbasis proses, trade-off latensi-biaya, dan keberhasilan di bawah orkestrasi
Ekosistem LLM bersifat plural secara struktural, dengan pengguna memilih sistem di berbagai sumbu seperti kapabilitas, latensi, harga, dan keandalan
Penalaran itu sendiri juga berubah: dari penyelesaian statis ke orkestrasi dinamis, dengan kebangkitan penalaran agentic
Secara regional makin terdesentralisasi, dengan pangsa Asia meluas dan Tiongkok muncul sebagai pengembang sekaligus eksportir model
o1 tidak mengakhiri persaingan, melainkan memperluas ruang desain, menggeser fokus dari taruhan monolitik ke pemikiran sistem, dari intuisi ke instrumentasi, dan dari delta leaderboard ke analisis penggunaan empiris
Tahap berikutnya berfokus pada keunggulan operasional: mengukur penyelesaian tugas nyata, mengurangi varians di bawah perubahan distribusi, dan menyelaraskan perilaku model dengan tuntutan nyata beban kerja skala produksi

Laporan Status AI OpenRouter: Studi Empiris 100 Triliun Token

Gambaran riset dan metodologi

Open source vs model tertutup

Pemain open source utama

Ukuran model vs kecocokan pasar: menengah adalah kecil yang baru

Kegunaan model open source

Kebangkitan penalaran agentic

Model penalaran mencakup lebih dari setengah total penggunaan

Adopsi pemanggilan alat meningkat

Perubahan bentuk prompt-completion

Urutan lebih panjang, interaksi lebih kompleks

Implikasi: penalaran agentic menjadi default baru

Kategori: bagaimana orang menggunakan LLM?

Kategori dominan

Komposisi tag dalam kategori

Insight per penyedia

Wilayah: bagaimana penggunaan LLM berbeda menurut wilayah

Distribusi penggunaan per wilayah

Distribusi bahasa

Analisis retensi pengguna LLM

Fenomena 'sepatu kaca' Cinderella

Implikasi

Dinamika biaya vs penggunaan

Analisis segmentasi workload AI per kategori

Biaya efektif vs penggunaan model AI

Diskusi

Keterbatasan

Kesimpulan

Bacaan terkait

Belum ada komentar.