Kesenjangan antara LLM open-weight dan LLM tertutup
(blog.doubleword.ai)- Dalam Artificial Analysis Intelligence Index, waktu yang dibutuhkan LLM open-weight untuk menyamai kinerja masa lalu LLM tertutup menunjukkan tren yang terus menurun sejak musim panas 2024
- Jika ditarik garis tren pada metrik tunggal ini, kesenjangannya diproyeksikan menjadi 0 bulan pada 3 Desember 2026, yang berarti model terbuka akan menyentuh model tertutup terdepan pada metrik tersebut
- Jika analisis yang sama diperluas ke seluruh 18 benchmark, kesenjangan rata-ratanya hampir datar dan tetap berada di bawah 5 bulan sepanjang periode
- Besarnya peningkatan terutama terjadi pada benchmark coding, dengan kesenjangan pada metrik coding menyusut dari 15 bulan menjadi 1–2 bulan
- Evaluasi kualitas LLM sangat bergantung pada tolok ukur yang dipakai, sehingga interpretasi bahwa model terbuka akan segera menyusul dan interpretasi bahwa model terbuka tetap tertinggal sekitar 5 bulan sama-sama dimungkinkan
Pengejaran cepat yang ditunjukkan oleh satu metrik
- Kesenjangan dihitung dengan menelusuri kembali pada titik waktu mana frontier LLM tertutup pernah mencapai performa yang sama dengan frontier benchmark LLM open-weight
- Metrik utama yang digunakan adalah Artificial Analysis Intelligence Index dari Artificial Analysis, yaitu metrik yang bertujuan menilai kemampuan keseluruhan model
- Pada metrik ini, sekitar musim panas 2024 kesenjangan antara LLM open-weight dan LLM tertutup mulai menyempit, dan tren penyusutan itu terus berlanjut setelahnya
- Jika garis tren diperpanjang ke masa depan, kesenjangan menjadi 0 bulan pada 3 Desember 2026
- Berdasarkan waktu penulisan, itu berarti sekitar 6 bulan lagi
Kesimpulan berbeda dari 18 benchmark
- Jika analisis yang sama diterapkan ke seluruh 18 benchmark milik Artificial Analysis, hasilnya menunjukkan gambaran yang berbeda dari metrik tunggal tadi
- Untuk tiap bulan, kesenjangan per 18 dataset dibuat dalam bentuk box plot, lalu dihitung garis tren untuk kesenjangan rata-rata di seluruh dataset
- Garis tren untuk kesenjangan rata-rata hampir sepenuhnya datar, dan berada dekat level di bawah 5 bulan sepanjang periode
- Sebagian besar peningkatan model terjadi pada metrik coding
- Indeks coding menyusut dari tertinggal 15 bulan menjadi tertinggal 1–2 bulan
- Pada sebagian besar dataset lain, seiring waktu kesenjangan justru menunjukkan tren membesar secara perlahan
- Penilaian kualitas LLM dapat berubah besar tergantung tolok ukur yang digunakan
- Dengan satu tolok ukur, singularity open-source sekitar Natal bisa diprediksi
- Dengan tolok ukur lain, LLM open-source tetap konsisten tertinggal sekitar 5 bulan dari LLM tertutup, dan kesenjangannya bahkan bisa membesar
1 komentar
Komentar Hacker News
Masalah terbesar dalam masa depan model berbobot terbuka adalah bahwa model berbobot terbuka saat ini merupakan hasil yang bergantung pada niat baik organisasi swasta seperti DeepSeek
Kerannya bisa ditutup kapan saja, dan sampai ada perangkat keras milik komunitas dalam bentuk apa pun, model berbobot terbuka akan terus menanggung risiko terhenti
Sekalipun tidak ada model baru sama sekali ke depannya, kemampuan yang sudah dicapai tetap ada. Sebaliknya, model berbasis API bisa dihentikan semaunya oleh penyedia, dan hal seperti
gpt5-minisegera menghilang lalu digantikan oleh5.4-miniyang lebih mahal bisa saja terjadiNvidia mendapat keuntungan langsung semakin banyak orang menjalankan model, jadi ada insentif untuk terus merilis lini Nemotron, dan Google juga tahu model kecil yang dipakai untuk fitur browser toh akan bocor, jadi lebih baik mengambil pangsa pasar developer
Laboratorium-laboratorium Tiongkok juga punya insentif untuk terus merilis model, dan berkat perang dagang antarnegara, dukungan pemerintah kemungkinan besar akan berlanjut
Pendekatannya seperti mengatakan, “Kami bisa melakukan 90% dari kemampuan kalian dengan 1/10 biaya, dan bahkan lebih baik pada metrik kepadatan,” dan setidaknya menurut teori saya, ini tampak seperti Hindenburg Research versi AI
Bisa muncul perusahaan yang melatih model, lalu melisensikan model itu kepada perusahaan inferensi yang menjalankan API
Perusahaan inferensi bisa beroperasi dengan modal jauh lebih kecil, dan perusahaan pelatihan tidak perlu kehilangan sumber daya untuk inferensi
Beberapa perusahaan pelatihan model Tiongkok sudah melisensikan model mereka kepada penyedia inferensi dengan cara seperti ini
Secara finansial pun saya pikir masuk akal. Pengguna yang memakai batas langganan sampai penuh bisa menimbulkan biaya bagi operator yang lebih besar daripada biaya langganannya, dan ini mungkin juga alasan Anthropic bereaksi keras terhadap pengumpulan data oleh Tiongkok
Jika bobot dibuka, pesaing bisa mengunduh model, menganalisisnya, dan menjalankannya seharian tanpa perlu terus mengetuk layanan langganan, sehingga bebannya berkurang
Hampir tidak ada alasan untuk menjalankan sendiri model terbesar kecuali bagi pemain utama. Menyewa perangkat keras jauh lebih mahal daripada biaya langganan dan bisa menelan puluhan ribu dolar, sementara membelinya memerlukan ratusan ribu dolar
Ada ungkapan seperti “sekarang saat yang tepat untuk mencairkan dana pensiun, terbang ke pulau terpencil, dan menghabiskan kira-kira 6 bulan sisa peradaban dengan damai,” serta “jadi mungkin kiamat open source belum datang,” tetapi saya tidak tahu sejak kapan model open source yang bagus menjadi pertanda kiamat
Setidaknya bisa dilihat sebagai hedge terhadap distopia bergaya cyberpunk
Namun LLM model terbuka diperlakukan seperti monster. Apakah maksudnya pasar harus dikendalikan dengan aman oleh OpenAI atau Anthropic dan mereka yang mengambil semua keputusan?
Kemungkinan besar itu adalah ungkapan bernada bercanda
Dengan tren saat ini, model Tiongkok sulit melampaui model paling mutakhir dari AS
Keunggulan model AS berasal dari kemampuan memperoleh lebih banyak data yang berkualitas lebih tinggi, terutama data sintetis, bahkan dengan cara-cara yang nyaris mustahil dipakai untuk trafik percakapan nyata, seperti menghasilkan data menggunakan model guru raksasa
Model Tiongkok maju dengan mencurahkan upaya besar pada optimisasi model, serta memperoleh lebih banyak data pelatihan yang berkualitas lebih tinggi dari model-model paling mutakhir AS
Agar model berbobot terbuka Tiongkok bisa melampaui model paling mutakhir dari lab AS, persamaan ini harus berbalik. Lab Tiongkok harus keluar dari pemanenan data model mutakhir dan membangun sistem serta upaya data untuk menciptakan data baru, serta mendapatkan perangkat keras generasi terbaru dalam jumlah besar
Melatih model skala mutakhir itu sendiri bukanlah prestasi yang tak terbayangkan; tempat perangkat keras yang sebenarnya dibutuhkan adalah pada inferensi model guru
Kita tidak tahu bagian dalam z.ai atau Alibaba, dan juga tidak tahu bagian dalam Anthropic atau OpenAI
Namun kecil sekali kemungkinan mereka tidak saling mengumpulkan data. Saya yakin Anthropic pun punya tim yang menelaah bobot GLM 5.2, setidaknya untuk melihat pesaing
Fakta bahwa sebuah lab memperoleh data Anthropic bukan berarti mereka tidak melakukan riset sendiri
Mereka berfokus pada optimisasi karena tidak bisa mendapatkan perangkat keras terbaik, dan satu-satunya alasan lab-lab teratas tertinggal bisa saja karena mereka tidak punya H200 atau MI350. Sekarang mereka memilikinya
Ada risiko lain yang juga diremehkan. Anthropic sedang bersitegang dengan pemerintah AS dan saat ini menahan model-model “terbaik” dunia di dalam perusahaan
Tiongkok mungkin juga serupa. Sejauh yang diketahui, pemerintah Tiongkok secara mengejutkan terbuka terhadap ekspor AI dan model berbobot terbuka, tetapi ada kemungkinan kecil namun tidak bisa diabaikan bahwa mereka menyimpan versi GLM 5.2 yang lebih baik secara internal dan tidak ada yang bisa mengatakannya
Dari luar, sulit membedakan antara lab Tiongkok yang tertinggal 6 bulan dan lab yang dipaksa menahan model terbaiknya
Saya tidak melihat ini sebagai penghalang, dan rasanya mirip dengan peremehan terhadap Asia yang berlangsung selama 50 tahun terakhir
Tidak ada keunggulan bawaan khusus AS dalam membuat LLM, dan keunggulan sebagai pelopor yang dimiliki AS kemungkinan besar akan tertunda dan terbuang dalam permainan kontrol ekspor dengan alasan “terlalu berbahaya untuk dirilis”
Di internet sudah ada sebagian besar pengetahuan yang diharapkan diketahui oleh model
Distilasi dengan sejumlah kecil data dari model yang lebih baik tetap membantu, tetapi ini lebih dekat pada menemukan kemampuan yang cocok dengan persona asisten yang patuh dan menekan kemampuan yang tidak diinginkan seperti trolling, ketimbang memindahkan kemampuan yang sama sekali tidak ada pada model yang dilatih dari internet mentah
Dataset tuning instruksi yang dibuat dengan ChatGPT dan dipakai untuk Alpaca dan lainnya adalah versi primitifnya
Tanpa target yang jelas untuk ditiru, pesaing memang harus lebih mengandalkan evaluator manusia, tetapi karena di Tiongkok ada banyak perusahaan pelabelan data, itu bukan hambatan besar
Yang keluar dari Tiongkok bukan hanya metode baru untuk distilasi model
Pemerintah AS tampaknya tidak berniat memberi akses ke model terbaru tanpa izin eksplisit
Tidak banyak pembahasan bahwa model tertutup bisa secara efektif mengakali benchmark
Apa yang diberi merek sebagai model oleh Anthropic atau OpenAI tidak harus berupa bobot saja; bisa saja itu seluruh sistem backend yang memperkuat model itu sendiri
Dengan begitu, skornya di benchmark bisa lebih baik daripada model open source yang hanya memiliki bobot
Open source juga sama, dan benchmark pun tidak dijalankan tanpa alat eksekusi apa pun
Tidak ada yang peduli apakah AGI dibuat 100% dari jaringan saraf, atau dari 50% jaringan saraf dan 50% skrip Perl
Masuk akal bahwa sebagian besar peningkatan performa model berasal dari benchmark coding
Coding adalah salah satu penggunaan jangka pendek model yang paling jelas, ada pasar yang siap membayar mahal untuk token, ada korpus besar untuk dikerjakan, dan domain masalahnya sendiri memiliki verifiabilitas yang cukup besar yang sudah tertanam
AS, yang dikenal sebagai tanah kebebasan, kini membatasi sehingga orang yang bukan warga AS bahkan tidak bisa memakai model paling mutakhir
Sebaliknya, Tiongkok, yang dianggap sebagai “negara otoriter” dan semacam “lawan kata dari kebebasan”, justru telah menghasilkan semua model berbobot terbuka yang kompetitif, khususnya berkat industri perangkat lunaknya yang kapitalistis
Ini benar-benar ironis
Sebagai orang Tiongkok, saya memahami bahwa strategi ini adalah menggunakan open source sebagai alat persaingan asimetris dari posisi tertinggal, serta menutup kekurangan sumber daya komputasi dengan membagi beban. Tetap saja, ini sangat ironis
AS boleh saja menyebut dirinya tanah kebebasan, tetapi selama ratusan tahun mereka telah memainkan permainan proteksionisme ekonomi
Peristiwa ini hanyalah contoh terbarunya
Saya penasaran sejauh mana perusahaan model tertutup memberi boost performa pada model terbuka
Jika peningkatan model tertutup berhenti, apakah kemajuan model terbuka juga akan melambat?
Misalnya, DeepSeek sudah banyak berinovasi dalam hal efisiensi
Asumsi bahwa jika model tertutup berhenti membaik maka semua model tertutup juga akan berhenti, sangat kecil kemungkinannya kecuali model-model itu segera menabrak semacam dinding
Perusahaan Tiongkok mungkin tertinggal dari AS dalam kemampuan komputasi, tetapi di bidang pembuatan soal dan reinforcement learning yang saat ini bekerja dengan baik, mereka memiliki peneliti yang kira-kira sama unggulnya dengan rekan-rekan mereka di AS [0]
Terutama di area yang memungkinkan feedback loop pendek seperti pemrograman, kemungkinan besar peningkatan cepat akan terus berlanjut sampai titik di mana kita, manusia yang tidak seberapa ini, kehilangan kemampuan untuk mendefinisikan fungsi tujuan
Sebaliknya, di bidang yang feedback-nya lambat atau mahal, saya tidak mengharapkan keajaiban. Perusahaan farmasi besar dan kompeten pun tidak bisa secara stabil menemukan obat baru yang hebat karena proses evaluasinya terlalu lambat dan mahal, dan model juga akan sulit melakukan itu dalam waktu dekat karena alasan yang sama
Untuk menjalankan reinforcement learning dengan mengulang n jalur pengembangan obat sebanyak m kali, bahkan jika mungkin, biayanya akan sebesar n*m dikalikan 10 juta–100 juta dolar, dan memakan waktu m tahun
[0] Karena brain drain yang membuat talenta global mengalir ke lab riset AS melalui sistem universitas AS mulai mengering, keunggulan AS di bidang ini kemungkinan akan berkurang
Ini menarik jika dilihat bersama larangan ekspor AS baru-baru ini
Apakah AS sedang menyia-nyiakan keunggulannya dengan membuat open source, terutama lab Tiongkok, mengejar dalam hal kualitas model yang bisa dipakai publik?
Bisakah lab riset AS mempertahankan keunggulannya dalam situasi ketika pengguna tidak bisa memakai model terbaru?
Bukan berarti saya bilang itu penting atau tidak penting, tetapi saya tidak tahu nilai praktis apa yang dimiliki oleh “AS menang” atau “Tiongkok menang”
Jika keyakinan bahwa model berbobot terbuka/Tiongkok sangat bergantung pada distilasi dari model mutakhir terbaru itu benar, maka kesenjangan akan stabil pada tingkat waktu minimum yang dibutuhkan untuk mengekstrak data bermakna dari model mutakhir terbaru ditambah waktu penyelesaian pelatihan model dependen terbaru
Kesenjangan ini bisa dikurangi dengan meningkatkan efisiensi proses, tetapi tidak bisa dihilangkan sepenuhnya
Upaya untuk menghambat distilasi di Anthropic atau OpenAI juga bisa mengubah keseimbangan
Saya penasaran apakah banyak perusahaan dan pemerintah yang percaya bahwa mereka harus berada di garis depan penerapan LLM terdepan, dan yang mulai makin bergantung padanya, akan terjebak dalam situasi seperti cerpen Arthur C. Clarke Superiority
[1] Teks asli: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)