Kesenjangan antara LLM open-weight dan LLM tertutup

(blog.doubleword.ai)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Dalam Artificial Analysis Intelligence Index, waktu yang dibutuhkan LLM open-weight untuk menyamai kinerja masa lalu LLM tertutup menunjukkan tren yang terus menurun sejak musim panas 2024
Jika ditarik garis tren pada metrik tunggal ini, kesenjangannya diproyeksikan menjadi 0 bulan pada 3 Desember 2026, yang berarti model terbuka akan menyentuh model tertutup terdepan pada metrik tersebut
Jika analisis yang sama diperluas ke seluruh 18 benchmark, kesenjangan rata-ratanya hampir datar dan tetap berada di bawah 5 bulan sepanjang periode
Besarnya peningkatan terutama terjadi pada benchmark coding, dengan kesenjangan pada metrik coding menyusut dari 15 bulan menjadi 1–2 bulan
Evaluasi kualitas LLM sangat bergantung pada tolok ukur yang dipakai, sehingga interpretasi bahwa model terbuka akan segera menyusul dan interpretasi bahwa model terbuka tetap tertinggal sekitar 5 bulan sama-sama dimungkinkan

Pengejaran cepat yang ditunjukkan oleh satu metrik

Kesenjangan dihitung dengan menelusuri kembali pada titik waktu mana frontier LLM tertutup pernah mencapai performa yang sama dengan frontier benchmark LLM open-weight
Metrik utama yang digunakan adalah Artificial Analysis Intelligence Index dari Artificial Analysis, yaitu metrik yang bertujuan menilai kemampuan keseluruhan model
Pada metrik ini, sekitar musim panas 2024 kesenjangan antara LLM open-weight dan LLM tertutup mulai menyempit, dan tren penyusutan itu terus berlanjut setelahnya
Jika garis tren diperpanjang ke masa depan, kesenjangan menjadi 0 bulan pada 3 Desember 2026
- Berdasarkan waktu penulisan, itu berarti sekitar 6 bulan lagi

Kesimpulan berbeda dari 18 benchmark

Jika analisis yang sama diterapkan ke seluruh 18 benchmark milik Artificial Analysis, hasilnya menunjukkan gambaran yang berbeda dari metrik tunggal tadi
Untuk tiap bulan, kesenjangan per 18 dataset dibuat dalam bentuk box plot, lalu dihitung garis tren untuk kesenjangan rata-rata di seluruh dataset
Garis tren untuk kesenjangan rata-rata hampir sepenuhnya datar, dan berada dekat level di bawah 5 bulan sepanjang periode
Sebagian besar peningkatan model terjadi pada metrik coding
- Indeks coding menyusut dari tertinggal 15 bulan menjadi tertinggal 1–2 bulan
- Pada sebagian besar dataset lain, seiring waktu kesenjangan justru menunjukkan tren membesar secara perlahan
Penilaian kualitas LLM dapat berubah besar tergantung tolok ukur yang digunakan
- Dengan satu tolok ukur, singularity open-source sekitar Natal bisa diprediksi
- Dengan tolok ukur lain, LLM open-source tetap konsisten tertinggal sekitar 5 bulan dari LLM tertutup, dan kesenjangannya bahkan bisa membesar

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Masalah terbesar dalam masa depan model berbobot terbuka adalah bahwa model berbobot terbuka saat ini merupakan hasil yang bergantung pada niat baik organisasi swasta seperti DeepSeek
Kerannya bisa ditutup kapan saja, dan sampai ada perangkat keras milik komunitas dalam bentuk apa pun, model berbobot terbuka akan terus menanggung risiko terhenti
- Meski begitu, keunggulan terbesar model terbuka adalah performa yang sudah sekali dirilis tidak bisa dirampas kembali
  Sekalipun tidak ada model baru sama sekali ke depannya, kemampuan yang sudah dicapai tetap ada. Sebaliknya, model berbasis API bisa dihentikan semaunya oleh penyedia, dan hal seperti gpt5-mini segera menghilang lalu digantikan oleh 5.4-mini yang lebih mahal bisa saja terjadi
  Nvidia mendapat keuntungan langsung semakin banyak orang menjalankan model, jadi ada insentif untuk terus merilis lini Nemotron, dan Google juga tahu model kecil yang dipakai untuk fitur browser toh akan bocor, jadi lebih baik mengambil pangsa pasar developer
  Laboratorium-laboratorium Tiongkok juga punya insentif untuk terus merilis model, dan berkat perang dagang antarnegara, dukungan pemerintah kemungkinan besar akan berlanjut
- DeepSeek bukan amal, melainkan lebih mirip hedge fund yang ingin melakukan short selling terhadap pasar AI Barat
  Pendekatannya seperti mengatakan, “Kami bisa melakukan 90% dari kemampuan kalian dengan 1/10 biaya, dan bahkan lebih baik pada metrik kepadatan,” dan setidaknya menurut teori saya, ini tampak seperti Hindenburg Research versi AI
- Sebagai penulis asli tulisan tersebut, saya rasa masa depan model berbobot terbuka akan mirip dengan perusahaan desain chip fabless
  Bisa muncul perusahaan yang melatih model, lalu melisensikan model itu kepada perusahaan inferensi yang menjalankan API
  Perusahaan inferensi bisa beroperasi dengan modal jauh lebih kecil, dan perusahaan pelatihan tidak perlu kehilangan sumber daya untuk inferensi
  Beberapa perusahaan pelatihan model Tiongkok sudah melisensikan model mereka kepada penyedia inferensi dengan cara seperti ini
- Kita membutuhkan sesuatu seperti SETI@Home untuk pelatihan model
- Ini bukan amal; laboratorium-laboratorium mendapatkan sesuatu dengan saling belajar dari model terbuka
  Secara finansial pun saya pikir masuk akal. Pengguna yang memakai batas langganan sampai penuh bisa menimbulkan biaya bagi operator yang lebih besar daripada biaya langganannya, dan ini mungkin juga alasan Anthropic bereaksi keras terhadap pengumpulan data oleh Tiongkok
  Jika bobot dibuka, pesaing bisa mengunduh model, menganalisisnya, dan menjalankannya seharian tanpa perlu terus mengetuk layanan langganan, sehingga bebannya berkurang
  Hampir tidak ada alasan untuk menjalankan sendiri model terbesar kecuali bagi pemain utama. Menyewa perangkat keras jauh lebih mahal daripada biaya langganan dan bisa menelan puluhan ribu dolar, sementara membelinya memerlukan ratusan ribu dolar
Ada ungkapan seperti “sekarang saat yang tepat untuk mencairkan dana pensiun, terbang ke pulau terpencil, dan menghabiskan kira-kira 6 bulan sisa peradaban dengan damai,” serta “jadi mungkin kiamat open source belum datang,” tetapi saya tidak tahu sejak kapan model open source yang bagus menjadi pertanda kiamat
- Justru model open source adalah hedge terhadap kiamat
  Setidaknya bisa dilihat sebagai hedge terhadap distopia bergaya cyberpunk
- Saya memahaminya sebagai candaan yang menunjuk pada konsekuensi mengerikan ketika bobot terbuka mencapai kemampuan model tercanggih, sehingga semua orang bisa mendapatkan model setingkat mythos+ tanpa batasan
- Lucu juga. Dampak apokaliptik perubahan iklim terhadap tanaman pangan dan tingkat kanker, terutama setelah runtuhnya lapisan ozon, pun tidak mengubah orang-orang
  Namun LLM model terbuka diperlakukan seperti monster. Apakah maksudnya pasar harus dikendalikan dengan aman oleh OpenAI atau Anthropic dan mereka yang mengambil semua keputusan?
- Tulisan ini adalah posting blog dari perusahaan yang meng-host LLM berbobot terbuka (https://www.doubleword.ai/)
  Kemungkinan besar itu adalah ungkapan bernada bercanda
- Doomerisme sedang berada di titik tertinggi sepanjang masa, dan orang-orang tampaknya menjadi semakin neurotik dari hari ke hari
Dengan tren saat ini, model Tiongkok sulit melampaui model paling mutakhir dari AS
Keunggulan model AS berasal dari kemampuan memperoleh lebih banyak data yang berkualitas lebih tinggi, terutama data sintetis, bahkan dengan cara-cara yang nyaris mustahil dipakai untuk trafik percakapan nyata, seperti menghasilkan data menggunakan model guru raksasa
Model Tiongkok maju dengan mencurahkan upaya besar pada optimisasi model, serta memperoleh lebih banyak data pelatihan yang berkualitas lebih tinggi dari model-model paling mutakhir AS
Agar model berbobot terbuka Tiongkok bisa melampaui model paling mutakhir dari lab AS, persamaan ini harus berbalik. Lab Tiongkok harus keluar dari pemanenan data model mutakhir dan membangun sistem serta upaya data untuk menciptakan data baru, serta mendapatkan perangkat keras generasi terbaru dalam jumlah besar
Melatih model skala mutakhir itu sendiri bukanlah prestasi yang tak terbayangkan; tempat perangkat keras yang sebenarnya dibutuhkan adalah pada inferensi model guru
- Kecuali bekerja di perusahaan-perusahaan itu, kita tidak benar-benar tahu apa yang mereka lakukan
  Kita tidak tahu bagian dalam z.ai atau Alibaba, dan juga tidak tahu bagian dalam Anthropic atau OpenAI
  Namun kecil sekali kemungkinan mereka tidak saling mengumpulkan data. Saya yakin Anthropic pun punya tim yang menelaah bobot GLM 5.2, setidaknya untuk melihat pesaing
  Fakta bahwa sebuah lab memperoleh data Anthropic bukan berarti mereka tidak melakukan riset sendiri
  Mereka berfokus pada optimisasi karena tidak bisa mendapatkan perangkat keras terbaik, dan satu-satunya alasan lab-lab teratas tertinggal bisa saja karena mereka tidak punya H200 atau MI350. Sekarang mereka memilikinya
  Ada risiko lain yang juga diremehkan. Anthropic sedang bersitegang dengan pemerintah AS dan saat ini menahan model-model “terbaik” dunia di dalam perusahaan
  Tiongkok mungkin juga serupa. Sejauh yang diketahui, pemerintah Tiongkok secara mengejutkan terbuka terhadap ekspor AI dan model berbobot terbuka, tetapi ada kemungkinan kecil namun tidak bisa diabaikan bahwa mereka menyimpan versi GLM 5.2 yang lebih baik secara internal dan tidak ada yang bisa mengatakannya
  Dari luar, sulit membedakan antara lab Tiongkok yang tertinggal 6 bulan dan lab yang dipaksa menahan model terbaiknya
- Sekalipun deskripsi bahwa “lab Tiongkok harus keluar dari pemanenan data model mutakhir dan menciptakan data baru” itu benar, mereka bisa saja melakukannya besok, dan mereka tidak sesempit itu wawasannya sampai tidak memikirkannya
  Saya tidak melihat ini sebagai penghalang, dan rasanya mirip dengan peremehan terhadap Asia yang berlangsung selama 50 tahun terakhir
  Tidak ada keunggulan bawaan khusus AS dalam membuat LLM, dan keunggulan sebagai pelopor yang dimiliki AS kemungkinan besar akan tertunda dan terbuang dalam permainan kontrol ekspor dengan alasan “terlalu berbahaya untuk dirilis”
- Jumlah data yang diklaim Anthropic telah diekstraksi untuk distilasi sangat kecil dibandingkan seluruh internet
  Di internet sudah ada sebagian besar pengetahuan yang diharapkan diketahui oleh model
  Distilasi dengan sejumlah kecil data dari model yang lebih baik tetap membantu, tetapi ini lebih dekat pada menemukan kemampuan yang cocok dengan persona asisten yang patuh dan menekan kemampuan yang tidak diinginkan seperti trolling, ketimbang memindahkan kemampuan yang sama sekali tidak ada pada model yang dilatih dari internet mentah
  Dataset tuning instruksi yang dibuat dengan ChatGPT dan dipakai untuk Alpaca dan lainnya adalah versi primitifnya
  Tanpa target yang jelas untuk ditiru, pesaing memang harus lebih mengandalkan evaluator manusia, tetapi karena di Tiongkok ada banyak perusahaan pelabelan data, itu bukan hambatan besar
- Gagasan bahwa “Tiongkok tidak punya pilihan selain meniru AS” adalah penilaian yang sangat picik dan kurang informasi
  Yang keluar dari Tiongkok bukan hanya metode baru untuk distilasi model
- Sulit membayangkan bagaimana bisa begitu. Segera, pilihannya hanya model OAI yang sangat lama atau model Tiongkok baru
  Pemerintah AS tampaknya tidak berniat memberi akses ke model terbaru tanpa izin eksplisit
Tidak banyak pembahasan bahwa model tertutup bisa secara efektif mengakali benchmark
Apa yang diberi merek sebagai model oleh Anthropic atau OpenAI tidak harus berupa bobot saja; bisa saja itu seluruh sistem backend yang memperkuat model itu sendiri
Dengan begitu, skornya di benchmark bisa lebih baik daripada model open source yang hanya memiliki bobot
- Benar, dan menurut saya itu tidak masalah. Semuanya harus dihitung sebagai performa
  Open source juga sama, dan benchmark pun tidak dijalankan tanpa alat eksekusi apa pun
  Tidak ada yang peduli apakah AGI dibuat 100% dari jaringan saraf, atau dari 50% jaringan saraf dan 50% skrip Perl
Masuk akal bahwa sebagian besar peningkatan performa model berasal dari benchmark coding
Coding adalah salah satu penggunaan jangka pendek model yang paling jelas, ada pasar yang siap membayar mahal untuk token, ada korpus besar untuk dikerjakan, dan domain masalahnya sendiri memiliki verifiabilitas yang cukup besar yang sudah tertanam
AS, yang dikenal sebagai tanah kebebasan, kini membatasi sehingga orang yang bukan warga AS bahkan tidak bisa memakai model paling mutakhir
Sebaliknya, Tiongkok, yang dianggap sebagai “negara otoriter” dan semacam “lawan kata dari kebebasan”, justru telah menghasilkan semua model berbobot terbuka yang kompetitif, khususnya berkat industri perangkat lunaknya yang kapitalistis
Ini benar-benar ironis
Sebagai orang Tiongkok, saya memahami bahwa strategi ini adalah menggunakan open source sebagai alat persaingan asimetris dari posisi tertinggal, serta menutup kekurangan sumber daya komputasi dengan membagi beban. Tetap saja, ini sangat ironis
- Perbandingan itu sudah runtuh sejak kalimat pertama
  AS boleh saja menyebut dirinya tanah kebebasan, tetapi selama ratusan tahun mereka telah memainkan permainan proteksionisme ekonomi
  Peristiwa ini hanyalah contoh terbarunya
Saya penasaran sejauh mana perusahaan model tertutup memberi boost performa pada model terbuka
Jika peningkatan model tertutup berhenti, apakah kemajuan model terbuka juga akan melambat?
- Saya tidak mengerti mengapa diasumsikan hanya lab riset AS yang bisa berinovasi
  Misalnya, DeepSeek sudah banyak berinovasi dalam hal efisiensi
- Beberapa orang di Tiongkok pasti tahu seberapa besar “distilasi” membantu model berbobot terbuka mengejar ketertinggalan
  Asumsi bahwa jika model tertutup berhenti membaik maka semua model tertutup juga akan berhenti, sangat kecil kemungkinannya kecuali model-model itu segera menabrak semacam dinding
  Perusahaan Tiongkok mungkin tertinggal dari AS dalam kemampuan komputasi, tetapi di bidang pembuatan soal dan reinforcement learning yang saat ini bekerja dengan baik, mereka memiliki peneliti yang kira-kira sama unggulnya dengan rekan-rekan mereka di AS [0]
  Terutama di area yang memungkinkan feedback loop pendek seperti pemrograman, kemungkinan besar peningkatan cepat akan terus berlanjut sampai titik di mana kita, manusia yang tidak seberapa ini, kehilangan kemampuan untuk mendefinisikan fungsi tujuan
  Sebaliknya, di bidang yang feedback-nya lambat atau mahal, saya tidak mengharapkan keajaiban. Perusahaan farmasi besar dan kompeten pun tidak bisa secara stabil menemukan obat baru yang hebat karena proses evaluasinya terlalu lambat dan mahal, dan model juga akan sulit melakukan itu dalam waktu dekat karena alasan yang sama
  Untuk menjalankan reinforcement learning dengan mengulang n jalur pengembangan obat sebanyak m kali, bahkan jika mungkin, biayanya akan sebesar n*m dikalikan 10 juta–100 juta dolar, dan memakan waktu m tahun
  [0] Karena brain drain yang membuat talenta global mengalir ke lab riset AS melalui sistem universitas AS mulai mengering, keunggulan AS di bidang ini kemungkinan akan berkurang
Ini menarik jika dilihat bersama larangan ekspor AS baru-baru ini
Apakah AS sedang menyia-nyiakan keunggulannya dengan membuat open source, terutama lab Tiongkok, mengejar dalam hal kualitas model yang bisa dipakai publik?
Bisakah lab riset AS mempertahankan keunggulannya dalam situasi ketika pengguna tidak bisa memakai model terbaru?
- Saya penasaran mengapa itu penting
  Bukan berarti saya bilang itu penting atau tidak penting, tetapi saya tidak tahu nilai praktis apa yang dimiliki oleh “AS menang” atau “Tiongkok menang”
Jika keyakinan bahwa model berbobot terbuka/Tiongkok sangat bergantung pada distilasi dari model mutakhir terbaru itu benar, maka kesenjangan akan stabil pada tingkat waktu minimum yang dibutuhkan untuk mengekstrak data bermakna dari model mutakhir terbaru ditambah waktu penyelesaian pelatihan model dependen terbaru
Kesenjangan ini bisa dikurangi dengan meningkatkan efisiensi proses, tetapi tidak bisa dihilangkan sepenuhnya
Upaya untuk menghambat distilasi di Anthropic atau OpenAI juga bisa mengubah keseimbangan
Saya penasaran apakah banyak perusahaan dan pemerintah yang percaya bahwa mereka harus berada di garis depan penerapan LLM terdepan, dan yang mulai makin bergantung padanya, akan terjebak dalam situasi seperti cerpen Arthur C. Clarke Superiority
[1] Teks asli: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

Kesenjangan antara LLM open-weight dan LLM tertutup

Pengejaran cepat yang ditunjukkan oleh satu metrik

Kesimpulan berbeda dari 18 benchmark

Bacaan terkait

1 komentar

Komentar Hacker News