1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Dalam Artificial Analysis Intelligence Index, waktu yang dibutuhkan LLM open-weight untuk menyamai kinerja masa lalu LLM tertutup menunjukkan tren yang terus menurun sejak musim panas 2024
  • Jika ditarik garis tren pada metrik tunggal ini, kesenjangannya diproyeksikan menjadi 0 bulan pada 3 Desember 2026, yang berarti model terbuka akan menyentuh model tertutup terdepan pada metrik tersebut
  • Jika analisis yang sama diperluas ke seluruh 18 benchmark, kesenjangan rata-ratanya hampir datar dan tetap berada di bawah 5 bulan sepanjang periode
  • Besarnya peningkatan terutama terjadi pada benchmark coding, dengan kesenjangan pada metrik coding menyusut dari 15 bulan menjadi 1–2 bulan
  • Evaluasi kualitas LLM sangat bergantung pada tolok ukur yang dipakai, sehingga interpretasi bahwa model terbuka akan segera menyusul dan interpretasi bahwa model terbuka tetap tertinggal sekitar 5 bulan sama-sama dimungkinkan

Pengejaran cepat yang ditunjukkan oleh satu metrik

  • Kesenjangan dihitung dengan menelusuri kembali pada titik waktu mana frontier LLM tertutup pernah mencapai performa yang sama dengan frontier benchmark LLM open-weight
  • Metrik utama yang digunakan adalah Artificial Analysis Intelligence Index dari Artificial Analysis, yaitu metrik yang bertujuan menilai kemampuan keseluruhan model
  • Pada metrik ini, sekitar musim panas 2024 kesenjangan antara LLM open-weight dan LLM tertutup mulai menyempit, dan tren penyusutan itu terus berlanjut setelahnya
  • Jika garis tren diperpanjang ke masa depan, kesenjangan menjadi 0 bulan pada 3 Desember 2026
    • Berdasarkan waktu penulisan, itu berarti sekitar 6 bulan lagi

Kesimpulan berbeda dari 18 benchmark

  • Jika analisis yang sama diterapkan ke seluruh 18 benchmark milik Artificial Analysis, hasilnya menunjukkan gambaran yang berbeda dari metrik tunggal tadi
  • Untuk tiap bulan, kesenjangan per 18 dataset dibuat dalam bentuk box plot, lalu dihitung garis tren untuk kesenjangan rata-rata di seluruh dataset
  • Garis tren untuk kesenjangan rata-rata hampir sepenuhnya datar, dan berada dekat level di bawah 5 bulan sepanjang periode
  • Sebagian besar peningkatan model terjadi pada metrik coding
    • Indeks coding menyusut dari tertinggal 15 bulan menjadi tertinggal 1–2 bulan
    • Pada sebagian besar dataset lain, seiring waktu kesenjangan justru menunjukkan tren membesar secara perlahan
  • Penilaian kualitas LLM dapat berubah besar tergantung tolok ukur yang digunakan
    • Dengan satu tolok ukur, singularity open-source sekitar Natal bisa diprediksi
    • Dengan tolok ukur lain, LLM open-source tetap konsisten tertinggal sekitar 5 bulan dari LLM tertutup, dan kesenjangannya bahkan bisa membesar

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Masalah terbesar dalam masa depan model berbobot terbuka adalah bahwa model berbobot terbuka saat ini merupakan hasil yang bergantung pada niat baik organisasi swasta seperti DeepSeek
    Kerannya bisa ditutup kapan saja, dan sampai ada perangkat keras milik komunitas dalam bentuk apa pun, model berbobot terbuka akan terus menanggung risiko terhenti

    • Meski begitu, keunggulan terbesar model terbuka adalah performa yang sudah sekali dirilis tidak bisa dirampas kembali
      Sekalipun tidak ada model baru sama sekali ke depannya, kemampuan yang sudah dicapai tetap ada. Sebaliknya, model berbasis API bisa dihentikan semaunya oleh penyedia, dan hal seperti gpt5-mini segera menghilang lalu digantikan oleh 5.4-mini yang lebih mahal bisa saja terjadi
      Nvidia mendapat keuntungan langsung semakin banyak orang menjalankan model, jadi ada insentif untuk terus merilis lini Nemotron, dan Google juga tahu model kecil yang dipakai untuk fitur browser toh akan bocor, jadi lebih baik mengambil pangsa pasar developer
      Laboratorium-laboratorium Tiongkok juga punya insentif untuk terus merilis model, dan berkat perang dagang antarnegara, dukungan pemerintah kemungkinan besar akan berlanjut
    • DeepSeek bukan amal, melainkan lebih mirip hedge fund yang ingin melakukan short selling terhadap pasar AI Barat
      Pendekatannya seperti mengatakan, “Kami bisa melakukan 90% dari kemampuan kalian dengan 1/10 biaya, dan bahkan lebih baik pada metrik kepadatan,” dan setidaknya menurut teori saya, ini tampak seperti Hindenburg Research versi AI
    • Sebagai penulis asli tulisan tersebut, saya rasa masa depan model berbobot terbuka akan mirip dengan perusahaan desain chip fabless
      Bisa muncul perusahaan yang melatih model, lalu melisensikan model itu kepada perusahaan inferensi yang menjalankan API
      Perusahaan inferensi bisa beroperasi dengan modal jauh lebih kecil, dan perusahaan pelatihan tidak perlu kehilangan sumber daya untuk inferensi
      Beberapa perusahaan pelatihan model Tiongkok sudah melisensikan model mereka kepada penyedia inferensi dengan cara seperti ini
    • Kita membutuhkan sesuatu seperti SETI@Home untuk pelatihan model
    • Ini bukan amal; laboratorium-laboratorium mendapatkan sesuatu dengan saling belajar dari model terbuka
      Secara finansial pun saya pikir masuk akal. Pengguna yang memakai batas langganan sampai penuh bisa menimbulkan biaya bagi operator yang lebih besar daripada biaya langganannya, dan ini mungkin juga alasan Anthropic bereaksi keras terhadap pengumpulan data oleh Tiongkok
      Jika bobot dibuka, pesaing bisa mengunduh model, menganalisisnya, dan menjalankannya seharian tanpa perlu terus mengetuk layanan langganan, sehingga bebannya berkurang
      Hampir tidak ada alasan untuk menjalankan sendiri model terbesar kecuali bagi pemain utama. Menyewa perangkat keras jauh lebih mahal daripada biaya langganan dan bisa menelan puluhan ribu dolar, sementara membelinya memerlukan ratusan ribu dolar
  • Ada ungkapan seperti “sekarang saat yang tepat untuk mencairkan dana pensiun, terbang ke pulau terpencil, dan menghabiskan kira-kira 6 bulan sisa peradaban dengan damai,” serta “jadi mungkin kiamat open source belum datang,” tetapi saya tidak tahu sejak kapan model open source yang bagus menjadi pertanda kiamat

    • Justru model open source adalah hedge terhadap kiamat
      Setidaknya bisa dilihat sebagai hedge terhadap distopia bergaya cyberpunk
    • Saya memahaminya sebagai candaan yang menunjuk pada konsekuensi mengerikan ketika bobot terbuka mencapai kemampuan model tercanggih, sehingga semua orang bisa mendapatkan model setingkat mythos+ tanpa batasan
    • Lucu juga. Dampak apokaliptik perubahan iklim terhadap tanaman pangan dan tingkat kanker, terutama setelah runtuhnya lapisan ozon, pun tidak mengubah orang-orang
      Namun LLM model terbuka diperlakukan seperti monster. Apakah maksudnya pasar harus dikendalikan dengan aman oleh OpenAI atau Anthropic dan mereka yang mengambil semua keputusan?
    • Tulisan ini adalah posting blog dari perusahaan yang meng-host LLM berbobot terbuka (https://www.doubleword.ai/)
      Kemungkinan besar itu adalah ungkapan bernada bercanda
    • Doomerisme sedang berada di titik tertinggi sepanjang masa, dan orang-orang tampaknya menjadi semakin neurotik dari hari ke hari
  • Dengan tren saat ini, model Tiongkok sulit melampaui model paling mutakhir dari AS
    Keunggulan model AS berasal dari kemampuan memperoleh lebih banyak data yang berkualitas lebih tinggi, terutama data sintetis, bahkan dengan cara-cara yang nyaris mustahil dipakai untuk trafik percakapan nyata, seperti menghasilkan data menggunakan model guru raksasa
    Model Tiongkok maju dengan mencurahkan upaya besar pada optimisasi model, serta memperoleh lebih banyak data pelatihan yang berkualitas lebih tinggi dari model-model paling mutakhir AS
    Agar model berbobot terbuka Tiongkok bisa melampaui model paling mutakhir dari lab AS, persamaan ini harus berbalik. Lab Tiongkok harus keluar dari pemanenan data model mutakhir dan membangun sistem serta upaya data untuk menciptakan data baru, serta mendapatkan perangkat keras generasi terbaru dalam jumlah besar
    Melatih model skala mutakhir itu sendiri bukanlah prestasi yang tak terbayangkan; tempat perangkat keras yang sebenarnya dibutuhkan adalah pada inferensi model guru

    • Kecuali bekerja di perusahaan-perusahaan itu, kita tidak benar-benar tahu apa yang mereka lakukan
      Kita tidak tahu bagian dalam z.ai atau Alibaba, dan juga tidak tahu bagian dalam Anthropic atau OpenAI
      Namun kecil sekali kemungkinan mereka tidak saling mengumpulkan data. Saya yakin Anthropic pun punya tim yang menelaah bobot GLM 5.2, setidaknya untuk melihat pesaing
      Fakta bahwa sebuah lab memperoleh data Anthropic bukan berarti mereka tidak melakukan riset sendiri
      Mereka berfokus pada optimisasi karena tidak bisa mendapatkan perangkat keras terbaik, dan satu-satunya alasan lab-lab teratas tertinggal bisa saja karena mereka tidak punya H200 atau MI350. Sekarang mereka memilikinya
      Ada risiko lain yang juga diremehkan. Anthropic sedang bersitegang dengan pemerintah AS dan saat ini menahan model-model “terbaik” dunia di dalam perusahaan
      Tiongkok mungkin juga serupa. Sejauh yang diketahui, pemerintah Tiongkok secara mengejutkan terbuka terhadap ekspor AI dan model berbobot terbuka, tetapi ada kemungkinan kecil namun tidak bisa diabaikan bahwa mereka menyimpan versi GLM 5.2 yang lebih baik secara internal dan tidak ada yang bisa mengatakannya
      Dari luar, sulit membedakan antara lab Tiongkok yang tertinggal 6 bulan dan lab yang dipaksa menahan model terbaiknya
    • Sekalipun deskripsi bahwa “lab Tiongkok harus keluar dari pemanenan data model mutakhir dan menciptakan data baru” itu benar, mereka bisa saja melakukannya besok, dan mereka tidak sesempit itu wawasannya sampai tidak memikirkannya
      Saya tidak melihat ini sebagai penghalang, dan rasanya mirip dengan peremehan terhadap Asia yang berlangsung selama 50 tahun terakhir
      Tidak ada keunggulan bawaan khusus AS dalam membuat LLM, dan keunggulan sebagai pelopor yang dimiliki AS kemungkinan besar akan tertunda dan terbuang dalam permainan kontrol ekspor dengan alasan “terlalu berbahaya untuk dirilis”
    • Jumlah data yang diklaim Anthropic telah diekstraksi untuk distilasi sangat kecil dibandingkan seluruh internet
      Di internet sudah ada sebagian besar pengetahuan yang diharapkan diketahui oleh model
      Distilasi dengan sejumlah kecil data dari model yang lebih baik tetap membantu, tetapi ini lebih dekat pada menemukan kemampuan yang cocok dengan persona asisten yang patuh dan menekan kemampuan yang tidak diinginkan seperti trolling, ketimbang memindahkan kemampuan yang sama sekali tidak ada pada model yang dilatih dari internet mentah
      Dataset tuning instruksi yang dibuat dengan ChatGPT dan dipakai untuk Alpaca dan lainnya adalah versi primitifnya
      Tanpa target yang jelas untuk ditiru, pesaing memang harus lebih mengandalkan evaluator manusia, tetapi karena di Tiongkok ada banyak perusahaan pelabelan data, itu bukan hambatan besar
    • Gagasan bahwa “Tiongkok tidak punya pilihan selain meniru AS” adalah penilaian yang sangat picik dan kurang informasi
      Yang keluar dari Tiongkok bukan hanya metode baru untuk distilasi model
    • Sulit membayangkan bagaimana bisa begitu. Segera, pilihannya hanya model OAI yang sangat lama atau model Tiongkok baru
      Pemerintah AS tampaknya tidak berniat memberi akses ke model terbaru tanpa izin eksplisit
  • Tidak banyak pembahasan bahwa model tertutup bisa secara efektif mengakali benchmark
    Apa yang diberi merek sebagai model oleh Anthropic atau OpenAI tidak harus berupa bobot saja; bisa saja itu seluruh sistem backend yang memperkuat model itu sendiri
    Dengan begitu, skornya di benchmark bisa lebih baik daripada model open source yang hanya memiliki bobot

    • Benar, dan menurut saya itu tidak masalah. Semuanya harus dihitung sebagai performa
      Open source juga sama, dan benchmark pun tidak dijalankan tanpa alat eksekusi apa pun
      Tidak ada yang peduli apakah AGI dibuat 100% dari jaringan saraf, atau dari 50% jaringan saraf dan 50% skrip Perl
  • Masuk akal bahwa sebagian besar peningkatan performa model berasal dari benchmark coding
    Coding adalah salah satu penggunaan jangka pendek model yang paling jelas, ada pasar yang siap membayar mahal untuk token, ada korpus besar untuk dikerjakan, dan domain masalahnya sendiri memiliki verifiabilitas yang cukup besar yang sudah tertanam

  • AS, yang dikenal sebagai tanah kebebasan, kini membatasi sehingga orang yang bukan warga AS bahkan tidak bisa memakai model paling mutakhir
    Sebaliknya, Tiongkok, yang dianggap sebagai “negara otoriter” dan semacam “lawan kata dari kebebasan”, justru telah menghasilkan semua model berbobot terbuka yang kompetitif, khususnya berkat industri perangkat lunaknya yang kapitalistis
    Ini benar-benar ironis
    Sebagai orang Tiongkok, saya memahami bahwa strategi ini adalah menggunakan open source sebagai alat persaingan asimetris dari posisi tertinggal, serta menutup kekurangan sumber daya komputasi dengan membagi beban. Tetap saja, ini sangat ironis

    • Perbandingan itu sudah runtuh sejak kalimat pertama
      AS boleh saja menyebut dirinya tanah kebebasan, tetapi selama ratusan tahun mereka telah memainkan permainan proteksionisme ekonomi
      Peristiwa ini hanyalah contoh terbarunya
  • Saya penasaran sejauh mana perusahaan model tertutup memberi boost performa pada model terbuka
    Jika peningkatan model tertutup berhenti, apakah kemajuan model terbuka juga akan melambat?

    • Saya tidak mengerti mengapa diasumsikan hanya lab riset AS yang bisa berinovasi
      Misalnya, DeepSeek sudah banyak berinovasi dalam hal efisiensi
    • Beberapa orang di Tiongkok pasti tahu seberapa besar “distilasi” membantu model berbobot terbuka mengejar ketertinggalan
      Asumsi bahwa jika model tertutup berhenti membaik maka semua model tertutup juga akan berhenti, sangat kecil kemungkinannya kecuali model-model itu segera menabrak semacam dinding
      Perusahaan Tiongkok mungkin tertinggal dari AS dalam kemampuan komputasi, tetapi di bidang pembuatan soal dan reinforcement learning yang saat ini bekerja dengan baik, mereka memiliki peneliti yang kira-kira sama unggulnya dengan rekan-rekan mereka di AS [0]
      Terutama di area yang memungkinkan feedback loop pendek seperti pemrograman, kemungkinan besar peningkatan cepat akan terus berlanjut sampai titik di mana kita, manusia yang tidak seberapa ini, kehilangan kemampuan untuk mendefinisikan fungsi tujuan
      Sebaliknya, di bidang yang feedback-nya lambat atau mahal, saya tidak mengharapkan keajaiban. Perusahaan farmasi besar dan kompeten pun tidak bisa secara stabil menemukan obat baru yang hebat karena proses evaluasinya terlalu lambat dan mahal, dan model juga akan sulit melakukan itu dalam waktu dekat karena alasan yang sama
      Untuk menjalankan reinforcement learning dengan mengulang n jalur pengembangan obat sebanyak m kali, bahkan jika mungkin, biayanya akan sebesar n*m dikalikan 10 juta–100 juta dolar, dan memakan waktu m tahun
      [0] Karena brain drain yang membuat talenta global mengalir ke lab riset AS melalui sistem universitas AS mulai mengering, keunggulan AS di bidang ini kemungkinan akan berkurang
  • Ini menarik jika dilihat bersama larangan ekspor AS baru-baru ini
    Apakah AS sedang menyia-nyiakan keunggulannya dengan membuat open source, terutama lab Tiongkok, mengejar dalam hal kualitas model yang bisa dipakai publik?
    Bisakah lab riset AS mempertahankan keunggulannya dalam situasi ketika pengguna tidak bisa memakai model terbaru?

    • Saya penasaran mengapa itu penting
      Bukan berarti saya bilang itu penting atau tidak penting, tetapi saya tidak tahu nilai praktis apa yang dimiliki oleh “AS menang” atau “Tiongkok menang”
  • Jika keyakinan bahwa model berbobot terbuka/Tiongkok sangat bergantung pada distilasi dari model mutakhir terbaru itu benar, maka kesenjangan akan stabil pada tingkat waktu minimum yang dibutuhkan untuk mengekstrak data bermakna dari model mutakhir terbaru ditambah waktu penyelesaian pelatihan model dependen terbaru
    Kesenjangan ini bisa dikurangi dengan meningkatkan efisiensi proses, tetapi tidak bisa dihilangkan sepenuhnya
    Upaya untuk menghambat distilasi di Anthropic atau OpenAI juga bisa mengubah keseimbangan

  • Saya penasaran apakah banyak perusahaan dan pemerintah yang percaya bahwa mereka harus berada di garis depan penerapan LLM terdepan, dan yang mulai makin bergantung padanya, akan terjebak dalam situasi seperti cerpen Arthur C. Clarke Superiority
    [1] Teks asli: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
    [2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)