14 poin oleh GN⁺ 2025-07-03 | 1 komentar | Bagikan ke WhatsApp
  • Ringkasan informasi objektif dan sejarah perubahan tentang skala parameter dan struktur model bahasa besar utama seperti GPT-2, GPT-3, Llama, Mixtral, DeepSeek, Minimax, Hunyuan, dan lainnya
  • GPT-2 (2019) memiliki 130 juta~1,6 miliar parameter, GPT-3 (2020) memiliki 175 miliar (175B) parameter, dan Llama-3.1 (2024) memiliki 405 miliar (405B) parameter, menunjukkan ukuran model besar yang meningkat pesat
  • Munculnya arsitektur MoE (Mixture-of-Experts) membuat model setingkat GPT-3 atau lebih besar menjadi tersedia sebagai open source/dapat diunduh, dengan contoh seperti DeepSeek V3 Base (671 miliar), ERNIE-4.5 (424 miliar), dan Mixtral-8x22B (141 miliar)
  • Perbandingan antara model Dense (menggunakan semua parameter) dan MoE (hanya mengaktifkan sebagian parameter ahli) menjadi makin rumit, sehingga sulit membandingkan "kecerdasan" secara nyata
  • Belakangan ini muncul beragam tren perkembangan seperti dukungan multimodal dan multibahasa, arsitektur baru, serta pemanfaatan data sintetis

  • Dokumen ini merangkum informasi faktual tentang perubahan skala model dasar (base model) dari model bahasa besar (LLM) dalam beberapa tahun terakhir
  • Fokusnya bukan pada chatbot atau asisten, melainkan pada model sebagai mesin pembangkit teks itu sendiri

Sejarah

  • GPT-2(-medium, -large, -xl) (2019): masing-masing 137 juta, 380 juta, 812 juta, 1,61 miliar parameter
    • Dilatih berdasarkan dataset WebText sekitar 40GB (diperkirakan 1 miliar token)
    • Daftar situs yang digunakan dapat dilihat di domains.txt
  • GPT-3(davinci, davinci-002) (2020): 175 miliar parameter
    • Dilatih dengan sekitar 400 miliar token data seperti CommonCrawl, WebText2, Books1·2, Wikipedia, dan lainnya
    • Memerlukan pelatihan selama beberapa bulan dengan ribuan GPU A100 skala besar
  • GPT-3.5, GPT-4 (2022, 2023): informasi resmi terkait arsitektur dan data tidak dipublikasikan

Llama

  • Llama adalah seri model bahasa besar yang dikembangkan oleh Meta (dahulu Facebook), dan mendapat perhatian karena dibuka sebagai open source serta memiliki struktur yang bisa dimanfaatkan dengan sumber daya yang relatif lebih kecil
  • Ukuran model (jumlah parameter), data pelatihan, dan evolusi arsitekturnya memimpin tren open source pada LLM
  • Llama 1 (2023)

    • 7B, 13B, 33B, 65B: menyediakan 7 miliar, 13 miliar, 33 miliar, dan 65 miliar parameter
    • Data pelatihan: 1,4 triliun (1.4T) token teks skala besar (Books3, CommonCrawl, dan lainnya)
    • Llama 65B adalah model open source terbesar pada masanya
    • Books3 adalah kumpulan data besar yang menjadi pemicu penting dalam perdebatan hukum terkait hak cipta
    • Karakteristik
      • Dapat dijalankan bahkan dengan GPU yang relatif kecil (65B pun berjalan di 8 GPU)
      • Distribusi bobot terbuka mendorong meluasnya berbagai model turunan dan eksperimen komunitas
  • Llama 2 (paruh kedua 2023)

    • Saat dirilis menyediakan 7 miliar, 13 miliar, dan 70 miliar parameter (7B, 13B, 70B)
    • Versi percakapan (chatbot) juga dirilis, mendukung fine-tuning dan RLHF (reinforcement learning), dll.
    • Lisensi yang mengizinkan penggunaan komunitas hingga komersial (dengan beberapa batasan)
  • Llama 3.1 (2024)

    • 405B: 405 miliar parameter dense (menggunakan semua parameter)
    • Data pelatihan: 2,87 triliun token + 800 miliar long context + 40 juta annealing (tambahan kode/matematika berkualitas tinggi, dll.) → total 3,67 triliun token
    • Arsitektur
      • Berbasis Transformer, menggunakan semua parameter secara bersamaan dalam proses inferensi (dense)
      • Memaksimalkan skor benchmark utama dengan menambahkan data kode dan matematika berkualitas tinggi (annealing)
    • Karakteristik
      • Model dense besar terbaru yang dapat diunduh (open source)
      • Meta tidak secara terbuka mengungkap komposisi datasetnya, dan ada kemungkinan mencakup data kontroversial terkait hak cipta (seperti Books3)
      • Dalam beberapa evaluasi, kecenderungan sebagai "asisten" diperkuat, sehingga ada sedikit perbedaan dari peran sebagai mesin teks murni
  • Llama 4 (2025)

    • Model terbesar: 2 triliun (2T) parameter MoE (Mixture-of-Experts, struktur campuran pakar)
      • A288B 16E: 288 miliar parameter aktif, 16 pakar, hanya sebagian dari total 2 triliun parameter yang diaktifkan
    • Situasi
      • Model 2T tidak dirilis (untuk eksperimen internal), hanya versi turunan/penyusutan yang dipublikasikan ke luar (maverick, scout, dll.)
      • Model turunan dinilai banyak pihak memiliki "kecerdasan" yang lebih rendah dibanding model asli
      • Kepercayaan menurun akibat kontroversi manipulasi skor benchmark dalam proses rilis (kasus lmarena), serta rumor pembubaran tim
    • Karakteristik arsitektur MoE
      • Hanya mengaktifkan sebagian parameter pakar, sehingga lebih efisien secara komputasi dibanding model dense pada jumlah parameter yang sama
      • Memungkinkan model superbesar dipakai dalam praktik (lingkungan terdistribusi dan sumber daya terbatas)
  • Makna dan pengaruh Llama

    • Seri Llama mendorong perluasan ekosistem open source dan popularisasi model bahasa besar
    • Sejak rilis Llama-3.1 405B, mengunduh dan bereksperimen dengan model besar setingkat GPT-3/4 menjadi realistis
    • Adopsi arsitektur MoE mengaktifkan pelatihan dan distribusi model superbesar secara lebih aktif (juga memengaruhi DeepSeek, Mixtral, dll.)
    • Namun, model-model terbaru juga memunculkan diskusi soal perubahan karakteristik sebagai "model bahasa murni", misalnya karena optimasi benchmark (annealing) dan penguatan sifat asisten

The desert – masa kekosongan dan perubahan pada model besar open source

  • Ini merujuk pada masa kekosongan yang panjang ketika model bahasa besar setingkat GPT-3 (175 miliar parameter) atau lebih tidak tersedia sebagai open source
  • Pada periode ini (2020~pertengahan 2023), yang dipublikasikan hanya model yang relatif kecil seperti llama di bawah 70B, dan
    • Dalam beberapa proyek, ada upaya meningkatkan performa dengan melakukan fine-tuning pada Llama kecil (mis. 70B) menggunakan data sintetis yang dihasilkan GPT-3
    • Namun, jika teks buatan AI kembali dipakai AI untuk pelatihan, bisa muncul masalah penurunan kualitas data ("degeneration")
  • Alasan ketiadaan jangka panjang model berbobot terbuka setingkat GPT-3 antara lain,
    • biaya pelatihan (infrastruktur ribuan hingga puluhan ribu GPU), pengadaan data, dan sulitnya mendistribusikan struktur parameter besar, yang saling berperan secara kompleks
  • Dengan dirilisnya model Llama-3.1 405B (405 miliar parameter dense), open source untuk model superbesar mulai berjalan sungguh-sungguh
    • Tepat sebelumnya (Desember 2023), Mixtral-8x7B dari Mistral (arsitektur MoE, total 56 miliar parameter), dan pada April 2024 Mixtral-8x22B (total 141 miliar, 39 miliar parameter aktif), dll.
      • Dengan memanfaatkan arsitektur MoE (Mixture-of-Experts), model besar setingkat GPT-3 bisa dilatih dan didistribusikan dengan sumber daya yang relatif lebih kecil
  • Struktur MoE menempatkan beberapa jaringan pakar (Expert), dan saat satu kali inferensi hanya sebagian yang diaktifkan
    • Dengan cara ini, model besar dapat dijalankan dengan sumber daya lebih kecil (memori dan komputasi) dibanding struktur dense
    • Karena keterbatasan jumlah GPU dan memori, MoE memainkan peran menentukan dalam memopulerkan model besar open source

Model besar MoE (Mixture-of-Experts) terbaru

Deepseek V3 Base (2024)

  • 671 miliar parameter (MoE), 37 miliar aktif, dilatih dengan 14,8 triliun token berkualitas tinggi
  • R1 (model yang dioptimalkan untuk penalaran) juga muncul, dan menjadi model yang dapat diunduh pertama yang mendekati performa setingkat GPT-4
  • Segera setelah dirilis, pasar terdampak besar, misalnya harga saham NVIDIA (NVDA) sempat turun
  • Setelah itu, model MoE besar baru termasuk dari Tiongkok bermunculan satu demi satu
    • Beberapa model memasukkan jenis data baru yang beragam untuk mendukung multimodal dan multibahasa dalam pelatihan

Databricks (DBRX, Maret 2024)

  • Total 132 miliar parameter, 36 miliar aktif, 12 triliun token
  • Memilih 4 dari 16 pakar (lebih terperinci dibanding Mistral dan Grok)

Minimax (Januari 2025)

  • Total 456 miliar parameter, 45,9 miliar aktif, mengontrol kualitas data pelatihan dengan reward labeler internal

Dots (Juni 2025)

  • Total 143 miliar parameter, 14 miliar aktif, 11,2 triliun token, konteks 32K
  • Struktur pakar top-6/128, performanya mirip Qwen2.5-72B

Hunyuan (Juni 2025)

  • 80 miliar MoE, 13 miliar aktif, 20 triliun token, konteks 256K
  • 8 pakar non-berbagi diaktifkan, pakar bersama selalu aktif

Ernie (Juni 2025)

  • Total 424 miliar parameter, 47 miliar aktif, beberapa triliun token

Kesimpulan dan prospek

  • Per 2024~2025, beragam model superbesar setingkat GPT-3 (175 miliar) atau lebih besar telah dipublikasikan
  • 405B (405 miliar) adalah base model dense terbaru, tetapi model MoE terbaru juga terus membesar dan makin beragam
  • Perbandingan performa Dense vs MoE masih belum jelas, dan masih perlu diskusi tentang struktur dan skala yang dibutuhkan untuk "kecerdasan" sejati
  • Struktur baru (RWKV, byte-latent, bitnet), pemanfaatan data sintetis, dan lainnya juga sedang diuji, tetapi perkembangan mendasar sebagai mesin teks murni masih tetap menjadi tantangan
  • Belakangan sebagian besar model besar cenderung di-fine-tune untuk berperan sebagai "asisten AI", sehingga kini menjadi saat yang tepat untuk mengeksplorasi LLM alternatif

1 komentar

 
GN⁺ 2025-07-03
Opini Hacker News
  • Saya terus merasa takjub, bukan semata sebagai pendapat teknis, pada fakta bahwa begitu banyak data terkompresi di dalam model-model yang bisa diunduh ini. Kemarin, di pesawat tanpa internet nirkabel, saya mengunduh model gemma3:12b (8.1GB) lewat Ollama lalu mencobanya bersama anak-anak dengan berbagai pertanyaan. Untuk pertanyaan tentang video game terbaru, hewan, sejarah, dan sebagainya, hasilnya memang tidak sempurna, tetapi tetap terasa luar biasa bahwa pengetahuan umat manusia sebanyak ini bisa termuat dalam file sekecil itu dan bahkan bisa dipakai secara offline. Memang ini kompresi lossy, tetapi tetap mengejutkan bahwa pengetahuan manusia bisa dipadatkan sekecil ini

    • Saya merasa sangat menarik bahwa model bahasa bisa menjadi alat kompresi yang begitu kuat. Jika model dilatih untuk penggunaan sebagai assistant, maka ia mengompresi rekaman percakapan assistant lebih baik daripada teks biasa. Ada evaluasi bernama UncheatableEval, yang memungkinkan kita memahami kemampuan kompresi model bahasa pada berbagai tugas. Tolok ukur ini pada dasarnya adalah tes yang benar-benar "tidak bisa dicurangi". Saya menganggap performa kompresi sebagai benchmark sejati karena tidak ada celah trik seperti dalam game

    • Saya merekomendasikan proyek Kiwix, yang memungkinkan berbagai materi diunduh dan digunakan secara offline. Mereka juga menyediakan perangkat yang sudah dimuat sebelumnya untuk tempat dengan akses internet yang tidak stabil atau tidak ada sama sekali

    • Sebagai referensi, untuk Wikipedia bahasa Inggris (26 Juni 2025), ada lebih dari 7 juta artikel dan 63 juta halaman. Teks saja sekitar 156GB, dan jika semua revisi digabung, total ukuran basis datanya mencapai sekitar 26TB

    • 8.1GB itu sungguh besar. Itu adalah 64.8 miliar (64,800,000,000) bit; mungkin kita masih bisa membayangkan 100 bit atau 1.000 bit, tetapi 10 ribu, 1 juta, 64 juta, lalu angka ini yang 1.000 kali lebih besar, benar-benar terasa sangat masif

    • Bidang yang meneliti model bahasa dari sudut pandang teori informasi atau kompresi masih kecil, tetapi makin penting untuk efisiensi dan skalabilitas. Saya mengadakan diskusi terkait hari ini, jadi bagi yang tertarik silakan lihat

  • Deepseek v1 memiliki sekitar 670 miliar parameter, dengan ukuran fisik sekitar 1.4TB. Saya memperkirakan jika semua buku yang pernah didigitalkan dikompresi, ukurannya akan beberapa TB; web publik sekitar 50TB; dan jika semua teks elektronik berbahasa Inggris dizip, mungkin berada di kisaran O(100TB). Ukuran model saat ini masih sekitar 1% dari keseluruhan itu, dan sepertinya kita sudah masuk ke fase di mana memperbesar ukuran tidak lagi meningkatkan performa sebesar sebelumnya (lihat gpt4.5 vs 4o). Karena itu, belakangan biaya komputasi bergeser ke sisi waktu inferensi akibat model reasoning. Untuk mendapatkan manfaat tambahan, saya menduga ke depan model akan berevolusi menjadi model yang terspesialisasi dan fokus pada domain tertentu. Saya rasa 1TB inference VRAM bisa menjadi target jangka menengah untuk model open source berkualitas tinggi. Ini spesifikasi yang masih bisa dijangkau level UKM/SME (perkiraan sekitar 250B parameter)

    • Jika gambar dan video ditambahkan, perkiraan di atas bisa terdengar seperti pernyataan lama bahwa 640KB sudah cukup. Setelah itu, jika robot menjelajahi dunia sendiri untuk mengumpulkan data, informasi yang terkumpul akan makin banyak. Seriusnya, penambahan data gambar dan interaksi kemungkinan memberi manfaat yang cukup besar bahkan untuk generasi teks

    • Saya sempat menghitung angka nyatanya. Dengan asumsi 157 juta paper dan 52 juta buku, rata-rata 10 ribu kata per paper dan 100 ribu kata per buku, lalu rasio kompresi dihitung dari sampel data buku. Hasilnya sekitar 30TB tanpa kompresi, 5.5TB setelah kompresi. Itu bisa disimpan dalam 3 microSD 2TB (total 750 dolar)

    • Sedikit catatan, menurut saya penggunaan notasi big O untuk kapasitas penyimpanan tetap seperti ini (O(100TB)) tidak tepat

    • Saya penasaran apakah angka 50TB itu mengacu pada Library of Congress di AS. Seluruh internet pasti jauh lebih besar

    • Saya ingin tahu dari mana angka "semua buku yang didigitalkan terkompresi menjadi beberapa TB, web publik 50TB" berasal. Kalau ada sumbernya saya ingin melihatnya. Dulu saya pernah membaca tulisan bahwa semua catatan tertulis umat manusia hingga pergantian abad hanya sekitar 50MB, tetapi saya tidak bisa menemukan sumbernya, jadi mungkin ingatan saya keliru

  • Model seri Gemma dan Gemini (Google) tidak masuk. Dan sayang juga seri T5 tidak disebut, padahal perannya penting dalam transfer learning dan penyebaran bidang ini. T5 bisa dibilang menjadi titik awal banyak konsep

    • Model Gemma tidak dimasukkan ke daftar karena ukurannya kecil. T5 memang sangat penting secara historis, tetapi karena ukurannya di bawah 11B, ia tidak banyak dibahas secara khusus. Meski begitu, itu tetap model yang sangat bermakna dan menarik
  • Kalau ingin melihatnya secara visual, ada materi yang merangkum total parameter per tahun dalam bentuk grafik: Total Parameters vs. Release Year by Family

    • Grafik ini dengan sangat jelas menunjukkan betapa besar lompatan GPT-3 dan bahwa setelah itu tidak ada yang mampu mengejar level tersebut untuk waktu yang lama

    • Materi yang sangat keren. Terima kasih sudah membuatnya. Saya meninggalkan tangkapan layar grafik, tautan, dan kredit di komentar postingan saya

  • Tulisan yang sangat bagus. Hanya saja, ada asumsi seolah model bahasa raksasa seperti ini adalah satu-satunya inovasi terbaik. Para pemain besar selama ini cukup diam, dan dari luar OpenAI hanya memberi sedikit petunjuk lewat tindakannya. Mereka tampaknya telah membuat model yang jauh lebih besar, tetapi hasilnya mengecewakan sehingga eksperimennya dihentikan diam-diam. Bisa jadi model reasoning frontier yang paling kuat justru lebih kecil daripada model raksasa yang dipublikasikan

  • Ini situasi yang ironis. Komunitas open source mencoba berbagai pendekatan seperti model 30~70B, RLHF, data sintetis, dan lain-lain untuk menyamai GPT-3 (175B), tetapi jaraknya tetap ada. Pada akhirnya, ukuran inti model memang terbukti sangat penting, dan baru setelah model dense yang benar-benar besar (405B) atau model MoE (DeepSeek V3, DBRX, dll.) muncul, kemampuan reasoning setara GPT-4 hadir juga di luar lab tertutup

  • Saya tidak setuju dengan catatan pada bagian "model open-source mendekati level GPT-3 dengan melatih Llama 70B menggunakan data sintetis yang dihasilkan GPT-3". Jika data sintetis selalu menurunkan performa, lab AI tentu tidak akan menggunakannya. Faktanya, mereka justru membuat model yang lebih baik dengan memanfaatkan data sintetis. Memang ada makalah yang menunjukkan penurunan performa dalam skenario yang sangat disengaja, yakni "loop pelatihan dari output model sendiri", tetapi itu berbeda dari cara lab AI sebenarnya memakai data sintetis. Makalah itu populer mungkin karena konsep "AI yang memakan ekornya sendiri lalu runtuh" terasa sangat menarik

    • Setuju. Terutama dalam konteks melatih model yang lebih kecil menggunakan output model yang lebih besar, distillation adalah teknik yang sangat efektif. Saya pribadi juga pernah melakukan tuning model Llama dan Mistral yang terspesialisasi domain menggunakan data manusia dan data buatan GPT-4, dan hasilnya membaik setelah menambahkan data sintetis (yang berkualitas baik)
  • Saya menyayangkan bahwa orang-orang terus mengulang anggapan bahwa LLM adalah kompresi lossy. Sebagai analogi kasar itu mungkin benar, tetapi fakta yang lebih ketat dan lebih menarik adalah bahwa LLM juga bisa berfungsi sebagai algoritme kompresi lossless. Ada dua contoh. 1) Teks apa pun dapat dikodekan secara aritmetika dengan biaya mendekati log-likelihood LLM tersebut (dengan syarat pengirim dan penerima memiliki parameter LLM yang sama) 2) Dengan LLM dan SGD (kode pelatihan), kompresi lossless juga bisa diwujudkan (di sini parameter model tidak dihitung sebagai panjang deskripsi). Materi Jack Rae “compression for AGI” layak dilihat

    • Terkait poin 1, teknik kompresi klasik juga sangat efektif bila pengirim dan penerima sama-sama memiliki kamus besar yang sama
  • Hanya dari angka seperti "1.61B" saya sulit membayangkan seberapa besar file-nya atau berapa VRAM yang dibutuhkan. Saya penasaran dengan kapasitas penyimpanan nyata dan spesifikasi hardware, sampai level mana saya bisa menjalankannya jika membeli sekarang, dan model seperti apa yang mungkin bisa dijalankan 10 tahun lagi

    • Jika satu parameter = 1 byte (f8), maka 1.6GB; jika 2 byte (f16), maka 2.3GB. Selain memuat ke GPU, ada kebutuhan memori tambahan juga, jadi sebaiknya anggarkan kira-kira 4 kali jumlah parameter. Artinya, untuk model 2B disarankan 8GB VRAM

    • Sebagian besar model dilatih dalam 16-bit (2 byte). Model 1 miliar parameter berarti 2GB. Untuk penggunaan nyata, kuantisasi 8-bit yang lebih kecil biasanya sudah cukup, dan umumnya penurunan dari 16-bit ke 8-bit hampir tidak menyebabkan kehilangan performa. Jadi perhitungannya sederhana: model 1B = 1GB, model 20B = 20GB. Bit yang lebih rendah lagi (5-bit, 4-bit, dll.) juga sering cukup layak dipakai secara praktis tergantung kebutuhan, selama penurunan performanya tidak besar. Bahkan ada contoh model yang dilatih langsung pada 4-bit menunjukkan kualitas lebih baik daripada model yang dikuantisasi dari 16-bit. Bottleneck model besar bukan kapasitas VRAM melainkan bandwidth. Karena itu, GPU dengan VRAM besar itu penting. Meski punya 128GB RAM sistem, jika bandwidth GPU-CPU tidak memadai dan model melampaui memori GPU, CPU justru menjadi jauh lebih lambat. GPU (misalnya RTX 5090) punya 32GB VRAM dengan bandwidth sekitar 1Tb/s. Apple seri M punya 512Gb/s, AMD Strix Halo menawarkan memori terpadu 128GB dan bandwidth 256Gb/s. Untuk pengalaman nyata menjalankan LLM di hardware consumer, lihat Reddit r/LocalLLaMA. Hanya saja, aktivitas di sana juga bercampur dengan eksperimen yang tidak biasa, jadi perlu hati-hati. Situasi 10 tahun ke depan mustahil diprediksi. TSMC, Samsung, dan Intel semuanya sedang fokus pada produksi massal GPU flagship untuk memenuhi permintaan hyperscaler, dan industri semikonduktor juga berada dalam fase yang sulit diprediksi karena banyak variabel (politik, perdagangan, AI, black swan, dll.)