3 poin oleh GN⁺ 2025-09-13 | 1 komentar | Bagikan ke WhatsApp
  • Qwen3-Next adalah arsitektur model baru yang dikembangkan untuk mendukung perluasan panjang konteks dan perluasan total parameter, dua tren masa depan untuk model skala besar, sekaligus memaksimalkan efisiensi pelatihan dan inferensi
  • Dengan memperkenalkan mekanisme attention hibrida dan struktur MoE yang sangat sparse, performa ditingkatkan dalam pengaturan konteks panjang dan parameter berskala besar
  • Optimasi stabilitas pelatihan dan mekanisme prediksi multi-token digunakan untuk mempercepat kecepatan inferensi
  • Model Qwen3-Next-80B-A3B-Base mencapai performa setara atau lebih baik daripada Qwen3-32B sambil menurunkan biaya pelatihan hingga kurang dari 10%
  • Rilis model ini menghadirkan kemajuan arsitektur mutakhir bagi komunitas open source dan menjadi fondasi untuk peningkatan kecerdasan serta produktivitas menuju pengembangan Qwen3.5

Pendahuluan

  • Dengan keyakinan bahwa perluasan panjang konteks dan perluasan total parameter adalah tren utama model skala besar di masa depan, dirancanglah arsitektur model baru bernama Qwen3-Next untuk meningkatkan efisiensi pelatihan dan inferensi pada pengaturan konteks panjang dan parameter besar
  • Dibandingkan dengan struktur MoE pada Qwen3, diperkenalkan sejumlah peningkatan utama seperti mekanisme attention hibrida, struktur MoE yang sangat sparse, optimasi stabilitas pelatihan, dan mekanisme prediksi multi-token untuk inferensi yang lebih cepat
  • Berdasarkan arsitektur ini, model Qwen3-Next-80B-A3B-Base dilatih; model ini memiliki 80 miliar parameter, tetapi hanya mengaktifkan 3 miliar parameter saat inferensi
  • Model base ini mencapai performa yang setara atau sedikit lebih baik dibanding model dense Qwen3-32B, sambil menggunakan biaya pelatihan (waktu GPU) kurang dari 10%
  • Secara khusus, model ini memberikan throughput lebih dari 10 kali lebih tinggi pada panjang konteks di atas 32K token, sehingga mencapai efisiensi ekstrem dalam pelatihan dan inferensi
  • Berdasarkan Qwen3-Next-80B-A3B-Base, dua versi post-training dikembangkan dan dirilis: Qwen3-Next-80B-A3B-Instruct dan Qwen3-Next-80B-A3B-Thinking
  • Dengan arsitektur hybrid attention dan MoE yang sangat sparse, masalah lama terkait stabilitas dan efisiensi pelatihan reinforcement learning (RL) dapat diatasi, sehingga meningkatkan baik kecepatan pelatihan RL maupun performa akhirnya
  • Qwen3-Next-80B-A3B-Instruct menunjukkan performa setara dengan model flagship Qwen3-235B-A22B-Instruct-2507, serta memperlihatkan keunggulan jelas pada tugas konteks sangat panjang hingga 256K token
  • Qwen3-Next-80B-A3B-Thinking unggul pada tugas penalaran kompleks, melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking, mengungguli model closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark, dan mendekati performa model papan atas Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next telah dirilis di Hugging Face dan ModelScope, dan siapa pun dapat menggunakan layanan Qwen3-Next melalui Alibaba Cloud Model Studio dan NVIDIA API Catalog

Fitur Utama

  • Arsitektur hibrida: Gated DeltaNet + Gated Attention memanfaatkan fakta bahwa linear attention dapat menembus kompleksitas kuadratik standard attention dan lebih efisien pada konteks panjang
    • Ditemukan bahwa linear attention cepat tetapi lemah dalam recall, sementara standard attention mahal dan lambat. Melalui eksperimen sistematis, dipastikan bahwa Gated DeltaNet memberikan kemampuan in-context learning yang lebih kuat dibanding pendekatan umum seperti Sliding Window Attention atau Mamba2
    • Dengan mencampurkan Gated DeltaNet dan standard attention dalam rasio 3:1 (75% layer menggunakan Gated DeltaNet, 25% mempertahankan standard attention), dicapai performa dan efisiensi yang secara konsisten lebih baik daripada arsitektur tunggal
    • Pada layer standard attention, mekanisme output gating diadopsi untuk mengurangi masalah low-rank pada attention, dan dimensi per attention head ditingkatkan dari 128 menjadi 256
    • Rotary positional encoding hanya diterapkan pada 25% pertama dari dimensi posisi untuk meningkatkan ekstrapolasi ke urutan yang lebih panjang
  • MoE ultra-sparse: hanya 3,7% parameter yang aktif sehingga Qwen3-Next mengadopsi desain MoE yang sangat sparse, dengan hanya sekitar 3B dari total 80B parameter yang diaktifkan pada setiap langkah inferensi
    • Eksperimen menunjukkan bahwa dengan global load balancing, loss pelatihan terus menurun secara stabil seiring peningkatan total parameter expert sambil mempertahankan expert aktif tetap
    • Dibandingkan MoE Qwen3 (total 128 expert, 8 routing), Qwen3-Next diperluas menjadi total 512 expert, menggabungkan 10 routing expert + 1 shared expert untuk memaksimalkan penggunaan sumber daya tanpa menurunkan performa
  • Desain ramah stabilitas pelatihan di mana mekanisme attention output gating menghilangkan masalah seperti Attention Sink dan Massive Activation untuk menjamin stabilitas numerik di seluruh model
    • Ditemukan bahwa pada QK-Norm yang digunakan di Qwen3, bobot layer norm tertentu membesar secara tidak normal; karena itu Qwen3-Next mengadopsi Zero-Centered RMSNorm dan menerapkan weight decay pada bobot norm untuk mencegah pertumbuhan tak terbatas
    • Parameter router MoE dinormalisasi saat inisialisasi agar setiap expert dipilih tanpa bias pada tahap awal pelatihan, sehingga mengurangi noise akibat inisialisasi acak
    • Desain yang berfokus pada stabilitas ini membuat eksperimen skala kecil lebih andal dan pelatihan skala besar berjalan lebih lancar
  • Prediksi multi-token: Qwen3-Next memperkenalkan mekanisme native multi-token prediction (MTP), yang tidak hanya menghasilkan modul MTP dengan acceptance rate tinggi untuk speculative decoding, tetapi juga meningkatkan performa keseluruhan
    • Qwen3-Next secara khusus mengoptimalkan performa inferensi multi-step dari MTP, dan melalui pelatihan multi-step yang menjaga konsistensi antara pelatihan dan inferensi, acceptance rate pada speculative decoding dalam skenario nyata semakin ditingkatkan

Pre-training

  • Efisiensi pre-training dan kecepatan inferensi: Qwen3-Next dilatih pada subset yang disampling secara seragam (15T token) dari korpus pre-training Qwen3 sebesar 36T token
    • Menggunakan kurang dari 80% waktu GPU yang dibutuhkan Qwen3-30A-3B dan hanya 9,3% biaya komputasi Qwen3-32B, namun mencapai performa yang lebih baik, menunjukkan efisiensi pelatihan dan nilai yang luar biasa
    • Berkat arsitektur hibrida, model ini juga unggul dalam inferensi, memberikan throughput hampir 7 kali lebih tinggi daripada Qwen3-32B pada panjang konteks 4K di tahap prefill
    • Lebih dari 10 kali lebih cepat pada konteks di atas 32K
    • Pada tahap decode, model ini menunjukkan throughput hampir 4 kali lebih tinggi pada konteks 4K, dan tetap mempertahankan keunggulan kecepatan lebih dari 10 kali pada konteks di atas 32K
  • Performa model base: Qwen3-Next-80B-A3B-Base hanya mengaktifkan 1/10 parameter non-embedding dari Qwen3-32B-Base, tetapi melampauinya di sebagian besar benchmark, serta jauh mengungguli Qwen3-30B-A3B, membuktikan efisiensi luar biasa dan performa yang kuat

Post-training

  • Performa model instruct: Qwen3-Next-80B-A3B-Instruct jauh melampaui Qwen3-30B-A3B-Instruct-2507 dan Qwen3-32B-Non-thinking, serta mencapai hasil yang hampir sama dengan flagship Qwen3-235B-A22B-Instruct-2507
    • Di RULER, Qwen3-Next-80B-A3B-Instruct mengungguli Qwen3-30B-A3B-Instruct-2507 yang memiliki lebih banyak layer attention pada semua panjang, dan melampaui Qwen3-235B-A22B-Instruct-2507 yang memiliki lebih banyak total layer dalam konteks 256K, membuktikan kekuatan desain hibrida Gated DeltaNet + Gated Attention untuk tugas konteks panjang
  • Performa model Thinking: Qwen3-Next-80B-A3B-Thinking melampaui model yang lebih mahal seperti Qwen3-30B-A3B-Thinking-2507 dan Qwen3-32B-Thinking
    • Model ini mengungguli closed-source Gemini-2.5-Flash-Thinking di berbagai benchmark dan mendekati flagship terbaru Qwen3-235B-A22B-Thinking-2507 pada metrik utama

Develop with Qwen3

  • Hugging Face Transformers: kode Qwen3-Next telah digabungkan ke branch utama Hugging Face transformers
    • Error dapat terjadi pada versi sebelumnya
    • Termasuk cuplikan kode yang mencontohkan keluaran generasi model berdasarkan input yang diberikan
    • Multi-token prediction (MTP) belum tersedia secara umum di Hugging Face Transformers
    • Peningkatan efisiensi atau throughput sangat bergantung pada implementasi
    • Untuk tugas inferensi, disarankan mengadopsi framework inferensi khusus seperti SGLang dan vLLM
    • Dengan menggunakan flash-linear-attention dan causal-conv1d, efisiensi yang lebih baik dapat diamati tergantung pengaturan inferensi
    • Lihat tautan terkait untuk petunjuk dan persyaratan lebih rinci
    • Untuk deployment, gunakan sglang atau vllm terbaru untuk membuat endpoint API yang kompatibel dengan OpenAI
  • SGLang adalah framework serving cepat untuk large language model dan vision language model, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
    • SGLang mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
    • Disediakan perintah untuk membuat endpoint API di http://localhost:30000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
    • Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
    • Saat ini memerlukan variabel lingkungan SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
  • vLLM adalah mesin inferensi dan serving untuk LLM dengan throughput tinggi dan efisiensi memori, yang dapat menjalankan server dengan layanan API kompatibel OpenAI
    • vLLM mendukung Qwen3-Next di branch utama dan dapat diinstal dari source
    • Disediakan perintah untuk membuat endpoint API di http://localhost:8000/v1 dengan panjang konteks maksimum 256K token menggunakan tensor parallel pada 4 GPU
    • Perintah yang direkomendasikan untuk MTP juga disediakan dengan pengaturan lain yang sama
    • Saat ini memerlukan variabel lingkungan VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • Panjang konteks default adalah 256K; jika server gagal dijalankan, pertimbangkan menurunkannya ke nilai lebih kecil seperti 32768
  • Penggunaan agentic: Qwen3 unggul dalam kemampuan tool calling, dan disarankan menggunakan Qwen-Agent untuk memaksimalkan kemampuan agen Qwen3
    • Qwen-Agent secara internal mengenkapsulasi template tool calling dan parser tool calling, sehingga sangat mengurangi kompleksitas coding
    • Untuk mendefinisikan tool yang tersedia, dapat menggunakan file konfigurasi MCP, memakai tool bawaan Qwen-Agent, atau menggunakan tool terintegrasi sendiri
  • Pemrosesan teks ultra-panjang: Qwen3-Next secara native mendukung panjang konteks hingga 262.144 token
    • Untuk percakapan dengan total panjang input dan output yang jauh melebihi batas ini, disarankan menggunakan teknik scaling RoPE seperti YaRN agar teks panjang dapat diproses secara efektif
    • Performa model dengan YaRN telah divalidasi hingga panjang konteks 1 juta token
    • YaRN saat ini didukung di berbagai framework inferensi seperti transformers, vllm, dan sglang
    • Dua pendekatan untuk mengaktifkan YaRN di framework yang didukung adalah memodifikasi file model atau memberikan argumen command line
    • Tambahkan field rope_scaling di file config.json
    • Untuk vllm, gunakan argumen command line
    • Untuk sglang, gunakan argumen command line
    • Semua framework open source penting mengimplementasikan YaRN statis, sehingga scaling factor tetap konstan terlepas dari panjang input, dengan potensi dampak pada performa teks pendek
    • Disarankan menambahkan pengaturan rope_scaling hanya saat pemrosesan konteks panjang benar-benar diperlukan
    • Disarankan menyesuaikan factor sesuai kebutuhan; misalnya, jika panjang konteks umum aplikasi adalah 524.288 token, atur factor ke 2.0

Ringkasan

  • Qwen3-Next menandai lompatan besar dalam arsitektur model dengan memperkenalkan inovasi pada mekanisme attention, termasuk linear attention dan attention gate, serta meningkatkan sparsity dalam desain MoE
  • Qwen3-Next-80B-A3B memberikan performa setara dengan Qwen3-235B-A22B-2507 yang lebih besar baik dalam mode thinking maupun non-thinking, sambil menawarkan inferensi yang jauh lebih cepat dalam skenario long-context
  • Melalui rilis ini, mereka ingin memperkuat kemajuan arsitektur mutakhir bagi komunitas open source dan terus berevolusi bersama perkembangan arsitektur paling canggih

1 komentar

 
GN⁺ 2025-09-13
Komentar Hacker News
  • Bagian paling keren dari Qwen3-Next adalah setelah linear attention mereka memperkenalkan MTP (Multi-Token Prediction) tanpa menambahkan un-embedding matrix tambahan. Deepseek R1 juga menerapkan MTP di layer ke-61, tetapi menambahkan tensor besar embed_tokens dan shared_head.head (sekitar 2GB dalam FP8), sehingga Qwen3-Next dapat menangani MTP dengan parameter aktif yang jauh lebih sedikit dan menghemat memori hingga hitungan GB. Berkat ini, kecepatan inferensi meningkat secara signifikan.
    • Saya penasaran keuntungan nyata MTP pada tahap inferensi, apakah ini hanya terkait efisiensi pretraining saja.
    • Saya ingin tahu apa perbedaan antara MTP dan Medusa heads, dan apakah model ini mendukung speculative decoding secara “native”. Jika model ini dijalankan di vllm, apakah MTP sudah langsung diterapkan sehingga manfaat speculative decoding bisa langsung didapat?
    • Akan bagus jika ada materi yang menjelaskan semua istilah ini sekaligus dengan cara yang mudah dipahami.
  • Alibaba benar-benar terus merilis model yang mengagumkan. Saya mencoba Qwen3-Next-80B-A3B di Qwen Chat, dan kecepatannya sangat tinggi, sementara kualitasnya juga terasa mirip dengan Qwen3-235B-A22B. Sangat mengesankan bagaimana mereka bisa mencapai tingkat seperti ini. Saya juga menunggu benchmark-nya muncul di Artificial analysis. Menurut Qwen Chat, batas Qwen3-Next adalah context length maksimum 262.144 token, dan summary generation maksimum 32.768 token. Dibandingkan Qwen3-235B-A22B, context-nya 2x lebih panjang dan summary-nya 4x lebih panjang. Keunggulannya ada pada pemahaman konteks panjang dan penanganan tugas kompleks. Meski begitu, saya tetap akan memakai Qwen2.5-Turbo. Itu salah satu dari sedikit model yang mendukung context 1M token, jadi lebih cocok untuk alur kerja saya yang mengunggah PDF besar lalu bertanya lintas bab.
    • Walaupun model frontier mendukung context panjang, tampaknya dalam praktik akurasi sering turun tajam saat context makin panjang. Bahkan jika mendukung context 10M, kenyataannya ketika context diisi penuh model sering tidak bekerja dengan baik. Saya penasaran dengan pendapat orang lain.
    • Jika melihat model card, Qwen3-Next juga bisa diperluas hingga context length maksimum 1M dengan YaRN. Menurut pernyataan resminya, Qwen3-Next pada dasarnya mendukung context hingga 262.144 token, dan ketika total token input+output jauh melampaui itu, telah diverifikasi bisa menangani hingga 1M token melalui metode RoPE scaling atau YaRN sumber
    • Model proprietary Alibaba juga performanya benar-benar bagus dan diam-diam kurang dikenal. Hampir tidak pernah muncul di benchmark. Qwen3-coder-plus jauh lebih bagus daripada qwen3 open source, dan Qwen3 max juga berada di level yang bisa bersaing dengan model SOTA.
    • Saya penasaran bagaimana cara menyiapkan data PDF sebelum dimasukkan ke Qwen.
  • Saat saya meminta “ASCII spongebob” ke Qwen3-Next-80B-A3B-Thinking lewat perintah llm, hasilnya hanya bentuk yang sangat dasar. Dengan Qwen3-Coder-480B-A35B-Instruct, ASCII Spongebob yang dihasilkan jauh lebih matang. Ketika saya bereksperimen berkali-kali tadi malam, banyak ASCII dari Qwen3-coder yang bagian kakinya hilang atau penyelesaiannya tidak rapi, tetapi pagi ini dengan prompt yang sama hasilnya langsung sempurna sekali jadi. Saya jadi bertanya-tanya apakah pemakaian atau kondisi resource (server, API) memengaruhi kualitas respons, atau ini murni soal keberuntungan. Saat dicoba lagi beberapa menit kemudian ternyata gagal, jadi mungkin peluangnya sekitar 1 dari 10 kali, dan di Qwen3-next hampir tidak pernah keluar.
    • Rasanya seperti ASCII SpongeBob dihafal utuh oleh model.
    • Saya rasa ada distillation atau berbagi data pelatihan antara Kimi K2 dan Qwen Coder (atau model terkait lainnya). Saya sudah mencoba kebanyakan LLM, tetapi hanya di Kimi K2 saya melihat ASCII SpongeBob yang sama persis dengan Qwen3-coder. ASCII SpongeBob juga dihasilkan dengan benar-benar identik saat memakai kimi K2.
    • Tes ASCII SpongeBob diambil dari media sosial resmi Qwen, dan pada dasarnya merupakan probe untuk mengukur rote memorization yang disuntikkan. Jika model dense sangat besar, ia bisa menghafalnya utuh lewat kapasitas parameter, tetapi pada struktur sparse-MoE seperti Qwen3, berbagai noise seperti pemilihan expert atau token sampling mau tak mau membuat alignment gambar yang teliti lebih mudah rusak. Selain itu, ditambah lagi arsitektur baru seperti gated-attention dan multi-token head, sehingga hanya satu kali expert routing yang sial saja bisa membuat tata letak gambar meleset. Dan Qwen3-coder memang dilatih khusus untuk ini sehingga perbandingannya jadi tidak adil. Saya juga membandingkan hasil ASCII dari model lain di keluarga Qwen3. Hasilnya cukup berbeda-beda.
  • Berkat Qwen, mengejutkan melihat sejauh mana MoE telah berkembang. Qwen3-Next jelas melampaui model dense 72B sebelumnya, dan jika VRAM serta CPU di-offload dengan baik, ia bahkan berjalan lebih cepat daripada model 14B. Efisiensi sebesar ini benar-benar luar biasa.
    • Bukan karena Qwen maka perkembangan LLM terjadi; LLM SOTA sudah MoE sejak GPT-4. Sayang sekali HN terlalu tertinggal dari tren sehingga komentar yang tidak perlu soal topik AI jadi bertebaran.
    • Kalau dipikir-pikir lagi, justru lucu bahwa tahun lalu Meta menghabiskan sumber daya luar biasa untuk melatih model dense 405B. Modelnya cuma besar, performa nyatanya bahkan kalah dari model yang ukurannya sepersepuluh, dan secara realistis tidak bisa dijalankan dengan kecepatan yang benar-benar berguna pada perangkat keras mana pun.
  • Saya menambahkan Qwen3 Next ke Brokk Power Ranking open round (benchmark coding). Dari sisi performa, hasilnya mirip GPT-OSS-20b. Hasil performa semua model open source bisa dilihat di sini
    • Akan lebih berguna jika lebih banyak bahasa ditambahkan. Saat ini hanya mengevaluasi Java, tetapi dalam kehidupan nyata saya lebih sering memakai bahasa lain, jadi hasil benchmark tidak sesuai dengan pengalaman saya.
    • Saya penasaran apakah Kimi K2 yang terdaftar itu versi terbaru atau Kimi k2 yang lama.
  • Oracle memperkirakan lonjakan tajam permintaan data center minggu ini dan harga sahamnya sedang naik. Jika peningkatan efisiensi LLM sampai 10x ini benar, permintaan untuk Nvidia, Oracle, Coreweave, dan lainnya bisa berkurang.
    • Mungkin perlu memikirkan fenomena ekonomi seperti paradoks Jevons.
    • Terlepas dari proyeksi Oracle, saya tidak melihat peningkatan efisiensi otomatis langsung berarti penurunan permintaan. Seperti paradoks Jevons, bisa jadi ketika efisiensi naik justru penggunaan ikut meningkat.
    • Hal yang sama juga dikatakan soal deepseek-r1, tetapi kenyataannya tidak berubah. Jika model dibuat 10x lebih efisien, semua orang malah akan mencoba melatih model yang 10x lebih besar. Para pemain tidak akan berhenti pada titik “ukuran segini sudah cukup”, selama scaling masih terus memengaruhi performa.
    • Sama sekali tidak begitu. Jika melihat perilaku pasar, orang selalu rela membayar untuk kualitas terbaik, dan harga umumnya tetap sama. Begitu model baru dirilis, model lama dengan kualitas lebih rendah (lebih murah) langsung ditinggalkan, dan orang hanya mencari model yang lebih baik dengan harga yang sama. Kali ini pun kemungkinan akan begitu.
    • Jika bubble AI pecah dan data center serta GPU jadi berlimpah, saya penasaran cara apa yang bisa dimanfaatkan untuk mengambil keuntungan dari investasi itu.
  • Jika penasaran dengan Gated Delta Network, lihat paper ini tautan arxiv
    • Paper tentang Gated Attention bisa dilihat di sini
  • Qwen3-Next cukup mengesankan, dan saya rasa arsitektur yang lebih baik akan mendorong inovasi ke depan. Rasanya tidak harus selalu membutuhkan parameter lebih dari 100B seperti GPT OSS 120B.
    • Memang benar, semakin banyak parameter semakin baik. Model dengan parameter lebih sedikit sering berhalusinasi. Namun, kalau parameter aktifnya sedikit dan routing-nya bagus, mungkin tetap oke.
    • Arsitektur baru itu keren, dan menarik bahwa langsung dirilis secara terbuka. Namun, model keluarga Qwen cenderung cukup overfit. Sering kali hanya bagus pada tugas tertentu, dan ada keterbatasan dalam generalisasi dibanding model tertutup. Saya belum tahu apakah ini semata masalah skala, atau penyebabnya juga ada pada recipe/metode pelatihannya. Jika diuji pada OOD (out-of-distribution), nilainya turun drastis, sementara model tertutup masih menunjukkan keunggulan.
  • Prediksi: dalam 4 tahun ke depan, AI akan bisa diakses siapa saja dengan mudah seperti komoditas umum, pada tingkat sekitar 15 poin IQ lebih tinggi dari model SOTA saat ini, dengan context length yang juga jauh lebih panjang. Pada titik itu, ketika perbaikan dalam pelatihan synthetic data mulai mentok (setelah “data nyata” sudah habis dipakai), model open source akan dilatih dengan murah menggunakan output dari model bermodal besar. Setelah itu, perkembangan AI akan stagnan sampai muncul cara melatih kecerdasan umum AI lewat competitive reinforcement learning (seperti AlphaGo dilatih). Ketika metode itu muncul, tidak akan lagi membutuhkan data pelatihan dalam jumlah besar, dan AGI yang sesungguhnya akan hadir.
    • Saya tidak mengerti maksudnya “data nyata” habis terpakai. Setiap hari internet dibanjiri pengetahuan baru, paper ilmiah, dan video, jadi saya bingung bagaimana mungkin data bisa habis.
    • Jika model mutakhir saat ini setara dengan IQ manusia 120 (saya tidak tahu apakah ini akurat, tetapi anggap saja menurut sumber ini demikian), maka ke depan akan muncul bot super-intensif setara IQ 135 dalam jumlah besar. Sulit membayangkan apa arti situasi seperti itu dalam praktik.
  • Walaupun ini model 80B, akhir-akhir ini saya justru memperhatikan model 32B ke bawah yang bisa berjalan nyaman di MacBook Pro (M4, 64GB). Saya memakai ollama setiap hari untuk penyaringan spam, gemma3:27b sangat bagus, dan gpt-oss:20b juga sering saya pakai karena cepat.
    • Akan menarik jika Anda menjelaskan lebih detail bagaimana menggunakan Ollama untuk penyaringan spam.
    • Total parameter model ini memang 80B, tetapi yang aktif saat inferensi hanya sekitar 3B. Saya menjalankan Qwen3 30B 2507 lama dengan baik bahkan di kartu Nvidia 8GB.
    • Karena ini arsitektur MoE, seharusnya bisa berjalan dengan sangat baik.