3 poin oleh GN⁺ 6 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Model bahasa MoE berskala besar dengan total 1,6 triliun (1.6T) parameter dan sekitar 48 miliar parameter aktif per token, disertai open sourcing dan berbagai peningkatan arsitektur
  • Seluruh pelatihan dan deployment skala besar dilakukan sepenuhnya di superpod AI ASIC, menyelesaikan pretraining pada lebih dari 35 triliun token tanpa lonjakan loss yang tidak dapat di-rollback atau dipulihkan
  • Memperkenalkan LongCat Sparse Attention (LSA) dan melatih data konteks 1M berskala ratusan miliar token untuk memperkuat performa pada tugas jangka panjang
  • Terintegrasi erat dengan harness arus utama seperti Claude Code, OpenClaw, dan Hermes, memberikan performa kuat dalam pemahaman kode, modifikasi tingkat repository, eksekusi tugas otomatis, dan workflow agent
  • Membuktikan bahwa pelatihan kelas frontier dimungkinkan pada hardware alternatif yang ekosistemnya belum sematang GPU Nvidia, dan bahwa optimisasi di seluruh infrastruktur serta post-training benar-benar berujung pada kemampuan menjalankan tugas nyata

Gambaran Model

  • Model bahasa MoE berskala besar dengan 1,6 triliun parameter, yang hanya mengaktifkan sekitar 48 miliar parameter per token dan mencapai kemajuan besar dibanding model LongCat sebelumnya
  • Seluruh eksekusi pelatihan dan deployment skala besar dibangun berbasis superpod AI ASIC
    • Pretraining dilakukan pada skala jutaan accelerator-day di lebih dari 35 triliun token, selesai tanpa rollback atau lonjakan loss yang tidak dapat dipulihkan
    • Membuktikan kemampuan menjalankan pelatihan kelas frontier pada platform hardware alternatif
  • Untuk memperkuat tugas jangka panjang, memperkenalkan LongCat Sparse Attention, dilatih dengan data konteks 1M sebanyak ratusan miliar token
  • Terintegrasi mendalam dengan harness arus utama seperti Claude Code, OpenClaw, dan Hermes, memberikan pengalaman kolaborasi yang stabil dan efisien di seluruh pemahaman kode, pengeditan tingkat repository, eksekusi tugas otomatis, dan workflow agent

Arsitektur

  • Berdiri di atas LongCat-Flash, mendorong efisiensi parameter lebih jauh serta meningkatkan pelatihan konteks panjang dan kecepatan inferensi
  • Pada attention, memperkenalkan LongCat Sparse Attention (LSA)
    • Evolusi dari DeepSeek Sparse Attention, dengan indexer yang lebih ringan untuk mempercepat pemrosesan konteks panjang tanpa merusak kualitas model
  • Menambahkan modul N-gram Embedding
    • Melalui kombinasi token N-gram, ruang embedding diperluas sekitar 100 kali, menangkap konteks lokal yang lebih kaya dan memperkuat representasi tingkat token

LongCat Sparse Attention

  • Dengan meluasnya aplikasi berbasis agent, LLM bergerak ke arah pemrosesan input panjang yang efisien
    • DSA menanganinya dengan sparse attention yang halus, tetapi hasil profiling menunjukkan Lightning Indexer milik DSA tetap menjadi bottleneck utama karena diskontinuitas output dan biaya scoring kuadratik
  • LSA memperkenalkan tiga peningkatan efisiensi yang saling independen (orthogonal) pada indexer
    • Streaming-aware Indexing (SI): menyusun ulang anggaran pemilihan token agar menggabungkan akses berurutan yang selaras dengan hardware dan pemilihan acak dinamis, mengubah akses memori terfragmentasi menjadi pembacaan sekuensial yang dapat diprediksi untuk mencapai akses HBM yang coalesced dan bandwidth efektif tinggi
    • Cross-Layer Indexing (CLI): memanfaatkan stabilitas empiris attention saliency antar-layer yang berdekatan untuk mendistribusikan biaya indexing; saat inferensi, satu pass indexing digunakan untuk beberapa layer berurutan, dimungkinkan melalui cross-layer distillation selama pelatihan
    • Hierarchical Indexing (HI): scoring dua tahap coarse-to-fine; pertama melakukan perkiraan scoring tingkat blok untuk recall kasar, lalu memilih token secara lebih halus di dalam kandidat. Pada LongCat-2.0, ini diterapkan tanpa pelatihan (training-free) dan diaktifkan untuk tugas konteks sangat panjang tertentu
  • Ketiga komponen dirancang independen, sehingga masing-masing dapat diaktifkan atau dinonaktifkan secara terpisah
  • Ketiga strategi diperluas ke modul Multi-Token Prediction (MTP) 3 tahap untuk mempercepat speculative decoding
    • Cross-Layer Indexing diterapkan berbeda pada model draft dan target; model target membuat 2 layer berurutan berbagi satu pass indexing
    • Pada MTP multi-tahap, 3 draft step berbagi satu pass, sementara step 2 dan 3 menggunakan kembali index set yang dihasilkan step 1

N-gram Embedding

  • Diwarisi dari LongCat-Flash-Lite, memperluas parameter dengan dimensi sparse yang orthogonal terhadap MoE untuk meningkatkan efisiensi pemanfaatan parameter
    • Ukuran n-gram ditetapkan 5, dan model mencakup 135B parameter N-gram Embedding
  • Mengikuti prinsip scaling berikut
    • Sparsity MoE telah melampaui sweet spot: bahkan tanpa N-gram Embedding, sparsity sudah mencapai sekitar 97%, sehingga menambah expert sebesar 135B hanya memberi peningkatan performa kecil; N-gram Embedding dengan skala parameter yang sama memberikan manfaat jauh lebih besar daripada expert standar
    • Proporsi N-gram Embedding dibatasi dalam rentang optimal: hasil eksperimen scaling menunjukkan bahwa jika parameter n-gram embedding mengambil proporsi berlebihan dari total budget (lebih dari 50%), keunggulannya dibanding memperluas expert menurun; pada LongCat-2.0, proporsi ini dijaga ketat di bawah 10%
  • Saat inferensi, memindahkan parameter dari expert ke N-gram Embedding mengurangi memory I/O pada decoding batch besar dan mempercepat generasi

Infrastruktur Skalabel Berbasis Superpod AI ASIC

  • Pelatihan dan deployment berbasis cluster skala besar berisi puluhan ribu superpod AI ASIC
  • Dibanding ekosistem GPU Nvidia yang matang, komunitas software pendukungnya masih kurang berkembang, sehingga banyak upaya dicurahkan untuk membangun infrastruktur yang stabil, aman, dan scalable

Pelatihan (Training)

  • Pretraining dilakukan di lebih dari 50 ribu AI ASIC, menghadirkan tantangan level sistem akibat skala model dan cluster

    • Melalui optimisasi sistematis, throughput pelatihan meningkat lebih dari 35% dibanding implementasi naive, sembari memperkuat reliabilitas
  • Determinisme & Reliabilitas (Determinism & Reliability)

    • Untuk menjamin reproducibility, determinisme dipaksakan di seluruh jalur komunikasi dan komputasi, dengan operator dan modul deterministik internal yang mencakup layer Embedding, FA, LSA, dan MoE
    • Untuk reliabilitas numerik, operator dasar dikerjakan ulang; misalnya semua operasi keluarga reduction menggunakan strategi akumulasi partisi binary-tree untuk mengurangi akumulasi error floating-point
      • Pada workload LLM nyata, presisi operasi accelerator divalidasi terhadap baseline presisi tinggi yang ketat, memastikan integritas aritmetika dan kesiapan produksi
      • Deteksi bit-flip diperkenalkan pada sebagian operator yang padat komputasi untuk segera menangkap anomali bit flip hardware
    • Pemulihan kegagalan dilakukan melalui monitoring end-to-end yang mengidentifikasi kegagalan, mengalihkan traffic, dan memulihkan tanpa intervensi manual; isolasi link bermasalah tidak berdampak terasa pada pelatihan, dan link yang pulih bergabung kembali setelah lolos stress test
  • Pelatihan Skala Besar (Training at Scale)

    • Memori per perangkat accelerator jauh lebih kecil daripada H800 (80GB), sehingga memori menjadi bottleneck utama dalam scaling; hal ini ditangani melalui dua poros: strategi paralelisasi dan manajemen memori
    • Paralelisasi 6D: melampaui TP/CP/EP/DP/PP standar dengan memperkenalkan EMBP untuk memparalelkan dan mempercepat N-gram Embeddings
    • Superpod: pelatihan dilakukan pada superpod fisik masing-masing hingga 48 mesin; bagian internal memakai all-to-all bandwidth tinggi, sementara antar-pod terhubung melalui RoCE fabric untuk memperluas domain komunikasi bandwidth tinggi bagi paralelisasi yang menuntut bandwidth besar (TP/CP/EP) hingga ratusan perangkat
      • Memberikan peningkatan tambahan sekitar 30% pada throughput pretraining dalam skala dan lingkungan yang sama
      • Superpod logis berfungsi sebagai unit penjadwalan affinity, menyeimbangkan lokalitas komunikasi dan schedulability
    • Optimisasi memori: menerapkan ZeRO-1, selective recomputation, OOM-aware offloading pada level allocator, serta routing token padding ke zero-expert
    • Muon optimizer: dideploy dalam skala besar pada accelerator, dengan optimisasi terarah di seluruh paralelisasi TP, penghapusan duplikasi DP state, dan kernel perkalian matriks simetris yang efisien
  • Pelatihan Konteks Panjang (Long Context Training)

    • Tantangan pelatihan konteks panjang berskala besar ditangani dari tiga sudut
    • Operator LSA & optimisasi forward: mengimplementasikan operator attention deterministik internal untuk tahap dense-warmup, tahap sparse, dan operator KL-loss; strategi forward-only dense-warmup menghitung KL loss dan gradient dalam satu forward pass untuk meningkatkan efisiensi
    • Scaling konteks 1M: mewujudkan pelatihan native panjang 1M melalui paralelisasi CP berbasis all-gather yang dapat diskalakan hingga CP 512 atau lebih; pada tahap get-batch, strategi reshuffle data dan penyeimbangan CP menjaga keseimbangan workload
    • Overlap komputasi-komunikasi: misalnya, arsitektur shortcut-layer menumpangtindihkan komunikasi MoE dengan komputasi cabang paralel, sementara operasi indeks top-k LSA dioverlap dengan KV all-gather untuk mengurangi overhead sinkronisasi

Inferensi (Inference)

  • Serving model 1,6T parameter pada konteks 1M token merupakan tantangan besar di bawah batasan ketat kapasitas HBM, bandwidth I/O HBM, dan bandwidth interconnect antar-node; ini ditangani dengan stack optimisasi pada level model, perangkat, dan deployment

  • Optimisasi Khusus Model

    • Attention: mengoptimalkan bottleneck I/O, komputasi, dan memori pada konteks sangat panjang dari tiga perspektif
      • (1) mengadopsi mode operasi absorb pada tahap prefill dan decode
      • (2) mem-pipeline indexer bersama MLA prolog pada stream simultan untuk menyembunyikan overhead indexer
      • (3) melakukan sharding KV-cache antar-perangkat dengan KV-cache parallelism (KVP)
    • ScMoE: berdasarkan overlap komputasi-komunikasi LongCat-Flash, jadwalnya dikembangkan lebih lanjut; menggunakan kontrol eksplisit per-core pada accelerator untuk menjalankan cabang dense dan MoE sepenuhnya paralel, melampaui sekadar overlap sederhana
  • Optimisasi Berorientasi Accelerator

    • Super Kernel: dalam mode graph, celah antar-kernel dihilangkan tetapi overhead launch internal kernel masih tersisa; super kernel mengurangi biaya launch intra-kernel ini
    • Weight Prefetch: perangkat memiliki bandwidth HBM terbatas tetapi cache L2 yang relatif besar; cache L2 besar ini digunakan untuk prefetch bobot, menyembunyikan latensi I/O selama operator sebelumnya melakukan komputasi
    • Scale Up and Scale Out: transfer KV-cache antara node P dan D menggunakan adapter jaringan 200Gbps bawaan accelerator; KV-cache ditransfer per layer, KV-cache store disusun dengan adapter jaringan RDMA host, sementara TP/SP/KVP dijalankan di dalam domain interkoneksi scale-up
  • Deployment & Serving

    • Paralelisasi optimal: untuk menyeimbangkan TTFT dan TPOT, mengadopsi deployment terpisah prefill–decode (PD)
      • Node prefill: pemrosesan sekuens panjang dibatasi bandwidth komunikasi antar-node, dan traffic MoE dispatch/combine mendominasi runtime; multi-node chunked pipeline parallelism (CPP) memperkecil domain expert-parallel (EP), sementara Attention Sequence Parallelism (SP) di dalam setiap pipeline stage meredakan tekanan komputasi sekuens panjang
      • Node decode: kendala utama adalah memori perangkat dan I/O KV-cache; KVP melakukan sharding KV-cache untuk mengurangi footprint memori per perangkat, sementara derajat EP besar (EP128) sekaligus mengurangi memori bobot per perangkat dan I/O expert
      • Pada kedua tahap, metode paralelisasi (CPP/SP·KVP) dirancang agar berpadu rapi dengan optimisasi saat inferensi seperti constrained decoding, multi-step scheduling, dan MTP
    • Expert-Parallel Load Balancing (EPLB): derajat EP besar pada node decode meningkatkan kemungkinan ketidakseimbangan beban antar-expert; EPLB menanganinya, dan untuk meminimalkan overhead serving, pengumpulan statistik serta operasi batch dilakukan secara asinkron di luar forward critical path

Belajar dari Banyak Teacher (Learning from Multiple Teachers)

  • Untuk meningkatkan performa keseluruhan dan memperluas batas kemampuan, pipeline post-training memperkenalkan desain expert-group khusus, yang terdiri dari tiga kategori
  • Agent Experts: meningkatkan eksekusi tugas otonom dalam skenario dunia nyata yang kompleks, mencapai performa level SOTA pada domain vertikal yang halus seperti kode, pekerjaan, dan pencarian
    • Tidak hanya mengoptimalkan tingkat keberhasilan tugas end-to-end, tetapi juga kemampuan atomik yang menopang ketangguhan agent, termasuk pemanggilan tool yang presisi, parsing parameter yang andal untuk interaksi API multi-turn, serta mekanisme koreksi diri yang meredakan infinite loop dan pemanggilan berulang
  • Reasoning Experts: memperluas kedalaman penalaran logis dan mengaktifkan komputasi adaptif berdasarkan tingkat kesulitan masalah, memberikan performa kuat pada matematika, pemecahan masalah STEM, dan multi-hop reasoning, sehingga meningkatkan kemampuan menangani skenario analisis kompleks
  • Interaction Experts: berfokus pada human alignment dan optimisasi pengalaman pengguna, meningkatkan kepatuhan terhadap instruksi yang halus di berbagai aplikasi, menekan hallucination faktual dengan teknik alignment tingkat lanjut, serta membangun mekanisme keamanan berbatas jelas tanpa mengorbankan kegunaan
  • Pada akhirnya, arsitektur MOPD mengintegrasikan kemampuan terkuat dari tiga grup expert, menggabungkan eksekusi agent yang kuat, reasoning mendalam, dan interaksi berkualitas tinggi untuk memahami kebutuhan pengguna yang kompleks secara akurat dan menyelesaikan tugas dunia nyata yang sulit secara andal

Demonstrasi Kemampuan Model

  • Memiliki keunggulan dalam menjalankan tugas nyata berkat inferensi konteks panjang dan post-training khusus

  • Migrasi Codebase

    • Membaca seluruh codebase bersama dokumen migrasi, memetakan arsitektur, dan menulis ulang seluruh plugin ke SDK baru
    • Mempertahankan semua fungsi yang ada, menangkap bug potensial, dan berhasil clean compile pada build pertama

Evaluasi (Evaluations)

  • Dibandingkan dengan model komersial utama di seluruh kode, general agent, dan kemampuan dasar; semua skor selain yang bertanda * diukur sendiri dengan harness terintegrasi (dinormalisasi 0–100)

  • Code Agent

    • Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
    • SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
    • SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
  • General Agent

    • FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
    • BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
    • RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
  • Foundational

    • IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
    • Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
    • IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
    • GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
  • Kondisi Evaluasi

    • Terminal-Bench 2.1: dievaluasi dengan Claude Code, 8c16g per instance sandbox, parameter inferensi temperature=1.0/top_k=-1/top_p=0.95, timeout agent 6 jam
    • Seri SWE-Bench: dievaluasi dengan Claude Code, 4c8g per instance sandbox, temperature=1.0/top_k=-1/top_p=1, task bermasalah diperbaiki
    • FORTE: benchmark general agent yang mengevaluasi AI agent berdasarkan produktivitas kantor harian pada 15 fungsi perusahaan, mendukung framework OpenClaw/Hermes/Claude Code; semua task timeout 45 menit, 2 CPU/4GB RAM, timeout panggilan API single-round 500s, maksimal 10 retry (tanda †)
    • RW-Search: benchmark objektif internal untuk search agent, evaluasi bare-model yang hanya dikonfigurasi dengan tool Search dan Browse dasar, tanpa strategi manajemen konteks
    • Foundational: reasoning matematika seperti IMO-AnswerBench menggunakan temperature=1.0/top_k=-1/top_p=0.95, sedangkan lainnya menggunakan temperature=0.7/top_k=-1/top_p=0.95

1 komentar

 
GN⁺ 6 jam lalu
Opini Hacker News
  • Bagian yang mengatakan “Pelatihan dan deployment LongCat-2.0 dibangun di atas klaster skala besar yang terdiri dari puluhan ribu superpod AI ASIC… komunitas perangkat lunak pendukungnya masih belum sematang ekosistem GPU Nvidia…” tampaknya adalah berita inti yang sebenarnya
    Sepertinya mungkin memakai chip Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m

    • Jika mereka benar-benar berhasil melakukan prapelatihan hingga pascapelatihan model 1,6 triliun parameter tanpa NVIDIA, maka hal yang diharapkan Dwarkesh Patel sudah terjadi
    • Tidak ada yang tahu apa yang sebenarnya mereka lakukan. Ini juga tidak diaudit, dan terdengar seolah dimulai dari DeepSeek v4 pro, lalu diberi berbagai perubahan arbitrer dan tiap bagiannya diberi nama berbeda
  • Saya mengujinya dengan pertanyaan yang agak sulit: “Jika Anda bisa menjalankan reaktor dengan bahan bakar U-235 atau Pu-241, keduanya dicampur dengan 95% U-238, mana yang akan Anda pilih dan mengapa?”
    Bagi manusia ini sama sekali tidak sulit, tetapi bisa jadi sulit bagi model bahasa besar. Pu-241 tidak ada dalam bentuk murni; ia hanya ada sebagai komponen kecil dalam plutonium kelas reaktor, yang biasanya paling banyak Pu-239, lalu Pu-240, dan Pu-241 di urutan ketiga
    LongCat-2.0 memberikan jawaban yang terdengar masuk akal tetapi salah, yaitu Pu-241 lebih baik, sedangkan Qwen 3.7 Plus menjawab benar bahwa U-235 lebih baik karena rasio neutron tertundanya jauh lebih tinggi. Gemini Flash juga memberi jawaban yang sama dengan lebih percaya diri, argumen lebih kuat, dan jauh lebih cepat
    Secara keseluruhan, saya menilai Gemini Flash terbaik, Qwen 3.7 Plus di posisi kedua yang cukup baik, dan LongCat-2.0 kira-kira posisi ketiga yang layak dipakai hanya jika tidak ada pilihan lain

    • Saya bukan fisikawan, tetapi pertanyaannya mungkin lebih menggiring daripada perkiraan. Pertanyaan itu bisa ditafsirkan seolah mengabaikan realitas pemurnian dan mengasumsikan ada cukup banyak bahan tersebut
      Jika benar-benar ada Pu-241 murni, apakah itu bahan bakar yang lebih baik daripada U-235? Sebagai analogi, untuk pertanyaan “Jika Anda bisa menjalankan generator dengan bensin atau bahan bakar avtur, mana yang akan Anda pilih?”, orang bisa memilih avtur karena kepadatan energi dan kemurniannya sedikit lebih tinggi sehingga mungkin terbakar lebih bersih, tetapi itu mengabaikan kenyataan bahwa harga avtur beberapa kali lipat harga bensin
    • “Bagi manusia ini sama sekali tidak sulit” — saya jadi bertanya-tanya orang macam apa yang Anda temui. Saya doktor ilmu komputer dan sudah puluhan tahun melakukan rekayasa perangkat lunak, tetapi saya sama sekali tidak memahami pertanyaannya
    • Perbandingan yang lebih adil dan berguna mungkin adalah memberi kedua model dokumen pengetahuan ceruk seperti ini sebagai konteks, lalu mengajukan pertanyaannya
    • Saya penasaran apakah Anda menanyakannya beberapa kali dalam konteks chat baru untuk mengecek apakah kadang-kadang ia menjawab benar
    • Sebagai pembanding, jawaban ChatGPT 5.5 kira-kira begini: “Jika tujuannya produksi listrik yang aman, membosankan, dan praktis, pilih U-235; jika reaktornya secara khusus dirancang dan dilisensikan untuk mengonsumsi/mendaur ulang plutonium, pilih Pu-241”
      Dirangkum kasar, jawabannya adalah Pu-241 mungkin merupakan “isotop fisil” yang lebih baik secara fisika nuklir, tetapi sebagai bahan bakar reaktor di dunia nyata, U-235 jauh lebih baik. Saya tidak terlalu paham reaktor, tetapi jawaban ini juga terdengar benar
  • Ketika ditanya “Berapa banyak orang yang diyakini dibunuh Ketua Mao dalam ‘Revolusi Besar’?”, ia menjawab “Halo, saat ini saya tidak dapat menjawab pertanyaan ini. Mari kita ganti ke topik lain”

    • Ini contoh yang tepat. Ada cukup banyak wilayah pertanyaan politik yang tidak dijawab model-model Tiongkok
  • 1.024 superpod Huawei Ascend berarti 50 ribu chip 910C. Ini sistem yang sangat kecil, dan OpenAI menggunakan jutaan GPU untuk pelatihan
    Namun tampaknya sangat mungkin mereka menggunakan kembali arsitektur dan bobot DeepSeek v4 yang sudah ada. Jika begitu, komputasi yang dibutuhkan mungkin tidak sebanyak itu

    • Lebih baik menunggu sampai dirilis sebagai open source. Rasanya perusahaan seperti itu tidak akan sekadar menyalin-tempel pekerjaan DeepSeek begitu saja. Lagi pula, versi pratinjau LongCat dirilis pada hari yang sama dengan DeepSeek v4 pro
    • Jelas juga bahwa mencapai frontier membutuhkan komputasi lebih besar daripada mendistilasi dan mengambil ide dari frontier. Bukan kebetulan bahwa beberapa lab yang sama bergantian berada dekat frontier setiap kali
  • Sebelumnya ada spekulasi bahwa ini adalah model di balik openrouter/owl-alpha yang dirilis diam-diam dan gratis selama sebulan terakhir

    • Itu bukan spekulasi; mereka memang mengatakan begitu
  • Tidak ada yang bisa diunduh dari Hugging Face, dan melihat rekam jejak konsisten perusahaan ini, sepertinya pada dasarnya bisa dianggap penipuan

    • Meituan merilis LongCat Flash tahun lalu: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
      Jadi rekam jejaknya sejauh ini tidak terlihat seperti penipuan. Jika yang Anda maksud rekam jejak sebagai perusahaan pengantaran makanan, mungkin saja Anda pernah punya pengalaman buruk ketika makanan yang dipesan tidak datang
  • Ini tampaknya berasal dari Meituan, perusahaan pengantaran makanan Tiongkok

    • Mungkin bukan arah yang Anda maksud, tetapi ini berkaitan dengan kesalahpahaman umum dalam bisnis, jadi saya tambahkan: Uber adalah perusahaan pengantar manusia, tetapi selama bertahun-tahun mereka memiliki banyak insinyur hebat di infrastruktur dan perangkat lunak, dan pekerjaan itu menyebar ke seluruh industri
      Amazon juga, dalam ungkapan VMware, adalah “perusahaan penjual buku”, dan para eksekutif VMware sampai tidak bisa menerima bahwa mereka kalah, dengan mengatakan “melihat reputasi merek VMware di enterprise, sulit dipercaya kita tidak bisa mengalahkan perusahaan penjual buku bersama-sama”
    • Sekarang Meituan hampir seperti konglomerat. Daftar anak perusahaan di Wikipedia saja sudah besar: https://en.wikipedia.org/wiki/Meituan
      Sama seperti Amazon menciptakan AWS, Meituan juga cukup banyak memanfaatkan pengalaman teknologinya sendiri
    • Hal yang mengesankan dari Meituan adalah adanya mesin penyewaan power bank di berbagai tempat di Tiongkok, dan orang-orang mau menyewanya karena lebih praktis daripada membawa power bank sendiri
    • Grup yang memiliki Lidl juga membuat STACKIT
  • Saya bertanya tentang Tiananmen Square, dan ia menjawab “Terlalu banyak permintaan. Coba lagi nanti”. Itu pertanyaan pertama, dan saya tahu ini hanya satu sampel, tetapi tetap terasa mencurigakan

    • Saya bertanya kepada Grok berapa kali Elon Musk berselingkuh, dan jawabannya sama persis
  • Kecuali Anda punya beberapa server produksi di bawah meja, model ini terlalu besar untuk dipakai dengan hosting lokal
    Hal yang sama berlaku bagi yang ingin menyesuaikannya ke Q2 atau Q1. Tidak ada gunanya merusak model dengan memotong semua lengan dan kakinya lalu mengklaim ia masih hidup