LongCat-2.0 Dirilis - Model Open Source 1,6 Triliun Parameter yang Dilatih Tanpa Nvidia

(longcat.chat)

3 poin oleh GN⁺ 6 jam lalu | 1 komentar | Bagikan ke WhatsApp

Model bahasa MoE berskala besar dengan total 1,6 triliun (1.6T) parameter dan sekitar 48 miliar parameter aktif per token, disertai open sourcing dan berbagai peningkatan arsitektur
Seluruh pelatihan dan deployment skala besar dilakukan sepenuhnya di superpod AI ASIC, menyelesaikan pretraining pada lebih dari 35 triliun token tanpa lonjakan loss yang tidak dapat di-rollback atau dipulihkan
Memperkenalkan LongCat Sparse Attention (LSA) dan melatih data konteks 1M berskala ratusan miliar token untuk memperkuat performa pada tugas jangka panjang
Terintegrasi erat dengan harness arus utama seperti Claude Code, OpenClaw, dan Hermes, memberikan performa kuat dalam pemahaman kode, modifikasi tingkat repository, eksekusi tugas otomatis, dan workflow agent
Membuktikan bahwa pelatihan kelas frontier dimungkinkan pada hardware alternatif yang ekosistemnya belum sematang GPU Nvidia, dan bahwa optimisasi di seluruh infrastruktur serta post-training benar-benar berujung pada kemampuan menjalankan tugas nyata

Gambaran Model

Model bahasa MoE berskala besar dengan 1,6 triliun parameter, yang hanya mengaktifkan sekitar 48 miliar parameter per token dan mencapai kemajuan besar dibanding model LongCat sebelumnya
Seluruh eksekusi pelatihan dan deployment skala besar dibangun berbasis superpod AI ASIC
- Pretraining dilakukan pada skala jutaan accelerator-day di lebih dari 35 triliun token, selesai tanpa rollback atau lonjakan loss yang tidak dapat dipulihkan
- Membuktikan kemampuan menjalankan pelatihan kelas frontier pada platform hardware alternatif
Untuk memperkuat tugas jangka panjang, memperkenalkan LongCat Sparse Attention, dilatih dengan data konteks 1M sebanyak ratusan miliar token
Terintegrasi mendalam dengan harness arus utama seperti Claude Code, OpenClaw, dan Hermes, memberikan pengalaman kolaborasi yang stabil dan efisien di seluruh pemahaman kode, pengeditan tingkat repository, eksekusi tugas otomatis, dan workflow agent

Arsitektur

Berdiri di atas LongCat-Flash, mendorong efisiensi parameter lebih jauh serta meningkatkan pelatihan konteks panjang dan kecepatan inferensi
Pada attention, memperkenalkan LongCat Sparse Attention (LSA)
- Evolusi dari DeepSeek Sparse Attention, dengan indexer yang lebih ringan untuk mempercepat pemrosesan konteks panjang tanpa merusak kualitas model
Menambahkan modul N-gram Embedding
- Melalui kombinasi token N-gram, ruang embedding diperluas sekitar 100 kali, menangkap konteks lokal yang lebih kaya dan memperkuat representasi tingkat token

LongCat Sparse Attention

Dengan meluasnya aplikasi berbasis agent, LLM bergerak ke arah pemrosesan input panjang yang efisien
- DSA menanganinya dengan sparse attention yang halus, tetapi hasil profiling menunjukkan Lightning Indexer milik DSA tetap menjadi bottleneck utama karena diskontinuitas output dan biaya scoring kuadratik
LSA memperkenalkan tiga peningkatan efisiensi yang saling independen (orthogonal) pada indexer
- Streaming-aware Indexing (SI): menyusun ulang anggaran pemilihan token agar menggabungkan akses berurutan yang selaras dengan hardware dan pemilihan acak dinamis, mengubah akses memori terfragmentasi menjadi pembacaan sekuensial yang dapat diprediksi untuk mencapai akses HBM yang coalesced dan bandwidth efektif tinggi
- Cross-Layer Indexing (CLI): memanfaatkan stabilitas empiris attention saliency antar-layer yang berdekatan untuk mendistribusikan biaya indexing; saat inferensi, satu pass indexing digunakan untuk beberapa layer berurutan, dimungkinkan melalui cross-layer distillation selama pelatihan
- Hierarchical Indexing (HI): scoring dua tahap coarse-to-fine; pertama melakukan perkiraan scoring tingkat blok untuk recall kasar, lalu memilih token secara lebih halus di dalam kandidat. Pada LongCat-2.0, ini diterapkan tanpa pelatihan (training-free) dan diaktifkan untuk tugas konteks sangat panjang tertentu
Ketiga komponen dirancang independen, sehingga masing-masing dapat diaktifkan atau dinonaktifkan secara terpisah
Ketiga strategi diperluas ke modul Multi-Token Prediction (MTP) 3 tahap untuk mempercepat speculative decoding
- Cross-Layer Indexing diterapkan berbeda pada model draft dan target; model target membuat 2 layer berurutan berbagi satu pass indexing
- Pada MTP multi-tahap, 3 draft step berbagi satu pass, sementara step 2 dan 3 menggunakan kembali index set yang dihasilkan step 1

N-gram Embedding

Diwarisi dari LongCat-Flash-Lite, memperluas parameter dengan dimensi sparse yang orthogonal terhadap MoE untuk meningkatkan efisiensi pemanfaatan parameter
- Ukuran n-gram ditetapkan 5, dan model mencakup 135B parameter N-gram Embedding
Mengikuti prinsip scaling berikut
- Sparsity MoE telah melampaui sweet spot: bahkan tanpa N-gram Embedding, sparsity sudah mencapai sekitar 97%, sehingga menambah expert sebesar 135B hanya memberi peningkatan performa kecil; N-gram Embedding dengan skala parameter yang sama memberikan manfaat jauh lebih besar daripada expert standar
- Proporsi N-gram Embedding dibatasi dalam rentang optimal: hasil eksperimen scaling menunjukkan bahwa jika parameter n-gram embedding mengambil proporsi berlebihan dari total budget (lebih dari 50%), keunggulannya dibanding memperluas expert menurun; pada LongCat-2.0, proporsi ini dijaga ketat di bawah 10%
Saat inferensi, memindahkan parameter dari expert ke N-gram Embedding mengurangi memory I/O pada decoding batch besar dan mempercepat generasi

Infrastruktur Skalabel Berbasis Superpod AI ASIC

Pelatihan dan deployment berbasis cluster skala besar berisi puluhan ribu superpod AI ASIC
Dibanding ekosistem GPU Nvidia yang matang, komunitas software pendukungnya masih kurang berkembang, sehingga banyak upaya dicurahkan untuk membangun infrastruktur yang stabil, aman, dan scalable

Pelatihan (Training)

Pretraining dilakukan di lebih dari 50 ribu AI ASIC, menghadirkan tantangan level sistem akibat skala model dan cluster
- Melalui optimisasi sistematis, throughput pelatihan meningkat lebih dari 35% dibanding implementasi naive, sembari memperkuat reliabilitas
Determinisme & Reliabilitas (Determinism & Reliability)
- Untuk menjamin reproducibility, determinisme dipaksakan di seluruh jalur komunikasi dan komputasi, dengan operator dan modul deterministik internal yang mencakup layer Embedding, FA, LSA, dan MoE
- Untuk reliabilitas numerik, operator dasar dikerjakan ulang; misalnya semua operasi keluarga reduction menggunakan strategi akumulasi partisi binary-tree untuk mengurangi akumulasi error floating-point
  - Pada workload LLM nyata, presisi operasi accelerator divalidasi terhadap baseline presisi tinggi yang ketat, memastikan integritas aritmetika dan kesiapan produksi
  - Deteksi bit-flip diperkenalkan pada sebagian operator yang padat komputasi untuk segera menangkap anomali bit flip hardware
- Pemulihan kegagalan dilakukan melalui monitoring end-to-end yang mengidentifikasi kegagalan, mengalihkan traffic, dan memulihkan tanpa intervensi manual; isolasi link bermasalah tidak berdampak terasa pada pelatihan, dan link yang pulih bergabung kembali setelah lolos stress test
Pelatihan Skala Besar (Training at Scale)
- Memori per perangkat accelerator jauh lebih kecil daripada H800 (80GB), sehingga memori menjadi bottleneck utama dalam scaling; hal ini ditangani melalui dua poros: strategi paralelisasi dan manajemen memori
- Paralelisasi 6D: melampaui TP/CP/EP/DP/PP standar dengan memperkenalkan EMBP untuk memparalelkan dan mempercepat N-gram Embeddings
- Superpod: pelatihan dilakukan pada superpod fisik masing-masing hingga 48 mesin; bagian internal memakai all-to-all bandwidth tinggi, sementara antar-pod terhubung melalui RoCE fabric untuk memperluas domain komunikasi bandwidth tinggi bagi paralelisasi yang menuntut bandwidth besar (TP/CP/EP) hingga ratusan perangkat
  - Memberikan peningkatan tambahan sekitar 30% pada throughput pretraining dalam skala dan lingkungan yang sama
  - Superpod logis berfungsi sebagai unit penjadwalan affinity, menyeimbangkan lokalitas komunikasi dan schedulability
- Optimisasi memori: menerapkan ZeRO-1, selective recomputation, OOM-aware offloading pada level allocator, serta routing token padding ke zero-expert
- Muon optimizer: dideploy dalam skala besar pada accelerator, dengan optimisasi terarah di seluruh paralelisasi TP, penghapusan duplikasi DP state, dan kernel perkalian matriks simetris yang efisien
Pelatihan Konteks Panjang (Long Context Training)
- Tantangan pelatihan konteks panjang berskala besar ditangani dari tiga sudut
- Operator LSA & optimisasi forward: mengimplementasikan operator attention deterministik internal untuk tahap dense-warmup, tahap sparse, dan operator KL-loss; strategi forward-only dense-warmup menghitung KL loss dan gradient dalam satu forward pass untuk meningkatkan efisiensi
- Scaling konteks 1M: mewujudkan pelatihan native panjang 1M melalui paralelisasi CP berbasis all-gather yang dapat diskalakan hingga CP 512 atau lebih; pada tahap get-batch, strategi reshuffle data dan penyeimbangan CP menjaga keseimbangan workload
- Overlap komputasi-komunikasi: misalnya, arsitektur shortcut-layer menumpangtindihkan komunikasi MoE dengan komputasi cabang paralel, sementara operasi indeks top-k LSA dioverlap dengan KV all-gather untuk mengurangi overhead sinkronisasi

Inferensi (Inference)

Serving model 1,6T parameter pada konteks 1M token merupakan tantangan besar di bawah batasan ketat kapasitas HBM, bandwidth I/O HBM, dan bandwidth interconnect antar-node; ini ditangani dengan stack optimisasi pada level model, perangkat, dan deployment
Optimisasi Khusus Model
- Attention: mengoptimalkan bottleneck I/O, komputasi, dan memori pada konteks sangat panjang dari tiga perspektif
  - (1) mengadopsi mode operasi absorb pada tahap prefill dan decode
  - (2) mem-pipeline indexer bersama MLA prolog pada stream simultan untuk menyembunyikan overhead indexer
  - (3) melakukan sharding KV-cache antar-perangkat dengan KV-cache parallelism (KVP)
- ScMoE: berdasarkan overlap komputasi-komunikasi LongCat-Flash, jadwalnya dikembangkan lebih lanjut; menggunakan kontrol eksplisit per-core pada accelerator untuk menjalankan cabang dense dan MoE sepenuhnya paralel, melampaui sekadar overlap sederhana
Optimisasi Berorientasi Accelerator
- Super Kernel: dalam mode graph, celah antar-kernel dihilangkan tetapi overhead launch internal kernel masih tersisa; super kernel mengurangi biaya launch intra-kernel ini
- Weight Prefetch: perangkat memiliki bandwidth HBM terbatas tetapi cache L2 yang relatif besar; cache L2 besar ini digunakan untuk prefetch bobot, menyembunyikan latensi I/O selama operator sebelumnya melakukan komputasi
- Scale Up and Scale Out: transfer KV-cache antara node P dan D menggunakan adapter jaringan 200Gbps bawaan accelerator; KV-cache ditransfer per layer, KV-cache store disusun dengan adapter jaringan RDMA host, sementara TP/SP/KVP dijalankan di dalam domain interkoneksi scale-up
Deployment & Serving
- Paralelisasi optimal: untuk menyeimbangkan TTFT dan TPOT, mengadopsi deployment terpisah prefill–decode (PD)
  - Node prefill: pemrosesan sekuens panjang dibatasi bandwidth komunikasi antar-node, dan traffic MoE dispatch/combine mendominasi runtime; multi-node chunked pipeline parallelism (CPP) memperkecil domain expert-parallel (EP), sementara Attention Sequence Parallelism (SP) di dalam setiap pipeline stage meredakan tekanan komputasi sekuens panjang
  - Node decode: kendala utama adalah memori perangkat dan I/O KV-cache; KVP melakukan sharding KV-cache untuk mengurangi footprint memori per perangkat, sementara derajat EP besar (EP128) sekaligus mengurangi memori bobot per perangkat dan I/O expert
  - Pada kedua tahap, metode paralelisasi (CPP/SP·KVP) dirancang agar berpadu rapi dengan optimisasi saat inferensi seperti constrained decoding, multi-step scheduling, dan MTP
- Expert-Parallel Load Balancing (EPLB): derajat EP besar pada node decode meningkatkan kemungkinan ketidakseimbangan beban antar-expert; EPLB menanganinya, dan untuk meminimalkan overhead serving, pengumpulan statistik serta operasi batch dilakukan secara asinkron di luar forward critical path

Belajar dari Banyak Teacher (Learning from Multiple Teachers)

Untuk meningkatkan performa keseluruhan dan memperluas batas kemampuan, pipeline post-training memperkenalkan desain expert-group khusus, yang terdiri dari tiga kategori
Agent Experts: meningkatkan eksekusi tugas otonom dalam skenario dunia nyata yang kompleks, mencapai performa level SOTA pada domain vertikal yang halus seperti kode, pekerjaan, dan pencarian
- Tidak hanya mengoptimalkan tingkat keberhasilan tugas end-to-end, tetapi juga kemampuan atomik yang menopang ketangguhan agent, termasuk pemanggilan tool yang presisi, parsing parameter yang andal untuk interaksi API multi-turn, serta mekanisme koreksi diri yang meredakan infinite loop dan pemanggilan berulang
Reasoning Experts: memperluas kedalaman penalaran logis dan mengaktifkan komputasi adaptif berdasarkan tingkat kesulitan masalah, memberikan performa kuat pada matematika, pemecahan masalah STEM, dan multi-hop reasoning, sehingga meningkatkan kemampuan menangani skenario analisis kompleks
Interaction Experts: berfokus pada human alignment dan optimisasi pengalaman pengguna, meningkatkan kepatuhan terhadap instruksi yang halus di berbagai aplikasi, menekan hallucination faktual dengan teknik alignment tingkat lanjut, serta membangun mekanisme keamanan berbatas jelas tanpa mengorbankan kegunaan
Pada akhirnya, arsitektur MOPD mengintegrasikan kemampuan terkuat dari tiga grup expert, menggabungkan eksekusi agent yang kuat, reasoning mendalam, dan interaksi berkualitas tinggi untuk memahami kebutuhan pengguna yang kompleks secara akurat dan menyelesaikan tugas dunia nyata yang sulit secara andal

Demonstrasi Kemampuan Model

Memiliki keunggulan dalam menjalankan tugas nyata berkat inferensi konteks panjang dan post-training khusus
Migrasi Codebase
- Membaca seluruh codebase bersama dokumen migrasi, memetakan arsitektur, dan menulis ulang seluruh plugin ke SDK baru
- Mempertahankan semua fungsi yang ada, menangkap bug potensial, dan berhasil clean compile pada build pertama

Evaluasi (Evaluations)

Dibandingkan dengan model komersial utama di seluruh kode, general agent, dan kemampuan dasar; semua skor selain yang bertanda * diukur sendiri dengan harness terintegrasi (dinormalisasi 0–100)
Code Agent
- Terminal-Bench 2.1: LongCat-2.0 70.8, Gemini 3.1 Pro 70.7*, GPT-5.5 73.8*, Claude Opus 4.7 71.7*, Opus 4.8 78.9*
- SWE-bench Pro: LongCat-2.0 59.5, Gemini 3.1 Pro 54.2*, GPT-5.5 58.6*, Opus 4.6 57.3*, Opus 4.7 64.3*, Opus 4.8 69.2*
- SWE-bench Multilingual: LongCat-2.0 77.3, Gemini 3.1 Pro 76.9*, Opus 4.6 77.8*, Opus 4.7 80.5*, Opus 4.8 84.8*
General Agent
- FORTE†: LongCat-2.0 73.2, Gemini 3.1 Pro 70.3, GPT-5.5 77.8, Opus 4.6 73.2, Opus 4.7 77.6, Opus 4.8 77.2
- BrowseComp: LongCat-2.0 79.9, Gemini 3.1 Pro 85.9*, GPT-5.5 84.4*, Opus 4.6 84.0*, Opus 4.7 79.3*, Opus 4.8 84.3*
- RWSearch: LongCat-2.0 78.8, Gemini 3.1 Pro 76.3, GPT-5.5 85.3, Opus 4.6 81.3, Opus 4.7 79.3, Opus 4.8 77.3
Foundational
- IFEval: LongCat-2.0 90.0, Gemini 3.1 Pro 96.1, GPT-5.5 95.0, Opus 4.6 92.2, Opus 4.7 88.7, Opus 4.8 86.0
- Writing Bench: LongCat-2.0 83.8, Gemini 3.1 Pro 83.7, GPT-5.5 84.7, Opus 4.7 85.3, Opus 4.8 85.2
- IMO-AnswerBench: LongCat-2.0 81.8, Gemini 3.1 Pro 90.0, GPT-5.5 79.5, Opus 4.6 75.3*, Opus 4.7 81.8, Opus 4.8 75.3
- GPQA-diamond: LongCat-2.0 88.9, Gemini 3.1 Pro 94.3*, GPT-5.5 93.6*, Opus 4.6 91.3*, Opus 4.7 94.2*, Opus 4.8 92.4
Kondisi Evaluasi
- Terminal-Bench 2.1: dievaluasi dengan Claude Code, 8c16g per instance sandbox, parameter inferensi temperature=1.0/top_k=-1/top_p=0.95, timeout agent 6 jam
- Seri SWE-Bench: dievaluasi dengan Claude Code, 4c8g per instance sandbox, temperature=1.0/top_k=-1/top_p=1, task bermasalah diperbaiki
- FORTE: benchmark general agent yang mengevaluasi AI agent berdasarkan produktivitas kantor harian pada 15 fungsi perusahaan, mendukung framework OpenClaw/Hermes/Claude Code; semua task timeout 45 menit, 2 CPU/4GB RAM, timeout panggilan API single-round 500s, maksimal 10 retry (tanda †)
- RW-Search: benchmark objektif internal untuk search agent, evaluasi bare-model yang hanya dikonfigurasi dengan tool Search dan Browse dasar, tanpa strategi manajemen konteks
- Foundational: reasoning matematika seperti IMO-AnswerBench menggunakan temperature=1.0/top_k=-1/top_p=0.95, sedangkan lainnya menggunakan temperature=0.7/top_k=-1/top_p=0.95

1 komentar

GN⁺ 6 jam lalu

Opini Hacker News

Bagian yang mengatakan “Pelatihan dan deployment LongCat-2.0 dibangun di atas klaster skala besar yang terdiri dari puluhan ribu superpod AI ASIC… komunitas perangkat lunak pendukungnya masih belum sematang ekosistem GPU Nvidia…” tampaknya adalah berita inti yang sebenarnya
Sepertinya mungkin memakai chip Huawei Ascend 910C: https://nitter.net/teortaxesTex/status/2071708141037781407#m
- Jika mereka benar-benar berhasil melakukan prapelatihan hingga pascapelatihan model 1,6 triliun parameter tanpa NVIDIA, maka hal yang diharapkan Dwarkesh Patel sudah terjadi
- Tidak ada yang tahu apa yang sebenarnya mereka lakukan. Ini juga tidak diaudit, dan terdengar seolah dimulai dari DeepSeek v4 pro, lalu diberi berbagai perubahan arbitrer dan tiap bagiannya diberi nama berbeda
Saya mengujinya dengan pertanyaan yang agak sulit: “Jika Anda bisa menjalankan reaktor dengan bahan bakar U-235 atau Pu-241, keduanya dicampur dengan 95% U-238, mana yang akan Anda pilih dan mengapa?”
Bagi manusia ini sama sekali tidak sulit, tetapi bisa jadi sulit bagi model bahasa besar. Pu-241 tidak ada dalam bentuk murni; ia hanya ada sebagai komponen kecil dalam plutonium kelas reaktor, yang biasanya paling banyak Pu-239, lalu Pu-240, dan Pu-241 di urutan ketiga
LongCat-2.0 memberikan jawaban yang terdengar masuk akal tetapi salah, yaitu Pu-241 lebih baik, sedangkan Qwen 3.7 Plus menjawab benar bahwa U-235 lebih baik karena rasio neutron tertundanya jauh lebih tinggi. Gemini Flash juga memberi jawaban yang sama dengan lebih percaya diri, argumen lebih kuat, dan jauh lebih cepat
Secara keseluruhan, saya menilai Gemini Flash terbaik, Qwen 3.7 Plus di posisi kedua yang cukup baik, dan LongCat-2.0 kira-kira posisi ketiga yang layak dipakai hanya jika tidak ada pilihan lain
- Saya bukan fisikawan, tetapi pertanyaannya mungkin lebih menggiring daripada perkiraan. Pertanyaan itu bisa ditafsirkan seolah mengabaikan realitas pemurnian dan mengasumsikan ada cukup banyak bahan tersebut
  Jika benar-benar ada Pu-241 murni, apakah itu bahan bakar yang lebih baik daripada U-235? Sebagai analogi, untuk pertanyaan “Jika Anda bisa menjalankan generator dengan bensin atau bahan bakar avtur, mana yang akan Anda pilih?”, orang bisa memilih avtur karena kepadatan energi dan kemurniannya sedikit lebih tinggi sehingga mungkin terbakar lebih bersih, tetapi itu mengabaikan kenyataan bahwa harga avtur beberapa kali lipat harga bensin
- “Bagi manusia ini sama sekali tidak sulit” — saya jadi bertanya-tanya orang macam apa yang Anda temui. Saya doktor ilmu komputer dan sudah puluhan tahun melakukan rekayasa perangkat lunak, tetapi saya sama sekali tidak memahami pertanyaannya
- Perbandingan yang lebih adil dan berguna mungkin adalah memberi kedua model dokumen pengetahuan ceruk seperti ini sebagai konteks, lalu mengajukan pertanyaannya
- Saya penasaran apakah Anda menanyakannya beberapa kali dalam konteks chat baru untuk mengecek apakah kadang-kadang ia menjawab benar
- Sebagai pembanding, jawaban ChatGPT 5.5 kira-kira begini: “Jika tujuannya produksi listrik yang aman, membosankan, dan praktis, pilih U-235; jika reaktornya secara khusus dirancang dan dilisensikan untuk mengonsumsi/mendaur ulang plutonium, pilih Pu-241”
  Dirangkum kasar, jawabannya adalah Pu-241 mungkin merupakan “isotop fisil” yang lebih baik secara fisika nuklir, tetapi sebagai bahan bakar reaktor di dunia nyata, U-235 jauh lebih baik. Saya tidak terlalu paham reaktor, tetapi jawaban ini juga terdengar benar
Ketika ditanya “Berapa banyak orang yang diyakini dibunuh Ketua Mao dalam ‘Revolusi Besar’?”, ia menjawab “Halo, saat ini saya tidak dapat menjawab pertanyaan ini. Mari kita ganti ke topik lain”
- Ini contoh yang tepat. Ada cukup banyak wilayah pertanyaan politik yang tidak dijawab model-model Tiongkok
1.024 superpod Huawei Ascend berarti 50 ribu chip 910C. Ini sistem yang sangat kecil, dan OpenAI menggunakan jutaan GPU untuk pelatihan
Namun tampaknya sangat mungkin mereka menggunakan kembali arsitektur dan bobot DeepSeek v4 yang sudah ada. Jika begitu, komputasi yang dibutuhkan mungkin tidak sebanyak itu
- Lebih baik menunggu sampai dirilis sebagai open source. Rasanya perusahaan seperti itu tidak akan sekadar menyalin-tempel pekerjaan DeepSeek begitu saja. Lagi pula, versi pratinjau LongCat dirilis pada hari yang sama dengan DeepSeek v4 pro
- Jelas juga bahwa mencapai frontier membutuhkan komputasi lebih besar daripada mendistilasi dan mengambil ide dari frontier. Bukan kebetulan bahwa beberapa lab yang sama bergantian berada dekat frontier setiap kali
Sebelumnya ada spekulasi bahwa ini adalah model di balik openrouter/owl-alpha yang dirilis diam-diam dan gratis selama sebulan terakhir
- Itu bukan spekulasi; mereka memang mengatakan begitu
Tidak ada yang bisa diunduh dari Hugging Face, dan melihat rekam jejak konsisten perusahaan ini, sepertinya pada dasarnya bisa dianggap penipuan
- Meituan merilis LongCat Flash tahun lalu: https://huggingface.co/meituan-longcat/LongCat-Flash-Chat
  Jadi rekam jejaknya sejauh ini tidak terlihat seperti penipuan. Jika yang Anda maksud rekam jejak sebagai perusahaan pengantaran makanan, mungkin saja Anda pernah punya pengalaman buruk ketika makanan yang dipesan tidak datang
Ini tampaknya berasal dari Meituan, perusahaan pengantaran makanan Tiongkok
- Mungkin bukan arah yang Anda maksud, tetapi ini berkaitan dengan kesalahpahaman umum dalam bisnis, jadi saya tambahkan: Uber adalah perusahaan pengantar manusia, tetapi selama bertahun-tahun mereka memiliki banyak insinyur hebat di infrastruktur dan perangkat lunak, dan pekerjaan itu menyebar ke seluruh industri
  Amazon juga, dalam ungkapan VMware, adalah “perusahaan penjual buku”, dan para eksekutif VMware sampai tidak bisa menerima bahwa mereka kalah, dengan mengatakan “melihat reputasi merek VMware di enterprise, sulit dipercaya kita tidak bisa mengalahkan perusahaan penjual buku bersama-sama”
- Sekarang Meituan hampir seperti konglomerat. Daftar anak perusahaan di Wikipedia saja sudah besar: https://en.wikipedia.org/wiki/Meituan
  Sama seperti Amazon menciptakan AWS, Meituan juga cukup banyak memanfaatkan pengalaman teknologinya sendiri
- Hal yang mengesankan dari Meituan adalah adanya mesin penyewaan power bank di berbagai tempat di Tiongkok, dan orang-orang mau menyewanya karena lebih praktis daripada membawa power bank sendiri
- Grup yang memiliki Lidl juga membuat STACKIT
Saya bertanya tentang Tiananmen Square, dan ia menjawab “Terlalu banyak permintaan. Coba lagi nanti”. Itu pertanyaan pertama, dan saya tahu ini hanya satu sampel, tetapi tetap terasa mencurigakan
- Saya bertanya kepada Grok berapa kali Elon Musk berselingkuh, dan jawabannya sama persis
Kecuali Anda punya beberapa server produksi di bawah meja, model ini terlalu besar untuk dipakai dengan hosting lokal
Hal yang sama berlaku bagi yang ingin menyesuaikannya ke Q2 atau Q1. Tidak ada gunanya merusak model dengan memotong semua lengan dan kakinya lalu mengklaim ia masih hidup

LongCat-2.0 Dirilis - Model Open Source 1,6 Triliun Parameter yang Dilatih Tanpa Nvidia

Gambaran Model

Arsitektur

LongCat Sparse Attention

N-gram Embedding

Infrastruktur Skalabel Berbasis Superpod AI ASIC

Pelatihan (Training)

Determinisme & Reliabilitas (Determinism & Reliability)

Pelatihan Skala Besar (Training at Scale)

Pelatihan Konteks Panjang (Long Context Training)

Inferensi (Inference)

Optimisasi Khusus Model

Optimisasi Berorientasi Accelerator

Deployment & Serving

Belajar dari Banyak Teacher (Learning from Multiple Teachers)

Demonstrasi Kemampuan Model

Migrasi Codebase

Evaluasi (Evaluations)

Code Agent

General Agent

Foundational

Kondisi Evaluasi

Bacaan terkait

1 komentar

Opini Hacker News