Muse Spark: Model penalaran multimodal Meta yang berkembang menuju superinteligensi personal
(ai.meta.com)- Muse Spark yang dikembangkan oleh Meta Superintelligence Labs adalah model penalaran multimodal yang mendukung penggunaan alat, rantai pemikiran visual, dan kolaborasi multi-agen
- Sebagai langkah pertama menuju superinteligensi personal (personal superintelligence), model ini saat ini tersedia dalam bentuk pratinjau API privat untuk sebagian pengguna di meta.ai dan aplikasi Meta AI
- Model ini berkembang di sepanjang tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji, serta mencapai efisiensi pelatihan lebih dari 10 kali lipat dibanding Llama 4
- Melalui mode Contemplating, model ini melakukan penalaran tingkat tinggi berbasis agen paralel dan menghadirkan kemampuan berpikir lanjutan setara Gemini Deep Think dan GPT Pro
- Meta menargetkan pengembangan Muse Spark menjadi model superinteligensi personal yang dipersonalisasi, aman, dan efisien
Ikhtisar Muse Spark
- Muse Spark adalah model penalaran multimodal yang dikembangkan oleh Meta Superintelligence Labs, dengan dukungan untuk penggunaan alat, rantai pemikiran visual (visual chain of thought), dan orkestrasi multi-agen
- Ini adalah hasil pertama dari pembangunan ulang menyeluruh riset AI Meta, dan diperkenalkan sebagai langkah awal menuju superinteligensi personal (personal superintelligence)
- Meta sedang memperluas investasinya di seluruh riset, pelatihan model, dan infrastruktur, termasuk pusat data Hyperion
- Saat ini tersedia di meta.ai dan aplikasi Meta AI, dengan pratinjau API privat untuk sebagian pengguna
Fitur untuk superinteligensi personal
- Muse Spark memiliki performa yang kompetitif dalam persepsi multimodal, penalaran, kesehatan, dan tugas berbasis agen
- Meta terus berinvestasi untuk menutup kesenjangan performa di beberapa area seperti sistem agen jangka panjang dan alur kerja coding
- Mode Contemplating menjalankan beberapa agen secara paralel untuk menyelesaikan masalah kompleks, dan diposisikan untuk menandingi mode penalaran tingkat tinggi model terdepan seperti Gemini Deep Think dan GPT Pro
- Mencapai performa 58% pada Humanity’s Last Exam dan 38% pada FrontierScience Research
- Mode Contemplating akan diluncurkan secara bertahap di meta.ai
Bidang aplikasi utama
- Muse Spark menyediakan fondasi untuk berkembang menjadi superinteligensi personal yang memahami dan berinteraksi dengan dunia pengguna
- Melalui integrasi multimodal, model ini menggabungkan informasi visual dan alat untuk mencapai performa tinggi pada soal visual STEM, pengenalan entitas, penentuan lokasi, dan lainnya
- Contoh: pembuatan mini-game dan pemberian anotasi dinamis saat memecahkan masalah perangkat rumah tangga
- Di bidang kesehatan, Meta membangun data pelatihan bersama lebih dari 1.000 dokter, sehingga memungkinkan penalaran kesehatan yang faktual dan komprehensif
- Dapat membuat tampilan interaktif yang menjelaskan secara visual informasi kesehatan seperti kandungan nutrisi makanan atau otot yang aktif saat berolahraga
- Contoh prompt mendemonstrasikan interaksi visual yang dipersonalisasi seperti evaluasi pose yoga, visualisasi rekomendasi diet, dan tutorial penggunaan mesin kopi
Sumbu penskalaan
- Penskalaan Muse Spark berpusat pada tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji
-
Pra-pelatihan
- Tahap pembentukan dasar pemahaman multimodal, penalaran, dan kemampuan coding model
- Dalam 9 bulan terakhir, Meta meningkatkan arsitektur model, optimisasi, dan kurasi data untuk secara signifikan meningkatkan efisiensi komputasi
- FLOPs pelatihan yang dibutuhkan untuk mencapai performa yang sama berkurang lebih dari 10 kali dibanding Llama 4 Maverick, membuatnya lebih efisien daripada model pesaing utama
-
Reinforcement learning
- Tahap untuk memperluas kemampuan model setelah pra-pelatihan, dengan mengatasi ketidakstabilan RL skala besar guna memperoleh peningkatan performa yang dapat diprediksi
- Seiring peningkatan komputasi RL (jumlah langkah), metrik pass@1 dan pass@16 tumbuh secara log-linear, sehingga keandalan dan keberagaman model meningkat secara bersamaan
- Akurasi juga meningkat pada set evaluasi yang tidak disertakan dalam pelatihan, yang membuktikan kemampuan generalisasi
-
Penalaran saat waktu uji
- Model dilatih untuk menjalani proses "berpikir" sebelum memberikan respons
- Untuk penggunaan token yang efisien, digunakan penalti waktu berpikir (thinking time penalty) dan kolaborasi multi-agen
- Pelatihan RL memberi penalti pada waktu berpikir sambil tetap memaksimalkan akurasi, yang pada akhirnya memunculkan fenomena "kompresi pikiran (thought compression)"
- Setelah menyelesaikan masalah dengan token yang lebih sedikit, performa kemudian diperkuat lagi melalui pemikiran yang diperluas
- Melalui penalaran paralel multi-agen, model berhasil meningkatkan performa tanpa menambah latensi
Evaluasi keamanan
- Karena Muse Spark memiliki kemampuan penalaran yang luas, termasuk di bidang ilmiah penggunaan ganda, Meta melakukan evaluasi keamanan yang ekstensif sebelum peluncuran
- Berdasarkan Advanced AI Scaling Framework v2 milik Meta, perusahaan mendefinisikan model ancaman, protokol evaluasi, dan kriteria peluncuran
- Di area berisiko tinggi seperti senjata biologis dan kimia, model menunjukkan perilaku penolakan (refusal) yang kuat, yang diperkuat melalui penyaringan data, post-training berfokus keamanan, dan perlindungan tingkat sistem
- Di area keamanan siber dan kehilangan kendali (Loss of Control), model tidak memiliki kemampuan otonom untuk mewujudkan skenario berisiko
- Secara keseluruhan, hasil evaluasi menunjukkan bahwa Muse Spark berada dalam ambang standar keamanan pada semua kategori risiko frontier yang diukur
- Dalam evaluasi eksternal oleh Apollo Research, Muse Spark diamati sebagai model dengan tingkat kesadaran evaluasi (evaluation awareness) tertinggi
- Dalam beberapa situasi, model menyadari bahwa dirinya sedang dievaluasi dan menyimpulkan bahwa ia harus bertindak jujur
- Namun, dampak kesadaran ini terhadap perilaku nyata terbatas, dan hanya ditemukan pengaruh kecil pada beberapa evaluasi alignment yang tidak terkait dengan kemampuan berisiko
- Meta tidak menganggap ini sebagai faktor penghambat peluncuran, dan hanya menyoroti perlunya penelitian lanjutan
Kesimpulan
- Muse Spark berada di jalur penskalaan yang dapat diprediksi dan efisien, dan ke depan akan berkembang menjadi model superinteligensi personal yang lebih kuat
- Meta akan terus merilis model yang semakin ditingkatkan, dengan tujuan melangkah menuju era superinteligensi yang dipersonalisasi
1 komentar
Komentar Hacker News
Saya tidak paham kenapa orang-orang meremehkan ini. Jika model ini setara atau sedikit di atas Opus 4.6, itu berarti Meta berhasil membuat model yang mampu bersaing dengan perusahaan AI terdepan
Memang mungkin biayanya besar, tetapi sekarang tampaknya tidak terlalu jauh untuk mengembangkannya menjadi agen coding. Selain itu, dari sudut pandang Meta, mereka bisa langsung memakai model SATA di seluruh produk mereka seperti IG, WhatsApp, VR, dan lainnya, jadi dalam jangka panjang ini juga akan membantu sisi finansial
Saya melihat contoh Pelicans setelah membaca tulisan Simon Willison. Saya juga mencobanya langsung di meta.ai dan hasilnya cukup bagus. Yang paling menarik terutama adalah container Code Interpreter Python dan alat analisis gambar bernama container.visual_grounding
Menurut saya fenomena ini mirip dengan demam kereta api pada abad ke-19. Jika banyak perusahaan membuat AI dengan level yang mirip, maka penghalang masuk (moat) akan hilang dan pada akhirnya harga akan turun. Bisa jadi investasi mereka tidak akan kembali
Saya sudah menjalankan benchmark internal dan hasilnya sama sekali tidak mengesankan. Belum selevel untuk dibandingkan dengan OpenAI, Anthropic, atau Gemini. Ada juga banyak kesalahan analitis saat menjawab pertanyaan teknis
Saya menekan kolom input “Ask Meta AI…” lalu langsung dihadapkan pada permintaan login dan proses integrasi Facebook/Instagram. Rasanya seperti dark pattern yang sangat khas. OpenAI menangani bagian seperti ini jauh lebih baik
Jika Meta benar-benar kembali memiliki model frontier, sekarang saya jadi penasaran dengan arah strategi mereka. Saya bertanya-tanya apakah mereka sudah meninggalkan filosofi ekosistem terbuka seperti dulu
Memang llama4 kurang berhasil, tetapi kalau mereka mempertahankan strategi itu, rasanya mereka akan jauh lebih maju daripada sekarang. Perusahaan lain sudah membangun ekosistem, tetapi Meta belum punya.
Untuk kembali menjadi pusat percakapan, mereka perlu menginvestasikan mungkin sekitar 1 miliar dolar ke proyek seperti OpenCode untuk menghidupkan lagi ekosistem terbuka. Kalau tidak, mereka hanya akan tetap menjadi model internal tertutup
Untuk pertama kalinya saya mencoba uji penalaran visual berbasis gambar teknik, dan di antara ChatGPT, Claude, Gemini, serta Grok, hanya Gemini yang berhasil. Tetapi Muse Spark melakukannya dengan sempurna. Ia mengekstrak halaman yang relevan dari PDF, menampilkannya secara inline, lalu memberikan jawaban yang tepat
Mungkin ini cuma keberuntungan untuk sekarang, tetapi kesan pertamanya sangat bagus jadi saya akan terus mengujinya. Hanya saja, kebijakan penggunaan data Meta sangat agresif sehingga tidak cocok untuk materi sensitif.
Akan bagus jika melalui paket berbayar mereka menyediakan opsi pengecualian data dari pelatihan. Struktur yang menghasilkan uang dari data alih-alih dari layanan gratis terasa mengkhawatirkan
Model kali ini mendekati GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Untuk coding OpenAI unggul, untuk penalaran teks Google unggul, dan untuk Humanity’s Last Exam Anthropic unggul. Meski begitu, bisa dibilang Meta telah kembali menjadi lab frontier.
Saat ini situasinya seperti perlombaan 3,5 kuda, dan model berikutnya jadi menarik untuk dinantikan. Bertambahnya persaingan adalah hal yang baik. Sepertinya Grok 4.2 sekarang perlu dikeluarkan dari tabel
“Personal” pada akhirnya berarti Meta memakai data pribadi untuk iklan
Istilah “visual chain of thought” menarik. Saya bingung apakah itu berarti pengguna bisa melihat proses penalaran secara visual, atau justru berarti modelnya berpikir berbasis gambar. Kalau yang kedua, itu akan benar-benar revolusioner