1 poin oleh GN⁺ 2026-04-10 | 1 komentar | Bagikan ke WhatsApp
  • Muse Spark yang dikembangkan oleh Meta Superintelligence Labs adalah model penalaran multimodal yang mendukung penggunaan alat, rantai pemikiran visual, dan kolaborasi multi-agen
  • Sebagai langkah pertama menuju superinteligensi personal (personal superintelligence), model ini saat ini tersedia dalam bentuk pratinjau API privat untuk sebagian pengguna di meta.ai dan aplikasi Meta AI
  • Model ini berkembang di sepanjang tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji, serta mencapai efisiensi pelatihan lebih dari 10 kali lipat dibanding Llama 4
  • Melalui mode Contemplating, model ini melakukan penalaran tingkat tinggi berbasis agen paralel dan menghadirkan kemampuan berpikir lanjutan setara Gemini Deep Think dan GPT Pro
  • Meta menargetkan pengembangan Muse Spark menjadi model superinteligensi personal yang dipersonalisasi, aman, dan efisien

Ikhtisar Muse Spark

  • Muse Spark adalah model penalaran multimodal yang dikembangkan oleh Meta Superintelligence Labs, dengan dukungan untuk penggunaan alat, rantai pemikiran visual (visual chain of thought), dan orkestrasi multi-agen
  • Ini adalah hasil pertama dari pembangunan ulang menyeluruh riset AI Meta, dan diperkenalkan sebagai langkah awal menuju superinteligensi personal (personal superintelligence)
  • Meta sedang memperluas investasinya di seluruh riset, pelatihan model, dan infrastruktur, termasuk pusat data Hyperion
  • Saat ini tersedia di meta.ai dan aplikasi Meta AI, dengan pratinjau API privat untuk sebagian pengguna

Fitur untuk superinteligensi personal

  • Muse Spark memiliki performa yang kompetitif dalam persepsi multimodal, penalaran, kesehatan, dan tugas berbasis agen
  • Meta terus berinvestasi untuk menutup kesenjangan performa di beberapa area seperti sistem agen jangka panjang dan alur kerja coding
  • Mode Contemplating menjalankan beberapa agen secara paralel untuk menyelesaikan masalah kompleks, dan diposisikan untuk menandingi mode penalaran tingkat tinggi model terdepan seperti Gemini Deep Think dan GPT Pro
    • Mencapai performa 58% pada Humanity’s Last Exam dan 38% pada FrontierScience Research
  • Mode Contemplating akan diluncurkan secara bertahap di meta.ai

Bidang aplikasi utama

  • Muse Spark menyediakan fondasi untuk berkembang menjadi superinteligensi personal yang memahami dan berinteraksi dengan dunia pengguna
  • Melalui integrasi multimodal, model ini menggabungkan informasi visual dan alat untuk mencapai performa tinggi pada soal visual STEM, pengenalan entitas, penentuan lokasi, dan lainnya
    • Contoh: pembuatan mini-game dan pemberian anotasi dinamis saat memecahkan masalah perangkat rumah tangga
    Iklan
  • Di bidang kesehatan, Meta membangun data pelatihan bersama lebih dari 1.000 dokter, sehingga memungkinkan penalaran kesehatan yang faktual dan komprehensif
    • Dapat membuat tampilan interaktif yang menjelaskan secara visual informasi kesehatan seperti kandungan nutrisi makanan atau otot yang aktif saat berolahraga
  • Contoh prompt mendemonstrasikan interaksi visual yang dipersonalisasi seperti evaluasi pose yoga, visualisasi rekomendasi diet, dan tutorial penggunaan mesin kopi

Sumbu penskalaan

  • Penskalaan Muse Spark berpusat pada tiga sumbu: pra-pelatihan, reinforcement learning, dan penalaran saat waktu uji
  • Pra-pelatihan

    • Tahap pembentukan dasar pemahaman multimodal, penalaran, dan kemampuan coding model
    • Dalam 9 bulan terakhir, Meta meningkatkan arsitektur model, optimisasi, dan kurasi data untuk secara signifikan meningkatkan efisiensi komputasi
    • FLOPs pelatihan yang dibutuhkan untuk mencapai performa yang sama berkurang lebih dari 10 kali dibanding Llama 4 Maverick, membuatnya lebih efisien daripada model pesaing utama
  • Reinforcement learning

    • Tahap untuk memperluas kemampuan model setelah pra-pelatihan, dengan mengatasi ketidakstabilan RL skala besar guna memperoleh peningkatan performa yang dapat diprediksi
    • Seiring peningkatan komputasi RL (jumlah langkah), metrik pass@1 dan pass@16 tumbuh secara log-linear, sehingga keandalan dan keberagaman model meningkat secara bersamaan
    • Akurasi juga meningkat pada set evaluasi yang tidak disertakan dalam pelatihan, yang membuktikan kemampuan generalisasi
  • Penalaran saat waktu uji

    • Model dilatih untuk menjalani proses "berpikir" sebelum memberikan respons
    • Untuk penggunaan token yang efisien, digunakan penalti waktu berpikir (thinking time penalty) dan kolaborasi multi-agen
    • Pelatihan RL memberi penalti pada waktu berpikir sambil tetap memaksimalkan akurasi, yang pada akhirnya memunculkan fenomena "kompresi pikiran (thought compression)"
      • Setelah menyelesaikan masalah dengan token yang lebih sedikit, performa kemudian diperkuat lagi melalui pemikiran yang diperluas
      Iklan
    • Melalui penalaran paralel multi-agen, model berhasil meningkatkan performa tanpa menambah latensi

Evaluasi keamanan

  • Karena Muse Spark memiliki kemampuan penalaran yang luas, termasuk di bidang ilmiah penggunaan ganda, Meta melakukan evaluasi keamanan yang ekstensif sebelum peluncuran
  • Berdasarkan Advanced AI Scaling Framework v2 milik Meta, perusahaan mendefinisikan model ancaman, protokol evaluasi, dan kriteria peluncuran
  • Di area berisiko tinggi seperti senjata biologis dan kimia, model menunjukkan perilaku penolakan (refusal) yang kuat, yang diperkuat melalui penyaringan data, post-training berfokus keamanan, dan perlindungan tingkat sistem
  • Di area keamanan siber dan kehilangan kendali (Loss of Control), model tidak memiliki kemampuan otonom untuk mewujudkan skenario berisiko
  • Secara keseluruhan, hasil evaluasi menunjukkan bahwa Muse Spark berada dalam ambang standar keamanan pada semua kategori risiko frontier yang diukur
  • Dalam evaluasi eksternal oleh Apollo Research, Muse Spark diamati sebagai model dengan tingkat kesadaran evaluasi (evaluation awareness) tertinggi
    • Dalam beberapa situasi, model menyadari bahwa dirinya sedang dievaluasi dan menyimpulkan bahwa ia harus bertindak jujur
    • Namun, dampak kesadaran ini terhadap perilaku nyata terbatas, dan hanya ditemukan pengaruh kecil pada beberapa evaluasi alignment yang tidak terkait dengan kemampuan berisiko
    • Meta tidak menganggap ini sebagai faktor penghambat peluncuran, dan hanya menyoroti perlunya penelitian lanjutan

Kesimpulan

  • Muse Spark berada di jalur penskalaan yang dapat diprediksi dan efisien, dan ke depan akan berkembang menjadi model superinteligensi personal yang lebih kuat
  • Meta akan terus merilis model yang semakin ditingkatkan, dengan tujuan melangkah menuju era superinteligensi yang dipersonalisasi

1 komentar

 
GN⁺ 2026-04-10
Komentar Hacker News
  • Saya tidak paham kenapa orang-orang meremehkan ini. Jika model ini setara atau sedikit di atas Opus 4.6, itu berarti Meta berhasil membuat model yang mampu bersaing dengan perusahaan AI terdepan
    Memang mungkin biayanya besar, tetapi sekarang tampaknya tidak terlalu jauh untuk mengembangkannya menjadi agen coding. Selain itu, dari sudut pandang Meta, mereka bisa langsung memakai model SATA di seluruh produk mereka seperti IG, WhatsApp, VR, dan lainnya, jadi dalam jangka panjang ini juga akan membantu sisi finansial

    • Reaksi skeptis juga bisa dimengerti. Dulu pernah ada insiden benchmark llama 4 yang dibesar-besarkan. Model ini juga sebenarnya sudah ada sejak beberapa bulan lalu, tetapi tampaknya saat itu peluncurannya ditunda karena hanya berada di level Gemini 2.5 Pro
    • Pasar agen coding sudah menjadi fokus Anthropic dan OpenAI. Peluang yang seharusnya dibidik Meta justru ada di area AI untuk konsumen. OpenAI akan segera sampai pada titik di mana mereka harus memutuskan apakah sumber daya diprioritaskan untuk pengguna gratis atau enterprise
    • Kalau hanya melihat benchmark, ini model yang cukup baik, tetapi untuk kegunaan praktis dalam pemrograman masih belum menyamai Opus. Kegunaan dalam pekerjaan coding sehari-hari tidak bisa sepenuhnya diukur lewat benchmark. Meski begitu, bertambahnya persaingan tetap hal yang bagus
    • Pernyataan bahwa ini “melampaui Opus 4.6” sebenarnya tidak benar
    • Ada juga banyak orang yang punya antipati dasar terhadap Meta. Entah itu adil atau tidak, banyak yang memang tidak suka hanya karena ini Meta
  • Saya melihat contoh Pelicans setelah membaca tulisan Simon Willison. Saya juga mencobanya langsung di meta.ai dan hasilnya cukup bagus. Yang paling menarik terutama adalah container Code Interpreter Python dan alat analisis gambar bernama container.visual_grounding

    • Alexandr Wang sempat menyebut bahwa ini mungkin nantinya akan dirilis sebagai open source, jadi saya menantikannya
    • Sepertinya alat yang tersedia berbeda-beda di tiap wilayah. Saya tidak punya fitur visual_grounding, dan hanya bisa mengakses fitur-fitur yang ada di tautan ini
    • Saya ingin bertanya pada Simon — dari semua model yang pernah dia lihat sejauh ini, model mana yang paling bagus membuat ‘pelikan yang mengendarai sepeda’
    • Sayang sekali karena di meta.ai harus login dulu untuk bisa memakainya. Semoga Openrouter juga segera mendukungnya. Tetap saja, ini cukup menjanjikan sampai membuat saya ingin cepat-cepat mencobanya
  • Menurut saya fenomena ini mirip dengan demam kereta api pada abad ke-19. Jika banyak perusahaan membuat AI dengan level yang mirip, maka penghalang masuk (moat) akan hilang dan pada akhirnya harga akan turun. Bisa jadi investasi mereka tidak akan kembali

    • Karena itu saya rasa Anthropic mempertahankan harga API tetap tinggi dan membatasi langganan produk mereka sendiri. Itu strategi yang menargetkan fakta bahwa pengguna nonteknis akan bertahan lebih lama
    • Bagaimanapun juga, mereka semua terhubung erat dengan pemerintah, jadi mereka akan mendapat lebih banyak dukungan daripada sekadar yang dijelaskan oleh logika pasar. Bahkan kalaupun gagal, hasilnya bisa saja berupa model open-weight. Hanya saja model-model itu pun kemungkinan akan ketinggalan zaman dalam beberapa bulan
    • Sebaliknya, saat ini AI sudah sepopuler smartphone dan sedisruptif mesin uap. Perusahaan AI sedang tumbuh menjadi perusahaan perangkat lunak terbesar di dunia, dan ada peluang pasar bernilai triliunan dolar
    • Moat yang sebenarnya adalah daya komputasi dan akses energi. Itu sebabnya Elon Musk membangun pabrik semikonduktor sendiri. Walaupun ada banyak model di HuggingFace, hampir tidak ada orang yang benar-benar bisa menjalankannya
  • Saya sudah menjalankan benchmark internal dan hasilnya sama sekali tidak mengesankan. Belum selevel untuk dibandingkan dengan OpenAI, Anthropic, atau Gemini. Ada juga banyak kesalahan analitis saat menjawab pertanyaan teknis

    • Setelah dites lagi, ada terlalu banyak kesalahan matematika dasar. Ketika diverifikasi silang dengan Gemini, hampir semua soal sederhana ditemukan ada salahnya
    • Meski begitu, di area multimodal hasilnya cukup bagus. Cukup layak untuk dipakai 3 miliar orang, tetapi di bidang sains masih tertinggal
    • Sebenarnya saya bahkan merasa Gemini pun belum cukup level untuk masuk ke percakapan itu
  • Saya menekan kolom input “Ask Meta AI…” lalu langsung dihadapkan pada permintaan login dan proses integrasi Facebook/Instagram. Rasanya seperti dark pattern yang sangat khas. OpenAI menangani bagian seperti ini jauh lebih baik

  • Jika Meta benar-benar kembali memiliki model frontier, sekarang saya jadi penasaran dengan arah strategi mereka. Saya bertanya-tanya apakah mereka sudah meninggalkan filosofi ekosistem terbuka seperti dulu
    Memang llama4 kurang berhasil, tetapi kalau mereka mempertahankan strategi itu, rasanya mereka akan jauh lebih maju daripada sekarang. Perusahaan lain sudah membangun ekosistem, tetapi Meta belum punya.
    Untuk kembali menjadi pusat percakapan, mereka perlu menginvestasikan mungkin sekitar 1 miliar dolar ke proyek seperti OpenCode untuk menghidupkan lagi ekosistem terbuka. Kalau tidak, mereka hanya akan tetap menjadi model internal tertutup

    • Mungkin sebenarnya tidak perlu harness terbuka yang baru. Anthropic sudah memberikannya gratis kepada komunitas
  • Untuk pertama kalinya saya mencoba uji penalaran visual berbasis gambar teknik, dan di antara ChatGPT, Claude, Gemini, serta Grok, hanya Gemini yang berhasil. Tetapi Muse Spark melakukannya dengan sempurna. Ia mengekstrak halaman yang relevan dari PDF, menampilkannya secara inline, lalu memberikan jawaban yang tepat
    Mungkin ini cuma keberuntungan untuk sekarang, tetapi kesan pertamanya sangat bagus jadi saya akan terus mengujinya. Hanya saja, kebijakan penggunaan data Meta sangat agresif sehingga tidak cocok untuk materi sensitif.
    Akan bagus jika melalui paket berbayar mereka menyediakan opsi pengecualian data dari pelatihan. Struktur yang menghasilkan uang dari data alih-alih dari layanan gratis terasa mengkhawatirkan

  • Model kali ini mendekati GPT 5.4 / Gemini 3.1 Pro / Opus 4.6. Untuk coding OpenAI unggul, untuk penalaran teks Google unggul, dan untuk Humanity’s Last Exam Anthropic unggul. Meski begitu, bisa dibilang Meta telah kembali menjadi lab frontier.
    Saat ini situasinya seperti perlombaan 3,5 kuda, dan model berikutnya jadi menarik untuk dinantikan. Bertambahnya persaingan adalah hal yang baik. Sepertinya Grok 4.2 sekarang perlu dikeluarkan dari tabel

    • Saya sempat memakai Grok Code sebagai utama selama beberapa waktu dan hasilnya cukup hebat. Pada akhirnya LLM memang tergantung pada konteks penggunaan dan domain. Khusus pertanyaan kesehatan, model lain cenderung menghindar sehingga saya tetap memakai Grok
    • Namun pendekatan Meta kali ini tampaknya masih kurang dalam kemampuan penalaran dan pemecahan masalah jangka panjang. Skor HLE-nya lebih rendah dibanding Mythos milik Anthropic. Meski begitu, secara keseluruhan ini tetap kemajuan yang positif
  • “Personal” pada akhirnya berarti Meta memakai data pribadi untuk iklan

    • Dan sambil melakukan itu, rasanya mereka juga menyerap esensi mental pengguna ke dalam model
    • Kalau saya cuma dianggap sebagai target iklan, ya tidak masalah, kirimi saja iklan sebanyak apa pun
  • Istilah “visual chain of thought” menarik. Saya bingung apakah itu berarti pengguna bisa melihat proses penalaran secara visual, atau justru berarti modelnya berpikir berbasis gambar. Kalau yang kedua, itu akan benar-benar revolusioner

    • Tetapi sebagian besar chain of thought yang saya lihat sejauh ini tampak seperti penalaran palsu yang hanya terlihat meyakinkan dari luar. Kenyataannya, di dalam model pemrosesannya terjadi dengan cara lain
    • Sebenarnya tahapan visual perantara seperti ini sudah muncul juga di Gemini. Saat mengerjakan tugas visual, model itu kadang membuat diagram perantara, dan dalam riset tahun 2024 juga pernah diusulkan pendekatan seperti turtle diagram