OpenMythos: Muncul implementasi open-source hasil rekayasa balik Claude Mythos
(github.com/kyegomez)- Proyek open-source yang mengasumsikan arsitektur Claude Mythos dan mengimplementasikannya dalam bentuk “transformer yang berpikir secara berulang”
- OpenMythos merekonstruksi arsitektur berdasarkan Claude Mythos, yang dikenal sebagai model generasi berikutnya dari Anthropic, dengan menggabungkan informasi yang dipublikasikan dan ide-ide riset
- Ini bukan model yang sebenarnya, melainkan proyek yang mewujudkan hipotesis dalam kode bahwa “model ini mungkin bekerja dengan cara seperti ini”
Ide inti
Inti proyek ini, berbeda dari LLM konvensional,
adalah menjalankan struktur yang sama berulang kali alih-alih memperbesar model.
Dengan menjalankan satu layer berkali-kali, model memperbarui status internalnya secara bertahap,
dan dalam proses itu melakukan penalaran yang lebih dalam.
Struktur utama
- Struktur yang menjalankan blok transformer yang sama secara berulang
- Pakar yang berbeda (MoE) diaktifkan secara selektif selama proses pengulangan
- Hasil antara diproses di status internal tanpa dikeluarkan sebagai token eksternal
- Menerapkan struktur attention untuk meningkatkan efisiensi memori
Perbedaan dengan pendekatan yang ada
Jika LLM pada umumnya menampakkan proses penalaran sambil menghasilkan token,
struktur ini lebih dekat ke pendekatan yang mengulang perhitungan beberapa kali di dalam lalu hanya mengeluarkan hasil akhir.
Dengan kata lain, bukan “berpikir sambil berbicara”,
melainkan mengarah pada “struktur yang berpikir cukup lama di dalam sebelum berbicara.”
Makna
Pendekatan ini juga terkait dengan masalah biaya akibat meningkatnya penggunaan token.
Sebab, jika penalaran diproses melalui pengulangan internal, jumlah token yang dihasilkan ke luar dapat dikurangi.
Selain itu, ini bisa dilihat sebagai arah baru karena meningkatkan performa model bukan lewat penambahan jumlah parameter,
melainkan lewat peningkatan komputasi pada tahap penalaran.
Keterbatasan
Belum ada jaminan bahwa arsitekturnya benar-benar sama dengan Claude Mythos yang sesungguhnya,
dan hasil performa yang tervalidasi atau eksperimen skala besar juga masih minim.
Insight satu baris
- Alih-alih terus memperbesar model, menjalankan model yang sama berulang kali agar bisa berpikir lebih dalam dapat menjadi arah desain LLM generasi berikutnya
8 komentar
Akan bagus kalau ada tombol downvote di GeekNews.
Ada wkwk
Kalau begitu ini sama sekali bukan hasil reverse engineering, kan;;
Bahkan belum pernah dirilis secara publik, bagaimana bisa direkayasa balik...??
Bukan model yang sebenarnya, melainkan proyek yang mengimplementasikan hipotesis dalam bentuk kode bahwa “mungkin bekerja dengan cara seperti ini”..
Kenapa tidak bikin saja gpt 6 lalu bilang mungkin bisa bekerja dengan cara seperti ini~ wkwk
Orang ini sepertinya setiap kali ada isu yang sedang ramai, selalu memproduksi nama dengan pola
open*, jadi kesannya menurut saya tidak terlalu bagus..Begitu tahu siapa yang melakukannya, saya cuma bisa mengangguk setelah lihat ternyata dia pimpinan proyek koin..
Oh, benar juga. Melihat daftar repo, sepertinya ada beberapa proyek lain lagi yang dimulai dengan Open..