RustGPT: LLM transformer murni yang sepenuhnya diimplementasikan dari nol dengan Rust

(github.com/tekaratzas)

23 poin oleh GN⁺ 2025-09-16 | Belum ada komentar. | Bagikan ke WhatsApp

RustGPT adalah model bahasa berbasis transformer yang diimplementasikan hanya dengan Rust murni dan ndarray, tanpa framework machine learning eksternal
Dirancang agar dapat mempelajari pengetahuan berbasis fakta dan pola percakapan melalui pre-training dan instruction tuning
Strukturnya mengikuti arsitektur LLM yang umum: tokenizer → embedding → blok transformer → output projection
Menyediakan struktur kode sumber yang modular dan kode pengujian sehingga proses pelatihan, inferensi, dan optimisasi dapat dipahami secara rinci
Menjadi referensi penting bagi pengembang atau pembelajar di ekosistem Rust yang ingin mengimplementasikan LLM dari nol tanpa ketergantungan pada framework

Gambaran proyek

RustGPT adalah proyek open source yang mengimplementasikan LLM hanya dengan bahasa Rust murni dan pustaka operasi aljabar linear (ndarray), tanpa framework machine learning eksternal atau dependensi yang rumit
Tujuan utamanya adalah mengimplementasikan langsung komponen inti LLM modern (transformer, attention, embedding, optimisasi, dan sebagainya) serta memahami proses pelatihannya
Berbeda dari LLM arus utama lainnya, proyek ini merancang sendiri struktur transformer, backpropagation, tokenizer, optimizer, dan lainnya sepenuhnya dalam kode Rust, sehingga pengembang dan peneliti Rust dapat memahami serta memperluas prinsip deep learning langsung dari dasarnya
Keunikan utamanya adalah penggunaan ndarray untuk operasi matriks dan tidak bergantung pada paket machine learning eksternal seperti PyTorch atau TensorFlow
Modularitas dan cakupan pengujiannya kuat, sehingga cocok untuk berbagai eksperimen dan penyempurnaan, serta sesuai untuk tujuan edukasi LLM “dibuat sendiri dari nol” (From Scratch)

Arsitektur transformer: teks masukan → tokenisasi → embedding → blok transformer → prediksi akhir
- Teks masukan melalui proses tokenisasi lalu diubah menjadi vektor embedding
- Embedding melewati Transformer Block (multi-head attention + feedforward network)
- Terakhir, Output Projection Layer menghasilkan distribusi probabilitas kosakata untuk melakukan prediksi

main.rs: pipeline pelatihan, persiapan data, menjalankan mode interaktif
llm.rs: logika forward pass, backward pass, dan pelatihan untuk keseluruhan LLM
transformer.rs, self_attention.rs, feed_forward.rs: blok inti transformer
embeddings.rs, output_projection.rs: embedding dan lapisan keluaran akhir
adam.rs: implementasi optimizer Adam
Setiap modul menyertakan kode pengujian yang sesuai (tests/) sehingga verifikasi fungsionalitas dapat dilakukan

Proses pelatihan
- Pembuatan kosakata → pre-training (100 epoch, data kalimat faktual) → instruction tuning (100 epoch, data percakapan)
- Contoh pre-training: "The sun rises in the east and sets in the west"
- Contoh instruction tuning: "User: How do mountains form? Assistant: ..."
Dukungan mode interaktif
- Setelah pelatihan selesai, pengujian percakapan berbasis prompt-respons dapat dilakukan
- Contoh: "How do mountains form?" → "Mountains are formed through tectonic forces or volcanism..."

Tokenizer kustom (penanganan tanda baca)
Pembuatan teks berbasis greedy decoding
Struktur lapisan modular dan antarmuka yang jelas
Cakupan pengujian: dilengkapi kode unit test untuk tiap lapisan dan fungsi
Dependensi: hanya menggunakan ndarray (operasi matriks), rand/rand_distr (inisialisasi acak) (tanpa ML eksternal seperti PyTorch/TensorFlow)
Nilai edukatif: sangat cocok untuk mempelajari struktur internal dan prinsip pelatihan LLM modern yang representatif

Adopsi arsitektur lanjutan: multi-head attention, RoPE, positional encoding, dan sebagainya
Optimisasi performa: SIMD, pelatihan paralel, peningkatan efisiensi memori
Dukungan penyimpanan/pemuatan model
Penambahan sampling yang lebih baik (beam search, Top-k/Top-p) dan metrik evaluasi

Proyek pembelajaran dan eksperimen yang menunjukkan bahwa LLM dapat diimplementasikan langsung hanya dengan Rust tanpa bergantung pada framework berbasis Python seperti PyTorch atau TensorFlow
Referensi yang berguna bagi pengembang yang ingin memahami cara kerja internal LLM dan membangun sistem ML di lingkungan Rust