- Forge adalah sistem yang memungkinkan perusahaan membangun model AI berbasis pengetahuan internal mereka sendiri, melengkapi keterbatasan model lama yang berfokus pada data publik
- Dengan memanfaatkan dokumen internal, codebase, dan data operasional, Forge melatih model yang spesifik untuk domain serta mendukung seluruh tahap pre-training, post-training, dan reinforcement learning
- Perusahaan dapat mempertahankan kendali atas model, data, dan pengetahuan sekaligus melindungi aset intelektual, sehingga bisa digunakan juga di industri yang diatur ketat
- Melalui model kustom, agent perusahaan dapat memahami sistem dan kebijakan internal, serta menjalankan penggunaan tool dan pengambilan keputusan dengan akurat
- Mendukung beragam arsitektur dan reinforcement learning berkelanjutan, sehingga meningkatkan otonomi strategis enterprise AI dan kemungkinan perbaikan jangka panjang
Ikhtisar Forge
- Forge adalah sistem yang memungkinkan perusahaan membangun model AI kelas frontier berdasarkan pengetahuan dan data unik milik mereka
- Jika model lama berbasis data publik dioptimalkan untuk tugas umum, Forge mencerminkan konteks khas organisasi seperti standar internal, kebijakan, kode, dan catatan pengambilan keputusan
- Dengan demikian, AI dapat bekerja selaras dengan lingkungan operasional dan workflow perusahaan
- Mistral AI telah bekerja sama dengan ASML, Ericsson, European Space Agency, dan HTX Singapore untuk menerapkan teknologi ini
Melatih model berbasis pengetahuan organisasi
- Forge melatih model menggunakan data internal perusahaan dalam skala besar seperti dokumen internal, codebase, data terstruktur, dan catatan operasional
- Model mempelajari terminologi, pola penalaran, dan batasan dalam lingkungan tersebut
- Tahap pelatihan terdiri dari tiga bagian
- Pre-training: membangun model yang memahami domain dengan data internal
- Post-training: menyetel model secara rinci agar sesuai dengan tugas dan lingkungan tertentu
- Reinforcement learning: menyelaraskan perilaku model dengan kebijakan internal dan kriteria evaluasi, sekaligus meningkatkan performa di lingkungan nyata
- Hasilnya, dimungkinkan pengembangan model yang mencerminkan kecerdasan organisasi
Kendali dan otonomi strategis
- Forge dirancang agar perusahaan tetap memegang kendali atas model dan data
- Model dilatih dengan data internal dan dapat dikelola menurut kebijakan internal, kriteria evaluasi, dan kebutuhan operasional
- Ini memungkinkan pemenuhan persyaratan compliance dan governance di lingkungan yang diatur
- Dengan menjalankan model di infrastruktur sendiri, perusahaan memperoleh otonomi strategis
Model kustom dan agent yang andal
- Agent enterprise tidak cukup hanya menghasilkan respons, tetapi juga perlu menjelajahi sistem internal, menggunakan tool, dan mengambil keputusan berbasis kebijakan
- Agent berbasis model yang dilatih pada domain memahami istilah dan prosedur internal, serta relasi antarsistem
- Akurasi pemilihan tool meningkat, stabilitas workflow multi-tahap lebih kuat, dan keputusan dapat mencerminkan kebijakan internal
- Pada akhirnya, ini memungkinkan hadirnya AI agent sebagai komponen operasional
Dukungan untuk berbagai arsitektur model
- Forge mendukung arsitektur Dense dan Mixture-of-Experts(MoE)
- Model Dense unggul pada tugas umum, sementara MoE memungkinkan pengoperasian model berskala besar dengan latensi rendah dan efisiensi biaya
- Dukungan input multimodal memungkinkan pelatihan pada berbagai format data seperti teks dan gambar
Desain yang berpusat pada agent
- Forge dirancang dengan code agent sebagai pengguna utama
- Contoh: agent otonom seperti Mistral Vibe dapat melakukan fine-tuning model, pencarian hyperparameter, penjadwalan tugas, dan pembuatan data sintetis
- Forge mencegah penurunan performa melalui pemantauan metrik evaluasi selama pelatihan
- Dengan manajemen infrastruktur dan recipe pipeline data yang disertakan, kustomisasi model hanya dengan perintah bahasa alami menjadi mungkin
Peningkatan dan evaluasi berkelanjutan
- Forge mendukung pembelajaran adaptif berkelanjutan
- Melalui pipeline reinforcement learning, perilaku model dapat ditingkatkan berdasarkan umpan balik internal
- Framework evaluasinya memungkinkan pengujian terhadap benchmark internal, aturan regulasi, dan tugas spesifik domain
- Hasilnya adalah siklus hidup model yang terus ditingkatkan, bukan deployment statis
Contoh penerapan enterprise
- Instansi pemerintah: mendukung analisis kebijakan dan layanan publik melalui pembelajaran dokumen kebijakan multibahasa dan prosedur administrasi
- Lembaga keuangan: menjaga konsistensi governance internal dengan mempelajari dokumen regulasi dan prosedur risiko
- Tim software: meningkatkan produktivitas pengembangan seperti implementasi, debugging, dan review dengan mempelajari codebase internal
- Produsen/manufaktur: mendukung diagnosis dan pengambilan keputusan dengan mempelajari spesifikasi desain dan data pemeliharaan
- Perusahaan besar: mendukung workflow kompleks dan meningkatkan akurasi pencarian informasi dengan agent berbasis sistem pengetahuan internal
Kesimpulan: pergeseran menuju infrastruktur AI yang berpusat pada perusahaan
- Saat model AI menjadi lapisan inti infrastruktur perusahaan, pemodelan pengetahuan organisasi menjadi semakin penting
- Forge memberikan fondasi bagi perusahaan untuk membangun model yang dapat dilatih, diselaraskan, dan dievaluasi dengan data mereka sendiri hingga berkembang menjadi aset strategis
- Dengan ini, AI dapat bertransformasi dari sekadar tool eksternal menjadi kapabilitas inti yang berevolusi bersama pengetahuan organisasi
1 komentar
Komentar Hacker News
Saya suka Mistral. Keseimbangan antara biaya dan penyimpanan data di dalam UE terasa pas. Penurunan kualitasnya juga hampir tidak ada.
Tapi skema penamaan model mereka sangat membingungkan. Misalnya ada model bernama Devstral 2, tapi itu bukan Codestral maupun Devestral.
Di API ada banyak nama seperti devstral-2512, devstral-latest, devstral-medium-latest.
Saya kira yang benar adalah devstral-latest, jadi saya tanya ke tim dukungan, lalu 12 jam kemudian mereka mengirim panduan konfigurasi IntelliJ hasil buatan AI yang bilang “devstral 2 adalah devstral 2”.
Masalahnya, layar yang muncul di panduan itu bahkan tidak ada di produk sebenarnya
devstral-2512, devstral-latest, dan devstral-medium-latest semuanya adalah devstral 2.
labs-devstral-small-2512 dan devstral-small-latest adalah devstral small 2,
sedangkan devstral-medium-2507 adalah devstral 1.0, dan devstral-small-2507 adalah devstral small 1.1
Arahnya tampak seperti ingin menyediakan workflow yang disesuaikan untuk tiap perusahaan.
Atau mungkin ini cuma masalah komunikasi antardepartemen seperti di Google
Kualitas modelnya memang lebih rendah, tapi di Eropa itu tetap pilihan terbaik.
Tentu saja, model dari Tiongkok juga bisa dijalankan di server Eropa
Mistral tidak boleh diremehkan. Untuk LLM umum sebagai layanan, harganya cukup murah,
dan strategi mereka yang fokus pada pemodelan kustom alih-alih model raksasa tampaknya pada akhirnya bisa berhasil.
Terutama di lingkungan UE yang regulasinya ketat, ini bisa jadi keunggulan.
Dunia bukan cuma soal pembuatan kode
Hanya saja ini adalah strategi dengan hambatan masuk rendah, jadi mudah ditiru.
Jika mereka bisa mengumpulkan banyak model pra-latih untuk tiap produk seperti ERP, CRM, dan lain-lain,
lalu menjual model lanjutan yang mencerminkan data kustomisasi milik pelanggan, itu baru moat yang sesungguhnya.
Kuncinya adalah menutup kontrak secara diam-diam
Saya ragu pemodelan kustom bisa menggantikan pengetahuan sebesar itu
Cukup unggah dataset, lalu modelnya langsung bisa dipakai lewat endpoint.
Memang ada batasan, tapi ini sangat meningkatkan aksesibilitas
Ia juga berjalan secara lokal, sehingga pengembang tetap punya kendali
Kualitas modelnya termasuk yang terendah di antara LLM
Saya penasaran dengan makna “pre-training” dan “post-training”.
Pada praktiknya, rasanya tidak mungkin ada cukup banyak dataset bersih,
jadi saya bingung apakah yang mereka maksud dengan pre-training itu benar-benar pelatihan model dasar, atau sebenarnya SFT (supervised fine-tuning).
Mungkin saja mereka membuat data sintetis berdasarkan data internal lalu melakukan distilasi pengetahuan resolusi rendah
Karena tujuannya tetap prediksi token berikutnya, itu disebut “continued pre-training”.
Post-training adalah semua proses berbasis umpan balik manusia seperti SFT, DPO, RL, dan sebagainya
sedangkan post-training berarti menambahkan data ke prompt seperti pada RAG
Dari penjelasan Forge, mereka mengklaim bisa melatih model dengan dokumen internal perusahaan atau codebase
agar pengetahuan domain terinternalisasi.
Tapi menurut saya, untuk akuisisi pengetahuan, RAG lebih efektif daripada fine-tuning.
Fine-tuning bagus untuk mengubah “nada” model, tetapi sulit untuk benar-benar menyuntikkan pengetahuan baru
Saya mendukung pendekatan Mistral.
Strategi yang fokus pada rekayasa yang disesuaikan untuk pelanggan dan pasar UE, alih-alih ikut lomba model raksasa, terasa bijak
Model lain terlalu khawatir soal tingkat pemahaman pembaca,
sementara Mistral mampu mengikuti diskusi yang dalam dan teknis dengan baik
Belakangan ini Mistral benar-benar banyak melakukan eksperimen menarik.
Memang sulit bersaing dengan OpenAI atau Anthropic,
tetapi orisinalitas desain produk mereka menonjol.
Secara pribadi, saya bahkan ingin bekerja di perusahaan itu
Mistral akhir-akhir ini merilis banyak fitur keren.
Memang bukan model terdepan, tetapi mengingat perusahaan kecil sulit melatih model sendiri,
alat seperti ini adalah peluang besar.
Apalagi jika dipadukan dengan alat seperti unsloth, proses pelatihan jadi terasa jauh lebih realistis
Saya penasaran, seberapa banyak kasus penggunaan perusahaan yang benar-benar membutuhkan fine-tuning.
Bukankah RAG saja cukup?
maka panggilan ke network LLM bisa dikurangi untuk hal-hal seperti analisis log, penggunaan tool, dan penerapan pengetahuan domain
Sebaliknya, fine-tuning meningkatkan kemampuan penalaran model itu sendiri
Menarik memikirkan apa yang disiratkan pendekatan ini terhadap struktur pendapatan AI.
Jumlah GPU tampaknya tidak akan menjadi hambatan masuk.
Sebaliknya, data yang spesialis dan eksklusif akan menjadi moat yang sesungguhnya.
Data internal perusahaan berisi pengetahuan yang tak tergantikan.
Mistral bertaruh tepat pada hal itu
tetapi bisa juga dibilang kita sebenarnya dilatih oleh 3,5 miliar tahun data evolusi
Ini adalah cara paling cerdas untuk menghasilkan uang dari AI.
MongoDB juga memasuki pasar RAG perusahaan dan konsultasi model kustom melalui VoyageAI