- ModernBERT adalah model encoder-only baru yang menerapkan teknologi terbaru, dengan peningkatan kecepatan dan akurasi dibanding BERT dan model-model penerusnya
- Mendukung panjang konteks hingga 8192 token, dan juga dilatih dengan data kode
- Dapat digunakan di berbagai bidang aplikasi, dan sangat cocok khususnya untuk pencarian kode skala besar serta fitur IDE baru
Pengantar
- BERT dirilis pada 2018 dan masih digunakan secara luas hingga kini, terutama cocok untuk pencarian, klasifikasi, dan ekstraksi entitas.
- ModernBERT adalah model pengganti BERT, dengan peningkatan Pareto dalam kecepatan dan akurasi.
- Dengan panjang konteks yang lebih besar dan penyertaan data kode, model ini membuka bidang aplikasi baru.
Model decoder-only
- Model decoder-only seperti GPT, Llama, dan Claude adalah model generatif yang mampu menghasilkan konten mirip manusia.
- Namun, model-model ini besar, lambat, dan membutuhkan biaya tinggi.
- Model encoder-only lebih praktis, efisien, dan cocok untuk banyak tugas.
Model encoder-only
- Model encoder-only merepresentasikan input dengan mengubahnya menjadi vektor numerik.
- Model decoder-only tidak dapat melihat token masa depan, tetapi model encoder-only dapat melihat token secara dua arah sehingga lebih efisien.
- Model encoder-only digunakan di berbagai bidang aplikasi, dan sangat penting khususnya dalam pipeline RAG serta sistem rekomendasi.
Ringkasan performa
- ModernBERT menunjukkan akurasi tinggi di berbagai tugas, serta lebih cepat dan menggunakan memori lebih sedikit dibanding DeBERTaV3.
- Dalam inferensi konteks panjang, hingga 3 kali lebih cepat dibanding model berkualitas tinggi lainnya.
- Menunjukkan performa unggul dalam pencarian kode, sehingga membuka kemungkinan pengembangan aplikasi baru.
Efisiensi
- ModernBERT menekankan kepraktisan dan menunjukkan performa cepat pada berbagai panjang input.
- Pada input konteks panjang, 2-3 kali lebih cepat dibanding model lain.
- Dapat menggunakan ukuran batch yang lebih besar, sehingga tetap efektif bahkan pada GPU kecil.
Sisi modern dari ModernBERT
- ModernBERT menghadirkan peningkatan dengan menerapkan rekayasa terbaru pada model encoder.
- Mengadopsi arsitektur Transformer++ untuk meningkatkan performa.
- Menekankan efisiensi serta skala dan sumber data modern.
Transformer baru
- ModernBERT mengadopsi arsitektur Transformer++ untuk meningkatkan performa.
- Menggunakan RoPE untuk meningkatkan pengodean posisi, dan memakai layer GeGLU untuk menggantikan layer MLP.
- Menghapus term bias yang tidak perlu untuk mengoptimalkan penggunaan parameter.
Upgrade Honda Civic untuk lintasan balap
- ModernBERT menekankan kecepatan dan dapat digunakan secara efisien di berbagai bidang aplikasi.
- Meningkatkan efisiensi dengan memanfaatkan peningkatan kecepatan dari Flash Attention 2.
- Mengurangi pemborosan komputasi melalui Alternating Attention, Unpadding, dan Sequence Packing.
Perhatian terhadap perangkat keras
- ModernBERT dirancang dengan mempertimbangkan desain perangkat keras agar dapat memberikan performa optimal di berbagai GPU.
- Model ini dirancang dengan mempertimbangkan struktur yang dalam dan sempit serta efisiensi perangkat keras.
Pelatihan
- ModernBERT dilatih menggunakan data dari berbagai sumber, dengan total 2 triliun token.
- Melalui proses pelatihan tiga tahap, model ini menunjukkan performa unggul di berbagai tugas.
- Pada tahap awal pelatihan, digunakan batch size warmup untuk meningkatkan kecepatan.
Kesimpulan
- ModernBERT meningkatkan performa model encoder-only dengan menerapkan teknologi terbaru.
- Menawarkan performa kuat di berbagai tugas, dengan rasio ukuran/kinerja yang menarik.
- Komunitas diharapkan dapat memanfaatkannya secara kreatif, dan saat ini sedang berlangsung kompetisi untuk demo.
1 komentar
Pendapat Hacker News