ModernBERT - Model pengganti BERT

(huggingface.co)

17 poin oleh GN⁺ 2024-12-20 | 1 komentar | Bagikan ke WhatsApp

ModernBERT adalah model encoder-only baru yang menerapkan teknologi terbaru, dengan peningkatan kecepatan dan akurasi dibanding BERT dan model-model penerusnya
Mendukung panjang konteks hingga 8192 token, dan juga dilatih dengan data kode
Dapat digunakan di berbagai bidang aplikasi, dan sangat cocok khususnya untuk pencarian kode skala besar serta fitur IDE baru

Pengantar

BERT dirilis pada 2018 dan masih digunakan secara luas hingga kini, terutama cocok untuk pencarian, klasifikasi, dan ekstraksi entitas.
ModernBERT adalah model pengganti BERT, dengan peningkatan Pareto dalam kecepatan dan akurasi.
Dengan panjang konteks yang lebih besar dan penyertaan data kode, model ini membuka bidang aplikasi baru.

Model decoder-only

Model decoder-only seperti GPT, Llama, dan Claude adalah model generatif yang mampu menghasilkan konten mirip manusia.
Namun, model-model ini besar, lambat, dan membutuhkan biaya tinggi.
Model encoder-only lebih praktis, efisien, dan cocok untuk banyak tugas.

Model encoder-only

Model encoder-only merepresentasikan input dengan mengubahnya menjadi vektor numerik.
Model decoder-only tidak dapat melihat token masa depan, tetapi model encoder-only dapat melihat token secara dua arah sehingga lebih efisien.
Model encoder-only digunakan di berbagai bidang aplikasi, dan sangat penting khususnya dalam pipeline RAG serta sistem rekomendasi.

Ringkasan performa

ModernBERT menunjukkan akurasi tinggi di berbagai tugas, serta lebih cepat dan menggunakan memori lebih sedikit dibanding DeBERTaV3.
Dalam inferensi konteks panjang, hingga 3 kali lebih cepat dibanding model berkualitas tinggi lainnya.
Menunjukkan performa unggul dalam pencarian kode, sehingga membuka kemungkinan pengembangan aplikasi baru.

Efisiensi

ModernBERT menekankan kepraktisan dan menunjukkan performa cepat pada berbagai panjang input.
Pada input konteks panjang, 2-3 kali lebih cepat dibanding model lain.
Dapat menggunakan ukuran batch yang lebih besar, sehingga tetap efektif bahkan pada GPU kecil.

Sisi modern dari ModernBERT

ModernBERT menghadirkan peningkatan dengan menerapkan rekayasa terbaru pada model encoder.
Mengadopsi arsitektur Transformer++ untuk meningkatkan performa.
Menekankan efisiensi serta skala dan sumber data modern.

Transformer baru

ModernBERT mengadopsi arsitektur Transformer++ untuk meningkatkan performa.
Menggunakan RoPE untuk meningkatkan pengodean posisi, dan memakai layer GeGLU untuk menggantikan layer MLP.
Menghapus term bias yang tidak perlu untuk mengoptimalkan penggunaan parameter.

Upgrade Honda Civic untuk lintasan balap

ModernBERT menekankan kecepatan dan dapat digunakan secara efisien di berbagai bidang aplikasi.
Meningkatkan efisiensi dengan memanfaatkan peningkatan kecepatan dari Flash Attention 2.
Mengurangi pemborosan komputasi melalui Alternating Attention, Unpadding, dan Sequence Packing.

Perhatian terhadap perangkat keras

ModernBERT dirancang dengan mempertimbangkan desain perangkat keras agar dapat memberikan performa optimal di berbagai GPU.
Model ini dirancang dengan mempertimbangkan struktur yang dalam dan sempit serta efisiensi perangkat keras.

Pelatihan

ModernBERT dilatih menggunakan data dari berbagai sumber, dengan total 2 triliun token.
Melalui proses pelatihan tiga tahap, model ini menunjukkan performa unggul di berbagai tugas.
Pada tahap awal pelatihan, digunakan batch size warmup untuk meningkatkan kecepatan.

Kesimpulan

ModernBERT meningkatkan performa model encoder-only dengan menerapkan teknologi terbaru.
Menawarkan performa kuat di berbagai tugas, dengan rasio ukuran/kinerja yang menarik.
Komunitas diharapkan dapat memanfaatkannya secara kreatif, dan saat ini sedang berlangsung kompetisi untuk demo.

1 komentar

GN⁺ 2024-12-20

Pendapat Hacker News

Jeremy dari Answer.AI berharap peluncuran model baru ini bisa menjadi fondasi bagi beragam startup dan proyek
- Isi yang disebutkan dalam posting blog itu hanya puncak gunung es, dan ada banyak peluang untuk melakukan fine-tuning model dengan berbagai cara
Model encoder-only mencatat lebih dari 1 miliar unduhan per bulan, tiga kali lebih banyak daripada model decoder-only
- Ini juga karena pengguna decoder tidak memakai Hugging Face dan menggunakan panggilan API, serta karena encoder adalah pahlawan tersembunyi dari sebagian besar aplikasi ML yang serius
- Untuk melakukan ranking, rekomendasi, RAG, dan sebagainya, dibutuhkan encoder, dan umumnya digunakan model dari keluarga BERT, RoBERTa, dan ALBERT
Saat menggunakan model BERT untuk peringkasan dan sebagainya beberapa tahun lalu, rasanya seperti keajaiban
- Saya akan menunggu sampai Ollama menambahkannya ke pustaka, dan peningkatan kecepatan LLM belakangan ini sangat mengesankan
- Apple telah mendukung model BERT di SDK pengembangnya, dan saya penasaran seberapa cepat mereka akan memperbaruinya dengan teknologi baru
Setelah membaca makalahnya, saya terkesan dengan penambahan local attention layer
- Saya sudah bereksperimen dengannya selama beberapa tahun di repositori Lucidrains, dan heran mengapa hal ini tidak berkembang lebih jauh
- Kecepatan inferensinya luar biasa, dan ada banyak peningkatan seperti penghapusan NSP, peningkatan masking, RoPE, serta konteks yang panjang
- Saya ingin membuat "ModernTinyBERT", tetapi layer-layernya saling terjalin dengan rumit sehingga sulit
Saya penasaran di mana model BERT saat ini digunakan
- Saya memahaminya sebagai alternatif yang lebih baik daripada LLM untuk tugas tertentu, dan dapat memahami konteks dua arah dengan lebih baik
- Namun LLM juga sangat kuat, jadi perbedaannya mungkin kecil
Saya penasaran apakah model ini bisa di-fine-tune dengan SentenceTransformers
- ColBERT termasuk dalam benchmark, dan saya penasaran apakah answerai-colbert-small-v2 akan segera dirilis
Saya penasaran apakah ada yang sudah melihat evaluasi RAG untuk ModernBERT
Tim Answer.ai tampil sangat baik hari ini, dan memuji Jeremy serta tim atas kerja bagus mereka
Saya penasaran apakah model ini hanya mendukung bahasa Inggris, dan apakah ada rencana menerbitkan model multibahasa atau model monolingual untuk bahasa lain
Sayang sekali mereka tidak menamai model ini ERNIE

ModernBERT - Model pengganti BERT

Pengantar

Model decoder-only

Model encoder-only

Ringkasan performa

Efisiensi

Sisi modern dari ModernBERT

Transformer baru

Upgrade Honda Civic untuk lintasan balap

Perhatian terhadap perangkat keras

Pelatihan

Kesimpulan

Bacaan terkait

1 komentar

Pendapat Hacker News