17 poin oleh GN⁺ 2024-12-20 | 1 komentar | Bagikan ke WhatsApp
  • ModernBERT adalah model encoder-only baru yang menerapkan teknologi terbaru, dengan peningkatan kecepatan dan akurasi dibanding BERT dan model-model penerusnya
  • Mendukung panjang konteks hingga 8192 token, dan juga dilatih dengan data kode
  • Dapat digunakan di berbagai bidang aplikasi, dan sangat cocok khususnya untuk pencarian kode skala besar serta fitur IDE baru

Pengantar

  • BERT dirilis pada 2018 dan masih digunakan secara luas hingga kini, terutama cocok untuk pencarian, klasifikasi, dan ekstraksi entitas.
  • ModernBERT adalah model pengganti BERT, dengan peningkatan Pareto dalam kecepatan dan akurasi.
  • Dengan panjang konteks yang lebih besar dan penyertaan data kode, model ini membuka bidang aplikasi baru.

Model decoder-only

  • Model decoder-only seperti GPT, Llama, dan Claude adalah model generatif yang mampu menghasilkan konten mirip manusia.
  • Namun, model-model ini besar, lambat, dan membutuhkan biaya tinggi.
  • Model encoder-only lebih praktis, efisien, dan cocok untuk banyak tugas.

Model encoder-only

  • Model encoder-only merepresentasikan input dengan mengubahnya menjadi vektor numerik.
  • Model decoder-only tidak dapat melihat token masa depan, tetapi model encoder-only dapat melihat token secara dua arah sehingga lebih efisien.
  • Model encoder-only digunakan di berbagai bidang aplikasi, dan sangat penting khususnya dalam pipeline RAG serta sistem rekomendasi.

Ringkasan performa

  • ModernBERT menunjukkan akurasi tinggi di berbagai tugas, serta lebih cepat dan menggunakan memori lebih sedikit dibanding DeBERTaV3.
  • Dalam inferensi konteks panjang, hingga 3 kali lebih cepat dibanding model berkualitas tinggi lainnya.
  • Menunjukkan performa unggul dalam pencarian kode, sehingga membuka kemungkinan pengembangan aplikasi baru.

Efisiensi

  • ModernBERT menekankan kepraktisan dan menunjukkan performa cepat pada berbagai panjang input.
  • Pada input konteks panjang, 2-3 kali lebih cepat dibanding model lain.
  • Dapat menggunakan ukuran batch yang lebih besar, sehingga tetap efektif bahkan pada GPU kecil.

Sisi modern dari ModernBERT

  • ModernBERT menghadirkan peningkatan dengan menerapkan rekayasa terbaru pada model encoder.
  • Mengadopsi arsitektur Transformer++ untuk meningkatkan performa.
  • Menekankan efisiensi serta skala dan sumber data modern.

Transformer baru

  • ModernBERT mengadopsi arsitektur Transformer++ untuk meningkatkan performa.
  • Menggunakan RoPE untuk meningkatkan pengodean posisi, dan memakai layer GeGLU untuk menggantikan layer MLP.
  • Menghapus term bias yang tidak perlu untuk mengoptimalkan penggunaan parameter.

Upgrade Honda Civic untuk lintasan balap

  • ModernBERT menekankan kecepatan dan dapat digunakan secara efisien di berbagai bidang aplikasi.
  • Meningkatkan efisiensi dengan memanfaatkan peningkatan kecepatan dari Flash Attention 2.
  • Mengurangi pemborosan komputasi melalui Alternating Attention, Unpadding, dan Sequence Packing.

Perhatian terhadap perangkat keras

  • ModernBERT dirancang dengan mempertimbangkan desain perangkat keras agar dapat memberikan performa optimal di berbagai GPU.
  • Model ini dirancang dengan mempertimbangkan struktur yang dalam dan sempit serta efisiensi perangkat keras.

Pelatihan

  • ModernBERT dilatih menggunakan data dari berbagai sumber, dengan total 2 triliun token.
  • Melalui proses pelatihan tiga tahap, model ini menunjukkan performa unggul di berbagai tugas.
  • Pada tahap awal pelatihan, digunakan batch size warmup untuk meningkatkan kecepatan.

Kesimpulan

  • ModernBERT meningkatkan performa model encoder-only dengan menerapkan teknologi terbaru.
  • Menawarkan performa kuat di berbagai tugas, dengan rasio ukuran/kinerja yang menarik.
  • Komunitas diharapkan dapat memanfaatkannya secara kreatif, dan saat ini sedang berlangsung kompetisi untuk demo.

1 komentar

 
GN⁺ 2024-12-20
Pendapat Hacker News
  • Jeremy dari Answer.AI berharap peluncuran model baru ini bisa menjadi fondasi bagi beragam startup dan proyek
    • Isi yang disebutkan dalam posting blog itu hanya puncak gunung es, dan ada banyak peluang untuk melakukan fine-tuning model dengan berbagai cara
  • Model encoder-only mencatat lebih dari 1 miliar unduhan per bulan, tiga kali lebih banyak daripada model decoder-only
    • Ini juga karena pengguna decoder tidak memakai Hugging Face dan menggunakan panggilan API, serta karena encoder adalah pahlawan tersembunyi dari sebagian besar aplikasi ML yang serius
    • Untuk melakukan ranking, rekomendasi, RAG, dan sebagainya, dibutuhkan encoder, dan umumnya digunakan model dari keluarga BERT, RoBERTa, dan ALBERT
  • Saat menggunakan model BERT untuk peringkasan dan sebagainya beberapa tahun lalu, rasanya seperti keajaiban
    • Saya akan menunggu sampai Ollama menambahkannya ke pustaka, dan peningkatan kecepatan LLM belakangan ini sangat mengesankan
    • Apple telah mendukung model BERT di SDK pengembangnya, dan saya penasaran seberapa cepat mereka akan memperbaruinya dengan teknologi baru
  • Setelah membaca makalahnya, saya terkesan dengan penambahan local attention layer
    • Saya sudah bereksperimen dengannya selama beberapa tahun di repositori Lucidrains, dan heran mengapa hal ini tidak berkembang lebih jauh
    • Kecepatan inferensinya luar biasa, dan ada banyak peningkatan seperti penghapusan NSP, peningkatan masking, RoPE, serta konteks yang panjang
    • Saya ingin membuat "ModernTinyBERT", tetapi layer-layernya saling terjalin dengan rumit sehingga sulit
  • Saya penasaran di mana model BERT saat ini digunakan
    • Saya memahaminya sebagai alternatif yang lebih baik daripada LLM untuk tugas tertentu, dan dapat memahami konteks dua arah dengan lebih baik
    • Namun LLM juga sangat kuat, jadi perbedaannya mungkin kecil
  • Saya penasaran apakah model ini bisa di-fine-tune dengan SentenceTransformers
    • ColBERT termasuk dalam benchmark, dan saya penasaran apakah answerai-colbert-small-v2 akan segera dirilis
  • Saya penasaran apakah ada yang sudah melihat evaluasi RAG untuk ModernBERT
  • Tim Answer.ai tampil sangat baik hari ini, dan memuji Jeremy serta tim atas kerja bagus mereka
  • Saya penasaran apakah model ini hanya mendukung bahasa Inggris, dan apakah ada rencana menerbitkan model multibahasa atau model monolingual untuk bahasa lain
  • Sayang sekali mereka tidak menamai model ini ERNIE