22 poin oleh GN⁺ 2025-03-20 | 1 komentar | Bagikan ke WhatsApp
  • Sistem rekomendasi dan pencarian secara historis telah berkembang dengan terinspirasi dari model bahasa
    • Word2vec → pembelajaran embedding item (pencarian berbasis embedding)
    • GRU, Transformer, BERT → prediksi item rekomendasi berikutnya (ranking)
  • Saat ini, paradigma model bahasa besar (LLM) juga berkembang ke arah yang sama
  • Perkembangan utama
    • 1. Arsitektur model LLM/multimodal yang diperkuat

    • 2. Pembuatan dan analisis data berbasis LLM

    • 3. Scaling Laws, transfer learning, knowledge distillation, LoRA

    • 4. Arsitektur terpadu pencarian dan rekomendasi

Arsitektur model LLM/multimodal yang diperkuat

  • Model rekomendasi sedang mengadopsi model bahasa (LLM) dan konten multimodal untuk mengatasi keterbatasan pendekatan tradisional berbasis ID
  • Menggabungkan kekuatan pemodelan perilaku dan pemahaman konten → menyelesaikan masalah cold start dan long tail
  • 1. Semantic IDs (YouTube)

    • Menggunakan Semantic ID yang diturunkan dari konten alih-alih ID berbasis hash yang ada sebelumnya
    • Memperkenalkan kerangka kerja dua tahap:
      1. Encoder video berbasis Transformer → menghasilkan embedding konten berdensitas tinggi
      2. RQ-VAE(Residual Quantization Variational AutoEncoder) → mengubah embedding menjadi Semantic ID berbentuk bilangan bulat
    • Struktur RQ-VAE:
      • Ruang laten 256 dimensi, 8 level kuantisasi, 2048 entri codebook per level
      • Menghasilkan embedding 2048 dimensi dari backbone VideoBERT berbasis Transformer
    • Hasil:
      • Performa embedding berdensitas tinggi langsung lebih rendah daripada ID hash acak
      • Pendekatan berbasis N-gram dan SPM(SentencePiece Model) memberikan performa sangat baik terutama pada skenario cold start
  • 2. M3CSR (Kuaishou)

    • Embedding konten multimodal (visual, teks, audio) → dikelompokkan dengan K-means lalu diubah menjadi ID yang dapat dipelajari
    • Struktur dual tower:
      • Tower sisi pengguna: pemodelan perilaku pengguna
      • Tower sisi item: pra-perhitungan dan pengindeksan embedding item
    • Proses pembelajaran:
      • Menggabungkan embedding ResNet(visual), Sentence-BERT(teks), VGGish(audio) → clustering K-means (~1000 cluster)
      • Memetakan ID cluster ke embedding yang dapat dipelajari
    • Hasil:
      • Dalam A/B test, klik +3.4%, suka +3.0%, follow +3.1% membaik
      • Pada skenario cold start, kecepatan +1.2%, cakupan +3.6% membaik
  • 3. FLIP (Huawei)

    • Penyelarasan antara model rekomendasi berbasis ID dan LLM
    • Belajar secara simultan dari teks bertopeng dan data tabel → melakukan penyelarasan multimodal
    • Tahap pembelajaran:
      • 1. Transformasi modalitas: mengubah data tabel menjadi teks
      • 2. Pra-pelatihan penyelarasan modalitas: rekonstruksi teks bertopeng dan ID
      • 3. Fine-tuning adaptif: mengoptimalkan bobot kedua model untuk prediksi klik
    • Hasil:
      • Performa lebih baik daripada model berbasis ID, berbasis LLM, maupun gabungan ID + LLM
      • Tingkat masking dan penyelarasan multimodal berperan penting dalam peningkatan performa
  • 4. beeFormer

    • Melatih model Transformer berbasis informasi teks dan data interaksi pengguna-item
    • Menggunakan decoder berbasis ELSA(Scalable Linear Shallow Autoencoder) → memperkuat pembelajaran pola interaksi
    • Proses pelatihan:
      • Menghasilkan embedding dengan Transformer → mempelajari pola perilaku pengguna melalui ELSA
      • Menggunakan gradient checkpointing, perluasan ukuran batch, dan negative sampling untuk mengoptimalkan pelatihan pada katalog berskala besar
    • Hasil:
      • Memberikan performa lebih baik daripada model yang ada seperti mpnet-base-v2 dan bge-m3
      • Teramati peningkatan performa pada transfer learning lintas domain
  • 5. CALRec (Google)

    • Memodelkan interaksi pengguna-item dengan prompt berbasis teks
    • Fine-tuning dua tahap untuk model berbasis PaLM-2 XXS
    • Tahap pelatihan:
      • 1. Pembelajaran multi-kategori: mempelajari pola rekomendasi umum
      • 2. Pembelajaran kategori spesifik: mempelajari pola yang khusus untuk kategori item
    • Hasil:
      • Performa lebih baik daripada model berbasis ID dan teks pada Amazon Review Dataset
      • Pembelajaran multi-kategori dan contrastive learning berkontribusi pada peningkatan performa
  • 6. EmbSum (Meta)

    • Menghasilkan ringkasan minat pengguna dan ringkasan item kandidat
    • Menggunakan model T5-small dan Mixtral-8x22B-Instruct
    • Komponen:
      • User Poly-Embeddings (UPE) → embedding minat pengguna
      • Content Poly-Embeddings (CPE) → embedding item
      • Pembuatan ringkasan → disuntikkan ke encoder → menghasilkan rekomendasi akhir
    • Hasil:
      • Performa lebih baik dibanding model rekomendasi berbasis konten
      • Pengelompokan berbasis sesi dan loss ringkasan berperan penting terhadap performa

Pembuatan dan analisis data berbasis LLM

  • LLM digunakan untuk menyelesaikan masalah kekurangan data dan meningkatkan kualitas data pada sistem rekomendasi dan pencarian
  • Kasus penerapan utama:
    • Bing → pembuatan metadata halaman web dan peningkatan performa prediksi klik
    • Indeed → penyaringan job matching berkualitas rendah
    • Yelp → pemahaman kueri pencarian dan peningkatan highlight ulasan
    • Spotify → pembuatan kueri pencarian eksploratif
    • Amazon → peningkatan metadata playlist dan performa pencarian
  • 1. Recommendation Quality Improvement (Bing)

    • Menggunakan GPT-4 untuk membuat judul dan ringkasan berkualitas tinggi dari halaman web
    • Fine-tuning model Mistral-7B dengan metadata yang dihasilkan dari sekitar 2 juta halaman web
    • Melatih cross-encoder berbasis MiniLM untuk menggabungkan prediksi klik dan skor kualitas
    • Hasil:
      • Konten clickbait turun 31%, konten duplikat turun 76%
      • Konten otoritatif naik 18%, rekomendasi lintas media naik 48%
  • 2. Expected Bad Match (Indeed)

    • Membangun model penyaringan job matching berkualitas rendah (eBadMatch) dengan fine-tuning GPT-3.5 menggunakan data review manusia
    • Mempertahankan performa setingkat GPT-4 sambil meningkatkan biaya dan kecepatan
    • Model penyaringan akhir mengurangi jumlah email undangan matching sebesar 17.68%, menurunkan unsubscribe rate 4.97%, dan meningkatkan application rate 4.13%
    • Hasil:
      • Performa AUC-ROC model penyaringan: 0.86
  • 3. Query Understanding (Yelp)

    • Menggunakan LLM untuk meningkatkan segmentasi kueri pencarian dan highlight ulasan
    • Segmentasi kueri:
      • Membedakan topik, nama, waktu, tempat, dan lain-lain lalu menambahkan tag semantik
      • Menerapkan teknik RAG(Retrieval-Augmented Generation) untuk memperkuat pemahaman kueri berbasis konteks
    • Highlight ulasan:
      • Menggunakan LLM untuk membuat highlight → diperluas dalam skala besar dengan pemanggilan batch OpenAI
    • Hasil:
      • Sesi pencarian dan CTR meningkat
      • Performa juga membaik pada kueri long tail
  • 4. Query Recommendations (Spotify)

    • Spotify memperkenalkan rekomendasi kueri pencarian eksploratif selain hasil pencarian langsung
    • Metode pembuatan kueri:
      • Diekstrak dari judul katalog, playlist, dan podcast
      • Mencerminkan pencarian terbaru pengguna dari log pencarian
      • Menerapkan teknik pembuatan kalimat berbasis LLM (Doc2query, InPars, dll.)
    • Kueri rekomendasi diberi peringkat dengan embedding vektor yang dipersonalisasi
    • Hasil:
      • Rasio kueri eksploratif naik +9%
      • Panjang kueri maksimum naik +30%, panjang kueri rata-rata naik +10%
  • 5. Playlist Search (Amazon)

    • Menggunakan LLM untuk membuat dan memperkaya metadata playlist komunitas
    • Fine-tuning model Flan-T5-XL untuk meningkatkan efisiensi pembuatan data
    • Melatih model bi-encoder menggunakan data pencocokan antara kueri yang dihasilkan LLM dan playlist
    • Hasil:
      • Recall hasil pencarian membaik secara double-digit
      • Performa SEO dan paraphrasing membaik

Scaling Laws, transfer learning, knowledge distillation, LoRA

  • Scaling Laws

    • Riset yang menganalisis pengaruh ukuran model dan jumlah data terhadap performa
    • Menggunakan arsitektur Decoder-only Transformer (rentang parameter 98.3K ~ 0.8B)
    • Dievaluasi pada dataset MovieLens-20M dan Amazon-2018
    • Memprediksi item berikutnya dengan menggunakan sequence 50 item berdurasi tetap
    • Teknik utama:
      • Dropout adaptif per layer → layer bawah memakai dropout tinggi, layer atas memakai dropout rendah
      • Peralihan Adam → SGD → pembelajaran awal dengan Adam, lalu beralih ke SGD untuk meningkatkan kecepatan konvergensi
    • Hasil:
      • Semakin besar ukuran model, semakin rendah cross-entropy loss
      • Model kecil membutuhkan lebih banyak data, tetapi model besar dapat mencapai performa unggul dengan data yang lebih sedikit
      • Model 75.5M dan 98.3K menunjukkan peningkatan performa pada 2~5 epoch
  • PrepRec

    • Menerapkan pra-pelatihan pada sistem rekomendasi → memungkinkan transfer learning lintas domain
    • Dapat belajar hanya dari perubahan dinamis popularitas item tanpa metadata item
    • Menggunakan interval waktu relatif antar interaksi pengguna dan position encoding
    • Hasil:
      • Pada rekomendasi zero-shot, performa recall@10 turun 2~6%, tetapi setelah pelatihan performanya serupa
      • Setelah pelatihan pada domain target, performa mencapai tingkat yang setara dengan model SasREC dan BERT4Rec
  • E-CDCTR (Meituan)

    • Menerapkan transfer learning pada model prediksi klik iklan
    • Menggunakan struktur pembelajaran tiga tahap TPM → CPM → A-CTR
      • TPM → mempelajari embedding pengguna dan item
      • CPM → pra-pelatihan dengan data organik terbaru
      • A-CTR → penyesuaian rinci dengan data iklan
    • Hasil:
      • CPM memberi dampak terbesar pada performa → memungkinkan pembelajaran sinyal collaborative filtering jangka panjang
      • Performa meningkat dengan menggunakan embedding dari 3 bulan terakhir
  • Bridging the Gap (YouTube)

    • Rekomendasi video personalisasi skala besar melalui knowledge distillation
    • Menggunakan struktur model teacher-student (model teacher 2~4 kali lebih besar daripada model student)
    • Menggunakan strategi auxiliary distillation alih-alih prediksi langsung → menyelesaikan masalah distribution shift
    • Hasil:
      • Performa meningkat 0.4% saat strategi auxiliary distillation diterapkan
      • Saat ukuran model teacher 2 kali, performa naik +0.42%, dan saat 4 kali naik +0.43%
  • Self-Auxiliary Distillation (Google)

    • Meningkatkan sample efficiency pada model rekomendasi skala besar
    • Struktur cabang dua arah → pembelajaran campuran antara label teacher dan label asli
    • Label negatif diperlakukan bukan sebagai 0, melainkan sebagai nilai CTR terestimasi
    • Hasil:
      • Performa meningkat secara konsisten di berbagai domain
      • Stabilitas pelatihan meningkat dan presisi output model membaik
  • DLLM2Rec

    • Mendistilasi pengetahuan rekomendasi dari model bahasa besar ke model ringan
    • Menggunakan importance-based ranking distillation dan collaborative embedding distillation
      • Importance-based ranking distillation → memberi bobot pada peringkat item dan konsistensi
      • Collaborative embedding distillation → mengoreksi perbedaan embedding antara model teacher dan student
    • Hasil:
      • Performa rata-rata meningkat 47.97% pada model GRU4Rec, SASRec, dan DROS
      • Waktu inferensi turun dari 3~6 jam → 1.6~1.8 detik milik model teacher
  • MLoRA (Alibaba)

    • Menerapkan LoRA per domain (Low-Rank Adaptation) pada prediksi CTR
    • Setelah pra-pelatihan backbone model umum, dilakukan fine-tuning dengan LoRA per domain
    • Rank LoRA diatur secara dinamis per layer
    • Hasil:
      • Performa AUC meningkat +0.5%
      • CTR naik +1.49%, conversion rate naik +3.37%, pembeli berbayar naik +2.71%
  • Taming One-Epoch (Pinterest)

    • Menyelesaikan masalah overfitting yang terjadi hanya dalam satu epoch
    • Memisahkan tahap pelatihan dengan menggunakan contrastive learning
      • Tahap pertama → pembelajaran embedding
      • Tahap kedua → fine-tuning
    • Hasil:
      • Performa lebih baik daripada loss BCE yang ada
      • Home feed +1.32%, related pins +2.18% meningkat
  • Sliding Window Training (Netflix)

    • Memperkenalkan sliding window training untuk mempelajari riwayat pengguna yang panjang tanpa beban memori
    • Melatih dengan memilih segmen riwayat pengguna yang berbeda pada tiap epoch pelatihan
    • Menjaga keseimbangan antara 100 interaksi terbaru dan interaksi jangka panjang
    • Hasil:
      • Performa meningkat secara konsisten dibanding model yang hanya memakai interaksi terbaru
      • Mean Average Precision(MAP) +1.5%, recall +7.01% membaik

Arsitektur terpadu pencarian dan rekomendasi

  • Bridging Search & Recommendations (Spotify)

    • Menggabungkan data pencarian dan rekomendasi dalam satu model generatif untuk pembelajaran terpadu
    • Berdasarkan Flan-T5-base, item ID diubah menjadi token untuk pelatihan
    • Model rekomendasi generatif: memprediksi item berikutnya berdasarkan interaksi pengguna
    • Model pencarian generatif: memprediksi item ID dari kueri teks
    • Hasil:
      • Performa rata-rata meningkat 16% dibanding model single-task (berdasarkan recall@30)
      • Pada dataset podcast, performa pencarian +855% dan performa rekomendasi +262% meningkat
      • Masih belum menyamai performa model rekomendasi dan pencarian yang ada (BM25, SASRec, dll.)
  • 360Brew (LinkedIn)

    • Satu model berukuran 150B parameter menjalankan lebih dari 30 task ranking
    • Berbasis model Mixtral-8x22B → menjalani continuous pre-training (CPT)instruction fine-tuning (IFT)supervised fine-tuning (SFT)
    • Memperkenalkan antarmuka bahasa alami → menggunakan prompt engineering alih-alih feature engineering
    • Hasil:
      • Mencapai performa setara atau lebih baik daripada model khusus yang ada
      • Performa meningkat pada dataset skala besar (naik 3 kali lipat)
      • Performa pengguna cold start membaik → lebih unggul dibanding model yang ada
  • UniCoRn (Netflix)

    • Menangani task pencarian dan rekomendasi dalam satu model
    • Menggunakan informasi konteks seperti ID pengguna, kueri pencarian, negara, source entity, dll.
    • Memanfaatkan fungsi context-target dan feature crossing
    • Hasil:
      • Performa rekomendasi +10%, performa pencarian +7% meningkat
      • Performa membaik lewat personalisasi yang diperkuat
      • Menegaskan pentingnya jenis task dan penanganan missing value
  • Unified Embeddings (Etsy)

    • Mengintegrasikan embedding berbasis Transformer, berbasis teks, dan berbasis graf
    • Fine-tuning model T5 untuk memperkuat pencocokan kueri-produk
    • Menerapkan hard negative sampling dan approximate nearest neighbor search (ANN)
    • Hasil:
      • Conversion rate +2.63%, organic search purchase rate +5.58% membaik
      • Embedding graf memberi kontribusi terbesar pada performa (+15%)
  • Embedding Long Tail (Best Buy)

    • Menyelesaikan masalah kueri long-tail
    • Menggunakan model BERT internal berbasis perilaku pengguna → untuk encoding pencarian dan produk
    • Memperkuat data melalui kueri sintetis yang dihasilkan oleh Llama-13B
    • Hasil:
      • Conversion rate +3% membaik
      • Performa pencocokan kueri-produk meningkat (+4.67%)
  • User Behavioral Service (YouTube)

    • Memisahkan model pembuat embedding pengguna dan model rekomendasi
    • Menghasilkan embedding pengguna secara asinkron → menggunakan caching berkecepatan tinggi
    • Jika embedding tidak tersedia saat permintaan masuk, mengembalikan nilai kosong lalu memperbarui secara asinkron
    • Hasil:
      • Memperbesar ukuran model sequence pengguna → menekan kenaikan biaya (28.7% → 2.8%)
      • Performa rekomendasi secara keseluruhan membaik (0.01% ~ 0.40%)
  • Modern Ranking Platform (Zalando)

    • Membangun sistem terpadu untuk pencarian dan browsing
    • Menggunakan struktur candidate generation → ranking → policy layer
    • Menerapkan embedding pelanggan berbasis Transformer + vector database
    • Hasil:
      • Engagement keseluruhan +15%, pendapatan +2.2% membaik
      • Peningkatan performa tambahan setelah mengadopsi embedding yang dapat dilatih

Penutup

  • Riset awal tahun 2023 (menerapkan LLM pada rekomendasi dan pencarian) masih kurang, tetapi upaya terbaru menunjukkan harapan yang lebih besar, khususnya karena didukung oleh hasil industri
  • Ini menunjukkan bahwa mengeksplorasi penguatan sistem rekomendasi dan sistem pencarian dengan LLM memiliki manfaat nyata, dan dapat meningkatkan hasil sambil mengurangi biaya dan upaya

1 komentar

 
GN⁺ 2025-03-24

Opini Hacker News

  • Ada analisis bahwa pembaruan terkait kueri pencarian Spotify membantu pengguna mengekspresikan niat yang lebih kompleks

    • Namun, sulit menafsirkannya sebagai perbaikan karena pengguna harus lebih sering mencari dan memasukkan kueri yang lebih panjang untuk mendapatkan informasi yang diinginkan
  • Banyak tim memanfaatkan LLM untuk memperkuat kueri pencarian dan indeks

    • Bahkan dengan model kecil dan prompt sederhana, string pencarian dapat diubah menjadi kueri terstruktur
    • Dokumen juga bisa diklasifikasikan atau memanfaatkan cache
    • Jika tidak melakukan hal-hal ini, itu bisa jadi sebuah kesalahan
  • Menarik bahwa Eugene memublikasikan pekerjaannya tepat setelah konferensi

    • Secara tradisional, ini mungkin akan menjadi makalah yang dipublikasikan oleh mahasiswa doktoral setelah sekitar 12 bulan
    • Jadi penasaran apakah ini karena kemampuan Eugene atau memang tren baru
  • Menjelaskan alasan pengalaman Spotify memburuk seiring waktu

  • Begitu bangun pagi, saya langsung mulai mendengarkan artikel ini dengan model text-to-speech

    • Karena banyak istilah teknis, penulisnya terlihat sangat intelektual, tetapi tidak menyampaikan informasi secara efektif
    • Ini adalah fenomena yang sering terlihat dalam makalah akademik, dan makalah riset saya sendiri juga bukan pengecualian
    • Saya bukan ahli di bidang ML, jadi mungkin saya memang bukan pembaca yang dituju
    • Saya penasaran apakah orang lain juga merasakan hal yang sama
    • Saya harap pendapat ini tidak terdengar terlalu negatif
  • Varian SASRec dan Bert4Rec dilatih dengan ID-token dan menunjukkan hukum penskalaan yang mirip dengan LLM

    • Pendekatan Meta disajikan sebagai contoh
  • Saya pikir menggabungkan sistem rekomendasi dan forum telah menjadi bencana besar bagi masyarakat

  • Mempertanyakan alasan tidak adanya alat pencarian berbasis LLM di PC dan smartphone

    • Terutama karena data di smartphone disimpan di cloud, seharusnya bisa memberikan fungsi yang berguna bagi pengguna alih-alih scraping untuk iklan atau FBI
  • Tampaknya ini adalah ringkasan yang sangat bagus tentang sistem rekomendasi

    • Poin utamanya adalah bahwa latensi merupakan masalah utama
    • Fine-tuning dapat membawa peningkatan besar dan mengurangi latensi
    • Ada ambang batas atau jenis masalah tertentu untuk memutuskan apakah harus menggunakan prompt atau fine-tuning
  • Menarik bahwa makalah-makalah seperti ini tidak berasal dari laboratorium penelitian akademik