- Sistem rekomendasi dan pencarian secara historis telah berkembang dengan terinspirasi dari model bahasa
- Word2vec → pembelajaran embedding item (pencarian berbasis embedding)
- GRU, Transformer, BERT → prediksi item rekomendasi berikutnya (ranking)
- Saat ini, paradigma model bahasa besar (LLM) juga berkembang ke arah yang sama
- Perkembangan utama
-
1. Arsitektur model LLM/multimodal yang diperkuat
-
2. Pembuatan dan analisis data berbasis LLM
-
3. Scaling Laws, transfer learning, knowledge distillation, LoRA
-
4. Arsitektur terpadu pencarian dan rekomendasi
Arsitektur model LLM/multimodal yang diperkuat
- Model rekomendasi sedang mengadopsi model bahasa (LLM) dan konten multimodal untuk mengatasi keterbatasan pendekatan tradisional berbasis ID
- Menggabungkan kekuatan pemodelan perilaku dan pemahaman konten → menyelesaikan masalah cold start dan long tail
-
1. Semantic IDs (YouTube)
- Menggunakan Semantic ID yang diturunkan dari konten alih-alih ID berbasis hash yang ada sebelumnya
- Memperkenalkan kerangka kerja dua tahap:
- Encoder video berbasis Transformer → menghasilkan embedding konten berdensitas tinggi
- RQ-VAE(Residual Quantization Variational AutoEncoder) → mengubah embedding menjadi Semantic ID berbentuk bilangan bulat
- Struktur RQ-VAE:
- Ruang laten 256 dimensi, 8 level kuantisasi, 2048 entri codebook per level
- Menghasilkan embedding 2048 dimensi dari backbone VideoBERT berbasis Transformer
- Hasil:
- Performa embedding berdensitas tinggi langsung lebih rendah daripada ID hash acak
- Pendekatan berbasis N-gram dan SPM(SentencePiece Model) memberikan performa sangat baik terutama pada skenario cold start
-
2. M3CSR (Kuaishou)
- Embedding konten multimodal (visual, teks, audio) → dikelompokkan dengan K-means lalu diubah menjadi ID yang dapat dipelajari
- Struktur dual tower:
- Tower sisi pengguna: pemodelan perilaku pengguna
- Tower sisi item: pra-perhitungan dan pengindeksan embedding item
- Proses pembelajaran:
- Menggabungkan embedding ResNet(visual), Sentence-BERT(teks), VGGish(audio) → clustering K-means (~1000 cluster)
- Memetakan ID cluster ke embedding yang dapat dipelajari
- Hasil:
- Dalam A/B test, klik +3.4%, suka +3.0%, follow +3.1% membaik
- Pada skenario cold start, kecepatan +1.2%, cakupan +3.6% membaik
-
3. FLIP (Huawei)
- Penyelarasan antara model rekomendasi berbasis ID dan LLM
- Belajar secara simultan dari teks bertopeng dan data tabel → melakukan penyelarasan multimodal
- Tahap pembelajaran:
- 1. Transformasi modalitas: mengubah data tabel menjadi teks
- 2. Pra-pelatihan penyelarasan modalitas: rekonstruksi teks bertopeng dan ID
- 3. Fine-tuning adaptif: mengoptimalkan bobot kedua model untuk prediksi klik
- Hasil:
- Performa lebih baik daripada model berbasis ID, berbasis LLM, maupun gabungan ID + LLM
- Tingkat masking dan penyelarasan multimodal berperan penting dalam peningkatan performa
-
4. beeFormer
- Melatih model Transformer berbasis informasi teks dan data interaksi pengguna-item
- Menggunakan decoder berbasis ELSA(Scalable Linear Shallow Autoencoder) → memperkuat pembelajaran pola interaksi
- Proses pelatihan:
- Menghasilkan embedding dengan Transformer → mempelajari pola perilaku pengguna melalui ELSA
- Menggunakan gradient checkpointing, perluasan ukuran batch, dan negative sampling untuk mengoptimalkan pelatihan pada katalog berskala besar
- Hasil:
- Memberikan performa lebih baik daripada model yang ada seperti mpnet-base-v2 dan bge-m3
- Teramati peningkatan performa pada transfer learning lintas domain
-
5. CALRec (Google)
- Memodelkan interaksi pengguna-item dengan prompt berbasis teks
- Fine-tuning dua tahap untuk model berbasis PaLM-2 XXS
- Tahap pelatihan:
- 1. Pembelajaran multi-kategori: mempelajari pola rekomendasi umum
- 2. Pembelajaran kategori spesifik: mempelajari pola yang khusus untuk kategori item
- Hasil:
- Performa lebih baik daripada model berbasis ID dan teks pada Amazon Review Dataset
- Pembelajaran multi-kategori dan contrastive learning berkontribusi pada peningkatan performa
-
6. EmbSum (Meta)
- Menghasilkan ringkasan minat pengguna dan ringkasan item kandidat
- Menggunakan model T5-small dan Mixtral-8x22B-Instruct
- Komponen:
- User Poly-Embeddings (UPE) → embedding minat pengguna
- Content Poly-Embeddings (CPE) → embedding item
- Pembuatan ringkasan → disuntikkan ke encoder → menghasilkan rekomendasi akhir
- Hasil:
- Performa lebih baik dibanding model rekomendasi berbasis konten
- Pengelompokan berbasis sesi dan loss ringkasan berperan penting terhadap performa
Pembuatan dan analisis data berbasis LLM
- LLM digunakan untuk menyelesaikan masalah kekurangan data dan meningkatkan kualitas data pada sistem rekomendasi dan pencarian
- Kasus penerapan utama:
- Bing → pembuatan metadata halaman web dan peningkatan performa prediksi klik
- Indeed → penyaringan job matching berkualitas rendah
- Yelp → pemahaman kueri pencarian dan peningkatan highlight ulasan
- Spotify → pembuatan kueri pencarian eksploratif
- Amazon → peningkatan metadata playlist dan performa pencarian
-
1. Recommendation Quality Improvement (Bing)
- Menggunakan GPT-4 untuk membuat judul dan ringkasan berkualitas tinggi dari halaman web
- Fine-tuning model Mistral-7B dengan metadata yang dihasilkan dari sekitar 2 juta halaman web
- Melatih cross-encoder berbasis MiniLM untuk menggabungkan prediksi klik dan skor kualitas
- Hasil:
- Konten clickbait turun 31%, konten duplikat turun 76%
- Konten otoritatif naik 18%, rekomendasi lintas media naik 48%
-
2. Expected Bad Match (Indeed)
- Membangun model penyaringan job matching berkualitas rendah (eBadMatch) dengan fine-tuning GPT-3.5 menggunakan data review manusia
- Mempertahankan performa setingkat GPT-4 sambil meningkatkan biaya dan kecepatan
- Model penyaringan akhir mengurangi jumlah email undangan matching sebesar 17.68%, menurunkan unsubscribe rate 4.97%, dan meningkatkan application rate 4.13%
- Hasil:
- Performa AUC-ROC model penyaringan: 0.86
-
3. Query Understanding (Yelp)
- Menggunakan LLM untuk meningkatkan segmentasi kueri pencarian dan highlight ulasan
- Segmentasi kueri:
- Membedakan topik, nama, waktu, tempat, dan lain-lain lalu menambahkan tag semantik
- Menerapkan teknik RAG(Retrieval-Augmented Generation) untuk memperkuat pemahaman kueri berbasis konteks
- Highlight ulasan:
- Menggunakan LLM untuk membuat highlight → diperluas dalam skala besar dengan pemanggilan batch OpenAI
- Hasil:
- Sesi pencarian dan CTR meningkat
- Performa juga membaik pada kueri long tail
-
4. Query Recommendations (Spotify)
- Spotify memperkenalkan rekomendasi kueri pencarian eksploratif selain hasil pencarian langsung
- Metode pembuatan kueri:
- Diekstrak dari judul katalog, playlist, dan podcast
- Mencerminkan pencarian terbaru pengguna dari log pencarian
- Menerapkan teknik pembuatan kalimat berbasis LLM (Doc2query, InPars, dll.)
- Kueri rekomendasi diberi peringkat dengan embedding vektor yang dipersonalisasi
- Hasil:
- Rasio kueri eksploratif naik +9%
- Panjang kueri maksimum naik +30%, panjang kueri rata-rata naik +10%
-
5. Playlist Search (Amazon)
- Menggunakan LLM untuk membuat dan memperkaya metadata playlist komunitas
- Fine-tuning model Flan-T5-XL untuk meningkatkan efisiensi pembuatan data
- Melatih model bi-encoder menggunakan data pencocokan antara kueri yang dihasilkan LLM dan playlist
- Hasil:
- Recall hasil pencarian membaik secara double-digit
- Performa SEO dan paraphrasing membaik
Scaling Laws, transfer learning, knowledge distillation, LoRA
-
Scaling Laws
- Riset yang menganalisis pengaruh ukuran model dan jumlah data terhadap performa
- Menggunakan arsitektur Decoder-only Transformer (rentang parameter 98.3K ~ 0.8B)
- Dievaluasi pada dataset MovieLens-20M dan Amazon-2018
- Memprediksi item berikutnya dengan menggunakan sequence 50 item berdurasi tetap
- Teknik utama:
- Dropout adaptif per layer → layer bawah memakai dropout tinggi, layer atas memakai dropout rendah
- Peralihan Adam → SGD → pembelajaran awal dengan Adam, lalu beralih ke SGD untuk meningkatkan kecepatan konvergensi
- Hasil:
- Semakin besar ukuran model, semakin rendah cross-entropy loss
- Model kecil membutuhkan lebih banyak data, tetapi model besar dapat mencapai performa unggul dengan data yang lebih sedikit
- Model 75.5M dan 98.3K menunjukkan peningkatan performa pada 2~5 epoch
-
PrepRec
- Menerapkan pra-pelatihan pada sistem rekomendasi → memungkinkan transfer learning lintas domain
- Dapat belajar hanya dari perubahan dinamis popularitas item tanpa metadata item
- Menggunakan interval waktu relatif antar interaksi pengguna dan position encoding
- Hasil:
- Pada rekomendasi zero-shot, performa recall@10 turun 2~6%, tetapi setelah pelatihan performanya serupa
- Setelah pelatihan pada domain target, performa mencapai tingkat yang setara dengan model SasREC dan BERT4Rec
-
E-CDCTR (Meituan)
- Menerapkan transfer learning pada model prediksi klik iklan
- Menggunakan struktur pembelajaran tiga tahap TPM → CPM → A-CTR
- TPM → mempelajari embedding pengguna dan item
- CPM → pra-pelatihan dengan data organik terbaru
- A-CTR → penyesuaian rinci dengan data iklan
- Hasil:
- CPM memberi dampak terbesar pada performa → memungkinkan pembelajaran sinyal collaborative filtering jangka panjang
- Performa meningkat dengan menggunakan embedding dari 3 bulan terakhir
-
Bridging the Gap (YouTube)
- Rekomendasi video personalisasi skala besar melalui knowledge distillation
- Menggunakan struktur model teacher-student (model teacher 2~4 kali lebih besar daripada model student)
- Menggunakan strategi auxiliary distillation alih-alih prediksi langsung → menyelesaikan masalah distribution shift
- Hasil:
- Performa meningkat 0.4% saat strategi auxiliary distillation diterapkan
- Saat ukuran model teacher 2 kali, performa naik +0.42%, dan saat 4 kali naik +0.43%
-
Self-Auxiliary Distillation (Google)
- Meningkatkan sample efficiency pada model rekomendasi skala besar
- Struktur cabang dua arah → pembelajaran campuran antara label teacher dan label asli
- Label negatif diperlakukan bukan sebagai 0, melainkan sebagai nilai CTR terestimasi
- Hasil:
- Performa meningkat secara konsisten di berbagai domain
- Stabilitas pelatihan meningkat dan presisi output model membaik
-
DLLM2Rec
- Mendistilasi pengetahuan rekomendasi dari model bahasa besar ke model ringan
- Menggunakan importance-based ranking distillation dan collaborative embedding distillation
- Importance-based ranking distillation → memberi bobot pada peringkat item dan konsistensi
- Collaborative embedding distillation → mengoreksi perbedaan embedding antara model teacher dan student
- Hasil:
- Performa rata-rata meningkat 47.97% pada model GRU4Rec, SASRec, dan DROS
- Waktu inferensi turun dari 3~6 jam → 1.6~1.8 detik milik model teacher
-
MLoRA (Alibaba)
- Menerapkan LoRA per domain (Low-Rank Adaptation) pada prediksi CTR
- Setelah pra-pelatihan backbone model umum, dilakukan fine-tuning dengan LoRA per domain
- Rank LoRA diatur secara dinamis per layer
- Hasil:
- Performa AUC meningkat +0.5%
- CTR naik +1.49%, conversion rate naik +3.37%, pembeli berbayar naik +2.71%
-
Taming One-Epoch (Pinterest)
- Menyelesaikan masalah overfitting yang terjadi hanya dalam satu epoch
- Memisahkan tahap pelatihan dengan menggunakan contrastive learning
- Tahap pertama → pembelajaran embedding
- Tahap kedua → fine-tuning
- Hasil:
- Performa lebih baik daripada loss BCE yang ada
- Home feed +1.32%, related pins +2.18% meningkat
-
Sliding Window Training (Netflix)
- Memperkenalkan sliding window training untuk mempelajari riwayat pengguna yang panjang tanpa beban memori
- Melatih dengan memilih segmen riwayat pengguna yang berbeda pada tiap epoch pelatihan
- Menjaga keseimbangan antara 100 interaksi terbaru dan interaksi jangka panjang
- Hasil:
- Performa meningkat secara konsisten dibanding model yang hanya memakai interaksi terbaru
- Mean Average Precision(MAP) +1.5%, recall +7.01% membaik
Arsitektur terpadu pencarian dan rekomendasi
-
Bridging Search & Recommendations (Spotify)
- Menggabungkan data pencarian dan rekomendasi dalam satu model generatif untuk pembelajaran terpadu
- Berdasarkan Flan-T5-base, item ID diubah menjadi token untuk pelatihan
- Model rekomendasi generatif: memprediksi item berikutnya berdasarkan interaksi pengguna
- Model pencarian generatif: memprediksi item ID dari kueri teks
- Hasil:
- Performa rata-rata meningkat 16% dibanding model single-task (berdasarkan recall@30)
- Pada dataset podcast, performa pencarian +855% dan performa rekomendasi +262% meningkat
- Masih belum menyamai performa model rekomendasi dan pencarian yang ada (BM25, SASRec, dll.)
-
360Brew (LinkedIn)
- Satu model berukuran 150B parameter menjalankan lebih dari 30 task ranking
- Berbasis model Mixtral-8x22B → menjalani continuous pre-training (CPT) → instruction fine-tuning (IFT) → supervised fine-tuning (SFT)
- Memperkenalkan antarmuka bahasa alami → menggunakan prompt engineering alih-alih feature engineering
- Hasil:
- Mencapai performa setara atau lebih baik daripada model khusus yang ada
- Performa meningkat pada dataset skala besar (naik 3 kali lipat)
- Performa pengguna cold start membaik → lebih unggul dibanding model yang ada
-
UniCoRn (Netflix)
- Menangani task pencarian dan rekomendasi dalam satu model
- Menggunakan informasi konteks seperti ID pengguna, kueri pencarian, negara, source entity, dll.
- Memanfaatkan fungsi context-target dan feature crossing
- Hasil:
- Performa rekomendasi +10%, performa pencarian +7% meningkat
- Performa membaik lewat personalisasi yang diperkuat
- Menegaskan pentingnya jenis task dan penanganan missing value
-
Unified Embeddings (Etsy)
- Mengintegrasikan embedding berbasis Transformer, berbasis teks, dan berbasis graf
- Fine-tuning model T5 untuk memperkuat pencocokan kueri-produk
- Menerapkan hard negative sampling dan approximate nearest neighbor search (ANN)
- Hasil:
- Conversion rate +2.63%, organic search purchase rate +5.58% membaik
- Embedding graf memberi kontribusi terbesar pada performa (+15%)
-
Embedding Long Tail (Best Buy)
- Menyelesaikan masalah kueri long-tail
- Menggunakan model BERT internal berbasis perilaku pengguna → untuk encoding pencarian dan produk
- Memperkuat data melalui kueri sintetis yang dihasilkan oleh Llama-13B
- Hasil:
- Conversion rate +3% membaik
- Performa pencocokan kueri-produk meningkat (+4.67%)
-
User Behavioral Service (YouTube)
- Memisahkan model pembuat embedding pengguna dan model rekomendasi
- Menghasilkan embedding pengguna secara asinkron → menggunakan caching berkecepatan tinggi
- Jika embedding tidak tersedia saat permintaan masuk, mengembalikan nilai kosong lalu memperbarui secara asinkron
- Hasil:
- Memperbesar ukuran model sequence pengguna → menekan kenaikan biaya (28.7% → 2.8%)
- Performa rekomendasi secara keseluruhan membaik (0.01% ~ 0.40%)
-
Modern Ranking Platform (Zalando)
- Membangun sistem terpadu untuk pencarian dan browsing
- Menggunakan struktur candidate generation → ranking → policy layer
- Menerapkan embedding pelanggan berbasis Transformer + vector database
- Hasil:
- Engagement keseluruhan +15%, pendapatan +2.2% membaik
- Peningkatan performa tambahan setelah mengadopsi embedding yang dapat dilatih
Penutup
- Riset awal tahun 2023 (menerapkan LLM pada rekomendasi dan pencarian) masih kurang, tetapi upaya terbaru menunjukkan harapan yang lebih besar, khususnya karena didukung oleh hasil industri
- Ini menunjukkan bahwa mengeksplorasi penguatan sistem rekomendasi dan sistem pencarian dengan LLM memiliki manfaat nyata, dan dapat meningkatkan hasil sambil mengurangi biaya dan upaya
1 komentar
Opini Hacker News
Ada analisis bahwa pembaruan terkait kueri pencarian Spotify membantu pengguna mengekspresikan niat yang lebih kompleks
Banyak tim memanfaatkan LLM untuk memperkuat kueri pencarian dan indeks
Menarik bahwa Eugene memublikasikan pekerjaannya tepat setelah konferensi
Menjelaskan alasan pengalaman Spotify memburuk seiring waktu
Begitu bangun pagi, saya langsung mulai mendengarkan artikel ini dengan model text-to-speech
Varian SASRec dan Bert4Rec dilatih dengan ID-token dan menunjukkan hukum penskalaan yang mirip dengan LLM
Saya pikir menggabungkan sistem rekomendasi dan forum telah menjadi bencana besar bagi masyarakat
Mempertanyakan alasan tidak adanya alat pencarian berbasis LLM di PC dan smartphone
Tampaknya ini adalah ringkasan yang sangat bagus tentang sistem rekomendasi
Menarik bahwa makalah-makalah seperti ini tidak berasal dari laboratorium penelitian akademik