Bagaimana model bahasa memuat miliaran konsep dalam 12.000 dimensi

(nickyoder.com)

1 poin oleh GN⁺ 2025-09-16 | Belum ada komentar. | Bagikan ke WhatsApp

Dalam ruang embedding berdimensi tinggi, sangat banyak representasi konsep dimungkinkan dengan memanfaatkan kuasi-ortogonalitas (quasi-orthogonality) alih-alih ortogonalitas sempurna
Lema Johnson-Lindenstrauss menjamin bahwa data berdimensi tinggi arbitrer dapat diproyeksikan ke dimensi yang lebih rendah dengan hampir tanpa kehilangan informasi
Dalam proses optimisasi, desain fungsi loss sangat penting, karena fungsi loss dasar dapat menghasilkan penempatan vektor yang tidak efisien atau bias
Hasil eksperimen menunjukkan bahwa kapasitas nyata ruang embedding jauh lebih besar daripada yang diperkirakan secara teoretis, sehingga jutaan hingga miliaran konsep dapat hidup berdampingan secara alami
Temuan ini memiliki makna praktis besar untuk praktik machine learning seperti representasi data dan reduksi dimensi, termasuk dalam NLP dan desain embedding

Pendahuluan: pertanyaan tentang kapasitas ruang embedding model bahasa

Dalam seri video model transformer terbaru dari 3Blue1Brown, Grant Sanderson mengajukan pertanyaan menarik: bagaimana ruang embedding GPT-3 yang berdimensi 12.288 dapat memuat jutaan konsep dunia nyata
Pertanyaan ini terhubung dengan geometri berdimensi tinggi dan hasil matematika yang dikenal sebagai lema Johnson-Lindenstrauss (JL)
Dalam proses menelaahnya, muncul wawasan baru tentang sifat fundamental ruang vektor dan optimisasi, yang bahkan berlanjut menjadi kolaborasi dengan Grant

Kuasi-ortogonalitas vektor dan kapasitas ruang embedding

Dalam ruang berdimensi N, hanya ada N vektor yang sepenuhnya ortogonal
Namun, jika kita mengizinkan hubungan kuasi-ortogonal (quasi-orthogonal) yang sedikit menyimpang dari 90 derajat (misalnya sudut 85~95 derajat), jumlah vektor yang dapat direpresentasikan dalam ruang yang sama meningkat secara eksponensial
Dalam video Grant, diperlihatkan visualisasi 10 ribu vektor satuan yang ditempatkan dalam ruang 100 dimensi dengan posisi yang nyaris ortogonal
Namun, saat mereproduksi eksperimen yang sama, ditemukan jebakan halus dalam desain fungsi loss optimisasi

Masalah dan pola pada fungsi loss

Fungsi loss dasar:
loss = (dot_products.abs()).relu().sum()
Pada unit sphere yang sebenarnya, fungsi loss ini menimbulkan dua masalah
1. Gradient Trap: saat sudut vektor mendekati 90 derajat, gradien bekerja kuat, tetapi di dekat 0 derajat atau 180 derajat, gradien nyaris 0 sehingga perbaikan terhambat
2. Solusi 99%: teknik optimisasi meminimalkan total loss dengan susunan di mana setiap vektor ortogonal dengan baik terhadap 9.900 vektor lain, tetapi hampir paralel dengan 99 vektor lainnya (yakni salinan dari vektor acuan) di antara 10 ribu vektor
Jika dilihat secara keseluruhan, solusi ini sangat berbeda dari yang diharapkan, sehingga dibutuhkan fungsi loss yang lebih cermat
Karena itu, fungsi loss diubah dengan menerapkan penalti eksponensial: loss = exp(20*dot_products.abs()**2).sum()
Pendekatan ini menghasilkan distribusi yang lebih dekat ke yang diinginkan (sudut pasangan maksimum sekitar 76,5 derajat)

Lema Johnson-Lindenstrauss (JL): jaminan geometris

Lema JL menjamin bahwa meskipun sekumpulan titik data berdimensi tinggi arbitrer diproyeksikan secara acak ke dimensi yang lebih rendah, jarak Euclidean tetap hampir terjaga
Untuk 1~N titik, faktor galat ε, dan dimensi proyeksi k:
(1-ε)||u-v||² ≤ ||f(u)-f(v)||² ≤ (1+ε)||u-v||²
Dimensi minimum yang diperlukan k adalah: k ≥ (C/ε²) * log(N)
di mana C adalah konstanta yang menyesuaikan probabilitas keberhasilan
Umumnya, nilai C diambil konservatif di kisaran 4~8, tetapi pada metode proyeksi khusus (misalnya Hadamard matrix, metode optimisasi), C yang lebih kecil dapat dicapai

Bidang penerapan praktis

Reduksi dimensi:
- Contoh: mengubah preferensi pelanggan e-commerce secara efisien dari puluhan ribu dimensi produk menjadi beberapa ribu dimensi
- Dapat dimanfaatkan untuk analisis real-time data berdimensi tinggi, sistem rekomendasi, dan sebagainya
Analisis batas kapasitas ruang embedding:
- Bukan ortogonalitas sempurna, melainkan spektrum kemiripan/perbedaan antar konsep yang dapat direpresentasikan secara alami dalam ruang
- Contoh kata nyata: "archery", "fire", "gelatinous", "green", dan sebagainya, di mana makna fisik maupun abstrak tumpang tindih dalam ruang berdimensi tinggi

Analisis eksperimental kapasitas embedding

Hasil optimisasi menggunakan transformasi Hadamard matrix dan sebagainya menunjukkan bahwa nilai C berada di kisaran 2,5~4, dan pada optimisasi berbasis GPU bisa menjadi jauh lebih rendah
Metode eksperimen: memproyeksikan N standard basis vector satu per satu ke ruang berdimensi k, lalu melakukan optimisasi berulang sebanyak 50 ribu kali
Hasil pengamatan:
1. Nilai C mencapai puncak (~0,9) saat N meningkat, lalu berangsur menurun
2. Semakin tinggi rasio N/k, nilai C turun hingga di bawah 0,2
Hal ini berasal dari efisiensi sphere packing di ruang berdimensi tinggi
Ini mengindikasikan bahwa dalam praktik, ada kapasitas untuk merepresentasikan lebih banyak konsep daripada batas atas teoretis

Makna praktis bagi embedding model bahasa

Bergantung pada jumlah dimensi embedding k, sudut ortogonal aproksimatif F(90°-sudut aktual), dan nilai C, jumlah konsep yang dapat dimuat adalah Vectors ≈ 10^(k * F² / 1500)
- k=12,288, F=1(89°) → 10^8
- F=2(88°) → 10^32
- F=3(87°) → 10^73
- F=5(85°) → dapat menyimpan lebih dari 10^200 vektor
Bahkan dengan 86° saja, jumlahnya melebihi jumlah atom di alam semesta teramati (10^80)
Artinya, model bahasa nyata dapat mempertahankan jutaan makna secara kaya bahkan dalam dimensi yang relatif sedikit

Aplikasi praktis dan arah ke depan

Reduksi dimensi yang efisien:
- Melalui pendekatan berbasis proyeksi acak yang dikombinasikan dengan transformasi Hadamard, BCH coding, dan sebagainya, reduksi dimensi data skala besar serta komputasi cepat dimungkinkan tanpa optimisasi yang kompleks
Desain ruang embedding:
- Wawasan tentang kapasitas ruang menjelaskan bagaimana model bahasa besar seperti transformer dapat sekaligus mempertahankan relasi makna hingga konsep halus seperti "Canadian" dan "Muppet-like"

Kesimpulannya, standar embedding saat ini (1.000~20.000 dimensi) sudah memadai untuk merepresentasikan pengetahuan manusia; kuncinya adalah mempelajari penempatan ideal di dalam ruang tersebut

Kesimpulan

Berawal dari penelusuran masalah optimisasi halus pada fungsi loss, pembahasan ini berkembang menjadi wawasan mendalam tentang geometri berdimensi tinggi dan struktur dasar machine learning
Lema JL yang dipublikasikan pada 1984 kini menyediakan fondasi inti bagi embedding machine learning modern, representasi informasi, dan prinsip reduksi dimensi
Penulis menyampaikan terima kasih kepada Grant Sanderson, kanal 3Blue1Brown, dan Suman Dev atas kolaborasinya, serta membagikan kegembiraan dari riset dan penulisan ini

Bacaan tambahan

Sphere Packings, Lattices and Groups – Conway & Sloane
Database-friendly random projections: Johnson-Lindenstrauss with binary coins – Achlioptas
Hadamard Matrices, Sequences, and Block Designs – Seberry & Yamada