Embedding Masih Diremehkan (2024)

(technicalwriting.dev)

2 poin oleh GN⁺ 2025-05-13 | Belum ada komentar. | Bagikan ke WhatsApp

Embedding menawarkan potensi kemajuan yang revolusioner di bidang penulisan teknis belakangan ini
Embedding memiliki karakteristik mengembalikan array numerik berdimensi tetap terlepas dari ukuran teks masukan
Melalui array numerik ini, perbandingan matematis antar teks arbitrer menjadi mungkin
Embedding menghitung jarak berdasarkan makna teks dalam ruang multidimensi, dan dapat dimanfaatkan untuk berbagai hal seperti rekomendasi keterkaitan, analisis semantik, dan lainnya
Ke depan, dengan situs dokumentasi teknis membuka data embedding mereka, alat baru dan contoh pemanfaatan komunitas diperkirakan akan meluas

Gambaran umum teknologi embedding berbasis machine learning

Dalam teknologi machine learning, tidak seperti model pembangkitan teks, embedding memiliki potensi untuk memberi dampak revolusioner pada penulisan teknis
Dalam beberapa tahun terakhir, penggunaan embedding telah menjadi jauh lebih mudah diakses
Melalui embedding, penulis teknis dapat melakukan perbandingan dan analisis semantik di antara beragam teks

Embedding menerima teks sebagai masukan (kata, kalimat, beberapa dokumen, dan sebagainya) lalu mengembalikan array numerik berukuran tetap
Terlepas dari panjang teks masukan, selalu dihasilkan data array dengan ukuran yang sama
Karena itu, muncul kemungkinan perbandingan matematis bahkan untuk teks arbitrer dengan panjang yang berbeda-beda

Embedding dapat dibuat hanya dengan beberapa baris kode melalui penyedia layanan utama
Ukuran array embedding berbeda tergantung model yang digunakan; dalam kasus Gemini dikembalikan 768 angka, sedangkan Voyage AI mengembalikan 1024 angka
Karena makna embedding sepenuhnya berbeda menurut penyedia atau model, maka tidak ada kompatibilitas antarmodel

Pembuatan embedding sendiri tidak terlalu mahal
Proses pembuatannya diperkirakan mengonsumsi sumber daya komputasi lebih rendah dibanding model pembangkitan teks, tetapi dampak lingkungannya masih memerlukan lebih banyak informasi ke depannya

Model yang paling sesuai bergantung pada kemampuan mendukung data masukan berukuran besar
voyage-3 dari Voyage AI menyediakan batas input tertinggi per 2024
Penting memilih model yang sesuai dengan tujuan penggunaan dan kebutuhan

Setiap nilai dalam array numerik embedding sesuai dengan satu koordinat dalam ruang multidimensi, dan karakteristik teks direpresentasikan sebagai posisi semantik dalam ruang tersebut
Sebagai contoh, operasi seperti ‘king’ - ‘man’ + ‘woman’ ≈ ‘queen’ menunjukkan kemungkinan merepresentasikan hubungan semantik
Karakteristik setiap dimensi dalam ruang embedding sebagian besar tidak jelas dan abstrak
Melalui proses ini, pembelajaran makna oleh mesin dan penalaran makna teks menjadi mungkin

Embedding yang telah dibuat disimpan untuk setiap teks (misalnya halaman) di database dan sebagainya
Dengan perhitungan jarak matematis antara dua embedding (menggunakan aljabar linear), dimungkinkan menilai kemiripan semantik
Dengan memanfaatkan pustaka seperti NumPy dan scikit-learn, beban menerapkan rumus yang rumit menjadi kecil

Di situs dokumentasi teknis, embedding dimanfaatkan secara efektif untuk fitur rekomendasi halaman terkait
Setelah membuat embedding untuk setiap halaman, dimungkinkan merekomendasikan dokumen yang saling terkait secara semantik di antara halaman-halaman dengan kemiripan numerik tinggi
Setiap kali isi halaman diubah, cukup memperbarui embedding-nya saja sehingga sangat efisien
Hasil penerapan pada dokumentasi [Sphinx] yang sebenarnya menunjukkan kinerja yang positif

Ke depannya, situs dokumentasi dapat menyediakan data embedding melalui REST API atau well-known URI
Melalui hal ini, komunitas dapat mengembangkan beragam alat dan layanan terapan

Menarik untuk menghubungkan konsep ruang berdimensi ratusan dengan pekerjaan sehari-hari
Dengan adopsi embedding, dapat diharapkan potensi kemajuan besar dalam pemeliharaan dokumentasi dan perluasan fitur