5 poin oleh GN⁺ 2023-10-25 | 1 komentar | Bagikan ke WhatsApp
  • Artikel yang membahas konsep teknologi 'embedding', yang dapat mengubah konten menjadi deretan angka floating-point untuk digunakan dalam berbagai aplikasi.
  • Penulis Simon Willison menyampaikan presentasi tentang embedding di PyBay 2023, dan artikel ini merupakan versi yang disempurnakan dari presentasi tersebut.
  • Embedding digunakan dalam bidang model bahasa besar yang mendukung teknologi seperti ChatGPT, Bard, dan Claude.
  • Penulis menjelaskan cara menggunakan model OpenAI text-embedding-ada-002 untuk membangun fitur "konten terkait" di blognya.
  • Artikel ini juga membahas cara menggunakan embedding untuk kode dengan alat bernama Symbex, yang dapat menghitung embedding untuk setiap fungsi dalam codebase dan membangun mesin pencari kode.
  • Penulis memperkenalkan alat bernama LLM (Large Language Models) yang dapat digunakan untuk memanfaatkan embedding dan membangun mesin pencari semantik.
  • Artikel ini juga membahas cara menggunakan embedding untuk gambar dengan model bernama CLIP, yang dapat meng-embedding teks dan gambar ke dalam ruang vektor yang sama.
  • Penulis membahas cara melakukan klasifikasi menggunakan embedding, dengan menghitung posisi rata-rata dari grup embedding lalu membandingkan konten baru dengan posisi tersebut untuk menetapkan kategori.
  • Artikel ini ditutup dengan pembahasan tentang Retrieval-Augmented Generation (RAG), yaitu teknik yang menggunakan embedding untuk menjawab pertanyaan berdasarkan dokumen pribadi atau dokumen internal perusahaan.
  • Artikel ini mencakup sesi tanya jawab di mana penulis menjawab pertanyaan tentang LangChain, fungsi jarak selain cosine similarity, pemrosesan data dalam jumlah besar, dan peningkatan model embedding di masa depan.

1 komentar

 
GN⁺ 2023-10-25
Komentar Hacker News
  • Setelah penulis menerbitkan artikel ini, ia menemukan materi tambahan untuk memahami embedding lebih dalam.
  • Embedding telah menjadi metode standar untuk pengenalan tempat dalam computer vision dan algoritme visual SLAM.
  • Contoh terkenal dari word embedding adalah King - Man + Women = Queen, tetapi ini tidak memberikan kesan visual yang kuat saat diproyeksikan ke dua dimensi.
  • Autoencoding bekerja dengan baik meskipun sederhana, dan ada minat pada model embedding dokumen yang bagus yang bisa dijalankan di perangkat keras pribadi.
  • Embedding ternyata sangat mudah ditambahkan ke fitur pencarian spesialis yang sudah ada di aplikasi pencatat, dan hasilnya lebih kuat dari yang diperkirakan.
  • Model mental untuk embedding dalam bahasa dijelaskan sebagai banyak titik di berbagai posisi dalam ruang berdimensi sangat tinggi.
  • Ada keterbatasan pada model embedding komersial saat dibangun untuk domain tertentu, dan ada harapan akan alat serta literatur yang lebih baik untuk fine-tuning model embedding.
  • Artikel ini bermanfaat dan menarik bahkan bagi orang yang hampir tidak memiliki latar belakang machine learning.
  • Ada pertanyaan mengapa penulis menghitung dot product dengan metode tertentu alih-alih menggunakan operasi numpy yang divektorkan.
  • Ada kebingungan tentang kode clustering yang digunakan dalam artikel, khususnya tentang cara mengubah setiap baris database menjadi array numpy dan menggunakan model MiniBatchKMeans untuk menghasilkan label.