2 poin oleh GN⁺ 2024-06-07 | 1 komentar | Bagikan ke WhatsApp

1 komentar

 
GN⁺ 2024-06-07
Pendapat Hacker News
  • Riset yang menarik: Menarik karena ini adalah riset yang muncul cepat setelah publikasi Anthropic "Mapping the Mind of a Large Language Model". Banyak orang masih mengatakan "kita tidak tahu bagaimana LLM/deep learning bekerja", tetapi riset seperti ini membantah generalisasi tersebut.

  • Pertanyaan tentang pemilihan contoh: Di antara contoh GPT-4, ada frasa terkait kenaikan harga yang sebenarnya menunjukkan penurunan harga, sehingga sulit dipahami. Menimbulkan pertanyaan mengapa contoh seperti ini dipilih.

  • Pencarian semantik tingkat lanjut: Menyukai contoh di dokumen yang memfilter konsep seperti kenaikan harga. Ini bisa lebih cepat dan lebih akurat daripada melatih model.

  • Kesalahan klasifikasi: Ada kesalahan yang mengklasifikasikan penjelasan ilmiah sebagai konten erotis. Bisa dicek melalui tautannya.

  • Riset serupa: Mengingatkan pada riset Anthropic tentang Claude 3 Sonnet.

  • Interpretasi model: Penasaran bagaimana riset ini meningkat dibandingkan penerapan alat seperti SHAP. Klaim bahwa "saat ini kita tidak dapat memahami aktivitas saraf model bahasa" adalah keliru.

  • Permintaan penjelasan dasar: Meminta agar pentingnya riset ini dijelaskan dengan cara yang mudah dipahami.

  • Alat pendamping untuk model terbuka: Merilis autoencoder yang menjelaskan output jaringan saraf bisa menjadi praktik yang baik. Ini bisa menjadi alat pendamping yang berguna untuk semua model terbuka di Hugging Face.

  • fMRI untuk jaringan saraf: Mirip fMRI yang memungkinkan kita melihat area yang aktif sesuai topik tertentu dalam jaringan saraf. Penasaran apakah jaringan saraf evaluasi dapat dihubungkan untuk menilai area aktif secara otomatis.

  • Keterkaitan dengan sparse embedding: Mungkin berkaitan dengan sparse embedding (seperti Splade), dan penasaran apakah ini bisa digunakan untuk pencarian hibrida.