8 poin oleh GN⁺ 2024-01-28 | 1 komentar | Bagikan ke WhatsApp

Membuat model bahasa skala besar (dari nol)

  • Buku yang membantu menemukan prinsip kerja internal model bahasa skala besar (Large Language Models, LLM)
  • Menjelaskan cara membuat LLM sendiri langkah demi langkah dengan teks, diagram, dan contoh yang jelas
  • Cara melatih dan mengembangkan model kecil namun fungsional untuk tujuan pembelajaran mencerminkan pendekatan dalam membuat model fondasi skala besar seperti ChatGPT

Daftar isi

  • File Readme.md adalah file Markdown, dan disarankan untuk membukanya dengan editor atau pratinjau Markdown agar dapat dilihat dengan baik
  • Judul setiap bab serta kode utama dan kode pendukung diringkas dalam daftar isi
  • Termasuk lampiran pengantar PyTorch dan petunjuk tambahan tentang instalasi Python serta paket Python

Pendapat GN⁺:

  • Buku ini menjelaskan secara rinci proses membuat model bahasa skala besar dari nol, dan sangat bermanfaat bagi insinyur perangkat lunak pemula yang tertarik pada bidang kecerdasan buatan.
  • Menawarkan materi yang menarik bagi pembaca yang ingin memahami fondasi teknologi inovatif seperti ChatGPT.
  • Panduan langkah demi langkah yang disertai contoh kode nyata akan membantu pembelajar menerapkan teori dalam praktik.

1 komentar

 
GN⁺ 2024-01-28
Opini Hacker News
  • Penulis sedang menyiapkan buku panduan sebagai materi tambahan, yang saat ini berada di berbagai tahap penyelesaian. Sejauh ini, panduan fine-tuning adalah materi terbaik.

  • Buku panduan ini tampak luar biasa. Yang membuat penasaran adalah apakah tujuan utamanya untuk membantu pemahaman dan menghilangkan kesan misterius, atau untuk mendorong orang membuat sendiri model kecil yang sesuai dengan kebutuhan mereka.

  • Menulis buku teknis secara terbuka disertai tingkat kecemasan yang nyaris tak terbayangkan, jadi hormat untuk penulisnya.

  • Penasaran apakah informasi di buku ini bisa dipakai untuk belajar tentang reinforcement learning. Tujuannya adalah belajar mendarat seperti pendarat bulan. Mulainya sederhana dari ketinggian 100 kaki, lalu memberi dorongan ke satu arah dan mencoba sampai tidak membuat kawah. Setelah itu menambahkan variabel, misalnya bergerak horizontal sambil menambahkan pendorong horizontal, dan seterusnya. Penasaran apakah buku ini akan membantu untuk ML yang lebih "arus utama" seperti itu.

  • Seperti yang bisa dilihat dari sampel kode pertama, ini bukan benar-benar dimulai sepenuhnya dari nol.

    import torch
    
  • Saya kira materi ini gratis lalu langsung pindah ke Github. Dengan segala hormat untuk kerja penulis, saya penasaran materi gratis apa saja yang tersedia dan direkomendasikan untuk pendekatan "from scratch" yang sesungguhnya.

  • Arsitektur modelnya sendiri tidak terlalu rumit, terutama saat memakai torch. Seluruh prosesnya adalah proyek yang cukup sederhana dan bisa dijalankan.

  • Ini mungkin akan dikategorikan sebagai "Show HN".

  • Terima kasih atas karya ini. Apakah sudah ada perkiraan kapan bukunya akan selesai?

  • Saya membeli satu salinan! Tidak sabar untuk membacanya. :) Apakah ada cara bagi pembaca untuk memberi masukan selama proses penulisan buku?