45 poin oleh GN⁺ 2025-01-14 | 3 komentar | Bagikan ke WhatsApp
  • 50 makalah, model, dan blog untuk insinyur AI dipilih dan dibagi ke dalam 10 bidang
  • Mencakup bidang LLMs, benchmark, prompting, RAG, agen, pembuatan kode, vision, suara, difusi, dan fine-tuning

Bagian 1: LLM terdepan

Bagian 2: Benchmark dan Evaluasi

  • MMLU
    • MMLU (makalah): standar benchmark pengetahuan multidisiplin
      • Riset state-of-the-art pada 2025 menggunakan MMLU Pro (makalah), GPQA Diamond (makalah), BIG-Bench Hard (makalah)
    • GPQA (makalah): berfokus pada pembuatan pertanyaan dan evaluasi jawaban
    • BIG-Bench (makalah): benchmark skala besar yang mencakup beragam jenis masalah
  • MuSR (makalah): evaluasi dalam konteks panjang
  • MATH (makalah): kumpulan soal olimpiade matematika
    • Riset state-of-the-art berfokus pada FrontierMath (makalah) dan soal berkesulitan tinggi
    • Subset: MATH Level 5, AIME, AMC10/AMC12
  • IFEval (makalah): benchmark utama untuk mengevaluasi kepatuhan terhadap instruksi
    • Diadopsi secara resmi oleh Apple (tautan)
    • Benchmark terkait: MT-Bench (makalah)
  • ARC AGI (halaman resmi): benchmark penalaran abstrak dan "tes IQ"
    • Tetap relevan dalam jangka panjang, tidak seperti benchmark lain yang cepat mengalami saturasi
  • Referensi tambahan

Bagian 3: Prompting, ICL, dan Chain-of-Thought

Bagian 4: RAG (Retrieval-Augmented Generation)

  • Introduction to Information Retrieval: buku referensi klasik yang membahas dasar-dasar temu kembali informasi
    • RAG adalah masalah information retrieval (IR), dan sangat terkait erat dengan bidang yang memiliki sejarah lebih dari 60 tahun
    • Teknologi utama:
      • TF-IDF, BM25: pencarian berbasis teks
      • FAISS, HNSW: pencarian vektor dan penelusuran tetangga terdekat
  • Meta RAG (paper 2020): kemunculan pertama istilah RAG
  • MTEB: benchmark evaluasi embedding
  • GraphRAG: integrasi RAG dan knowledge graph oleh Microsoft
    • GraphRAG:
      • Mengintegrasikan knowledge graph ke dalam workflow RAG untuk memberikan hasil yang lebih baik pada data pribadi
      • Menjadi open source (blog Microsoft)
    • Riset terkait:
  • RAGAS: metode evaluasi RAG sederhana yang direkomendasikan OpenAI
  • Materi pembelajaran dan praktik RAG

Bagian 5: Agent

Bagian 6: Pembuatan kode (CodeGen)

  • The Stack paper
    • Dimulai sebagai pasangan dataset terbuka berfokus kode dari The Pile
    • Pekerjaan lanjutan:
  • Paper model kode terbuka
  • HumanEval/Codex
  • AlphaCodeium
    • Berdasarkan performa AlphaCode dan AlphaCode2 milik Google
    • Menggunakan Flow Engineering untuk secara signifikan meningkatkan performa model yang ada
  • CriticGPT
    • Berfokus pada deteksi masalah keamanan yang muncul saat pembuatan kode
      • CriticGPT dari OpenAI dilatih untuk mengidentifikasi masalah keamanan
      • Anthropic menggunakan SAEs (Safety-relevant Activation Ensembles) untuk menganalisis karakteristik LLM yang memicu masalah (riset)
  • Pembuatan kode di industri telah bergeser fokusnya dari riset ke praktik:
    • Pemanfaatan agent kode seperti Devin (video)
    • Saran praktis tentang pembuatan kode (YouTube)

Bagian 7: Visi

Bagian 8: Suara

  • Whisper:
    • Model ASR OpenAI yang sukses
    • Versi utama:
    • Whisper menyediakan beberapa model berbobot terbuka, tetapi sebagian versinya tidak memiliki paper
  • AudioPaLM:
    • AudioPaLM dari Google adalah riset sebelum transisi dari PaLM ke Gemini
    • Referensi: eksplorasi suara Llama 3 dari Meta (paper)
  • NaturalSpeech:
    • Salah satu riset TTS utama
    • Baru-baru ini diperbarui ke v3 (paper)
  • Kyutai Moshi:
    • Model open-weight speech-to-text full-duplex
    • Demo berkualitas tinggi (YouTube)
    • Model referensi: Hume OCTAVE (blog)
  • OpenAI Realtime API: The Missing Manual:
    • Dokumentasi tidak resmi untuk API suara real-time OpenAI
    • Alat penting untuk pekerjaan agen dan real-time terbaru
  • Rekomendasi beragam solusi di luar lab besar:
  • Gemini 2.0: model multimodal yang mengintegrasikan suara dan visi secara alami
    • Setelah 2025: fusi modalitas suara dan visi sedang berkembang menjadi jalur yang jelas

Bagian 9: Difusi gambar/video

Bagian 10: Finetuning model

Penutup daftar bacaan 2025 untuk insinyur AI

3 komentar

 
kipsong133 2025-01-16

Kalau dilihat begini, ternyata masih ada sangat banyak materi yang layak dibaca dengan saksama.

 
GN⁺ 2025-01-14
Komentar Hacker News
  • Sebagian besar paper berfokus pada perolehan pengetahuan daripada pemahaman yang mendalam. Jika belum akrab dengan topiknya, lebih baik mulai dari buku teks daripada paper. "Deep Learning: Foundations and Concepts (2024)" terbaru dari Bishop dan "AI Engineering (2024)" dari Chip Huyen adalah referensi yang baik. "Dive into Deep Learning" atau materi dari fast.ai juga direkomendasikan

  • Saya tidak tahu apa yang dimaksud dengan profesi "AI Engineer", tetapi saya ragu apakah membaca paper riset benar-benar diperlukan. Jika tidak menangani state-of-the-art AI, membaca paper mungkin tidak terlalu bermakna. Yang lebih penting adalah memahami respons LLM dan membangun aplikasi yang ramah pengguna. Saat menggunakan API OpenAI atau Groq, mengetahui perbedaan antara "multi head attention" dan "single head attention" tidak terlalu berguna

  • Menyusun daftar seperti ini adalah pekerjaan yang sulit. Selain pilihan yang dimasukkan, ada banyak kandidat lain yang juga layak, jadi ini sebaiknya dilihat sebagai kurikulum, dan paper-paper yang relevan saat ini dipahami sebagai penunjuk yang terus bergerak, bukan referensi yang tetap. Ada klub paper yang membahas daftar bacaan tertentu

  • Metode instruction fine-tuning untuk sebagian besar model open source berasal dari Alpaca. Paper tentang Alpaca dan pembuatan data sintetis juga seharusnya dimasukkan

  • Jangan membuang waktu untuk membaca dan memahami paper AI dan LLM; lebih baik baca tentang ELIZA dan coba bangun sendiri. Fokuslah pada tensor, vektor, field, linguistik, arsitektur komputer, dan jaringan

  • Daftar bacaan itu berasal dari sekitar 1 tahun lalu. Pada 2025, fokusnya harus pada teknik seperti KTO, RLOO, dan DPO. Pada 2025, fokus seharusnya hanya pada distillation dan optimization. CoT bukan hal baru, dan CoT yang dimodifikasi itulah yang menjadi inti

  • Menarik bahwa istilah "AI" hampir sepenuhnya terserap oleh perkembangan DL belakangan ini. Tidak ada penyebutan Russell & Norvig, Minsky, Shannon, Lenat, dan lainnya. Jika tertarik pada pengantar ke topik AI yang lebih luas, sebagian besar program pascasarjana menggunakan buku yang sama

  • Survei yang luar biasa. Jika digabungkan dengan kursus di bawah ini, hasilnya bisa menjadi yang terbaik

  • Daftar yang luar biasa

 
francomoon7 2025-01-16

Apa maksudnya membangun Eliza sendiri secara langsung?