Daftar Bacaan Insinyur AI 2025

(latent.space)

45 poin oleh GN⁺ 2025-01-14 | 3 komentar | Bagikan ke WhatsApp

50 makalah, model, dan blog untuk insinyur AI dipilih dan dibagi ke dalam 10 bidang
Mencakup bidang LLMs, benchmark, prompting, RAG, agen, pembuatan kode, vision, suara, difusi, dan fine-tuning

Bagian 1: LLM terdepan

Model OpenAI
- GPT1 (makalah), GPT2 (makalah), GPT3 (makalah), Codex (makalah), InstructGPT (makalah), GPT4 (makalah)
- GPT3.5 (pengantar ChatGPT), 4o (pengantar GPT-4o), o1 (pratinjau o1), o3 (system card)
Model Anthropic dan Google
- Claude 3 (makalah), Gemini 1 (makalah)
- Claude 3.5 Sonnet (detail), Gemini 2.0 Flash (blog resmi), Flash Thinking (dokumentasi Gemini API), Gemma 2 (makalah)
Keluarga LLaMA terkait Meta
- LLaMA 1 (makalah), LLaMA 2 (makalah), LLaMA 3 (makalah)
- Model turunan: Mistral 7B (makalah), Mixtral (makalah), Pixtral (makalah)
Model DeepSeek
- DeepSeek V1 (makalah), Coder (makalah), MoE (makalah), V2 (makalah), V3 (GitHub)
Apple Intelligence
- Apple Intelligence (makalah) - model yang disertakan di semua Mac dan iPhone
Model dan riset tambahan yang patut diperhatikan
- Model LLM
  - Keluarga AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
  - Lainnya: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Riset Scaling Laws
  - Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Model mutakhir:
  - o1, o3, R1, QwQ, QVQ, f1
- Riset model reasoning:
  - Let’s Verify Step By Step, STaR, kuliah Noam Brown

Bagian 2: Benchmark dan Evaluasi

MMLU
- MMLU (makalah): standar benchmark pengetahuan multidisiplin
  - Riset state-of-the-art pada 2025 menggunakan MMLU Pro (makalah), GPQA Diamond (makalah), BIG-Bench Hard (makalah)
- GPQA (makalah): berfokus pada pembuatan pertanyaan dan evaluasi jawaban
- BIG-Bench (makalah): benchmark skala besar yang mencakup beragam jenis masalah
MuSR (makalah): evaluasi dalam konteks panjang
- Riset terkait: LongBench (makalah), BABILong (makalah), RULER (pengantar)
- Permasalahan yang dibahas: Lost in the Middle (makalah), Needle in a Haystack (GitHub)
MATH (makalah): kumpulan soal olimpiade matematika
- Riset state-of-the-art berfokus pada FrontierMath (makalah) dan soal berkesulitan tinggi
- Subset: MATH Level 5, AIME, AMC10/AMC12
IFEval (makalah): benchmark utama untuk mengevaluasi kepatuhan terhadap instruksi
- Diadopsi secara resmi oleh Apple (tautan)
- Benchmark terkait: MT-Bench (makalah)
ARC AGI (halaman resmi): benchmark penalaran abstrak dan "tes IQ"
- Tetap relevan dalam jangka panjang, tidak seperti benchmark lain yang cepat mengalami saturasi
Referensi tambahan
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: analisis mendalam tentang benchmark
- Materi terkait LLM: LLM-as-Judge, Applied LLMs
- Sumber daya dataset: Datasets

Bagian 3: Prompting, ICL, dan Chain-of-Thought

GPT-3 dan In-Context Learning (ICL)
- Makalah GPT-3 (makalah): memperkenalkan konsep In-Context Learning (ICL)
- ICL sangat terkait dengan prompting, yang memungkinkan LLM belajar dan menerapkan pengetahuan di dalam konteks
- Prompt Injection: manipulasi prompt dan isu keamanan (ringkasan oleh Lilian Weng, seri oleh Simon Willison)
The Prompt Report: survei makalah terkait prompting
- Ringkasan: merangkum perkembangan keseluruhan teknik prompting dan tren terbaru (podcast terkait)
Chain-of-Thought (CoT):
- Pemodelan proses berpikir langkah demi langkah
- Riset terkait:
  - Scratchpads (makalah)
  - Let’s Think Step By Step (makalah)
Tree of Thought:
- Memperkenalkan konsep Lookahead dan Backtracking
- Metode yang efektif untuk memecahkan masalah kompleks (podcast terkait)
Prompt Tuning:
- Dapat menyesuaikan performa model tanpa prompt:
  - Prefix-Tuning (makalah)
  - Penyesuaian decoding berbasis entropy (GitHub)
  - Representation Engineering (blog)
Automatic Prompt Engineering:
- Metode di mana LLM secara langsung membuat dan mengoptimalkan prompt
- Diimplementasikan dalam framework DSPy (makalah)
Selain makalah riset, panduan praktis juga bermanfaat:
- Blog Prompt Engineering oleh Lilian Weng
- Panduan Prompting oleh Eugene Yan
- Tutorial dan workshop dari Anthropic:
  - Interactive Prompt Engineering Tutorial
  - AI Engineer Workshop

Bagian 4: RAG (Retrieval-Augmented Generation)

Introduction to Information Retrieval: buku referensi klasik yang membahas dasar-dasar temu kembali informasi
- RAG adalah masalah information retrieval (IR), dan sangat terkait erat dengan bidang yang memiliki sejarah lebih dari 60 tahun
- Teknologi utama:
  - TF-IDF, BM25: pencarian berbasis teks
  - FAISS, HNSW: pencarian vektor dan penelusuran tetangga terdekat
Meta RAG (paper 2020): kemunculan pertama istilah RAG
- HyDE (dokumentasi)
- Chunking (riset)
- Rerankers (blog Cohere)
- Pemrosesan data multimodal (YouTube)
MTEB: benchmark evaluasi embedding
- Kontroversi dan keterbatasan (diskusi terkait)
- Contoh model embedding:
  - SentenceTransformers
  - OpenAI, Nomic Embed, ModernBERT Embed
  - Matryoshka Embeddings (blog HuggingFace)
GraphRAG: integrasi RAG dan knowledge graph oleh Microsoft
- GraphRAG:
  - Mengintegrasikan knowledge graph ke dalam workflow RAG untuk memberikan hasil yang lebih baik pada data pribadi
  - Menjadi open source (blog Microsoft)
- Riset terkait:
  - ColBERT, ColPali, ColQwen
RAGAS: metode evaluasi RAG sederhana yang direkomendasikan OpenAI
- Nvidia FACTS Framework (paper)
- Extrinsic Hallucinations in LLMs (ulasan Lilian Weng)
- Recall vs Precision oleh Jason Wei (tweet)
Materi pembelajaran dan praktik RAG
- LlamaIndex (dokumentasi, kursus)
- LangChain (dokumentasi, video tutorial)
- Perdebatan RAG vs Long Context:
  - paper: perbandingan antara RAG dan pendekatan long context

Bagian 5: Agent

SWE-Bench:
- Benchmark representatif untuk evaluasi agent (berfokus pada coding)
- Diadopsi oleh Anthropic, Devin, OpenAI, dan lainnya, sehingga mendapat perhatian besar
- Materi terkait:
  - SWE-Agent (paper)
  - SWE-Bench Multimodal (paper)
  - Konwinski Prize (situs web)
- Perbandingan: WebArena (GitHub), SWE-Gym (tweet terkait)
ReAct:
- Titik awal riset LLM tentang penggunaan alat dan pemanggilan fungsi
- Riset terkait:
  - Gorilla (leaderboard)
  - Toolformer (paper)
  - HuggingGPT (paper)
MemGPT:
- Pendekatan emulasi memori jangka panjang
- Pemanfaatan utama:
  - Fitur memori dan kontrol di ChatGPT
  - Memori episodik LangGraph
- Sistem terkait:
  - MetaGPT (paper)
  - AutoGen (paper)
  - Smallville (GitHub)
Voyager:
- Pendekatan arsitektur kognitif dari Nvidia:
  - Peningkatan performa dengan memanfaatkan kurikulum, pustaka keterampilan, sandbox
- Perluasan konsep:
  - Agent Workflow Memory (paper)
Anthropic Building Effective Agents:
- Rangkuman inti desain agent pada 2024
- Topik utama:
  - chaining, routing, paralelisasi, orkestrasi, evaluasi, optimisasi
- Materi terkait:
  - Riset agent oleh Lilian Weng riset agent
  - Riset agent LLM oleh Shunyu Yao
  - Ikhtisar agent 2025 oleh Chip Huyen
Materi belajar dan kuliah tambahan
- Desain agent terkini 2024: rangkuman NeurIPS
- UC Berkeley MOOC: kuliah LLM Agents
- Diskusi definisi agent: bila perlu, lihat definisi ini

Bagian 6: Pembuatan kode (CodeGen)

The Stack paper
- Dimulai sebagai pasangan dataset terbuka berfokus kode dari The Pile
- Pekerjaan lanjutan:
  - The Stack v2: dataset yang ditingkatkan
  - StarCoder: model pembuatan kode yang dioptimalkan
Paper model kode terbuka
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Banyak yang menilai Claude 3.5 Sonnet sebagai model kode terbaik, tetapi tidak ada paper resmi
HumanEval/Codex
- Benchmark esensial di domain coding (saat ini sudah jenuh)
- Benchmark pengganti yang lebih modern:
  - Aider
  - Codeforces
  - BigCodeBench
  - LiveCodeBench
  - SciCode
- SWE-Bench
  - Terkenal untuk evaluasi yang berpusat pada agent, tetapi mahal dan lebih berfokus pada evaluasi agent daripada model
AlphaCodeium
- Berdasarkan performa AlphaCode dan AlphaCode2 milik Google
- Menggunakan Flow Engineering untuk secara signifikan meningkatkan performa model yang ada
CriticGPT
- Berfokus pada deteksi masalah keamanan yang muncul saat pembuatan kode
  - CriticGPT dari OpenAI dilatih untuk mengidentifikasi masalah keamanan
  - Anthropic menggunakan SAEs (Safety-relevant Activation Ensembles) untuk menganalisis karakteristik LLM yang memicu masalah (riset)
Pembuatan kode di industri telah bergeser fokusnya dari riset ke praktik:
- Pemanfaatan agent kode seperti Devin (video)
- Saran praktis tentang pembuatan kode (YouTube)

Bagian 7: Visi

Riset visi berbasis non-LLM
- YOLO:
  - Terkenal sebagai model deteksi objek real-time
  - Kini telah berkembang hingga v11 (GitHub)
  - Riset terbaru: model transformer berbasis DETR menunjukkan hasil yang melampaui YOLO
- Referensi: perhatikan berbagai versi YOLO dan garis keturunan perkembangannya (diskusi terkait)
CLIP:
- Contoh sukses model multimodal berbasis ViT
- Model terbaru:
  - BLIP, BLIP2
  - SigLIP/PaliGemma
- CLIP masih menjadi pengetahuan latar yang penting
MMVP benchmark:
- Mengevaluasi keterbatasan CLIP
- Versi multimodal: MMMU, SWE-Bench Multimodal
Segment Anything Model (SAM):
- Model representatif untuk segmentasi gambar dan video
- Riset lanjutan: SAM 2 (podcast terkait)
- Model pelengkap: GroundingDINO
Early Fusion vs Late Fusion:
- Late Fusion: LLaVA (podcast)
- Early Fusion:
  - Flamingo dari Meta
  - Chameleon
  - AIMv2 dari Apple
  - Core dari Reka
- Materi referensi: alur riset visi multimodal
Pekerjaan terbaru yang belum dipublikasikan:
- GPT4V System Card dan riset turunannya (paper)
- OpenAI 4o:
  - Fine-tuning 4o Vision
- Model terbaru:
  - Claude 3.5 Sonnet/Haiku
  - Gemini 2.0 Flash
  - o1
  - Model lainnya:
    - Pixtral
    - Llama 3.2
    - Moondream
    - QVQ

Bagian 8: Suara

Whisper:
- Model ASR OpenAI yang sukses
- Versi utama:
  - Whisper v2 (diskusi terkait)
  - Whisper v3 (diskusi terkait)
  - Distil-Whisper (GitHub)
  - Whisper v3 Turbo (analisis)
- Whisper menyediakan beberapa model berbobot terbuka, tetapi sebagian versinya tidak memiliki paper
AudioPaLM:
- AudioPaLM dari Google adalah riset sebelum transisi dari PaLM ke Gemini
- Referensi: eksplorasi suara Llama 3 dari Meta (paper)
NaturalSpeech:
- Salah satu riset TTS utama
- Baru-baru ini diperbarui ke v3 (paper)
Kyutai Moshi:
- Model open-weight speech-to-text full-duplex
- Demo berkualitas tinggi (YouTube)
- Model referensi: Hume OCTAVE (blog)
OpenAI Realtime API: The Missing Manual:
- Dokumentasi tidak resmi untuk API suara real-time OpenAI
- Alat penting untuk pekerjaan agen dan real-time terbaru
Rekomendasi beragam solusi di luar lab besar:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referensi: State of Voice AI 2024
- Model suara NotebookLM:
  - Modelnya tidak dipublikasikan, tetapi tersedia penjelasan mendalam tentang proses pemodelannya
Gemini 2.0: model multimodal yang mengintegrasikan suara dan visi secara alami
- Setelah 2025: fusi modalitas suara dan visi sedang berkembang menjadi jalur yang jelas

Bagian 9: Difusi gambar/video

Latent Diffusion:
- Makalah inti di balik Stable Diffusion
- Versi pengembangan:
  - SD2 (pengumuman resmi)
  - SDXL dan SD3
- Saat ini tim tersebut sedang mengembangkan BFL Flux
Seri OpenAI DALL-E:
- DALL-E, DALL-E-2, DALL-E-3
Seri Google Imagen:
- Imagen, Imagen 2, Imagen 3
- Referensi: Ideogram
Consistency Models:
- Pekerjaan distilasi untuk model difusi
- Pengembangan:
  - LCMs
  - Pembaruan terbaru: sCMs
Sora:
- Alat text-to-video dari OpenAI (belum ada makalah resmi)
- Referensi:
  - makalah DiT (penulis yang sama)
  - OpenSora: model pesaing berbasis open weights
  - ringkasan oleh Lilian Weng
ComfyUI:
- Banyak diperhatikan sebagai antarmuka pengguna untuk model vision (wawancara terkait)
Bidang khusus:
- Text Diffusion: model difusi berbasis teks
- Music Diffusion: difusi untuk generasi musik
- Autoregressive Image Generation: generasi gambar autoregresif
Persaingan open weights:
- Text-to-Video Arena
Memahami tren terbaru:
- Pemanfaatan model Stable Diffusion dan DALL-E
- Riset tentang konvergensi modalitas teks dan video

Bagian 10: Finetuning model

LoRA/QLoRA:
- Standar untuk finetuning model berbiaya rendah
- Aplikasi utama:
  - Juga didukung pada model lokal dan 4o milik OpenAI (lihat podcast)
  - FSDP+QLoRA: materi pembelajaran
DPO:
- Didukung di Preference Finetuning milik OpenAI
- Populer sebagai alternatif untuk PPO (makalah), tetapi performanya agak lebih rendah
ReFT:
- Berfokus pada feature model alih-alih melakukan finetuning pada beberapa layer yang ada
- Pendekatan finetuning yang efisien
Orca 3/AgentInstruct:
- Metode yang cocok untuk pembuatan data sintetis
- Riset terkait:
  - Synthetic Data Picks dari NeurIPS
Tuning RL:
- RL Finetuning for o1 dari OpenAI merupakan materi yang kontroversial tetapi penting
- Riset terkait:
  - Let’s Verify Step By Step
  - ceramah oleh Noam Brown
Notebook Unsloth:
- Menyediakan notebook yang berfokus pada praktik di GitHub
Panduan HuggingFace:
- How to fine-tune open LLMs: panduan mendalam untuk seluruh proses finetuning

Penutup daftar bacaan 2025 untuk insinyur AI

Daftar ini mungkin terasa sangat besar dan mengintimidasi, tetapi tidak apa-apa jika berhenti di tengah jalan. Yang penting adalah memulai lagi
Akan terus diperbarui sepanjang 2025 untuk menjaga informasi tetap mutakhir
Anda boleh membangun cara belajar sendiri, tetapi cara membaca makalah dalam 1 jam bisa menjadi referensi yang membantu
Tips membaca dan belajar dapat dilihat di sini
Belajar bersama komunitas
- Grup Discord dan Telegram:
  - Grup Discord Krispin: https://app.discuna.com/invite/ai_engineer
  - Grup Telegram Fed of Flow AI yang aktif di NYC: AI NYC Telegram
  - Bergabung dengan komunitas Discord Latent Space: tautan undangan Discord
- Berbagi catatan dan highlight:
  - Blog yang dimulai oleh pembaca Niels: catatan 2025 AI Engineer Reading List

3 komentar

kipsong133 2025-01-16

Kalau dilihat begini, ternyata masih ada sangat banyak materi yang layak dibaca dengan saksama.

GN⁺ 2025-01-14

Komentar Hacker News

Sebagian besar paper berfokus pada perolehan pengetahuan daripada pemahaman yang mendalam. Jika belum akrab dengan topiknya, lebih baik mulai dari buku teks daripada paper. "Deep Learning: Foundations and Concepts (2024)" terbaru dari Bishop dan "AI Engineering (2024)" dari Chip Huyen adalah referensi yang baik. "Dive into Deep Learning" atau materi dari fast.ai juga direkomendasikan
Saya tidak tahu apa yang dimaksud dengan profesi "AI Engineer", tetapi saya ragu apakah membaca paper riset benar-benar diperlukan. Jika tidak menangani state-of-the-art AI, membaca paper mungkin tidak terlalu bermakna. Yang lebih penting adalah memahami respons LLM dan membangun aplikasi yang ramah pengguna. Saat menggunakan API OpenAI atau Groq, mengetahui perbedaan antara "multi head attention" dan "single head attention" tidak terlalu berguna
Menyusun daftar seperti ini adalah pekerjaan yang sulit. Selain pilihan yang dimasukkan, ada banyak kandidat lain yang juga layak, jadi ini sebaiknya dilihat sebagai kurikulum, dan paper-paper yang relevan saat ini dipahami sebagai penunjuk yang terus bergerak, bukan referensi yang tetap. Ada klub paper yang membahas daftar bacaan tertentu
Metode instruction fine-tuning untuk sebagian besar model open source berasal dari Alpaca. Paper tentang Alpaca dan pembuatan data sintetis juga seharusnya dimasukkan
Jangan membuang waktu untuk membaca dan memahami paper AI dan LLM; lebih baik baca tentang ELIZA dan coba bangun sendiri. Fokuslah pada tensor, vektor, field, linguistik, arsitektur komputer, dan jaringan
Daftar bacaan itu berasal dari sekitar 1 tahun lalu. Pada 2025, fokusnya harus pada teknik seperti KTO, RLOO, dan DPO. Pada 2025, fokus seharusnya hanya pada distillation dan optimization. CoT bukan hal baru, dan CoT yang dimodifikasi itulah yang menjadi inti
Menarik bahwa istilah "AI" hampir sepenuhnya terserap oleh perkembangan DL belakangan ini. Tidak ada penyebutan Russell & Norvig, Minsky, Shannon, Lenat, dan lainnya. Jika tertarik pada pengantar ke topik AI yang lebih luas, sebagian besar program pascasarjana menggunakan buku yang sama
Survei yang luar biasa. Jika digabungkan dengan kursus di bawah ini, hasilnya bisa menjadi yang terbaik
Daftar yang luar biasa

francomoon7 2025-01-16

Apa maksudnya membangun Eliza sendiri secara langsung?