Daftar Bacaan Insinyur AI 2025
(latent.space)- 50 makalah, model, dan blog untuk insinyur AI dipilih dan dibagi ke dalam 10 bidang
- Mencakup bidang LLMs, benchmark, prompting, RAG, agen, pembuatan kode, vision, suara, difusi, dan fine-tuning
Bagian 1: LLM terdepan
- Model OpenAI
- GPT1 (makalah), GPT2 (makalah), GPT3 (makalah), Codex (makalah), InstructGPT (makalah), GPT4 (makalah)
- GPT3.5 (pengantar ChatGPT), 4o (pengantar GPT-4o), o1 (pratinjau o1), o3 (system card)
- Model Anthropic dan Google
- Claude 3 (makalah), Gemini 1 (makalah)
- Claude 3.5 Sonnet (detail), Gemini 2.0 Flash (blog resmi), Flash Thinking (dokumentasi Gemini API), Gemma 2 (makalah)
- Keluarga LLaMA terkait Meta
- Model DeepSeek
- Apple Intelligence
- Apple Intelligence (makalah) - model yang disertakan di semua Mac dan iPhone
- Model dan riset tambahan yang patut diperhatikan
- Model LLM
- Keluarga AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Lainnya: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Riset Scaling Laws
- Scaling Laws: Kaplan, Chinchilla, Emergence, Mirage, Post-Chinchilla Laws
- Model mutakhir:
- Riset model reasoning:
- Model LLM
Bagian 2: Benchmark dan Evaluasi
- MMLU
- MuSR (makalah): evaluasi dalam konteks panjang
- MATH (makalah): kumpulan soal olimpiade matematika
- Riset state-of-the-art berfokus pada FrontierMath (makalah) dan soal berkesulitan tinggi
- Subset: MATH Level 5, AIME, AMC10/AMC12
- IFEval (makalah): benchmark utama untuk mengevaluasi kepatuhan terhadap instruksi
- ARC AGI (halaman resmi): benchmark penalaran abstrak dan "tes IQ"
- Tetap relevan dalam jangka panjang, tidak seperti benchmark lain yang cepat mengalami saturasi
- Referensi tambahan
- Latent Space: Benchmarks 101, Benchmarks 201
- Carlini, LMArena, Braintrust: analisis mendalam tentang benchmark
- Materi terkait LLM: LLM-as-Judge, Applied LLMs
- Sumber daya dataset: Datasets
Bagian 3: Prompting, ICL, dan Chain-of-Thought
- GPT-3 dan In-Context Learning (ICL)
- Makalah GPT-3 (makalah): memperkenalkan konsep In-Context Learning (ICL)
- ICL sangat terkait dengan prompting, yang memungkinkan LLM belajar dan menerapkan pengetahuan di dalam konteks
- Prompt Injection: manipulasi prompt dan isu keamanan (ringkasan oleh Lilian Weng, seri oleh Simon Willison)
- The Prompt Report: survei makalah terkait prompting
- Ringkasan: merangkum perkembangan keseluruhan teknik prompting dan tren terbaru (podcast terkait)
- Chain-of-Thought (CoT):
- Tree of Thought:
- Memperkenalkan konsep Lookahead dan Backtracking
- Metode yang efektif untuk memecahkan masalah kompleks (podcast terkait)
- Prompt Tuning:
- Automatic Prompt Engineering:
- Metode di mana LLM secara langsung membuat dan mengoptimalkan prompt
- Diimplementasikan dalam framework DSPy (makalah)
- Selain makalah riset, panduan praktis juga bermanfaat:
- Blog Prompt Engineering oleh Lilian Weng
- Panduan Prompting oleh Eugene Yan
- Tutorial dan workshop dari Anthropic:
Bagian 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: buku referensi klasik yang membahas dasar-dasar temu kembali informasi
- RAG adalah masalah information retrieval (IR), dan sangat terkait erat dengan bidang yang memiliki sejarah lebih dari 60 tahun
- Teknologi utama:
- TF-IDF, BM25: pencarian berbasis teks
- FAISS, HNSW: pencarian vektor dan penelusuran tetangga terdekat
- Meta RAG (paper 2020): kemunculan pertama istilah RAG
- HyDE (dokumentasi)
- Chunking (riset)
- Rerankers (blog Cohere)
- Pemrosesan data multimodal (YouTube)
- MTEB: benchmark evaluasi embedding
- Kontroversi dan keterbatasan (diskusi terkait)
- Contoh model embedding:
- SentenceTransformers
- OpenAI, Nomic Embed, ModernBERT Embed
- Matryoshka Embeddings (blog HuggingFace)
- GraphRAG: integrasi RAG dan knowledge graph oleh Microsoft
- GraphRAG:
- Mengintegrasikan knowledge graph ke dalam workflow RAG untuk memberikan hasil yang lebih baik pada data pribadi
- Menjadi open source (blog Microsoft)
- Riset terkait:
- ColBERT, ColPali, ColQwen
- GraphRAG:
- RAGAS: metode evaluasi RAG sederhana yang direkomendasikan OpenAI
- Nvidia FACTS Framework (paper)
- Extrinsic Hallucinations in LLMs (ulasan Lilian Weng)
- Recall vs Precision oleh Jason Wei (tweet)
- Materi pembelajaran dan praktik RAG
- LlamaIndex (dokumentasi, kursus)
- LangChain (dokumentasi, video tutorial)
- Perdebatan RAG vs Long Context:
- paper: perbandingan antara RAG dan pendekatan long context
Bagian 5: Agent
- SWE-Bench:
- Benchmark representatif untuk evaluasi agent (berfokus pada coding)
- Diadopsi oleh Anthropic, Devin, OpenAI, dan lainnya, sehingga mendapat perhatian besar
- Materi terkait:
- Perbandingan: WebArena (GitHub), SWE-Gym (tweet terkait)
- ReAct:
- Titik awal riset LLM tentang penggunaan alat dan pemanggilan fungsi
- Riset terkait:
- Gorilla (leaderboard)
- Toolformer (paper)
- HuggingGPT (paper)
- MemGPT:
- Pendekatan emulasi memori jangka panjang
- Pemanfaatan utama:
- Sistem terkait:
- Voyager:
- Pendekatan arsitektur kognitif dari Nvidia:
- Peningkatan performa dengan memanfaatkan kurikulum, pustaka keterampilan, sandbox
- Perluasan konsep:
- Agent Workflow Memory (paper)
- Pendekatan arsitektur kognitif dari Nvidia:
- Anthropic Building Effective Agents:
- Rangkuman inti desain agent pada 2024
- Topik utama:
- chaining, routing, paralelisasi, orkestrasi, evaluasi, optimisasi
- Materi terkait:
- Riset agent oleh Lilian Weng riset agent
- Riset agent LLM oleh Shunyu Yao
- Ikhtisar agent 2025 oleh Chip Huyen
- Materi belajar dan kuliah tambahan
- Desain agent terkini 2024: rangkuman NeurIPS
- UC Berkeley MOOC: kuliah LLM Agents
- Diskusi definisi agent: bila perlu, lihat definisi ini
Bagian 6: Pembuatan kode (CodeGen)
- The Stack paper
- Dimulai sebagai pasangan dataset terbuka berfokus kode dari The Pile
- Pekerjaan lanjutan:
- The Stack v2: dataset yang ditingkatkan
- StarCoder: model pembuatan kode yang dioptimalkan
- Paper model kode terbuka
- DeepSeek-Coder
- Qwen2.5-Coder
- CodeLlama
- Banyak yang menilai Claude 3.5 Sonnet sebagai model kode terbaik, tetapi tidak ada paper resmi
- HumanEval/Codex
- Benchmark esensial di domain coding (saat ini sudah jenuh)
- Benchmark pengganti yang lebih modern:
- SWE-Bench
- Terkenal untuk evaluasi yang berpusat pada agent, tetapi mahal dan lebih berfokus pada evaluasi agent daripada model
- AlphaCodeium
- Berdasarkan performa AlphaCode dan AlphaCode2 milik Google
- Menggunakan Flow Engineering untuk secara signifikan meningkatkan performa model yang ada
- CriticGPT
- Berfokus pada deteksi masalah keamanan yang muncul saat pembuatan kode
- CriticGPT dari OpenAI dilatih untuk mengidentifikasi masalah keamanan
- Anthropic menggunakan SAEs (Safety-relevant Activation Ensembles) untuk menganalisis karakteristik LLM yang memicu masalah (riset)
- Berfokus pada deteksi masalah keamanan yang muncul saat pembuatan kode
- Pembuatan kode di industri telah bergeser fokusnya dari riset ke praktik:
Bagian 7: Visi
- Riset visi berbasis non-LLM
- YOLO:
- Referensi: perhatikan berbagai versi YOLO dan garis keturunan perkembangannya (diskusi terkait)
- CLIP:
- Contoh sukses model multimodal berbasis ViT
- Model terbaru:
- CLIP masih menjadi pengetahuan latar yang penting
- MMVP benchmark:
- Mengevaluasi keterbatasan CLIP
- Versi multimodal: MMMU, SWE-Bench Multimodal
- Segment Anything Model (SAM):
- Model representatif untuk segmentasi gambar dan video
- Riset lanjutan: SAM 2 (podcast terkait)
- Model pelengkap: GroundingDINO
- Early Fusion vs Late Fusion:
- Pekerjaan terbaru yang belum dipublikasikan:
- GPT4V System Card dan riset turunannya (paper)
- OpenAI 4o:
- Model terbaru:
Bagian 8: Suara
- Whisper:
- Model ASR OpenAI yang sukses
- Versi utama:
- Whisper v2 (diskusi terkait)
- Whisper v3 (diskusi terkait)
- Distil-Whisper (GitHub)
- Whisper v3 Turbo (analisis)
- Whisper menyediakan beberapa model berbobot terbuka, tetapi sebagian versinya tidak memiliki paper
- AudioPaLM:
- AudioPaLM dari Google adalah riset sebelum transisi dari PaLM ke Gemini
- Referensi: eksplorasi suara Llama 3 dari Meta (paper)
- NaturalSpeech:
- Salah satu riset TTS utama
- Baru-baru ini diperbarui ke v3 (paper)
- Kyutai Moshi:
- OpenAI Realtime API: The Missing Manual:
- Dokumentasi tidak resmi untuk API suara real-time OpenAI
- Alat penting untuk pekerjaan agen dan real-time terbaru
- Rekomendasi beragam solusi di luar lab besar:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referensi: State of Voice AI 2024
- Model suara NotebookLM:
- Modelnya tidak dipublikasikan, tetapi tersedia penjelasan mendalam tentang proses pemodelannya
- Gemini 2.0: model multimodal yang mengintegrasikan suara dan visi secara alami
- Setelah 2025: fusi modalitas suara dan visi sedang berkembang menjadi jalur yang jelas
Bagian 9: Difusi gambar/video
- Latent Diffusion:
- Makalah inti di balik Stable Diffusion
- Versi pengembangan:
- SD2 (pengumuman resmi)
- SDXL dan SD3
- Saat ini tim tersebut sedang mengembangkan BFL Flux
- Seri OpenAI DALL-E:
- Seri Google Imagen:
- Consistency Models:
- Sora:
- Alat text-to-video dari OpenAI (belum ada makalah resmi)
- Referensi:
- makalah DiT (penulis yang sama)
- OpenSora: model pesaing berbasis open weights
- ringkasan oleh Lilian Weng
- ComfyUI:
- Banyak diperhatikan sebagai antarmuka pengguna untuk model vision (wawancara terkait)
- Bidang khusus:
- Text Diffusion: model difusi berbasis teks
- Music Diffusion: difusi untuk generasi musik
- Autoregressive Image Generation: generasi gambar autoregresif
- Persaingan open weights:
- Memahami tren terbaru:
- Pemanfaatan model Stable Diffusion dan DALL-E
- Riset tentang konvergensi modalitas teks dan video
Bagian 10: Finetuning model
- LoRA/QLoRA:
- Standar untuk finetuning model berbiaya rendah
- Aplikasi utama:
- Juga didukung pada model lokal dan 4o milik OpenAI (lihat podcast)
- FSDP+QLoRA: materi pembelajaran
- DPO:
- Didukung di Preference Finetuning milik OpenAI
- Populer sebagai alternatif untuk PPO (makalah), tetapi performanya agak lebih rendah
- ReFT:
- Berfokus pada feature model alih-alih melakukan finetuning pada beberapa layer yang ada
- Pendekatan finetuning yang efisien
- Orca 3/AgentInstruct:
- Metode yang cocok untuk pembuatan data sintetis
- Riset terkait:
- Synthetic Data Picks dari NeurIPS
- Tuning RL:
- RL Finetuning for o1 dari OpenAI merupakan materi yang kontroversial tetapi penting
- Riset terkait:
- Let’s Verify Step By Step
- ceramah oleh Noam Brown
- Notebook Unsloth:
- Menyediakan notebook yang berfokus pada praktik di GitHub
- Panduan HuggingFace:
- How to fine-tune open LLMs: panduan mendalam untuk seluruh proses finetuning
Penutup daftar bacaan 2025 untuk insinyur AI
- Daftar ini mungkin terasa sangat besar dan mengintimidasi, tetapi tidak apa-apa jika berhenti di tengah jalan. Yang penting adalah memulai lagi
- Akan terus diperbarui sepanjang 2025 untuk menjaga informasi tetap mutakhir
- Anda boleh membangun cara belajar sendiri, tetapi cara membaca makalah dalam 1 jam bisa menjadi referensi yang membantu
- Tips membaca dan belajar dapat dilihat di sini
- Belajar bersama komunitas
- Grup Discord dan Telegram:
- Grup Discord Krispin: https://app.discuna.com/invite/ai_engineer
- Grup Telegram Fed of Flow AI yang aktif di NYC: AI NYC Telegram
- Bergabung dengan komunitas Discord Latent Space: tautan undangan Discord
- Berbagi catatan dan highlight:
- Blog yang dimulai oleh pembaca Niels: catatan 2025 AI Engineer Reading List
- Grup Discord dan Telegram:
3 komentar
Kalau dilihat begini, ternyata masih ada sangat banyak materi yang layak dibaca dengan saksama.
Komentar Hacker News
Sebagian besar paper berfokus pada perolehan pengetahuan daripada pemahaman yang mendalam. Jika belum akrab dengan topiknya, lebih baik mulai dari buku teks daripada paper. "Deep Learning: Foundations and Concepts (2024)" terbaru dari Bishop dan "AI Engineering (2024)" dari Chip Huyen adalah referensi yang baik. "Dive into Deep Learning" atau materi dari fast.ai juga direkomendasikan
Saya tidak tahu apa yang dimaksud dengan profesi "AI Engineer", tetapi saya ragu apakah membaca paper riset benar-benar diperlukan. Jika tidak menangani state-of-the-art AI, membaca paper mungkin tidak terlalu bermakna. Yang lebih penting adalah memahami respons LLM dan membangun aplikasi yang ramah pengguna. Saat menggunakan API OpenAI atau Groq, mengetahui perbedaan antara "multi head attention" dan "single head attention" tidak terlalu berguna
Menyusun daftar seperti ini adalah pekerjaan yang sulit. Selain pilihan yang dimasukkan, ada banyak kandidat lain yang juga layak, jadi ini sebaiknya dilihat sebagai kurikulum, dan paper-paper yang relevan saat ini dipahami sebagai penunjuk yang terus bergerak, bukan referensi yang tetap. Ada klub paper yang membahas daftar bacaan tertentu
Metode instruction fine-tuning untuk sebagian besar model open source berasal dari Alpaca. Paper tentang Alpaca dan pembuatan data sintetis juga seharusnya dimasukkan
Jangan membuang waktu untuk membaca dan memahami paper AI dan LLM; lebih baik baca tentang ELIZA dan coba bangun sendiri. Fokuslah pada tensor, vektor, field, linguistik, arsitektur komputer, dan jaringan
Daftar bacaan itu berasal dari sekitar 1 tahun lalu. Pada 2025, fokusnya harus pada teknik seperti KTO, RLOO, dan DPO. Pada 2025, fokus seharusnya hanya pada distillation dan optimization. CoT bukan hal baru, dan CoT yang dimodifikasi itulah yang menjadi inti
Menarik bahwa istilah "AI" hampir sepenuhnya terserap oleh perkembangan DL belakangan ini. Tidak ada penyebutan Russell & Norvig, Minsky, Shannon, Lenat, dan lainnya. Jika tertarik pada pengantar ke topik AI yang lebih luas, sebagian besar program pascasarjana menggunakan buku yang sama
Survei yang luar biasa. Jika digabungkan dengan kursus di bawah ini, hasilnya bisa menjadi yang terbaik
Daftar yang luar biasa
Apa maksudnya membangun Eliza sendiri secara langsung?