- 50 makalah, model, dan blog untuk insinyur AI dipilih dan dibagi ke dalam 10 bidang
- Mencakup bidang LLMs, benchmark, prompting, RAG, agen, pembuatan kode, vision, suara, difusi, dan fine-tuning
Bagian 1: LLM terdepan
- Model OpenAI
- Model Anthropic dan Google
- Keluarga LLaMA terkait Meta
- Model DeepSeek
- Apple Intelligence
- Apple Intelligence (makalah) - model yang disertakan di semua Mac dan iPhone
- Model dan riset tambahan yang patut diperhatikan
- Model LLM
- Keluarga AI2: Olmo, Molmo, OlmOE, Tülu 3, Olmo 2
- Lainnya: Grok, Amazon Nova, Yi, Reka, Jamba, Cohere, Nemotron, Microsoft Phi, HuggingFace SmolLM
- Riset Scaling Laws
- Model mutakhir:
- Riset model reasoning:
Bagian 2: Benchmark dan Evaluasi
- MMLU
- MMLU (makalah): standar benchmark pengetahuan multidisiplin
- Riset state-of-the-art pada 2025 menggunakan MMLU Pro (makalah), GPQA Diamond (makalah), BIG-Bench Hard (makalah)
- GPQA (makalah): berfokus pada pembuatan pertanyaan dan evaluasi jawaban
- BIG-Bench (makalah): benchmark skala besar yang mencakup beragam jenis masalah
- MuSR (makalah): evaluasi dalam konteks panjang
- MATH (makalah): kumpulan soal olimpiade matematika
- Riset state-of-the-art berfokus pada FrontierMath (makalah) dan soal berkesulitan tinggi
- Subset: MATH Level 5, AIME, AMC10/AMC12
- IFEval (makalah): benchmark utama untuk mengevaluasi kepatuhan terhadap instruksi
- Diadopsi secara resmi oleh Apple (tautan)
- Benchmark terkait: MT-Bench (makalah)
- ARC AGI (halaman resmi): benchmark penalaran abstrak dan "tes IQ"
- Tetap relevan dalam jangka panjang, tidak seperti benchmark lain yang cepat mengalami saturasi
- Referensi tambahan
Bagian 3: Prompting, ICL, dan Chain-of-Thought
- GPT-3 dan In-Context Learning (ICL)
- Makalah GPT-3 (makalah): memperkenalkan konsep In-Context Learning (ICL)
- ICL sangat terkait dengan prompting, yang memungkinkan LLM belajar dan menerapkan pengetahuan di dalam konteks
- Prompt Injection: manipulasi prompt dan isu keamanan (ringkasan oleh Lilian Weng, seri oleh Simon Willison)
- The Prompt Report: survei makalah terkait prompting
- Ringkasan: merangkum perkembangan keseluruhan teknik prompting dan tren terbaru (podcast terkait)
- Chain-of-Thought (CoT):
- Pemodelan proses berpikir langkah demi langkah
- Riset terkait:
- Tree of Thought:
- Memperkenalkan konsep Lookahead dan Backtracking
- Metode yang efektif untuk memecahkan masalah kompleks (podcast terkait)
- Prompt Tuning:
- Dapat menyesuaikan performa model tanpa prompt:
- Prefix-Tuning (makalah)
- Penyesuaian decoding berbasis entropy (GitHub)
- Representation Engineering (blog)
- Automatic Prompt Engineering:
- Metode di mana LLM secara langsung membuat dan mengoptimalkan prompt
- Diimplementasikan dalam framework DSPy (makalah)
- Selain makalah riset, panduan praktis juga bermanfaat:
Bagian 4: RAG (Retrieval-Augmented Generation)
- Introduction to Information Retrieval: buku referensi klasik yang membahas dasar-dasar temu kembali informasi
- RAG adalah masalah information retrieval (IR), dan sangat terkait erat dengan bidang yang memiliki sejarah lebih dari 60 tahun
- Teknologi utama:
- TF-IDF, BM25: pencarian berbasis teks
- FAISS, HNSW: pencarian vektor dan penelusuran tetangga terdekat
- Meta RAG (paper 2020): kemunculan pertama istilah RAG
- MTEB: benchmark evaluasi embedding
- GraphRAG: integrasi RAG dan knowledge graph oleh Microsoft
- GraphRAG:
- Mengintegrasikan knowledge graph ke dalam workflow RAG untuk memberikan hasil yang lebih baik pada data pribadi
- Menjadi open source (blog Microsoft)
- Riset terkait:
- RAGAS: metode evaluasi RAG sederhana yang direkomendasikan OpenAI
- Materi pembelajaran dan praktik RAG
Bagian 5: Agent
- SWE-Bench:
- Benchmark representatif untuk evaluasi agent (berfokus pada coding)
- Diadopsi oleh Anthropic, Devin, OpenAI, dan lainnya, sehingga mendapat perhatian besar
- Materi terkait:
- Perbandingan: WebArena (GitHub), SWE-Gym (tweet terkait)
- ReAct:
- Titik awal riset LLM tentang penggunaan alat dan pemanggilan fungsi
- Riset terkait:
- MemGPT:
- Pendekatan emulasi memori jangka panjang
- Pemanfaatan utama:
- Sistem terkait:
- Voyager:
- Pendekatan arsitektur kognitif dari Nvidia:
- Peningkatan performa dengan memanfaatkan kurikulum, pustaka keterampilan, sandbox
- Perluasan konsep:
- Agent Workflow Memory (paper)
- Anthropic Building Effective Agents:
- Rangkuman inti desain agent pada 2024
- Topik utama:
- chaining, routing, paralelisasi, orkestrasi, evaluasi, optimisasi
- Materi terkait:
- Materi belajar dan kuliah tambahan
Bagian 6: Pembuatan kode (CodeGen)
- The Stack paper
- Dimulai sebagai pasangan dataset terbuka berfokus kode dari The Pile
- Pekerjaan lanjutan:
- Paper model kode terbuka
- HumanEval/Codex
- Benchmark esensial di domain coding (saat ini sudah jenuh)
- Benchmark pengganti yang lebih modern:
- SWE-Bench
- Terkenal untuk evaluasi yang berpusat pada agent, tetapi mahal dan lebih berfokus pada evaluasi agent daripada model
- AlphaCodeium
- Berdasarkan performa AlphaCode dan AlphaCode2 milik Google
- Menggunakan Flow Engineering untuk secara signifikan meningkatkan performa model yang ada
- CriticGPT
- Berfokus pada deteksi masalah keamanan yang muncul saat pembuatan kode
- CriticGPT dari OpenAI dilatih untuk mengidentifikasi masalah keamanan
- Anthropic menggunakan SAEs (Safety-relevant Activation Ensembles) untuk menganalisis karakteristik LLM yang memicu masalah (riset)
- Pembuatan kode di industri telah bergeser fokusnya dari riset ke praktik:
- Pemanfaatan agent kode seperti Devin (video)
- Saran praktis tentang pembuatan kode (YouTube)
Bagian 7: Visi
- Riset visi berbasis non-LLM
- YOLO:
- Terkenal sebagai model deteksi objek real-time
- Kini telah berkembang hingga v11 (GitHub)
- Riset terbaru: model transformer berbasis DETR menunjukkan hasil yang melampaui YOLO
- Referensi: perhatikan berbagai versi YOLO dan garis keturunan perkembangannya (diskusi terkait)
- CLIP:
- Contoh sukses model multimodal berbasis ViT
- Model terbaru:
- CLIP masih menjadi pengetahuan latar yang penting
- MMVP benchmark:
- Segment Anything Model (SAM):
- Early Fusion vs Late Fusion:
- Pekerjaan terbaru yang belum dipublikasikan:
- GPT4V System Card dan riset turunannya (paper)
- OpenAI 4o:
- Model terbaru:
- Claude 3.5 Sonnet/Haiku
- Gemini 2.0 Flash
- o1
- Model lainnya:
Bagian 8: Suara
- Whisper:
- Model ASR OpenAI yang sukses
- Versi utama:
- Whisper menyediakan beberapa model berbobot terbuka, tetapi sebagian versinya tidak memiliki paper
- AudioPaLM:
- AudioPaLM dari Google adalah riset sebelum transisi dari PaLM ke Gemini
- Referensi: eksplorasi suara Llama 3 dari Meta (paper)
- NaturalSpeech:
- Salah satu riset TTS utama
- Baru-baru ini diperbarui ke v3 (paper)
- Kyutai Moshi:
- Model open-weight speech-to-text full-duplex
- Demo berkualitas tinggi (YouTube)
- Model referensi: Hume OCTAVE (blog)
- OpenAI Realtime API: The Missing Manual:
- Dokumentasi tidak resmi untuk API suara real-time OpenAI
- Alat penting untuk pekerjaan agen dan real-time terbaru
- Rekomendasi beragam solusi di luar lab besar:
- Daily, Livekit, Vapi, Assembly, Deepgram, Fireworks, Cartesia, Elevenlabs
- Referensi: State of Voice AI 2024
- Model suara NotebookLM:
- Gemini 2.0: model multimodal yang mengintegrasikan suara dan visi secara alami
- Setelah 2025: fusi modalitas suara dan visi sedang berkembang menjadi jalur yang jelas
Bagian 9: Difusi gambar/video
- Latent Diffusion:
- Makalah inti di balik Stable Diffusion
- Versi pengembangan:
- Saat ini tim tersebut sedang mengembangkan BFL Flux
- Seri OpenAI DALL-E:
- Seri Google Imagen:
- Consistency Models:
- Pekerjaan distilasi untuk model difusi
- Pengembangan:
- Sora:
- Alat text-to-video dari OpenAI (belum ada makalah resmi)
- Referensi:
- ComfyUI:
- Banyak diperhatikan sebagai antarmuka pengguna untuk model vision (wawancara terkait)
- Bidang khusus:
- Persaingan open weights:
- Memahami tren terbaru:
- Pemanfaatan model Stable Diffusion dan DALL-E
- Riset tentang konvergensi modalitas teks dan video
Bagian 10: Finetuning model
- LoRA/QLoRA:
- Standar untuk finetuning model berbiaya rendah
- Aplikasi utama:
- DPO:
- ReFT:
- Berfokus pada feature model alih-alih melakukan finetuning pada beberapa layer yang ada
- Pendekatan finetuning yang efisien
- Orca 3/AgentInstruct:
- Metode yang cocok untuk pembuatan data sintetis
- Riset terkait:
- Tuning RL:
- Notebook Unsloth:
- Menyediakan notebook yang berfokus pada praktik di GitHub
- Panduan HuggingFace:
Penutup daftar bacaan 2025 untuk insinyur AI
- Daftar ini mungkin terasa sangat besar dan mengintimidasi, tetapi tidak apa-apa jika berhenti di tengah jalan. Yang penting adalah memulai lagi
- Akan terus diperbarui sepanjang 2025 untuk menjaga informasi tetap mutakhir
- Anda boleh membangun cara belajar sendiri, tetapi cara membaca makalah dalam 1 jam bisa menjadi referensi yang membantu
- Tips membaca dan belajar dapat dilihat di sini
- Belajar bersama komunitas
- Grup Discord dan Telegram:
- Berbagi catatan dan highlight:
3 komentar
Kalau dilihat begini, ternyata masih ada sangat banyak materi yang layak dibaca dengan saksama.
Komentar Hacker News
Sebagian besar paper berfokus pada perolehan pengetahuan daripada pemahaman yang mendalam. Jika belum akrab dengan topiknya, lebih baik mulai dari buku teks daripada paper. "Deep Learning: Foundations and Concepts (2024)" terbaru dari Bishop dan "AI Engineering (2024)" dari Chip Huyen adalah referensi yang baik. "Dive into Deep Learning" atau materi dari fast.ai juga direkomendasikan
Saya tidak tahu apa yang dimaksud dengan profesi "AI Engineer", tetapi saya ragu apakah membaca paper riset benar-benar diperlukan. Jika tidak menangani state-of-the-art AI, membaca paper mungkin tidak terlalu bermakna. Yang lebih penting adalah memahami respons LLM dan membangun aplikasi yang ramah pengguna. Saat menggunakan API OpenAI atau Groq, mengetahui perbedaan antara "multi head attention" dan "single head attention" tidak terlalu berguna
Menyusun daftar seperti ini adalah pekerjaan yang sulit. Selain pilihan yang dimasukkan, ada banyak kandidat lain yang juga layak, jadi ini sebaiknya dilihat sebagai kurikulum, dan paper-paper yang relevan saat ini dipahami sebagai penunjuk yang terus bergerak, bukan referensi yang tetap. Ada klub paper yang membahas daftar bacaan tertentu
Metode instruction fine-tuning untuk sebagian besar model open source berasal dari Alpaca. Paper tentang Alpaca dan pembuatan data sintetis juga seharusnya dimasukkan
Jangan membuang waktu untuk membaca dan memahami paper AI dan LLM; lebih baik baca tentang ELIZA dan coba bangun sendiri. Fokuslah pada tensor, vektor, field, linguistik, arsitektur komputer, dan jaringan
Daftar bacaan itu berasal dari sekitar 1 tahun lalu. Pada 2025, fokusnya harus pada teknik seperti KTO, RLOO, dan DPO. Pada 2025, fokus seharusnya hanya pada distillation dan optimization. CoT bukan hal baru, dan CoT yang dimodifikasi itulah yang menjadi inti
Menarik bahwa istilah "AI" hampir sepenuhnya terserap oleh perkembangan DL belakangan ini. Tidak ada penyebutan Russell & Norvig, Minsky, Shannon, Lenat, dan lainnya. Jika tertarik pada pengantar ke topik AI yang lebih luas, sebagian besar program pascasarjana menggunakan buku yang sama
Survei yang luar biasa. Jika digabungkan dengan kursus di bawah ini, hasilnya bisa menjadi yang terbaik
Daftar yang luar biasa
Apa maksudnya membangun Eliza sendiri secara langsung?