Rekayasa Data untuk Model Skala Besar: Arsitektur, Algoritme, dan Proyek

(github.com/datascale-ai)

15 poin oleh GN⁺ 2026-02-16 | 1 komentar | Bagikan ke WhatsApp

Di era model skala besar, kualitas data menentukan batas atas performa model
Buku panduan open source yang menyediakan pengetahuan rekayasa data yang sistematis untuk itu
Mencakup seluruh proses seperti pemurnian data pra-pelatihan, penyelarasan multimodal, pipeline data RAG, dan pembuatan data sintetis
Terdiri dari 5 bagian dan 13 bab. Selain itu, terdapat 5 proyek capstone berbasis praktik beserta kode yang dapat dijalankan dan desain arsitektur untuk mendukung pembelajaran praktis
Memproses data teks, gambar, dan video dengan stack teknologi modern seperti Ray, Spark, CLIP, dan DVC
Dapat digunakan sebagai referensi praktis bagi pembangun pipeline data AI seperti peneliti LLM, data engineer, dan spesialis MLOps

Pengantar

Di era model skala besar, kualitas data menentukan batas performa model
- Dibuat untuk melengkapi kenyataan bahwa materi sistematis tentang rekayasa data LLM masih kurang
Buku ini membahas seluruh stack teknologi, dari pemurnian data pra-pelatihan hingga penyelarasan multimodal, RAG, dan pembuatan data sintetis
- Mengekstrak korpus berkualitas tinggi dari data bising berskala besar seperti Common Crawl
- Pengumpulan, pemurnian, dan penyelarasan data gambar-teks, video, dan audio
- Pembuatan otomatis data SFT, RLHF, dan CoT
- Membangun pipeline RAG termasuk parsing dokumen perusahaan dan pemisahan berdasarkan unit semantik
Menyediakan pembelajaran berfokus praktik melalui 5 proyek capstone end-to-end
Tersedia untuk dibaca online: https://datascale-ai.github.io/data_engineering_book/en/

Struktur buku

Struktur keseluruhannya adalah pipeline rekayasa data lengkap dari data mentah hingga aplikasi
Terdiri dari total 6 bagian, 13 bab, dan 5 proyek
- Part 1: Infrastruktur dan konsep inti
- Part 2: Rekayasa data pra-pelatihan teks
- Part 3: Rekayasa data multimodal
- Part 4: Rekayasa data penyelarasan dan data sintetis
- Part 5: Rekayasa data tingkat aplikasi
- Part 6: Proyek capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Fitur utama

Teori yang komprehensif

Mencerminkan filosofi Data-Centric AI di seluruh isi
Mencakup seluruh siklus hidup data LLM dari pra-pelatihan → fine-tuning → RLHF → RAG
Termasuk topik lanjutan seperti scaling laws, evaluasi kualitas data, dan penyelarasan multimodal

Stack teknologi modern

Komputasi terdistribusi: Ray Data, Spark
Penyimpanan data: Parquet, WebDataset, Vector Databases
Pemrosesan teks: Trafilatura, KenLM, MinHash LSH
Pemrosesan multimodal: CLIP, ColPali, img2dataset
Versioning data: DVC, LakeFS

Proyek capstone yang kaya

Mini-C4: Membangun korpus teks berkualitas tinggi dengan Trafilatura + Ray + MinHash
Legal Expert SFT: Dataset instruksi domain berbasis Self-Instruct + CoT
LLaVA Multimodal: Membuat dataset instruksi visual dengan penyelarasan Bbox dan interleaving multi-gambar
Math Textbook: Membangun dataset penalaran dengan Evol-Instruct + validasi sandbox
Financial Report RAG: Mengimplementasikan sistem tanya jawab multimodal dengan ColPali + Qwen-VL

Pengembangan lokal

Lingkungan wajib: Python 3.8 atau lebih baru, MkDocs Material, mkdocs-static-i18n
Instalasi dan pratinjau
- Kloning repositori dengan git clone lalu instal dependensi
- Jalankan mkdocs serve untuk pratinjau lokal (mendukung pergantian bahasa Tionghoa dan Inggris)
Build situs statis: Jalankan mkdocs build untuk menghasilkan output di direktori site/

Struktur proyek

Folder docs/ berisi konten bahasa Tionghoa (zh/) dan Inggris (en/)
Terdapat direktori resource seperti images/, stylesheets/, dan javascripts/
Termasuk konfigurasi CI/CD di .github/workflows/
Konfigurasi situs dikelola melalui mkdocs.yml
Lisensinya adalah MIT License

Pembaca sasaran

Engineer riset dan pengembangan LLM, data engineer, engineer MLOps, AI PM teknis, peneliti pipeline data LLM

Lisensi

Menggunakan MIT License

Baca online: https://datascale-ai.github.io/data_engineering_book/en/

1 komentar

GN⁺ 2026-02-16

Komentar Hacker News

Saya sangat menikmati membaca buku ini. Kualitas terjemahannya sangat tinggi
Saya benar-benar pemula dalam pelatihan LLM, dan sedang bereksperimen dengan arsitektur baru untuk pembuatan kode Python di Apple Silicon
Namun saya merasa frustrasi karena alat data lebih berfokus pada teks umum atau gambar, bukan pada kode
SGlang tidak berjalan di MacOS, jadi saya tidak bisa membuat data sintetis dengan output terbatas EBNF
Saya mengunduh sendiri korpus kode Python dan menangani masalah APFS, sharding, klasifikasi·pembersihan·pencampuran kustom, dan agak mengejutkan bahwa tidak ada dataset yang sudah diberi tag sebelumnya untuk kode
Jika ini adalah buku yang membahas rekayasa data untuk LLM, kategori baru seperti format penyimpanan untuk seluruh siklus hidup ML juga seharusnya disebutkan
Misalnya, Lance adalah penyimpanan kolumnar yang dioptimalkan untuk beban kerja analitik dan vektor, serta mendukung versioning dan random access
Ini sangat penting untuk sampling, filtering yang efisien, dan penanganan data multimodal (misalnya video)
Contoh serupa adalah vortex, nimble dari Meta, dan lain-lain
Menurut saya judul ‘Data Engineering for LLMs’ lebih tepat
- Poin yang bagus. Dari segi isi, ‘Data Engineering for LLMs’ memang jauh lebih akurat, jadi saya akan langsung menyampaikannya ke pimpinan proyek
Mungkin ini masalah terjemahan, tetapi penjelasan awal tentang “Modern Data Stack” tidak terlalu meyakinkan
Bagian 1_2_data_infra.md agak samar, tetapi
setelah itu, bagian pembersihan data dan pipeline RAG jauh lebih jelas
- Terima kasih atas masukan yang jujur
Versi bahasa Inggris ada di README_en.md
- Terima kasih! Saya sudah mengganti tautan di bagian atas dengan itu. URL yang awalnya dikirim adalah data_engineering_book
  Postingan ini sempat terkena filter spam, tetapi penulis memberi tahu lewat email, jadi saya mengundangnya untuk membagikan latar belakangnya lewat komentar. Sekarang hal itu sudah saya refleksikan di bagian atas
- Terima kasih sudah membagikan tautan langsungnya
Sangat menarik, jadi saya sudah menyimpannya. Tapi saya penasaran, apakah README ini ditulis dengan ChatGPT
- Ya. Kami adalah tim dari Tiongkok, dan menggunakan GPT untuk terjemahan bahasa Inggris. Terima kasih atas masukan bahwa nadanya terasa agak seperti ‘kehangatan palsu’. Ke depannya kami akan menyuntingnya dengan nada yang lebih netral dan ringkas
- Saya juga merasakan hal yang sama. Ada banyak tabel ringkasan dan gaya bahasa yang artifisial, jadi kesannya kuat seperti ditulis oleh LLM. Bahkan kalau bukan GPT, ini tetap perlu penulisan ulang menyeluruh
Kalimat “Data is the new oil, but only if you know how to refine it.” cukup berkesan
Karena minyak bumi juga tidak berguna kalau belum dimurnikan, mungkin akan terdengar lebih alami jika ditulis seperti “Data adalah minyak baru, dan baru bernilai setelah dimurnikan”
Bagian ‘Vector DB vs Keyword Search’ menarik. Saya penasaran di mana garis batasnya dalam eksperimen pipeline RAG
Dalam pengalaman kami, pencarian kata kunci seperti BM25 kuat untuk nama entitas·ID, sedangkan pencarian vektor kuat untuk kueri konseptual. Saya penasaran apakah buku ini juga membahas pencarian hibrida atau reranking
- Pertanyaan yang bagus. Di produksi nyata, pendekatan hibrida BM25+vektor efektif dalam sebagian besar kasus. Dengan rasio sekitar 70/30, kata kunci lebih unggul untuk exact match
  Kuncinya adalah reranking. Bukan sekadar menggabungkan hasil, tetapi memberi skor ulang dengan cross-encoder (misalnya Cohere atau model kustom)
  Momen ketika pencarian berbasis semantik murni lebih unggul adalah saat kueri berfokus pada konsep yang abstrak
- Terima kasih atas insight-nya. Pola seperti ini akan kami bahas dalam pembaruan mendatang. Saat ini sedang libur Tahun Baru Imlek, jadi mungkin ada sedikit keterlambatan
Gambar di tiap bab menggunakan bahasa Inggris (kecuali gambar di README_en.md)
- Terima kasih sudah memberi tahu! Kami menyadari perbedaan itu dan langsung memperbaiki diagram di README_en.md. Sekarang seharusnya tampil dengan benar
Parquet saja tidak cukup untuk rekayasa data modern. Delta dan Iceberg juga harus dimasukkan
- Terima kasih atas masukannya! Saya sudah menyampaikannya ke penanggung jawab bagian tersebut. Saat ini sedang libur Tahun Baru Imlek, jadi pembaruan mungkin agak terlambat. Semoga tahun baru Anda menyenangkan

Rekayasa Data untuk Model Skala Besar: Arsitektur, Algoritme, dan Proyek

Pengantar

Struktur buku

Fitur utama

Teori yang komprehensif

Stack teknologi modern

Proyek capstone yang kaya

Pengembangan lokal

Struktur proyek

Pembaca sasaran

Lisensi

Bacaan terkait

1 komentar

Komentar Hacker News