15 poin oleh GN⁺ 2026-02-16 | 1 komentar | Bagikan ke WhatsApp
  • Di era model skala besar, kualitas data menentukan batas atas performa model
  • Buku panduan open source yang menyediakan pengetahuan rekayasa data yang sistematis untuk itu
  • Mencakup seluruh proses seperti pemurnian data pra-pelatihan, penyelarasan multimodal, pipeline data RAG, dan pembuatan data sintetis
  • Terdiri dari 5 bagian dan 13 bab. Selain itu, terdapat 5 proyek capstone berbasis praktik beserta kode yang dapat dijalankan dan desain arsitektur untuk mendukung pembelajaran praktis
  • Memproses data teks, gambar, dan video dengan stack teknologi modern seperti Ray, Spark, CLIP, dan DVC
  • Dapat digunakan sebagai referensi praktis bagi pembangun pipeline data AI seperti peneliti LLM, data engineer, dan spesialis MLOps

Pengantar

  • Di era model skala besar, kualitas data menentukan batas performa model
    • Dibuat untuk melengkapi kenyataan bahwa materi sistematis tentang rekayasa data LLM masih kurang
  • Buku ini membahas seluruh stack teknologi, dari pemurnian data pra-pelatihan hingga penyelarasan multimodal, RAG, dan pembuatan data sintetis
    • Mengekstrak korpus berkualitas tinggi dari data bising berskala besar seperti Common Crawl
    • Pengumpulan, pemurnian, dan penyelarasan data gambar-teks, video, dan audio
    • Pembuatan otomatis data SFT, RLHF, dan CoT
    • Membangun pipeline RAG termasuk parsing dokumen perusahaan dan pemisahan berdasarkan unit semantik
  • Menyediakan pembelajaran berfokus praktik melalui 5 proyek capstone end-to-end
  • Tersedia untuk dibaca online: https://datascale-ai.github.io/data_engineering_book/en/

Struktur buku

  • Struktur keseluruhannya adalah pipeline rekayasa data lengkap dari data mentah hingga aplikasi
  • Terdiri dari total 6 bagian, 13 bab, dan 5 proyek
    • Part 1: Infrastruktur dan konsep inti
    • Part 2: Rekayasa data pra-pelatihan teks
    • Part 3: Rekayasa data multimodal
    • Part 4: Rekayasa data penyelarasan dan data sintetis
    • Part 5: Rekayasa data tingkat aplikasi
    • Part 6: Proyek capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Fitur utama

Teori yang komprehensif

  • Mencerminkan filosofi Data-Centric AI di seluruh isi
  • Mencakup seluruh siklus hidup data LLM dari pra-pelatihan → fine-tuning → RLHF → RAG
  • Termasuk topik lanjutan seperti scaling laws, evaluasi kualitas data, dan penyelarasan multimodal

Stack teknologi modern

  • Komputasi terdistribusi: Ray Data, Spark
  • Penyimpanan data: Parquet, WebDataset, Vector Databases
  • Pemrosesan teks: Trafilatura, KenLM, MinHash LSH
  • Pemrosesan multimodal: CLIP, ColPali, img2dataset
  • Versioning data: DVC, LakeFS

Proyek capstone yang kaya

  • Mini-C4: Membangun korpus teks berkualitas tinggi dengan Trafilatura + Ray + MinHash
  • Legal Expert SFT: Dataset instruksi domain berbasis Self-Instruct + CoT
  • LLaVA Multimodal: Membuat dataset instruksi visual dengan penyelarasan Bbox dan interleaving multi-gambar
  • Math Textbook: Membangun dataset penalaran dengan Evol-Instruct + validasi sandbox
  • Financial Report RAG: Mengimplementasikan sistem tanya jawab multimodal dengan ColPali + Qwen-VL

Pengembangan lokal

  • Lingkungan wajib: Python 3.8 atau lebih baru, MkDocs Material, mkdocs-static-i18n
  • Instalasi dan pratinjau
    • Kloning repositori dengan git clone lalu instal dependensi
    • Jalankan mkdocs serve untuk pratinjau lokal (mendukung pergantian bahasa Tionghoa dan Inggris)
  • Build situs statis: Jalankan mkdocs build untuk menghasilkan output di direktori site/

Struktur proyek

  • Folder docs/ berisi konten bahasa Tionghoa (zh/) dan Inggris (en/)
  • Terdapat direktori resource seperti images/, stylesheets/, dan javascripts/
  • Termasuk konfigurasi CI/CD di .github/workflows/
  • Konfigurasi situs dikelola melalui mkdocs.yml
  • Lisensinya adalah MIT License

Pembaca sasaran

  • Engineer riset dan pengembangan LLM, data engineer, engineer MLOps, AI PM teknis, peneliti pipeline data LLM

Lisensi

  • Menggunakan MIT License

1 komentar

 
GN⁺ 2026-02-16
Komentar Hacker News
  • Saya sangat menikmati membaca buku ini. Kualitas terjemahannya sangat tinggi
    Saya benar-benar pemula dalam pelatihan LLM, dan sedang bereksperimen dengan arsitektur baru untuk pembuatan kode Python di Apple Silicon
    Namun saya merasa frustrasi karena alat data lebih berfokus pada teks umum atau gambar, bukan pada kode
    SGlang tidak berjalan di MacOS, jadi saya tidak bisa membuat data sintetis dengan output terbatas EBNF
    Saya mengunduh sendiri korpus kode Python dan menangani masalah APFS, sharding, klasifikasi·pembersihan·pencampuran kustom, dan agak mengejutkan bahwa tidak ada dataset yang sudah diberi tag sebelumnya untuk kode

  • Jika ini adalah buku yang membahas rekayasa data untuk LLM, kategori baru seperti format penyimpanan untuk seluruh siklus hidup ML juga seharusnya disebutkan
    Misalnya, Lance adalah penyimpanan kolumnar yang dioptimalkan untuk beban kerja analitik dan vektor, serta mendukung versioning dan random access
    Ini sangat penting untuk sampling, filtering yang efisien, dan penanganan data multimodal (misalnya video)
    Contoh serupa adalah vortex, nimble dari Meta, dan lain-lain

  • Menurut saya judul ‘Data Engineering for LLMs’ lebih tepat

    • Poin yang bagus. Dari segi isi, ‘Data Engineering for LLMs’ memang jauh lebih akurat, jadi saya akan langsung menyampaikannya ke pimpinan proyek
  • Mungkin ini masalah terjemahan, tetapi penjelasan awal tentang “Modern Data Stack” tidak terlalu meyakinkan
    Bagian 1_2_data_infra.md agak samar, tetapi
    setelah itu, bagian pembersihan data dan pipeline RAG jauh lebih jelas

    • Terima kasih atas masukan yang jujur
  • Versi bahasa Inggris ada di README_en.md

    • Terima kasih! Saya sudah mengganti tautan di bagian atas dengan itu. URL yang awalnya dikirim adalah data_engineering_book
      Postingan ini sempat terkena filter spam, tetapi penulis memberi tahu lewat email, jadi saya mengundangnya untuk membagikan latar belakangnya lewat komentar. Sekarang hal itu sudah saya refleksikan di bagian atas
    • Terima kasih sudah membagikan tautan langsungnya
  • Sangat menarik, jadi saya sudah menyimpannya. Tapi saya penasaran, apakah README ini ditulis dengan ChatGPT

    • Ya. Kami adalah tim dari Tiongkok, dan menggunakan GPT untuk terjemahan bahasa Inggris. Terima kasih atas masukan bahwa nadanya terasa agak seperti ‘kehangatan palsu’. Ke depannya kami akan menyuntingnya dengan nada yang lebih netral dan ringkas
    • Saya juga merasakan hal yang sama. Ada banyak tabel ringkasan dan gaya bahasa yang artifisial, jadi kesannya kuat seperti ditulis oleh LLM. Bahkan kalau bukan GPT, ini tetap perlu penulisan ulang menyeluruh
  • Kalimat “Data is the new oil, but only if you know how to refine it.” cukup berkesan
    Karena minyak bumi juga tidak berguna kalau belum dimurnikan, mungkin akan terdengar lebih alami jika ditulis seperti “Data adalah minyak baru, dan baru bernilai setelah dimurnikan

  • Bagian ‘Vector DB vs Keyword Search’ menarik. Saya penasaran di mana garis batasnya dalam eksperimen pipeline RAG
    Dalam pengalaman kami, pencarian kata kunci seperti BM25 kuat untuk nama entitas·ID, sedangkan pencarian vektor kuat untuk kueri konseptual. Saya penasaran apakah buku ini juga membahas pencarian hibrida atau reranking

    • Pertanyaan yang bagus. Di produksi nyata, pendekatan hibrida BM25+vektor efektif dalam sebagian besar kasus. Dengan rasio sekitar 70/30, kata kunci lebih unggul untuk exact match
      Kuncinya adalah reranking. Bukan sekadar menggabungkan hasil, tetapi memberi skor ulang dengan cross-encoder (misalnya Cohere atau model kustom)
      Momen ketika pencarian berbasis semantik murni lebih unggul adalah saat kueri berfokus pada konsep yang abstrak
    • Terima kasih atas insight-nya. Pola seperti ini akan kami bahas dalam pembaruan mendatang. Saat ini sedang libur Tahun Baru Imlek, jadi mungkin ada sedikit keterlambatan
  • Gambar di tiap bab menggunakan bahasa Inggris (kecuali gambar di README_en.md)

    • Terima kasih sudah memberi tahu! Kami menyadari perbedaan itu dan langsung memperbaiki diagram di README_en.md. Sekarang seharusnya tampil dengan benar
  • Parquet saja tidak cukup untuk rekayasa data modern. Delta dan Iceberg juga harus dimasukkan

    • Terima kasih atas masukannya! Saya sudah menyampaikannya ke penanggung jawab bagian tersebut. Saat ini sedang libur Tahun Baru Imlek, jadi pembaruan mungkin agak terlambat. Semoga tahun baru Anda menyenangkan