Kebangkitan Infrastruktur Data AI
(felicis.com)> "Saat ini kita berada di awal revolusi industri baru. Bukan menghasilkan listrik, melainkan menghasilkan kecerdasan buatan.. [open source] memungkinkan setiap perusahaan menjadi perusahaan AI" - Jensen Huang
- Mengekstrak informasi dari dokumen bukanlah konsep baru. Namun, AI generatif (GenAI) membutuhkan data berkualitas tinggi dalam jumlah besar
- Data penting baik untuk pelatihan maupun inferensi, dan cakupannya meluas bukan hanya dari skala data tetapi juga dari teks dan data tabel ke video, gambar, dan audio
- Peningkatan data spasial seperti citra satelit dan data sensor robot juga mulai terlihat
- Area baru apa di lapisan data yang paling mungkin diciptakan ulang secara langsung oleh AI?
- Ekstraksi dan pipeline data tidak terstruktur, Retrieval-Augmented Generation (RAG), kurasi data, penyimpanan data, memori AI
- Tujuan tulisan ini adalah menganalisis lanskap infrastruktur data AI, membagikan tren terbaru, dan membahas area inovasi yang paling menjanjikan
Kondisi Infrastruktur Data AI
- Ingin memvisualisasikan secara sederhana aliran data dalam rantai nilai data AI, sekaligus menjelaskan alur proses pelatihan dan inferensi data
- Rantai nilai infrastruktur data dibagi menjadi enam area utama
- Sumber data (Sources)
- Pengumpulan dan transformasi data (Ingestion & Transformation)
- Penyimpanan (Storage)
- Pelatihan (Training)
- Inferensi (Inference)
- Layanan data (Data Services)
Sumber Data
- Data aplikasi: diekstrak dari Salesforce, ServiceNow, dll.
- Data real-time: sensor, manufaktur, data medis
- Database OLTP: data transaksi seperti Oracle dan MongoDB
- Data sintetis: data buatan yang tidak dikumpulkan dari dunia nyata (e.g., Mostly AI, Datagen, Tonic)
- Efisien dari sisi biaya dan menguntungkan dalam hal kepatuhan data
- Namun, representasi data outlier statistik masih kurang sehingga ada batasan dalam mengoptimalkan performa model
- Data web: mengumpulkan data publik melalui web scraping (e.g., Browse AI, Apify)
- Penting untuk pelatihan model data skala besar, tetapi ada kemungkinan data publik akan habis (diperkirakan 2026~2032)
Pengumpulan dan Transformasi Data
- Pipeline data adalah proses mengirim data dari sumber ke tujuan dan mengubahnya menjadi kondisi yang siap dianalisis
- ETL/ELT: pendekatan tradisional (batch processing, streaming processing)
- Feature engineering/pipeline: di ML terutama untuk memproses data tabel
- Pipeline data tidak terstruktur: mengintegrasikan proses ekstraksi, transformasi, dan penyimpanan data untuk merapikan serta menyimpan data tidak terstruktur
- Jenis pipeline
- Batch processing: mengekstrak dan memuat data pada interval waktu tertentu
- Streaming processing: memuat data secara real-time (Kafka, Flink, dll.)
- Alat dan framework
- Streaming (Kafka, Confluent), engine pemrosesan (Databricks, Flink), alat orkestrasi (Astronomer, Dagster, Airflow, Prefect, dll.)
- Alat pelabelan: LabelBox, Scale AI, dll. (pelabelan data uji itu penting)
- Batch: ETL(Airbyte, Fivetran), transform(dbt,coalesce)
- Pemrosesan data tidak terstruktur: Datavolo, Unstructured, LlamaIndex, dll.
Penyimpanan Data
- Pendekatan tradisional: disimpan di data warehouse
- Data untuk pemanfaatan AI:
- Menggunakan struktur data lake dan lakehouse
- Menyimpan embedding data melalui vector database
- Alat utama:
- Data lake : Databricks, Onehouse, Tabular, Amazon S3, GCS, dll.
- Vector DB: Pinecone, Chroma, Milvus, Weaviete, dll.
- Data lake : Databricks, Onehouse, Tabular, Amazon S3, GCS, dll.
Pelatihan Model
- Metode pembelajaran:
- Pembelajaran terawasi, pembelajaran tak terawasi, reinforcement learning
- Proses pelatihan large language model (LLM):
- Pre-training: mengenali pola data melalui pembelajaran tak terawasi
- Pembelajaran terawasi: optimasi performa
- Reinforcement learning (RLHF): meningkatkan performa melalui umpan balik manusia
- Validasi dan evaluasi:
- Menilai kesesuaian model melalui akurasi, presisi, minimisasi loss, dll.
- Tahap akhir:
- Pengujian keamanan, tata kelola, dan pemeriksaan compliance
- Alat utama:
- Training: TensorFlow, Modular
- Evaluation: neptune.ai, Weights & Biases
- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
- Model: OpenAI, Cohere, Mistral AI, Runway
- Training: TensorFlow, Modular
Inferensi Model
- Proses:
- Input prompt → tokenisasi/vektorisasi → pemrosesan data → menghasilkan output
- Kustomisasi:
- Integrasi vector database dan LLM
- Menghasilkan hasil unik yang mencerminkan konteks pengguna
- Hal penting yang harus dipertimbangkan:
- Keamanan data, kualitas model, compliance
- Alat utama:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi
Layanan Data
- Kategori:
- Keamanan data: kontrol akses, pencegahan kebocoran data (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Visibilitas data: memantau kualitas dan performa pipeline data (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Katalog data: sentralisasi metadata, pengorganisasian aset data (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
- Kesimpulan:
- Semakin baik data diorganisasi, semakin efisien keamanan, visibilitas, dan pengelolaannya
[Rekonfigurasi Data oleh AI]
Inovasi akibat AI terlihat pada area-area berikut dalam infrastruktur data:
1. Pipeline Data Tidak Terstruktur untuk Agen dan Aplikasi AI
- Kebangkitan pipeline data tidak terstruktur:
- Meningkatnya permintaan untuk memanfaatkan data internal yang tidak terstruktur bagi AI percakapan dan aplikasi agen
- Pipeline data tidak terstruktur mencakup proses yang mirip dengan pipeline data tradisional: ekstraksi data, transformasi, pengindeksan, penyimpanan
- Sumber data utama:
- Teks PDF, basis pengetahuan, gambar, dll.
- Terutama data yang mendukung use case AI percakapan
- Faktor pembeda:
- Perbedaan dari pipeline yang ada muncul pada tahap transformasi:
- Data chunking: membagi data menjadi unit-unit kecil
- Ekstraksi metadata: menghasilkan data yang dibutuhkan untuk pengindeksan
- Embedding: mengubah tiap chunk data menjadi bentuk vektor untuk disimpan
- Perbedaan dari pipeline yang ada muncul pada tahap transformasi:
- Faktor keberhasilan:
- Pemilihan strategi chunking dan model embedding sangat memengaruhi akurasi pencarian data
- Munculnya model embedding yang terspesialisasi untuk domain tertentu, misalnya model yang khusus untuk kode atau konten hukum
- Pemanfaatan database yang kompatibel dengan vektor:
- Menyimpan data tidak terstruktur dan mengubahnya ke format yang bisa di-query
- Memungkinkan personalisasi LLM melalui RAG(Retrieval-Augmented Generation) dan agent
- Pengamatan utama
- Tim-tim sedang mencoba berbagai strategi chunking
- Model embedding yang terspesialisasi per domain terus bertambah dan membantu meningkatkan akurasi serta performa
- Perusahaan mencari alat yang bisa mengubah data ke format yang mudah di-query
2. Retrieval-Augmented Generation (RAG)
- Gambaran RAG:
- RAG adalah workflow arsitektural yang memanfaatkan data khusus pengguna untuk meningkatkan efisiensi aplikasi LLM
- Cara kerja:
- Memuat data dan melakukan "indexing" untuk memproses query
- Query menyaring data yang paling relevan berdasarkan indeks
- Konteks yang telah disaring dan query dikirim ke LLM sebagai prompt untuk menghasilkan respons
- Memungkinkan data diaktifkan sebagai bagian dari pengalaman produk
- Keunggulan utama RAG:
- Menyediakan informasi terbaru:
- LLM terbatas pada data pre-training sehingga ada kemungkinan menghasilkan respons yang usang atau tidak akurat
- RAG memberikan respons terkini dengan mengakses sumber informasi eksternal
- Memperkuat faktualitas:
- RAG melengkapi masalah ketika LLM tidak dapat memberikan informasi yang akurat
- Menggunakan basis pengetahuan terkurasi untuk memberikan informasi yang lebih dapat dipercaya
- Menyediakan sumber:
- Dapat menambahkan kutipan dan anotasi pada respons LLM
- Meningkatkan kepercayaan pengguna
- Menyediakan informasi terbaru:
3. Kurasi Data untuk Meningkatkan Kinerja Pelatihan dan Inferensi
- Kurasi data: proses menyaring dan menyusun dataset untuk performa pelatihan dan inferensi yang optimal
- Tugas utama:
- Klasifikasi teks
- Penerapan filter NSFW
- Menghapus duplikasi data
- Optimasi ukuran batch
- Optimasi sumber berbasis performa
- Augmentasi data melalui data sintetis
- Tugas utama:
- Insight dari pengumuman Meta Llama-3:
- Kurasi data pelatihan:
- "Kurasi dataset skala besar berkualitas tinggi sangat penting untuk melatih language model terbaik"
- Meta mengembangkan pipeline pemfilteran data berikut:
- Filter heuristik
- Filter NSFW
- Deduplikasi semantik
- Pengklasifikasi teks untuk memprediksi kualitas data
- Kurasi data fine-tuning:
- "Peningkatan terbesar pada kualitas model dicapai dengan mengkurasi data secara hati-hati dan meninjau anotasi anotator manusia melalui banyak tahap quality assurance"
- Kurasi data pelatihan:
- Efek kurasi data:
- Menurut tim riset Meta AI:
- Kurasi dapat mempersingkat waktu pelatihan hingga 20%
- Meningkatkan akurasi downstream
- Memberikan jalur peningkatan performa model bahkan saat data internet mulai habis
- Menurut tim riset Meta AI:
- Arah ke depan:
- Filter data otomatis berkualitas tinggi, deduplikasi, dan classifier akan menjadi penting untuk pelatihan serta fine-tuning model
- Perusahaan seperti Datology AI sedang berupaya mewujudkannya
4. Penyimpanan Data untuk AI
- Ada tiga tren utama dalam cara menyimpan data AI:
- Vector database
- Kebangkitan data lake
- Meningkatnya investasi pada lakehouse
- Pentingnya vector database:
- Vector database dipandang sebagai salah satu teknologi inti dalam ledakan AI
- Cocok untuk menyimpan embedding data (representasi numerik):
- Mengubah dan menyimpan data tidak terstruktur (gambar, audio, video, dll.) ke bentuk numerik
- Mendukung semantic search (misalnya mencari "dog" lalu mengembalikan "wolf" atau "puppy")
- Bentuk vector database:
- Native vector database: dirancang khusus untuk penyimpanan vektor
- Ekstensi database yang sudah ada: menambahkan dukungan vektor ke database yang ada
- Use case: personalisasi LLM
- Menyimpan dan mencari data kustom perusahaan sebagai vector embedding
- Agen AI memanfaatkan struktur ini untuk memberikan pengalaman yang disesuaikan
- Data lake dan lakehouse
- Kebangkitan data lake:
- Sebagian besar perusahaan menyimpan data berskala besar di data lake
- Pemanfaatan data lake sangat penting untuk pengembangan AI kustom
- Arsitektur lakehouse:
- Menyediakan arsitektur untuk mengelola dan melakukan query pada data lake secara efektif
- Menyusun data dengan open table format:
- Memanfaatkan Iceberg, Delta Lake, Hudi, dll.
- Meningkatkan pengorganisasian data dan performa query
- Peran Databricks:
- Databricks mengakuisisi Tabular dan menyatukan tim pengembang Delta Lake dan Iceberg
- Mempersulit masuknya pesaing dan memimpin kemajuan teknologi lakehouse
- Kebangkitan data lake:
5. Memori AI
- Kebangkitan memori AI:
- Setelah pengumuman fitur memori ChatGPT, memori AI menjadi topik diskusi utama
- Sistem AI standar tidak memiliki memori episodik yang kuat dan kontinuitas antarinteraksi:
- Sistem saat ini berada dalam semacam kondisi amnesia jangka pendek
- Ada keterbatasan dalam penalaran sekuensial yang kompleks dan berbagi pengetahuan dalam sistem multi-agent
- Memori dalam sistem multi-agent
- Seiring berkembangnya sistem multi-agent, dibutuhkan sistem manajemen memori antargen
- Persyaratan fungsional:
- Mendukung penyimpanan ingatan per agen dan akses lintas sesi
- Mencakup kontrol akses dan privasi
- Pooling memori antaragen:
- Satu agen dapat memanfaatkan pengalaman agen lain
- Meningkatkan kemampuan pengambilan keputusan
- Dibutuhkan memori berjenjang:
- Menyimpan memori secara berlapis berdasarkan frekuensi akses, tingkat kepentingan, dan biaya
- MemGPT: framework terdepan untuk manajemen memori AI
- Visi MemGPT: LLM akan memimpin evolusi sistem operasi (OS) generasi berikutnya
- Gambaran arsitektur:
- Jenis memori:
- Memori konteks utama: mirip memori utama (RAM)
- Memori konteks eksternal: mirip memori disk/penyimpanan disk
- Jenis memori:
- Pentingnya memori AI
- Mendukung personalisasi, pembelajaran, dan reflection, serta penting bagi perkembangan aplikasi AI
- Meningkatkan kemampuan menyelesaikan tugas kompleks melalui kolaborasi dan berbagi ingatan antaragen
Peluang Beban Kerja AI
- Beban kerja AI dan infrastruktur data:
- Kebangkitan GenAI memang belum mengubah semua aspek infrastruktur data, tetapi kemunculan teknologi berikut adalah perkembangan yang sangat menarik:
- Ekstraksi dan pipelining data tidak terstruktur
- Retrieval-Augmented Generation (RAG)
- Kurasi data
- Penyimpanan data
- Memori AI
- Kebangkitan GenAI memang belum mengubah semua aspek infrastruktur data, tetapi kemunculan teknologi berikut adalah perkembangan yang sangat menarik:
- Strategi investasi Felicis
- Berfokus pada masa depan AI dan infrastruktur data:
- Berinvestasi pada startup terkait lapisan data dan infrastruktur
- Contoh investasi utama:
- Datology: kurasi data
- Metaplane: observabilitas data (data observability)
- MotherDuck: data warehouse serverless
- Weights & Biases: alat pelacakan eksperimen
- Berfokus pada masa depan AI dan infrastruktur data:
- Potensi pertumbuhan pasar AI
- Kemungkinan ekspansi:
- Pasar AI sedang meluas secara luas, dari chatbot hingga workflow multi-agent
- Saat ini baru tahap awal dan masih ada banyak ruang untuk perkembangan ke depan
- Pentingnya solusi data:
- Solusi data adalah inti untuk aplikasi AI yang sukses
- Bisnis data berskala besar yang mendukung beban kerja AI diperkirakan akan terus dibangun
- Kemungkinan ekspansi:
Belum ada komentar.