Kebangkitan Infrastruktur Data AI

(felicis.com)

16 poin oleh xguru 2024-11-25 | Belum ada komentar. | Bagikan ke WhatsApp

"Saat ini kita berada di awal revolusi industri baru. Bukan menghasilkan listrik, melainkan menghasilkan kecerdasan buatan.. [open source] memungkinkan setiap perusahaan menjadi perusahaan AI" - Jensen Huang

Mengekstrak informasi dari dokumen bukanlah konsep baru. Namun, AI generatif (GenAI) membutuhkan data berkualitas tinggi dalam jumlah besar
Data penting baik untuk pelatihan maupun inferensi, dan cakupannya meluas bukan hanya dari skala data tetapi juga dari teks dan data tabel ke video, gambar, dan audio
Peningkatan data spasial seperti citra satelit dan data sensor robot juga mulai terlihat
Area baru apa di lapisan data yang paling mungkin diciptakan ulang secara langsung oleh AI?
- Ekstraksi dan pipeline data tidak terstruktur, Retrieval-Augmented Generation (RAG), kurasi data, penyimpanan data, memori AI
Tujuan tulisan ini adalah menganalisis lanskap infrastruktur data AI, membagikan tren terbaru, dan membahas area inovasi yang paling menjanjikan

Kondisi Infrastruktur Data AI

Ingin memvisualisasikan secara sederhana aliran data dalam rantai nilai data AI, sekaligus menjelaskan alur proses pelatihan dan inferensi data
Rantai nilai infrastruktur data dibagi menjadi enam area utama
- Sumber data (Sources)
- Pengumpulan dan transformasi data (Ingestion & Transformation)
- Penyimpanan (Storage)
- Pelatihan (Training)
- Inferensi (Inference)
- Layanan data (Data Services)

Sumber Data

Data aplikasi: diekstrak dari Salesforce, ServiceNow, dll.
Data real-time: sensor, manufaktur, data medis
Database OLTP: data transaksi seperti Oracle dan MongoDB
Data sintetis: data buatan yang tidak dikumpulkan dari dunia nyata (e.g., Mostly AI, Datagen, Tonic)
- Efisien dari sisi biaya dan menguntungkan dalam hal kepatuhan data
- Namun, representasi data outlier statistik masih kurang sehingga ada batasan dalam mengoptimalkan performa model
Data web: mengumpulkan data publik melalui web scraping (e.g., Browse AI, Apify)
- Penting untuk pelatihan model data skala besar, tetapi ada kemungkinan data publik akan habis (diperkirakan 2026~2032)

Pengumpulan dan Transformasi Data

Pipeline data adalah proses mengirim data dari sumber ke tujuan dan mengubahnya menjadi kondisi yang siap dianalisis
- ETL/ELT: pendekatan tradisional (batch processing, streaming processing)
- Feature engineering/pipeline: di ML terutama untuk memproses data tabel
- Pipeline data tidak terstruktur: mengintegrasikan proses ekstraksi, transformasi, dan penyimpanan data untuk merapikan serta menyimpan data tidak terstruktur
Jenis pipeline
- Batch processing: mengekstrak dan memuat data pada interval waktu tertentu
- Streaming processing: memuat data secara real-time (Kafka, Flink, dll.)
Alat dan framework
- Streaming (Kafka, Confluent), engine pemrosesan (Databricks, Flink), alat orkestrasi (Astronomer, Dagster, Airflow, Prefect, dll.)
- Alat pelabelan: LabelBox, Scale AI, dll. (pelabelan data uji itu penting)
  - Batch: ETL(Airbyte, Fivetran), transform(dbt,coalesce)
  - Pemrosesan data tidak terstruktur: Datavolo, Unstructured, LlamaIndex, dll.

Penyimpanan Data

Pendekatan tradisional: disimpan di data warehouse
Data untuk pemanfaatan AI:
- Menggunakan struktur data lake dan lakehouse
- Menyimpan embedding data melalui vector database
Alat utama:
- Data lake : Databricks, Onehouse, Tabular, Amazon S3, GCS, dll.
  - Vector DB: Pinecone, Chroma, Milvus, Weaviete, dll.

Pelatihan Model

Metode pembelajaran:
- Pembelajaran terawasi, pembelajaran tak terawasi, reinforcement learning
Proses pelatihan large language model (LLM):
- Pre-training: mengenali pola data melalui pembelajaran tak terawasi
- Pembelajaran terawasi: optimasi performa
- Reinforcement learning (RLHF): meningkatkan performa melalui umpan balik manusia
Validasi dan evaluasi:
- Menilai kesesuaian model melalui akurasi, presisi, minimisasi loss, dll.
Tahap akhir:
- Pengujian keamanan, tata kelola, dan pemeriksaan compliance
Alat utama:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

Inferensi Model

Proses:
- Input prompt → tokenisasi/vektorisasi → pemrosesan data → menghasilkan output
Kustomisasi:
- Integrasi vector database dan LLM
- Menghasilkan hasil unik yang mencerminkan konteks pengguna
Hal penting yang harus dipertimbangkan:
- Keamanan data, kualitas model, compliance
Alat utama:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Layanan Data

Kategori:
- Keamanan data: kontrol akses, pencegahan kebocoran data (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Visibilitas data: memantau kualitas dan performa pipeline data (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Katalog data: sentralisasi metadata, pengorganisasian aset data (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Kesimpulan:
- Semakin baik data diorganisasi, semakin efisien keamanan, visibilitas, dan pengelolaannya

[Rekonfigurasi Data oleh AI]

Inovasi akibat AI terlihat pada area-area berikut dalam infrastruktur data:

1. Pipeline Data Tidak Terstruktur untuk Agen dan Aplikasi AI

Kebangkitan pipeline data tidak terstruktur:
- Meningkatnya permintaan untuk memanfaatkan data internal yang tidak terstruktur bagi AI percakapan dan aplikasi agen
- Pipeline data tidak terstruktur mencakup proses yang mirip dengan pipeline data tradisional: ekstraksi data, transformasi, pengindeksan, penyimpanan
Sumber data utama:
- Teks PDF, basis pengetahuan, gambar, dll.
- Terutama data yang mendukung use case AI percakapan
Faktor pembeda:
- Perbedaan dari pipeline yang ada muncul pada tahap transformasi:
  - Data chunking: membagi data menjadi unit-unit kecil
  - Ekstraksi metadata: menghasilkan data yang dibutuhkan untuk pengindeksan
  - Embedding: mengubah tiap chunk data menjadi bentuk vektor untuk disimpan
Faktor keberhasilan:
- Pemilihan strategi chunking dan model embedding sangat memengaruhi akurasi pencarian data
- Munculnya model embedding yang terspesialisasi untuk domain tertentu, misalnya model yang khusus untuk kode atau konten hukum
Pemanfaatan database yang kompatibel dengan vektor:
- Menyimpan data tidak terstruktur dan mengubahnya ke format yang bisa di-query
- Memungkinkan personalisasi LLM melalui RAG(Retrieval-Augmented Generation) dan agent
Pengamatan utama
- Tim-tim sedang mencoba berbagai strategi chunking
- Model embedding yang terspesialisasi per domain terus bertambah dan membantu meningkatkan akurasi serta performa
- Perusahaan mencari alat yang bisa mengubah data ke format yang mudah di-query

2. Retrieval-Augmented Generation (RAG)

Gambaran RAG:
- RAG adalah workflow arsitektural yang memanfaatkan data khusus pengguna untuk meningkatkan efisiensi aplikasi LLM
- Cara kerja:
  - Memuat data dan melakukan "indexing" untuk memproses query
  - Query menyaring data yang paling relevan berdasarkan indeks
  - Konteks yang telah disaring dan query dikirim ke LLM sebagai prompt untuk menghasilkan respons
- Memungkinkan data diaktifkan sebagai bagian dari pengalaman produk
Keunggulan utama RAG:
- Menyediakan informasi terbaru:
  - LLM terbatas pada data pre-training sehingga ada kemungkinan menghasilkan respons yang usang atau tidak akurat
  - RAG memberikan respons terkini dengan mengakses sumber informasi eksternal
- Memperkuat faktualitas:
  - RAG melengkapi masalah ketika LLM tidak dapat memberikan informasi yang akurat
  - Menggunakan basis pengetahuan terkurasi untuk memberikan informasi yang lebih dapat dipercaya
- Menyediakan sumber:
  - Dapat menambahkan kutipan dan anotasi pada respons LLM
  - Meningkatkan kepercayaan pengguna

3. Kurasi Data untuk Meningkatkan Kinerja Pelatihan dan Inferensi

Kurasi data: proses menyaring dan menyusun dataset untuk performa pelatihan dan inferensi yang optimal
- Tugas utama:
  - Klasifikasi teks
  - Penerapan filter NSFW
  - Menghapus duplikasi data
  - Optimasi ukuran batch
  - Optimasi sumber berbasis performa
  - Augmentasi data melalui data sintetis
Insight dari pengumuman Meta Llama-3:
- Kurasi data pelatihan:
  - "Kurasi dataset skala besar berkualitas tinggi sangat penting untuk melatih language model terbaik"
  - Meta mengembangkan pipeline pemfilteran data berikut:
    - Filter heuristik
    - Filter NSFW
    - Deduplikasi semantik
    - Pengklasifikasi teks untuk memprediksi kualitas data
- Kurasi data fine-tuning:
  - "Peningkatan terbesar pada kualitas model dicapai dengan mengkurasi data secara hati-hati dan meninjau anotasi anotator manusia melalui banyak tahap quality assurance"
Efek kurasi data:
- Menurut tim riset Meta AI:
  - Kurasi dapat mempersingkat waktu pelatihan hingga 20%
  - Meningkatkan akurasi downstream
  - Memberikan jalur peningkatan performa model bahkan saat data internet mulai habis
Arah ke depan:
- Filter data otomatis berkualitas tinggi, deduplikasi, dan classifier akan menjadi penting untuk pelatihan serta fine-tuning model
- Perusahaan seperti Datology AI sedang berupaya mewujudkannya

4. Penyimpanan Data untuk AI

Ada tiga tren utama dalam cara menyimpan data AI:
- Vector database
- Kebangkitan data lake
- Meningkatnya investasi pada lakehouse
Pentingnya vector database:
- Vector database dipandang sebagai salah satu teknologi inti dalam ledakan AI
- Cocok untuk menyimpan embedding data (representasi numerik):
  - Mengubah dan menyimpan data tidak terstruktur (gambar, audio, video, dll.) ke bentuk numerik
  - Mendukung semantic search (misalnya mencari "dog" lalu mengembalikan "wolf" atau "puppy")
- Bentuk vector database:
  - Native vector database: dirancang khusus untuk penyimpanan vektor
  - Ekstensi database yang sudah ada: menambahkan dukungan vektor ke database yang ada
- Use case: personalisasi LLM
  - Menyimpan dan mencari data kustom perusahaan sebagai vector embedding
  - Agen AI memanfaatkan struktur ini untuk memberikan pengalaman yang disesuaikan
Data lake dan lakehouse
- Kebangkitan data lake:
  - Sebagian besar perusahaan menyimpan data berskala besar di data lake
  - Pemanfaatan data lake sangat penting untuk pengembangan AI kustom
- Arsitektur lakehouse:
  - Menyediakan arsitektur untuk mengelola dan melakukan query pada data lake secara efektif
  - Menyusun data dengan open table format:
    - Memanfaatkan Iceberg, Delta Lake, Hudi, dll.
  - Meningkatkan pengorganisasian data dan performa query
- Peran Databricks:
  - Databricks mengakuisisi Tabular dan menyatukan tim pengembang Delta Lake dan Iceberg
  - Mempersulit masuknya pesaing dan memimpin kemajuan teknologi lakehouse

5. Memori AI

Kebangkitan memori AI:
- Setelah pengumuman fitur memori ChatGPT, memori AI menjadi topik diskusi utama
- Sistem AI standar tidak memiliki memori episodik yang kuat dan kontinuitas antarinteraksi:
  - Sistem saat ini berada dalam semacam kondisi amnesia jangka pendek
  - Ada keterbatasan dalam penalaran sekuensial yang kompleks dan berbagi pengetahuan dalam sistem multi-agent
Memori dalam sistem multi-agent
- Seiring berkembangnya sistem multi-agent, dibutuhkan sistem manajemen memori antargen
- Persyaratan fungsional:
  - Mendukung penyimpanan ingatan per agen dan akses lintas sesi
  - Mencakup kontrol akses dan privasi
  - Pooling memori antaragen:
    - Satu agen dapat memanfaatkan pengalaman agen lain
    - Meningkatkan kemampuan pengambilan keputusan
- Dibutuhkan memori berjenjang:
  - Menyimpan memori secara berlapis berdasarkan frekuensi akses, tingkat kepentingan, dan biaya
MemGPT: framework terdepan untuk manajemen memori AI
- Visi MemGPT: LLM akan memimpin evolusi sistem operasi (OS) generasi berikutnya
- Gambaran arsitektur:
  - Jenis memori:
    - Memori konteks utama: mirip memori utama (RAM)
    - Memori konteks eksternal: mirip memori disk/penyimpanan disk
Pentingnya memori AI
- Mendukung personalisasi, pembelajaran, dan reflection, serta penting bagi perkembangan aplikasi AI
- Meningkatkan kemampuan menyelesaikan tugas kompleks melalui kolaborasi dan berbagi ingatan antaragen

Peluang Beban Kerja AI

Beban kerja AI dan infrastruktur data:
- Kebangkitan GenAI memang belum mengubah semua aspek infrastruktur data, tetapi kemunculan teknologi berikut adalah perkembangan yang sangat menarik:
  - Ekstraksi dan pipelining data tidak terstruktur
  - Retrieval-Augmented Generation (RAG)
  - Kurasi data
  - Penyimpanan data
  - Memori AI
Strategi investasi Felicis
- Berfokus pada masa depan AI dan infrastruktur data:
  - Berinvestasi pada startup terkait lapisan data dan infrastruktur
  - Contoh investasi utama:
    - Datology: kurasi data
    - Metaplane: observabilitas data (data observability)
    - MotherDuck: data warehouse serverless
    - Weights & Biases: alat pelacakan eksperimen
Potensi pertumbuhan pasar AI
- Kemungkinan ekspansi:
  - Pasar AI sedang meluas secara luas, dari chatbot hingga workflow multi-agent
  - Saat ini baru tahap awal dan masih ada banyak ruang untuk perkembangan ke depan
- Pentingnya solusi data:
  - Solusi data adalah inti untuk aplikasi AI yang sukses
  - Bisnis data berskala besar yang mendukung beban kerja AI diperkirakan akan terus dibangun

Kebangkitan Infrastruktur Data AI

Kondisi Infrastruktur Data AI

Sumber Data

Pengumpulan dan Transformasi Data

Penyimpanan Data

Pelatihan Model

Inferensi Model

Layanan Data

[Rekonfigurasi Data oleh AI]

1. Pipeline Data Tidak Terstruktur untuk Agen dan Aplikasi AI

2. Retrieval-Augmented Generation (RAG)

3. Kurasi Data untuk Meningkatkan Kinerja Pelatihan dan Inferensi

4. Penyimpanan Data untuk AI

5. Memori AI

Peluang Beban Kerja AI

Bacaan terkait

Belum ada komentar.