16 poin oleh xguru 2024-11-25 | Belum ada komentar. | Bagikan ke WhatsApp

> "Saat ini kita berada di awal revolusi industri baru. Bukan menghasilkan listrik, melainkan menghasilkan kecerdasan buatan.. [open source] memungkinkan setiap perusahaan menjadi perusahaan AI" - Jensen Huang

  • Mengekstrak informasi dari dokumen bukanlah konsep baru. Namun, AI generatif (GenAI) membutuhkan data berkualitas tinggi dalam jumlah besar
  • Data penting baik untuk pelatihan maupun inferensi, dan cakupannya meluas bukan hanya dari skala data tetapi juga dari teks dan data tabel ke video, gambar, dan audio
  • Peningkatan data spasial seperti citra satelit dan data sensor robot juga mulai terlihat
  • Area baru apa di lapisan data yang paling mungkin diciptakan ulang secara langsung oleh AI?
    • Ekstraksi dan pipeline data tidak terstruktur, Retrieval-Augmented Generation (RAG), kurasi data, penyimpanan data, memori AI
  • Tujuan tulisan ini adalah menganalisis lanskap infrastruktur data AI, membagikan tren terbaru, dan membahas area inovasi yang paling menjanjikan

Kondisi Infrastruktur Data AI

  • Ingin memvisualisasikan secara sederhana aliran data dalam rantai nilai data AI, sekaligus menjelaskan alur proses pelatihan dan inferensi data
  • Rantai nilai infrastruktur data dibagi menjadi enam area utama
    • Sumber data (Sources)
    • Pengumpulan dan transformasi data (Ingestion & Transformation)
    • Penyimpanan (Storage)
    • Pelatihan (Training)
    • Inferensi (Inference)
    • Layanan data (Data Services)

Sumber Data

  • Data aplikasi: diekstrak dari Salesforce, ServiceNow, dll.
  • Data real-time: sensor, manufaktur, data medis
  • Database OLTP: data transaksi seperti Oracle dan MongoDB
  • Data sintetis: data buatan yang tidak dikumpulkan dari dunia nyata (e.g., Mostly AI, Datagen, Tonic)
    • Efisien dari sisi biaya dan menguntungkan dalam hal kepatuhan data
    • Namun, representasi data outlier statistik masih kurang sehingga ada batasan dalam mengoptimalkan performa model
  • Data web: mengumpulkan data publik melalui web scraping (e.g., Browse AI, Apify)
    • Penting untuk pelatihan model data skala besar, tetapi ada kemungkinan data publik akan habis (diperkirakan 2026~2032)

Pengumpulan dan Transformasi Data

  • Pipeline data adalah proses mengirim data dari sumber ke tujuan dan mengubahnya menjadi kondisi yang siap dianalisis
    • ETL/ELT: pendekatan tradisional (batch processing, streaming processing)
    • Feature engineering/pipeline: di ML terutama untuk memproses data tabel
    • Pipeline data tidak terstruktur: mengintegrasikan proses ekstraksi, transformasi, dan penyimpanan data untuk merapikan serta menyimpan data tidak terstruktur
  • Jenis pipeline
    • Batch processing: mengekstrak dan memuat data pada interval waktu tertentu
    • Streaming processing: memuat data secara real-time (Kafka, Flink, dll.)
  • Alat dan framework
    • Streaming (Kafka, Confluent), engine pemrosesan (Databricks, Flink), alat orkestrasi (Astronomer, Dagster, Airflow, Prefect, dll.)
    • Alat pelabelan: LabelBox, Scale AI, dll. (pelabelan data uji itu penting)
      • Batch: ETL(Airbyte, Fivetran), transform(dbt,coalesce)
      • Pemrosesan data tidak terstruktur: Datavolo, Unstructured, LlamaIndex, dll.

Penyimpanan Data

  • Pendekatan tradisional: disimpan di data warehouse
  • Data untuk pemanfaatan AI:
    • Menggunakan struktur data lake dan lakehouse
    • Menyimpan embedding data melalui vector database
  • Alat utama:
    • Data lake : Databricks, Onehouse, Tabular, Amazon S3, GCS, dll.
      • Vector DB: Pinecone, Chroma, Milvus, Weaviete, dll.

Pelatihan Model

  • Metode pembelajaran:
    • Pembelajaran terawasi, pembelajaran tak terawasi, reinforcement learning
  • Proses pelatihan large language model (LLM):
    • Pre-training: mengenali pola data melalui pembelajaran tak terawasi
    • Pembelajaran terawasi: optimasi performa
    • Reinforcement learning (RLHF): meningkatkan performa melalui umpan balik manusia
  • Validasi dan evaluasi:
    • Menilai kesesuaian model melalui akurasi, presisi, minimisasi loss, dll.
  • Tahap akhir:
    • Pengujian keamanan, tata kelola, dan pemeriksaan compliance
  • Alat utama:
    • Training: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

Inferensi Model

  • Proses:
    • Input prompt → tokenisasi/vektorisasi → pemrosesan data → menghasilkan output
  • Kustomisasi:
    • Integrasi vector database dan LLM
    • Menghasilkan hasil unik yang mencerminkan konteks pengguna
  • Hal penting yang harus dipertimbangkan:
    • Keamanan data, kualitas model, compliance
  • Alat utama:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Layanan Data

  • Kategori:
    • Keamanan data: kontrol akses, pencegahan kebocoran data (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • Visibilitas data: memantau kualitas dan performa pipeline data (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • Katalog data: sentralisasi metadata, pengorganisasian aset data (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • Kesimpulan:
    • Semakin baik data diorganisasi, semakin efisien keamanan, visibilitas, dan pengelolaannya

[Rekonfigurasi Data oleh AI]

Inovasi akibat AI terlihat pada area-area berikut dalam infrastruktur data:

1. Pipeline Data Tidak Terstruktur untuk Agen dan Aplikasi AI

  • Kebangkitan pipeline data tidak terstruktur:
    • Meningkatnya permintaan untuk memanfaatkan data internal yang tidak terstruktur bagi AI percakapan dan aplikasi agen
    • Pipeline data tidak terstruktur mencakup proses yang mirip dengan pipeline data tradisional: ekstraksi data, transformasi, pengindeksan, penyimpanan
  • Sumber data utama:
    • Teks PDF, basis pengetahuan, gambar, dll.
    • Terutama data yang mendukung use case AI percakapan
  • Faktor pembeda:
    • Perbedaan dari pipeline yang ada muncul pada tahap transformasi:
      • Data chunking: membagi data menjadi unit-unit kecil
      • Ekstraksi metadata: menghasilkan data yang dibutuhkan untuk pengindeksan
      • Embedding: mengubah tiap chunk data menjadi bentuk vektor untuk disimpan
  • Faktor keberhasilan:
    • Pemilihan strategi chunking dan model embedding sangat memengaruhi akurasi pencarian data
    • Munculnya model embedding yang terspesialisasi untuk domain tertentu, misalnya model yang khusus untuk kode atau konten hukum
  • Pemanfaatan database yang kompatibel dengan vektor:
    • Menyimpan data tidak terstruktur dan mengubahnya ke format yang bisa di-query
    • Memungkinkan personalisasi LLM melalui RAG(Retrieval-Augmented Generation) dan agent
  • Pengamatan utama
    • Tim-tim sedang mencoba berbagai strategi chunking
    • Model embedding yang terspesialisasi per domain terus bertambah dan membantu meningkatkan akurasi serta performa
    • Perusahaan mencari alat yang bisa mengubah data ke format yang mudah di-query

2. Retrieval-Augmented Generation (RAG)

  • Gambaran RAG:
    • RAG adalah workflow arsitektural yang memanfaatkan data khusus pengguna untuk meningkatkan efisiensi aplikasi LLM
    • Cara kerja:
      • Memuat data dan melakukan "indexing" untuk memproses query
      • Query menyaring data yang paling relevan berdasarkan indeks
      • Konteks yang telah disaring dan query dikirim ke LLM sebagai prompt untuk menghasilkan respons
    • Memungkinkan data diaktifkan sebagai bagian dari pengalaman produk
  • Keunggulan utama RAG:
    • Menyediakan informasi terbaru:
      • LLM terbatas pada data pre-training sehingga ada kemungkinan menghasilkan respons yang usang atau tidak akurat
      • RAG memberikan respons terkini dengan mengakses sumber informasi eksternal
    • Memperkuat faktualitas:
      • RAG melengkapi masalah ketika LLM tidak dapat memberikan informasi yang akurat
      • Menggunakan basis pengetahuan terkurasi untuk memberikan informasi yang lebih dapat dipercaya
    • Menyediakan sumber:
      • Dapat menambahkan kutipan dan anotasi pada respons LLM
      • Meningkatkan kepercayaan pengguna

3. Kurasi Data untuk Meningkatkan Kinerja Pelatihan dan Inferensi

  • Kurasi data: proses menyaring dan menyusun dataset untuk performa pelatihan dan inferensi yang optimal
    • Tugas utama:
      • Klasifikasi teks
      • Penerapan filter NSFW
      • Menghapus duplikasi data
      • Optimasi ukuran batch
      • Optimasi sumber berbasis performa
      • Augmentasi data melalui data sintetis
  • Insight dari pengumuman Meta Llama-3:
    • Kurasi data pelatihan:
      • "Kurasi dataset skala besar berkualitas tinggi sangat penting untuk melatih language model terbaik"
      • Meta mengembangkan pipeline pemfilteran data berikut:
        • Filter heuristik
        • Filter NSFW
        • Deduplikasi semantik
        • Pengklasifikasi teks untuk memprediksi kualitas data
    • Kurasi data fine-tuning:
      • "Peningkatan terbesar pada kualitas model dicapai dengan mengkurasi data secara hati-hati dan meninjau anotasi anotator manusia melalui banyak tahap quality assurance"
  • Efek kurasi data:
    • Menurut tim riset Meta AI:
      • Kurasi dapat mempersingkat waktu pelatihan hingga 20%
      • Meningkatkan akurasi downstream
      • Memberikan jalur peningkatan performa model bahkan saat data internet mulai habis
  • Arah ke depan:
    • Filter data otomatis berkualitas tinggi, deduplikasi, dan classifier akan menjadi penting untuk pelatihan serta fine-tuning model
    • Perusahaan seperti Datology AI sedang berupaya mewujudkannya

4. Penyimpanan Data untuk AI

  • Ada tiga tren utama dalam cara menyimpan data AI:
    • Vector database
    • Kebangkitan data lake
    • Meningkatnya investasi pada lakehouse
  • Pentingnya vector database:
    • Vector database dipandang sebagai salah satu teknologi inti dalam ledakan AI
    • Cocok untuk menyimpan embedding data (representasi numerik):
      • Mengubah dan menyimpan data tidak terstruktur (gambar, audio, video, dll.) ke bentuk numerik
      • Mendukung semantic search (misalnya mencari "dog" lalu mengembalikan "wolf" atau "puppy")
    • Bentuk vector database:
      • Native vector database: dirancang khusus untuk penyimpanan vektor
      • Ekstensi database yang sudah ada: menambahkan dukungan vektor ke database yang ada
    • Use case: personalisasi LLM
      • Menyimpan dan mencari data kustom perusahaan sebagai vector embedding
      • Agen AI memanfaatkan struktur ini untuk memberikan pengalaman yang disesuaikan
  • Data lake dan lakehouse
    • Kebangkitan data lake:
      • Sebagian besar perusahaan menyimpan data berskala besar di data lake
      • Pemanfaatan data lake sangat penting untuk pengembangan AI kustom
    • Arsitektur lakehouse:
      • Menyediakan arsitektur untuk mengelola dan melakukan query pada data lake secara efektif
      • Menyusun data dengan open table format:
        • Memanfaatkan Iceberg, Delta Lake, Hudi, dll.
      • Meningkatkan pengorganisasian data dan performa query
    • Peran Databricks:
      • Databricks mengakuisisi Tabular dan menyatukan tim pengembang Delta Lake dan Iceberg
      • Mempersulit masuknya pesaing dan memimpin kemajuan teknologi lakehouse

5. Memori AI

  • Kebangkitan memori AI:
    • Setelah pengumuman fitur memori ChatGPT, memori AI menjadi topik diskusi utama
    • Sistem AI standar tidak memiliki memori episodik yang kuat dan kontinuitas antarinteraksi:
      • Sistem saat ini berada dalam semacam kondisi amnesia jangka pendek
      • Ada keterbatasan dalam penalaran sekuensial yang kompleks dan berbagi pengetahuan dalam sistem multi-agent
  • Memori dalam sistem multi-agent
    • Seiring berkembangnya sistem multi-agent, dibutuhkan sistem manajemen memori antargen
    • Persyaratan fungsional:
      • Mendukung penyimpanan ingatan per agen dan akses lintas sesi
      • Mencakup kontrol akses dan privasi
      • Pooling memori antaragen:
        • Satu agen dapat memanfaatkan pengalaman agen lain
        • Meningkatkan kemampuan pengambilan keputusan
    • Dibutuhkan memori berjenjang:
      • Menyimpan memori secara berlapis berdasarkan frekuensi akses, tingkat kepentingan, dan biaya
  • MemGPT: framework terdepan untuk manajemen memori AI
    • Visi MemGPT: LLM akan memimpin evolusi sistem operasi (OS) generasi berikutnya
    • Gambaran arsitektur:
      • Jenis memori:
        • Memori konteks utama: mirip memori utama (RAM)
        • Memori konteks eksternal: mirip memori disk/penyimpanan disk
  • Pentingnya memori AI
    • Mendukung personalisasi, pembelajaran, dan reflection, serta penting bagi perkembangan aplikasi AI
    • Meningkatkan kemampuan menyelesaikan tugas kompleks melalui kolaborasi dan berbagi ingatan antaragen

Peluang Beban Kerja AI

  • Beban kerja AI dan infrastruktur data:
    • Kebangkitan GenAI memang belum mengubah semua aspek infrastruktur data, tetapi kemunculan teknologi berikut adalah perkembangan yang sangat menarik:
      • Ekstraksi dan pipelining data tidak terstruktur
      • Retrieval-Augmented Generation (RAG)
      • Kurasi data
      • Penyimpanan data
      • Memori AI
  • Strategi investasi Felicis
    • Berfokus pada masa depan AI dan infrastruktur data:
      • Berinvestasi pada startup terkait lapisan data dan infrastruktur
      • Contoh investasi utama:
        • Datology: kurasi data
        • Metaplane: observabilitas data (data observability)
        • MotherDuck: data warehouse serverless
        • Weights & Biases: alat pelacakan eksperimen
  • Potensi pertumbuhan pasar AI
    • Kemungkinan ekspansi:
      • Pasar AI sedang meluas secara luas, dari chatbot hingga workflow multi-agent
      • Saat ini baru tahap awal dan masih ada banyak ruang untuk perkembangan ke depan
    • Pentingnya solusi data:
      • Solusi data adalah inti untuk aplikasi AI yang sukses
      • Bisnis data berskala besar yang mendukung beban kerja AI diperkirakan akan terus dibangun

Belum ada komentar.

Belum ada komentar.