Stack AI Modern: Prinsip Desain untuk Masa Depan Arsitektur AI Enterprise

xguru · 2024-01-29T11:05:01+09:00

Definisi stack AI modern Lapisan 1: Komputasi dan model dasar - mencakup model dasar itu sendiri serta infrastruktur untuk melatih, fine-tuning, mengoptimalkan, dan menerapkan model Lapisan 2: Data - mencakup infrastruktur yang menghubungkan LLM ke konteks yang tepat dalam sistem data perusahaan, termasuk komponen inti seperti prapemrosesan data, ETL dan pipeline data, basis data vektor, penyimpanan metadata, cache konteks, dan sebagainya Lapisan 3: Deployment - mencakup alat yang membantu developer mengelola dan mengorkestrasi aplikasi AI, termasuk framework agent, manajemen prompt, routing model, dan orkestrasi Lapisan 4: Observabilitas - mencakup solusi untuk memantau perilaku runtime LLM dan melindunginya dari ancaman Kurva kematangan AI yang baru Struktur pasar dan teknologi yang mendefinisikan stack AI modern berkembang sangat cepat, dan komponen utama serta para pemimpinnya sudah mulai muncul Sebelum LLM, pengembangan ML bersifat linear dan "berpusat pada model", tetapi LLM mengubahnya menjadi "berpusat pada produk", sehingga tim tanpa keahlian ML pun dapat mengintegrasikan AI ke dalam produk Seiring stack AI makin matang, tim pengembang ingin menyesuaikan pengalaman AI melalui data spesifik perusahaan atau pelanggan Kurva kematangan AI Tahap 1: Closed-source models only hanya model tertutup Pada awal 2023, biaya dan upaya engineering terutama terfokus pada model dasar itu sendiri, dengan hanya ada kustomisasi sederhana di atasnya (prompt engineering / pembelajaran seperti few-shot learning) Penyedia model closed-source utama seperti OpenAI dan Anthropic memperoleh traksi awal pada tahap ini dan memantapkan diri sebagai pemenang pertama dalam stack AI modern Tahap 2: Retrieval-augmented generation generasi dengan pengambilan tambahan Fokus beralih ke lapisan data sebagai pusat upaya aplikasi AI, bukan ke lapisan model Khususnya, populernya RAG memerlukan infrastruktur lapisan data yang lebih kuat seperti basis data vektor Pinecone dan engine prapemrosesan data Unstructured Sebagian besar perusahaan dan startup saat ini berada pada tahap ini Tahap 3: Hybrid model deployment deployment model hibrida Perusahaan terdepan seperti Typeface dan Descript mulai melengkapi penggunaan model closed-source dengan open source untuk pekerjaan domain-spesifik berskala besar Vendor deployment model seperti Modal, Baseten, dan Fireworks mulai memperoleh traksi yang signifikan Tahap 4 dan seterusnya: Custom models model kustom Saat ini masih sedikit perusahaan yang cukup maju atau benar-benar perlu membangun modelnya sendiri, tetapi ke depan akan ada lebih banyak use case dari perusahaan besar yang ingin memanfaatkan stack ini lebih dalam Perusahaan seperti Predibase dan Lamini, yang menyediakan alat untuk fine-tuning hemat memori (termasuk kuantisasi 4-bit, QLoRA, memory paging/offload), akan mendukung hal ini Empat prinsip desain utama untuk stack infrastruktur AI yang baru Revolusi AI tidak hanya memicu permintaan untuk stack infrastruktur baru, tetapi juga membentuk ulang cara perusahaan mendekati pengembangan aplikasi, pengeluaran R&D, dan struktur tim Prinsip desain utama: 1. Sebagian besar pengeluaran digunakan untuk inferensi dan training Pada awal revolusi LLM, terlihat seolah semua perusahaan suatu hari nanti akan bisa melatih large language model mereka sendiri Model seperti BloombergGPT yang diumumkan pada Maret 2023 (LLM 50b yang dilatih khusus untuk data keuangan) dipandang sebagai pertanda akan banjirnya LLM spesifik perusahaan dan domain Namun, banjir besar itu tidak terjadi Menurut survei AI enterprise terbaru dari Menlo Ventures, hampir 95% dari total pengeluaran AI digunakan untuk runtime dan pra-pelatihan Rasio ini hanya terbalik pada penyedia model dasar besar seperti Anthropic. Pada lapisan aplikasi, bahkan pembangun AI canggih seperti Writer pun menggunakan lebih dari 80% komputasinya untuk inferensi, bukan training 2. Kita hidup di dunia multi-model Tidak ada satu model pun yang dapat "menguasai semuanya" Sebanyak 60% perusahaan menggunakan beberapa model dan merutekan prompt ke model dengan performa terbaik Pendekatan multi-model menghilangkan ketergantungan pada satu model, memberikan kontrol yang lebih tinggi, dan menurunkan biaya 3. RAG adalah pendekatan arsitektur yang dominan LLM adalah engine penalaran yang hebat, tetapi pengetahuan domain-spesifik dan perusahaan-spesifiknya terbatas Untuk menciptakan pengalaman AI yang berguna, tim dengan cepat menerapkan teknik augmentasi pengetahuan, dimulai dari retrieval-augmented generation (RAG) RAG memberi model dasar "memori" spesifik perusahaan melalui basis data vektor seperti Pinecone Teknik ini jauh lebih unggul saat ini dibanding teknik kustomisasi lain yang sudah masuk produksi, seperti fine-tuning, low-rank adaptation, atau adapter, yang terutama bekerja pada lapisan model, bukan lapisan data Ke depan, tren ini akan berlanjut, dan bagian baru dari data plane, termasuk engine prapemrosesan data (misalnya Cleanlab) dan pipeline ETL (misalnya Unstructured), diperkirakan akan diintegrasikan ke dalam arsitektur runtime 4. Semua developer kini adalah developer AI Secara global, ada 30 juta developer, tetapi hanya 300 ribu ML engineer dan 30 ribu ML researcher Bagi mereka yang berinovasi di garis depan ML, diperkirakan hanya ada sekitar 50 researcher di dunia yang tahu cara membangun sistem setingkat GPT-4 atau Claude 2 Menghadapi kenyataan ini, kabar baiknya adalah pekerjaan yang dulu membutuhkan riset dasar bertahun-tahun dan keahlian ML yang canggih kini dapat diselesaikan dalam hitungan hari atau minggu oleh developer arus utama yang merekayasa sistem data di atas LLM pra-terlatih yang kuat Produk seperti Einstein GPT dari Salesforce (AI CoPilot untuk Sales) dan Intuit Assist (asisten keuangan berbasis Generative AI) dibangun terutama oleh tim ramping yang terdiri dari AI engineer, yaitu full-stack engineer tradisional yang bekerja pada data plane stack AI modern Langkah berikutnya Stack AI modern berkembang sangat cepat, dan ada sejumlah perkembangan yang diperkirakan akan terus berlanjut tahun ini Aplikasi AI generasi berikutnya sedang menguji RAG yang lebih maju RAG adalah raja saat ini, tetapi pendekatan ini bukan tanpa masalah Banyak implementasi masih memanfaatkan teknik embedding dan retrieval yang naif, termasuk chunk dokumen berbasis jumlah token, indexing yang tidak efisien, dan algoritme ranking Masalahnya mencakup fragmentasi konteks, halusinasi, kelangkaan entitas, dan retrieval yang tidak efisien Untuk mengatasi masalah ini, arsitektur generasi berikutnya sedang menguji RAG yang lebih maju: penalaran Chain-Of-Thought, penalaran Tree-Of-Thought, Reflexion, retrieval berbasis aturan, dan lainnya Model kecil akan mengambil porsi yang lebih besar dalam stack AI modern Seiring pembangun aplikasi AI semakin fokus lebih dalam pada stack AI modern, diperkirakan akan ada peningkatan model yang lebih granular dan spesifik tugas Model spesifik tugas yang telah di-fine-tune akan meluas untuk area tertentu yang terlalu rumit atau terlalu mahal jika ditangani oleh model closed-source yang lebih besar Infrastruktur untuk membangun pipeline ML dan fine-tuning akan menjadi sangat penting pada tahap ini seiring perusahaan membuat model spesifik tugas mereka sendiri Teknik kuantisasi yang disediakan oleh Ollama dan ggml membantu tim memaksimalkan peningkatan kecepatan yang ditawarkan model kecil Muncul alat baru untuk observabilitas dan evaluasi model Sepanjang sebagian besar tahun 2023, logging dan evaluasi sama sekali tidak dilakukan, dilakukan secara manual, atau dilakukan melalui benchmark akademik yang menjadi titik awal bagi sebagian besar aplikasi enterprise Menurut riset Criteo, sekitar 70% perusahaan yang telah mengadopsi AI meninjau output melalui manusia sebagai teknik evaluasi utama mereka. Alasannya adalah karena risikonya tinggi Pelanggan mengharapkan output berkualitas tinggi dan memang berhak mendapatkannya, dan perusahaan sangat sadar bahwa mereka bisa kehilangan kepercayaan pelanggan akibat halusinasi Karena itu, observabilitas dan evaluasi menghadirkan peluang penting bagi alat baru Pendekatan baru yang menjanjikan seperti Braintrust, Patronus, Log10, dan AgentOps sudah mulai bermunculan Arsitektur akan bergerak ke arah serverless Seperti sistem data enterprise lainnya, stack AI modern bergerak ke arah serverless seiring waktu Di sini dibedakan antara serverless tipe "mesin sementara" (misalnya fungsi lambda) dan serverless scale-to-zero yang sesungguhnya (misalnya arsitektur Neon untuk Postgres) Pada serverless scale-to-zero, abstraksi infrastruktur mengurangi kompleksitas operasional bagi developer dalam menjalankan aplikasi, memungkinkan iterasi lebih cepat, dan memberi perusahaan optimalisasi sumber daya yang signifikan karena hanya membayar untuk ketersediaan alih-alih komputasi Paradigma serverless akan diterapkan ke semua bagian dari stack AI modern Pinecone mengadopsi pendekatan ini sebagai arsitektur modern untuk vector computing Neon melakukannya untuk Postgres, Momento untuk caching, dan Baseten serta Modal untuk inferensi

(menlovc.com)

28 poin oleh xguru 2024-01-29 | 6 komentar | Bagikan ke WhatsApp

Definisi stack AI modern

Lapisan 1: Komputasi dan model dasar - mencakup model dasar itu sendiri serta infrastruktur untuk melatih, fine-tuning, mengoptimalkan, dan menerapkan model
Lapisan 2: Data - mencakup infrastruktur yang menghubungkan LLM ke konteks yang tepat dalam sistem data perusahaan, termasuk komponen inti seperti prapemrosesan data, ETL dan pipeline data, basis data vektor, penyimpanan metadata, cache konteks, dan sebagainya
Lapisan 3: Deployment - mencakup alat yang membantu developer mengelola dan mengorkestrasi aplikasi AI, termasuk framework agent, manajemen prompt, routing model, dan orkestrasi
Lapisan 4: Observabilitas - mencakup solusi untuk memantau perilaku runtime LLM dan melindunginya dari ancaman

Kurva kematangan AI yang baru

Struktur pasar dan teknologi yang mendefinisikan stack AI modern berkembang sangat cepat, dan komponen utama serta para pemimpinnya sudah mulai muncul
Sebelum LLM, pengembangan ML bersifat linear dan "berpusat pada model", tetapi LLM mengubahnya menjadi "berpusat pada produk", sehingga tim tanpa keahlian ML pun dapat mengintegrasikan AI ke dalam produk
Seiring stack AI makin matang, tim pengembang ingin menyesuaikan pengalaman AI melalui data spesifik perusahaan atau pelanggan
Kurva kematangan AI
- Tahap 1: Closed-source models only hanya model tertutup
  - Pada awal 2023, biaya dan upaya engineering terutama terfokus pada model dasar itu sendiri, dengan hanya ada kustomisasi sederhana di atasnya (prompt engineering / pembelajaran seperti few-shot learning)
  - Penyedia model closed-source utama seperti OpenAI dan Anthropic memperoleh traksi awal pada tahap ini dan memantapkan diri sebagai pemenang pertama dalam stack AI modern
- Tahap 2: Retrieval-augmented generation generasi dengan pengambilan tambahan
  - Fokus beralih ke lapisan data sebagai pusat upaya aplikasi AI, bukan ke lapisan model
  - Khususnya, populernya RAG memerlukan infrastruktur lapisan data yang lebih kuat seperti basis data vektor Pinecone dan engine prapemrosesan data Unstructured
  - Sebagian besar perusahaan dan startup saat ini berada pada tahap ini
- Tahap 3: Hybrid model deployment deployment model hibrida
  - Perusahaan terdepan seperti Typeface dan Descript mulai melengkapi penggunaan model closed-source dengan open source untuk pekerjaan domain-spesifik berskala besar
  - Vendor deployment model seperti Modal, Baseten, dan Fireworks mulai memperoleh traksi yang signifikan
- Tahap 4 dan seterusnya: Custom models model kustom
  - Saat ini masih sedikit perusahaan yang cukup maju atau benar-benar perlu membangun modelnya sendiri, tetapi ke depan akan ada lebih banyak use case dari perusahaan besar yang ingin memanfaatkan stack ini lebih dalam
  - Perusahaan seperti Predibase dan Lamini, yang menyediakan alat untuk fine-tuning hemat memori (termasuk kuantisasi 4-bit, QLoRA, memory paging/offload), akan mendukung hal ini

Empat prinsip desain utama untuk stack infrastruktur AI yang baru

Revolusi AI tidak hanya memicu permintaan untuk stack infrastruktur baru, tetapi juga membentuk ulang cara perusahaan mendekati pengembangan aplikasi, pengeluaran R&D, dan struktur tim
Prinsip desain utama:
- 1. Sebagian besar pengeluaran digunakan untuk inferensi dan training
  - Pada awal revolusi LLM, terlihat seolah semua perusahaan suatu hari nanti akan bisa melatih large language model mereka sendiri
  - Model seperti BloombergGPT yang diumumkan pada Maret 2023 (LLM 50b yang dilatih khusus untuk data keuangan) dipandang sebagai pertanda akan banjirnya LLM spesifik perusahaan dan domain
  - Namun, banjir besar itu tidak terjadi
  - Menurut survei AI enterprise terbaru dari Menlo Ventures, hampir 95% dari total pengeluaran AI digunakan untuk runtime dan pra-pelatihan
  - Rasio ini hanya terbalik pada penyedia model dasar besar seperti Anthropic. Pada lapisan aplikasi, bahkan pembangun AI canggih seperti Writer pun menggunakan lebih dari 80% komputasinya untuk inferensi, bukan training
- 2. Kita hidup di dunia multi-model
  - Tidak ada satu model pun yang dapat "menguasai semuanya"
  - Sebanyak 60% perusahaan menggunakan beberapa model dan merutekan prompt ke model dengan performa terbaik
  - Pendekatan multi-model menghilangkan ketergantungan pada satu model, memberikan kontrol yang lebih tinggi, dan menurunkan biaya
- 3. RAG adalah pendekatan arsitektur yang dominan
  - LLM adalah engine penalaran yang hebat, tetapi pengetahuan domain-spesifik dan perusahaan-spesifiknya terbatas
  - Untuk menciptakan pengalaman AI yang berguna, tim dengan cepat menerapkan teknik augmentasi pengetahuan, dimulai dari retrieval-augmented generation (RAG)
  - RAG memberi model dasar "memori" spesifik perusahaan melalui basis data vektor seperti Pinecone
  - Teknik ini jauh lebih unggul saat ini dibanding teknik kustomisasi lain yang sudah masuk produksi, seperti fine-tuning, low-rank adaptation, atau adapter, yang terutama bekerja pada lapisan model, bukan lapisan data
  - Ke depan, tren ini akan berlanjut, dan bagian baru dari data plane, termasuk engine prapemrosesan data (misalnya Cleanlab) dan pipeline ETL (misalnya Unstructured), diperkirakan akan diintegrasikan ke dalam arsitektur runtime
- 4. Semua developer kini adalah developer AI
  - Secara global, ada 30 juta developer, tetapi hanya 300 ribu ML engineer dan 30 ribu ML researcher
  - Bagi mereka yang berinovasi di garis depan ML, diperkirakan hanya ada sekitar 50 researcher di dunia yang tahu cara membangun sistem setingkat GPT-4 atau Claude 2
  - Menghadapi kenyataan ini, kabar baiknya adalah pekerjaan yang dulu membutuhkan riset dasar bertahun-tahun dan keahlian ML yang canggih kini dapat diselesaikan dalam hitungan hari atau minggu oleh developer arus utama yang merekayasa sistem data di atas LLM pra-terlatih yang kuat
  - Produk seperti Einstein GPT dari Salesforce (AI CoPilot untuk Sales) dan Intuit Assist (asisten keuangan berbasis Generative AI) dibangun terutama oleh tim ramping yang terdiri dari AI engineer, yaitu full-stack engineer tradisional yang bekerja pada data plane stack AI modern

Langkah berikutnya

Stack AI modern berkembang sangat cepat, dan ada sejumlah perkembangan yang diperkirakan akan terus berlanjut tahun ini
Aplikasi AI generasi berikutnya sedang menguji RAG yang lebih maju
- RAG adalah raja saat ini, tetapi pendekatan ini bukan tanpa masalah
- Banyak implementasi masih memanfaatkan teknik embedding dan retrieval yang naif, termasuk chunk dokumen berbasis jumlah token, indexing yang tidak efisien, dan algoritme ranking
- Masalahnya mencakup fragmentasi konteks, halusinasi, kelangkaan entitas, dan retrieval yang tidak efisien
- Untuk mengatasi masalah ini, arsitektur generasi berikutnya sedang menguji RAG yang lebih maju: penalaran Chain-Of-Thought, penalaran Tree-Of-Thought, Reflexion, retrieval berbasis aturan, dan lainnya
Model kecil akan mengambil porsi yang lebih besar dalam stack AI modern
- Seiring pembangun aplikasi AI semakin fokus lebih dalam pada stack AI modern, diperkirakan akan ada peningkatan model yang lebih granular dan spesifik tugas
- Model spesifik tugas yang telah di-fine-tune akan meluas untuk area tertentu yang terlalu rumit atau terlalu mahal jika ditangani oleh model closed-source yang lebih besar
- Infrastruktur untuk membangun pipeline ML dan fine-tuning akan menjadi sangat penting pada tahap ini seiring perusahaan membuat model spesifik tugas mereka sendiri
- Teknik kuantisasi yang disediakan oleh Ollama dan ggml membantu tim memaksimalkan peningkatan kecepatan yang ditawarkan model kecil
Muncul alat baru untuk observabilitas dan evaluasi model
- Sepanjang sebagian besar tahun 2023, logging dan evaluasi sama sekali tidak dilakukan, dilakukan secara manual, atau dilakukan melalui benchmark akademik yang menjadi titik awal bagi sebagian besar aplikasi enterprise
- Menurut riset Criteo, sekitar 70% perusahaan yang telah mengadopsi AI meninjau output melalui manusia sebagai teknik evaluasi utama mereka. Alasannya adalah karena risikonya tinggi
- Pelanggan mengharapkan output berkualitas tinggi dan memang berhak mendapatkannya, dan perusahaan sangat sadar bahwa mereka bisa kehilangan kepercayaan pelanggan akibat halusinasi
- Karena itu, observabilitas dan evaluasi menghadirkan peluang penting bagi alat baru
- Pendekatan baru yang menjanjikan seperti Braintrust, Patronus, Log10, dan AgentOps sudah mulai bermunculan
Arsitektur akan bergerak ke arah serverless
- Seperti sistem data enterprise lainnya, stack AI modern bergerak ke arah serverless seiring waktu
- Di sini dibedakan antara serverless tipe "mesin sementara" (misalnya fungsi lambda) dan serverless scale-to-zero yang sesungguhnya (misalnya arsitektur Neon untuk Postgres)
- Pada serverless scale-to-zero, abstraksi infrastruktur mengurangi kompleksitas operasional bagi developer dalam menjalankan aplikasi, memungkinkan iterasi lebih cepat, dan memberi perusahaan optimalisasi sumber daya yang signifikan karena hanya membayar untuk ketersediaan alih-alih komputasi
- Paradigma serverless akan diterapkan ke semua bagian dari stack AI modern
- Pinecone mengadopsi pendekatan ini sebagai arsitektur modern untuk vector computing
- Neon melakukannya untuk Postgres, Momento untuk caching, dan Baseten serta Modal untuk inferensi

6 komentar

hyeonseokoh94 2024-01-31

Tulisan yang bagus dan menarik.

galadbran 2024-01-30

https://id.news.hada.io/topic?id=6658 Neon - Postgres serverless open source

kaistj 2024-01-30

Semoga di tengah lingkungan yang penuh perubahan, semakin banyak peluang baru yang tercipta~
Ke arah yang lebih baik

dlehals2 2024-01-29

Apakah jumlah developer di seluruh dunia cuma sekitar 30 juta orang??

xguru 2024-01-29

Berdasarkan laporan Evans Data Corporation yang sering dikutip, jumlahnya sekitar 26,3 juta orang per 2022.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Memang sudah ada lebih dari 100 juta pengguna GitHub, tetapi rasanya sulit menganggap semuanya sebagai pengembang.
https://github.blog/2023-01-25-100-million-developers-and-counting/