- Skald dikembangkan dengan tujuan menjadi sistem RAG yang sepenuhnya dapat di-host sendiri, tanpa mengirim data ke pihak ketiga
- Komponen RAG dibagi menjadi database vektor, model embedding, LLM, reranker, parser dokumen, dan untuk tiap elemen disajikan alternatif open source
- Stack lokal dasar Skald terdiri dari Postgres+pgvector, Sentence Transformers, Docling, dan LLM kustom
- Dalam hasil benchmark, model berbasis cloud (Voyage+Claude) mendapat rata-rata 9,45 poin, sedangkan GPT-OSS 20B yang sepenuhnya lokal dinilai 7,10~8,63 poin
- Pendekatan ini menunjukkan bahwa RAG berperforma tinggi tetap bisa dibangun sambil menjaga privasi data
Komponen RAG dan alternatif open source
- RAG dasar terdiri dari database vektor, model embedding, LLM, dan secara tambahan dapat mencakup reranker serta parser dokumen
- Tiap komponen dapat diganti dengan alternatif lokal alih-alih SaaS
- Contoh alternatif yang ditunjukkan dalam tabel
- Vector DB: Pinecone, Weaviate Cloud → Qdrant, Weaviate, Postgres+pgvector
- Embeddings: OpenAI, Cohere → Sentence Transformers, BGE, E5
- LLM: GPT, Claude → Llama, Mistral, GPT-OSS
- Reranker: Cohere → BGE Reranker, Sentence Transformers Cross-Encoder
- Document Parsing: Reducto → Docling
- Skald mengarah pada stack open source yang sepenuhnya lengkap, dengan setiap komponen dijalankan secara lokal
Susunan stack lokal Skald
- Vector DB: menggunakan Postgres + pgvector
- Mudah diintegrasikan ke infrastruktur yang sudah ada, serta mampu menangani hingga ratusan ribu dokumen
- Vector Embeddings: default-nya adalah Sentence Transformers (all-MiniLM-L6-v2)
- Khusus bahasa Inggris, dengan keseimbangan antara kecepatan dan performa pencarian
- Model bge-m3 (mendukung multibahasa) juga diuji
- LLM: tidak disediakan secara bawaan, pengguna menjalankannya sendiri
- Dalam pengujian, GPT-OSS 20B dijalankan di EC2
- Reranker: default-nya adalah Sentence Transformers Cross-Encoder, dan model multibahasa seperti bge-reranker-v2-m3 juga dapat digunakan
- Document Parsing: menggunakan Docling, dijalankan lewat docling-serve
Hasil performa dan deployment
- Deployment instance produksi Skald beserta seluruh stack memerlukan 8 menit
- Termasuk Postgres, layanan embedding dan reranking, serta Docling
- LLM dijalankan secara terpisah (menggunakan llama.cpp)
- Dataset uji terdiri dari konten situs web PostHog (sekitar 2.000 dokumen) dan set tanya-jawab buatan sendiri
- Pengaturan eksperimen
- Vector search topK=100, Reranking topK=50, Query rewriting=Off
- Kriteria evaluasi berfokus pada akurasi
Perbandingan hasil benchmark
- Voyage + Claude (konfigurasi cloud)
- Skor rata-rata 9,45, semua jawaban akurat
- Voyage + GPT-OSS 20B (sebagian lokal)
- Skor rata-rata 9,18, sebagian besar akurat tetapi ada beberapa informasi yang terlewat
- Sepenuhnya lokal + GPT-OSS 20B
- Model dasar bahasa Inggris (all-MiniLM-L6-v2 + ms-marco-MiniLM-L6-v2) : rata-rata 7,10
- Akurat untuk kueri berbahasa Inggris, tetapi lemah pada kueri multibahasa, kueri ambigu, dan agregasi multi-dokumen
- Model multibahasa (bge-m3 + mmarco-mMiniLMv2-L12-H384-v1) : rata-rata 8,63
- Berhasil menangani kueri berbahasa Portugis, tetapi masih ada sebagian informasi yang terlewat saat agregasi multi-dokumen
- Batasan utamanya adalah pemrosesan terpadu atas informasi yang tersebar di banyak dokumen
- Model cloud menutup kekurangan ini dengan performa tinggi, tetapi di lingkungan lokal diperlukan teknik tambahan
Rencana ke depan
- Skald berencana meningkatkan performa RAG lokal dan membuka benchmark model open source
- Menargetkan penyediaan solusi bagi perusahaan yang harus mengoperasikan alat AI di lingkungan air-gapped
- Yang ingin berpartisipasi dapat berkolaborasi melalui GitHub(skaldlabs/skald) atau komunitas Slack
Belum ada komentar.