Ingin membangun RAG lokal?

(blog.yakkomajuri.com)

37 poin oleh GN⁺ 2025-11-30 | Belum ada komentar. | Bagikan ke WhatsApp

Skald dikembangkan dengan tujuan menjadi sistem RAG yang sepenuhnya dapat di-host sendiri, tanpa mengirim data ke pihak ketiga
Komponen RAG dibagi menjadi database vektor, model embedding, LLM, reranker, parser dokumen, dan untuk tiap elemen disajikan alternatif open source
Stack lokal dasar Skald terdiri dari Postgres+pgvector, Sentence Transformers, Docling, dan LLM kustom
Dalam hasil benchmark, model berbasis cloud (Voyage+Claude) mendapat rata-rata 9,45 poin, sedangkan GPT-OSS 20B yang sepenuhnya lokal dinilai 7,10~8,63 poin
Pendekatan ini menunjukkan bahwa RAG berperforma tinggi tetap bisa dibangun sambil menjaga privasi data

Komponen RAG dan alternatif open source

RAG dasar terdiri dari database vektor, model embedding, LLM, dan secara tambahan dapat mencakup reranker serta parser dokumen
- Tiap komponen dapat diganti dengan alternatif lokal alih-alih SaaS
Contoh alternatif yang ditunjukkan dalam tabel
- Vector DB: Pinecone, Weaviate Cloud → Qdrant, Weaviate, Postgres+pgvector
- Embeddings: OpenAI, Cohere → Sentence Transformers, BGE, E5
- LLM: GPT, Claude → Llama, Mistral, GPT-OSS
- Reranker: Cohere → BGE Reranker, Sentence Transformers Cross-Encoder
- Document Parsing: Reducto → Docling
Skald mengarah pada stack open source yang sepenuhnya lengkap, dengan setiap komponen dijalankan secara lokal

Vector DB: menggunakan Postgres + pgvector
- Mudah diintegrasikan ke infrastruktur yang sudah ada, serta mampu menangani hingga ratusan ribu dokumen
Vector Embeddings: default-nya adalah Sentence Transformers (all-MiniLM-L6-v2)
- Khusus bahasa Inggris, dengan keseimbangan antara kecepatan dan performa pencarian
- Model bge-m3 (mendukung multibahasa) juga diuji
LLM: tidak disediakan secara bawaan, pengguna menjalankannya sendiri
- Dalam pengujian, GPT-OSS 20B dijalankan di EC2
Reranker: default-nya adalah Sentence Transformers Cross-Encoder, dan model multibahasa seperti bge-reranker-v2-m3 juga dapat digunakan
Document Parsing: menggunakan Docling, dijalankan lewat docling-serve

Deployment instance produksi Skald beserta seluruh stack memerlukan 8 menit
- Termasuk Postgres, layanan embedding dan reranking, serta Docling
- LLM dijalankan secara terpisah (menggunakan llama.cpp)
Dataset uji terdiri dari konten situs web PostHog (sekitar 2.000 dokumen) dan set tanya-jawab buatan sendiri
Pengaturan eksperimen
- Vector search topK=100, Reranking topK=50, Query rewriting=Off
- Kriteria evaluasi berfokus pada akurasi

Voyage + Claude (konfigurasi cloud)
- Skor rata-rata 9,45, semua jawaban akurat
Voyage + GPT-OSS 20B (sebagian lokal)
- Skor rata-rata 9,18, sebagian besar akurat tetapi ada beberapa informasi yang terlewat
Sepenuhnya lokal + GPT-OSS 20B
- Model dasar bahasa Inggris (all-MiniLM-L6-v2 + ms-marco-MiniLM-L6-v2) : rata-rata 7,10
  - Akurat untuk kueri berbahasa Inggris, tetapi lemah pada kueri multibahasa, kueri ambigu, dan agregasi multi-dokumen
- Model multibahasa (bge-m3 + mmarco-mMiniLMv2-L12-H384-v1) : rata-rata 8,63
  - Berhasil menangani kueri berbahasa Portugis, tetapi masih ada sebagian informasi yang terlewat saat agregasi multi-dokumen
Batasan utamanya adalah pemrosesan terpadu atas informasi yang tersebar di banyak dokumen
- Model cloud menutup kekurangan ini dengan performa tinggi, tetapi di lingkungan lokal diperlukan teknik tambahan

Skald berencana meningkatkan performa RAG lokal dan membuka benchmark model open source
Menargetkan penyediaan solusi bagi perusahaan yang harus mengoperasikan alat AI di lingkungan air-gapped
Yang ingin berpartisipasi dapat berkolaborasi melalui GitHub(skaldlabs/skald) atau komunitas Slack