37 poin oleh GN⁺ 2025-11-30 | Belum ada komentar. | Bagikan ke WhatsApp
  • Skald dikembangkan dengan tujuan menjadi sistem RAG yang sepenuhnya dapat di-host sendiri, tanpa mengirim data ke pihak ketiga
  • Komponen RAG dibagi menjadi database vektor, model embedding, LLM, reranker, parser dokumen, dan untuk tiap elemen disajikan alternatif open source
  • Stack lokal dasar Skald terdiri dari Postgres+pgvector, Sentence Transformers, Docling, dan LLM kustom
  • Dalam hasil benchmark, model berbasis cloud (Voyage+Claude) mendapat rata-rata 9,45 poin, sedangkan GPT-OSS 20B yang sepenuhnya lokal dinilai 7,10~8,63 poin
  • Pendekatan ini menunjukkan bahwa RAG berperforma tinggi tetap bisa dibangun sambil menjaga privasi data

Komponen RAG dan alternatif open source

  • RAG dasar terdiri dari database vektor, model embedding, LLM, dan secara tambahan dapat mencakup reranker serta parser dokumen
    • Tiap komponen dapat diganti dengan alternatif lokal alih-alih SaaS
  • Contoh alternatif yang ditunjukkan dalam tabel
    • Vector DB: Pinecone, Weaviate Cloud → Qdrant, Weaviate, Postgres+pgvector
    • Embeddings: OpenAI, Cohere → Sentence Transformers, BGE, E5
    • LLM: GPT, Claude → Llama, Mistral, GPT-OSS
    • Reranker: Cohere → BGE Reranker, Sentence Transformers Cross-Encoder
    • Document Parsing: Reducto → Docling
  • Skald mengarah pada stack open source yang sepenuhnya lengkap, dengan setiap komponen dijalankan secara lokal

Susunan stack lokal Skald

  • Vector DB: menggunakan Postgres + pgvector
    • Mudah diintegrasikan ke infrastruktur yang sudah ada, serta mampu menangani hingga ratusan ribu dokumen
  • Vector Embeddings: default-nya adalah Sentence Transformers (all-MiniLM-L6-v2)
    • Khusus bahasa Inggris, dengan keseimbangan antara kecepatan dan performa pencarian
    • Model bge-m3 (mendukung multibahasa) juga diuji
  • LLM: tidak disediakan secara bawaan, pengguna menjalankannya sendiri
    • Dalam pengujian, GPT-OSS 20B dijalankan di EC2
  • Reranker: default-nya adalah Sentence Transformers Cross-Encoder, dan model multibahasa seperti bge-reranker-v2-m3 juga dapat digunakan
  • Document Parsing: menggunakan Docling, dijalankan lewat docling-serve

Hasil performa dan deployment

  • Deployment instance produksi Skald beserta seluruh stack memerlukan 8 menit
    • Termasuk Postgres, layanan embedding dan reranking, serta Docling
    • LLM dijalankan secara terpisah (menggunakan llama.cpp)
  • Dataset uji terdiri dari konten situs web PostHog (sekitar 2.000 dokumen) dan set tanya-jawab buatan sendiri
  • Pengaturan eksperimen
    • Vector search topK=100, Reranking topK=50, Query rewriting=Off
    • Kriteria evaluasi berfokus pada akurasi

Perbandingan hasil benchmark

  • Voyage + Claude (konfigurasi cloud)
    • Skor rata-rata 9,45, semua jawaban akurat
  • Voyage + GPT-OSS 20B (sebagian lokal)
    • Skor rata-rata 9,18, sebagian besar akurat tetapi ada beberapa informasi yang terlewat
  • Sepenuhnya lokal + GPT-OSS 20B
    • Model dasar bahasa Inggris (all-MiniLM-L6-v2 + ms-marco-MiniLM-L6-v2) : rata-rata 7,10
      • Akurat untuk kueri berbahasa Inggris, tetapi lemah pada kueri multibahasa, kueri ambigu, dan agregasi multi-dokumen
    • Model multibahasa (bge-m3 + mmarco-mMiniLMv2-L12-H384-v1) : rata-rata 8,63
      • Berhasil menangani kueri berbahasa Portugis, tetapi masih ada sebagian informasi yang terlewat saat agregasi multi-dokumen
  • Batasan utamanya adalah pemrosesan terpadu atas informasi yang tersebar di banyak dokumen
    • Model cloud menutup kekurangan ini dengan performa tinggi, tetapi di lingkungan lokal diperlukan teknik tambahan

Rencana ke depan

  • Skald berencana meningkatkan performa RAG lokal dan membuka benchmark model open source
  • Menargetkan penyediaan solusi bagi perusahaan yang harus mengoperasikan alat AI di lingkungan air-gapped
  • Yang ingin berpartisipasi dapat berkolaborasi melalui GitHub(skaldlabs/skald) atau komunitas Slack

Belum ada komentar.

Belum ada komentar.