ProofBench — Benchmark Hibrida AI: komputasi simbolik + sistem verifikasi bukti berbasis semantik

(github.com/Flamehaven)

1 poin oleh flamehaven01 2025-10-17 | Belum ada komentar. | Bagikan ke WhatsApp

TL;DR

ProofBench adalah benchmark hibrida AI dan sistem verifikasi bukti generasi berikutnya yang menggabungkan matematika simbolik (SymPy/Pyodide) dengan analisis semantik AI (konsensus multi-LLM).

Dengan mengevaluasi struktur logis dan validitas semantik bukti secara bersamaan, sistem ini mendeteksi argumen yang ‘tampak benar’ dan mengukurnya secara kuantitatif dengan Logic Integrity Index (LII).

🎯 Mengapa ini dibuat

Verifikator bukti tradisional

terlalu ketat dan tidak praktis karena berbasis logika formal, atau
berhenti di tingkat tata bahasa sehingga tidak dapat menangkap kesalahan semantik, atau
memiliki biaya komputasi tinggi sehingga sulit memberi umpan balik real-time.

ProofBench adalah framework benchmark hibrida AI yang menggabungkan ketelitian verifikasi simbolik dan fleksibilitas pemahaman AI melalui pendekatan hibrida “70% simbolik + 30% semantik”.

📊 ProofBench memverifikasi pertanyaan seperti ini

“Bisakah AI memahami konsistensi logis?”
“Jika struktur bukti divisualisasikan secara berbasis graf, apakah pola kesalahan akan terlihat?”
“Seberapa andalkah evaluasi berbasis semantik?”
“Apakah benchmark gabungan simbolik-semantik berguna untuk pendidikan, riset, dan evaluasi AI?”

🧩 Metrik benchmark hibrida AI

LII (Logic Integrity Index): metrik inti untuk integritas logis
Coherence Variance: tingkat kesepakatan antar model
Symbolic Pass Rate: rasio konsistensi matematis
Semantic Stability: tingkat pemeliharaan konsistensi konteks

Angka-angka ini berpotensi berkembang menjadi standar bersama untuk mengevaluasi “daya nalar, konsistensi, dan kemampuan interpretasi makna” model AI di masa depan.

🔍 Gambaran arsitektur

Symbolic Layer — menjalankan SymPy dengan Pyodide untuk verifikasi deterministik di dalam browser
Semantic Layer — mengevaluasi respons beberapa LLM berdasarkan konsensus
Hybrid Orchestrator — bobot dasar 70/30 (dapat disesuaikan), menghitung skor akhir
LII Engine — menghitung indeks integritas logis + interval kepercayaan
Justification Analyzer — graf dependensi + deteksi siklus
Feedback Generator — membuat laporan evaluasi langkah demi langkah berbasis bahasa alami

⚙️ Fitur utama (v3.7.2)

Mesin verifikasi hibrida: menjalankan SymPy dengan Pyodide di browser + analisis semantik berbasis konsensus multi-LLM
LII (Logic Integrity Index): mengkuantifikasi konsistensi logis dengan skor 0–100 dan interval kepercayaan 95%
Justification Graph: memvisualisasikan hubungan dependensi antarbukti dan mendeteksi argumen sirkular secara otomatis
Consensus Manager: menghitung tingkat kesepakatan antar model dan menghasilkan skor rata-rata berbasis coherence
Natural Feedback Generator: memberi umpan balik kesalahan dan alasannya dalam bahasa alami untuk tiap langkah
UI / Dashboard: visualisasi hasil per langkah bukti, tampilan graf, laporan, dan skor LII
Eksekusi Docker sekali klik: bisa langsung digunakan dengan satu baris docker run

docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000

🧱 Keterbatasan

Lapisan semantik dipengaruhi jebakan linguistik yang kompleks (diredam oleh lapisan simbolik)
LII bukan sertifikat bukti formal, melainkan indikator kualitas
Ada biaya inisialisasi awal Pyodide pada perangkat berspesifikasi rendah

⚡ Masukan yang ingin didapat

Apakah bobot dasar 70/30 sudah masuk akal? (perlukah adaptive weight)
Apakah LII + interval kepercayaan cukup bermakna sebagai benchmark untuk pendidikan dan riset?
Apakah deteksi argumen sirkular berguna dalam tugas matematika/logika nyata?
Ada ide untuk memperbaiki bottleneck performa browser (Pyodide)?
Sampel bukti yang “terlihat benar tapi sebenarnya salah” sangat diterima 🧩

🗺️ Roadmap

Adaptive weighting per bagian
Dukungan untuk berbagai format bukti (Lean, Coq, rumus Markdown, dll.)
Peningkatan template ekspor laporan berbasis LII + graf
Menyusun benchmark red-team (membuka kumpulan bukti yang “masuk akal tetapi salah”)

🔗 Tautan

GitHub: https://github.com/Flamehaven/proofbench
Lisensi: MIT

✍️ Komentar pengembang

ProofBench adalah alat untuk menguji apakah AI dapat memahami bukan sekadar “jawaban benar”, tetapi juga “justifikasi”. Alat ini menyatukan struktur logis, konsistensi semantik, dan explainability dalam satu benchmark.

Ini bukan sekadar verifikator — melainkan wadah eksperimen baru untuk mengukur kemampuan bernalar AI.