1 poin oleh flamehaven01 2025-10-17 | Belum ada komentar. | Bagikan ke WhatsApp

TL;DR

ProofBench adalah benchmark hibrida AI dan sistem verifikasi bukti generasi berikutnya yang menggabungkan matematika simbolik (SymPy/Pyodide) dengan analisis semantik AI (konsensus multi-LLM).

Dengan mengevaluasi struktur logis dan validitas semantik bukti secara bersamaan, sistem ini mendeteksi argumen yang ‘tampak benar’ dan mengukurnya secara kuantitatif dengan Logic Integrity Index (LII).


🎯 Mengapa ini dibuat

Verifikator bukti tradisional

  • terlalu ketat dan tidak praktis karena berbasis logika formal, atau
  • berhenti di tingkat tata bahasa sehingga tidak dapat menangkap kesalahan semantik, atau
  • memiliki biaya komputasi tinggi sehingga sulit memberi umpan balik real-time.

ProofBench adalah framework benchmark hibrida AI yang menggabungkan ketelitian verifikasi simbolik dan fleksibilitas pemahaman AI melalui pendekatan hibrida “70% simbolik + 30% semantik”.


📊 ProofBench memverifikasi pertanyaan seperti ini

  • “Bisakah AI memahami konsistensi logis?”
  • “Jika struktur bukti divisualisasikan secara berbasis graf, apakah pola kesalahan akan terlihat?”
  • “Seberapa andalkah evaluasi berbasis semantik?”
  • “Apakah benchmark gabungan simbolik-semantik berguna untuk pendidikan, riset, dan evaluasi AI?”

🧩 Metrik benchmark hibrida AI

  • LII (Logic Integrity Index): metrik inti untuk integritas logis
  • Coherence Variance: tingkat kesepakatan antar model
  • Symbolic Pass Rate: rasio konsistensi matematis
  • Semantic Stability: tingkat pemeliharaan konsistensi konteks

Angka-angka ini berpotensi berkembang menjadi standar bersama untuk mengevaluasi “daya nalar, konsistensi, dan kemampuan interpretasi makna” model AI di masa depan.


🔍 Gambaran arsitektur

  • Symbolic Layer — menjalankan SymPy dengan Pyodide untuk verifikasi deterministik di dalam browser
  • Semantic Layer — mengevaluasi respons beberapa LLM berdasarkan konsensus
  • Hybrid Orchestrator — bobot dasar 70/30 (dapat disesuaikan), menghitung skor akhir
  • LII Engine — menghitung indeks integritas logis + interval kepercayaan
  • Justification Analyzer — graf dependensi + deteksi siklus
  • Feedback Generator — membuat laporan evaluasi langkah demi langkah berbasis bahasa alami

⚙️ Fitur utama (v3.7.2)

  • Mesin verifikasi hibrida: menjalankan SymPy dengan Pyodide di browser + analisis semantik berbasis konsensus multi-LLM
  • LII (Logic Integrity Index): mengkuantifikasi konsistensi logis dengan skor 0–100 dan interval kepercayaan 95%
  • Justification Graph: memvisualisasikan hubungan dependensi antarbukti dan mendeteksi argumen sirkular secara otomatis
  • Consensus Manager: menghitung tingkat kesepakatan antar model dan menghasilkan skor rata-rata berbasis coherence
  • Natural Feedback Generator: memberi umpan balik kesalahan dan alasannya dalam bahasa alami untuk tiap langkah
  • UI / Dashboard: visualisasi hasil per langkah bukti, tampilan graf, laporan, dan skor LII
  • Eksekusi Docker sekali klik: bisa langsung digunakan dengan satu baris docker run
docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000  
  

🧱 Keterbatasan

  • Lapisan semantik dipengaruhi jebakan linguistik yang kompleks (diredam oleh lapisan simbolik)
  • LII bukan sertifikat bukti formal, melainkan indikator kualitas
  • Ada biaya inisialisasi awal Pyodide pada perangkat berspesifikasi rendah

⚡ Masukan yang ingin didapat

  • Apakah bobot dasar 70/30 sudah masuk akal? (perlukah adaptive weight)
  • Apakah LII + interval kepercayaan cukup bermakna sebagai benchmark untuk pendidikan dan riset?
  • Apakah deteksi argumen sirkular berguna dalam tugas matematika/logika nyata?
  • Ada ide untuk memperbaiki bottleneck performa browser (Pyodide)?
  • Sampel bukti yang “terlihat benar tapi sebenarnya salah” sangat diterima 🧩

🗺️ Roadmap

  • Adaptive weighting per bagian
  • Dukungan untuk berbagai format bukti (Lean, Coq, rumus Markdown, dll.)
  • Peningkatan template ekspor laporan berbasis LII + graf
  • Menyusun benchmark red-team (membuka kumpulan bukti yang “masuk akal tetapi salah”)

🔗 Tautan


✍️ Komentar pengembang

ProofBench adalah alat untuk menguji apakah AI dapat memahami bukan sekadar “jawaban benar”, tetapi juga “justifikasi”. Alat ini menyatukan struktur logis, konsistensi semantik, dan explainability dalam satu benchmark.

Ini bukan sekadar verifikator — melainkan wadah eksperimen baru untuk mengukur kemampuan bernalar AI.

Belum ada komentar.

Belum ada komentar.