20 poin oleh computerphilosopher 2025-03-24 | 4 komentar | Bagikan ke WhatsApp

Latar belakang pengembangan GPT Buddhis

  • Ingin memanfaatkan GPT untuk belajar Buddhisme, tetapi performa dasarnya di bawah harapan.
  • Kualitas jawaban meningkat setelah mempelajari materi PDF.
  • Setelah mendapat usulan untuk mempelajari kitab Jataka, proyek pun dimulai.

Keterbatasan pembelajaran PDF

  • Setelah mempelajari PDF Jataka, halusinasi menjadi parah.
  • Struktur nonlinier seperti multi-kolom, tabel, dan gambar mengganggu GPT.

Metode yang dicoba (semuanya gagal)

  • Menggunakan format epub
  • Menyesuaikan instruction
  • Konversi ke Markdown + crawling
  • Menambahkan indeks csv

Petunjuk menuju solusi

  • Masalahnya adalah benturan antara struktur Jataka yang berbasis nomor dan sifat generatif GPT.
  • GPT tidak dapat memanfaatkan csv dengan baik.
  • Setelah mendapat saran untuk memakai indeks JSON dan menerapkannya, akurasi meningkat tajam.

Cara penerapan yang sebenarnya

  • epub → konversi ke Markdown (pandoc)
  • Memperbaiki heading, menghapus teks yang tidak perlu
  • Dalam beberapa kasus, menyusun Markdown secara manual

Alasan penghentian layanan

  • Halusinasi muncul pada pertanyaan tentang Abhidhamma
  • Sikap penentangan penerjemah Sujato Bhante terhadap pelatihan AI
  • Potensi pelanggaran lisensi SuttaCentral

Kesimpulan

  • RAG tidak sesederhana itu.
  • Materi untuk pelatihan AI wajib diperiksa lisensinya.

4 komentar

 
pkj3186 2025-03-24

Ini sepertinya juga bisa membantu pembelajaran jenis lain yang menggunakan notasi mirip kitab suci. Misalnya buku-buku Plato...

 
bus710 2025-03-24

Waduh.... jangan-jangan dia meninggalkan kita dan masuk nirwana sendirian, ya?

 
1206good 2025-03-24

Saya kira Doc As Prompt akan berjalan baik dengan Mistral OCR, tetapi saya juga mengalami masalah serupa. Saya mendapatkan petunjuk dari sini.

 
halfenif 2025-03-24

"Lakukan saja konsultasi percintaan yang sulit dibicarakan kepada teman dengan nyaman ke LLM" jadi teringat itu.