Latar belakang pengembangan GPT Buddhis
- Ingin memanfaatkan GPT untuk belajar Buddhisme, tetapi performa dasarnya di bawah harapan.
- Kualitas jawaban meningkat setelah mempelajari materi PDF.
- Setelah mendapat usulan untuk mempelajari kitab Jataka, proyek pun dimulai.
Keterbatasan pembelajaran PDF
- Setelah mempelajari PDF Jataka, halusinasi menjadi parah.
- Struktur nonlinier seperti multi-kolom, tabel, dan gambar mengganggu GPT.
Metode yang dicoba (semuanya gagal)
- Menggunakan format epub
- Menyesuaikan instruction
- Konversi ke Markdown + crawling
- Menambahkan indeks csv
Petunjuk menuju solusi
- Masalahnya adalah benturan antara struktur Jataka yang berbasis nomor dan sifat generatif GPT.
- GPT tidak dapat memanfaatkan csv dengan baik.
- Setelah mendapat saran untuk memakai indeks JSON dan menerapkannya, akurasi meningkat tajam.
Cara penerapan yang sebenarnya
- epub → konversi ke Markdown (pandoc)
- Memperbaiki heading, menghapus teks yang tidak perlu
- Dalam beberapa kasus, menyusun Markdown secara manual
Alasan penghentian layanan
- Halusinasi muncul pada pertanyaan tentang Abhidhamma
- Sikap penentangan penerjemah Sujato Bhante terhadap pelatihan AI
- Potensi pelanggaran lisensi SuttaCentral
Kesimpulan
- RAG tidak sesederhana itu.
- Materi untuk pelatihan AI wajib diperiksa lisensinya.
4 komentar
Ini sepertinya juga bisa membantu pembelajaran jenis lain yang menggunakan notasi mirip kitab suci. Misalnya buku-buku Plato...
Waduh.... jangan-jangan dia meninggalkan kita dan masuk nirwana sendirian, ya?
Saya kira Doc As Prompt akan berjalan baik dengan Mistral OCR, tetapi saya juga mengalami masalah serupa. Saya mendapatkan petunjuk dari sini.
"Lakukan saja konsultasi percintaan yang sulit dibicarakan kepada teman dengan nyaman ke LLM" jadi teringat itu.