- Token-Oriented Object Notation
- Format serialisasi yang dirancang untuk mengurangi penggunaan token saat diberikan ke LLM
- Merepresentasikan data JSON tanpa kehilangan sambil tetap memastikan efisiensi token dan keterbacaan
- Struktur yang dioptimalkan untuk array objek yang seragam, menghapus kunci yang berulang untuk memberikan penghematan token 30~60%
- Format hibrida yang menggabungkan struktur berbasis indentasi ala YAML dan format tabel ala CSV
- Untuk struktur bersarang yang dalam atau data yang tidak seragam, JSON lebih efisien
- Menyertakan informasi struktur yang eksplisit sehingga LLM dapat mengurai dan memverifikasi data dengan stabil
- Meningkatkan pengenalan struktur dengan menyatakan panjang array (
[N]) dan definisi field ({id,name,role}) secara eksplisit
- Dengan sintaks ringkas, menghapus tanda kurung, tanda kutip, dan tanda baca yang tidak perlu sebagai desain sintaks minimal
- Mendukung ekspresi hierarki berbasis indentasi dan aliran data per baris mirip CSV
- Mendukung konversi dua arah antara JSON ↔ TOON melalui alat CLI
- Menyediakan opsi seperti deteksi format otomatis, penentuan pemisah (
,, \t, |), dan output statistik penghematan token
- Komposisi API
- Menjalankan serialisasi JSON dengan
encode() dan deserialisasi dengan decode()
- Opsi untuk menentukan indentasi, pemisah, dan penanda panjang (
#)
- Hasil benchmark menunjukkan rata-rata penghematan token 21~60% dibanding JSON, dengan akurasi kueri LLM mencapai 73.9%
- Sedikit lebih besar daripada CSV, tetapi meningkatkan keandalan LLM melalui fitur verifikasi struktural
- Aturan format
- String hanya diberi kutip saat diperlukan, dan akan dikutip otomatis jika mengandung pemisah
- Angka, boolean, tanggal, dan lainnya dikonversi ke bentuk yang ramah LLM
- Tersedia implementasi dalam berbagai bahasa
- Resmi: Python, Rust (dalam pengembangan)
- Komunitas: Go, Java, Swift, C++, .NET, Ruby, dll.
Belum ada komentar.