- Ini adalah proyek open-source yang menganalisis struktur bahasa Naskah Voynich dengan teknik NLP modern seperti SBERT
- Berfokus pada penghapusan sufiks dan clustering untuk memverifikasi apakah ada struktur mirip bahasa yang nyata, bukan pola semu
- Hasil analisis struktur dari berbagai sudut, seperti peran kata fungsi dan kata isi serta matriks transisi, menunjukkan pola yang bermakna
- Berbeda dari pendekatan statistik tradisional atau berbasis spekulasi, proyek ini mencoba menganalisis karakteristik bahasa struktural dengan pendekatan linguistik komputasional
- Ini adalah proyek yang berfokus hanya pada pemodelan struktural tanpa upaya penerjemahan makna, sehingga memungkinkan riset lanjutan dan eksperimen perbandingan
📜 Pengantar Proyek Analisis Struktur Naskah Voynich
🔍 Gambaran Umum
- Proyek ini berawal dari eksperimen pribadi untuk menganalisis struktur Naskah Voynich dengan memanfaatkan alat pemrosesan bahasa alami (NLP) modern
- Menerapkan metode pemodelan bahasa nyata seperti clustering, inferensi kelas kata, transisi Markov, dan ekstraksi pola per bagian
- Tanpa mencoba menafsirkan makna atau menerjemahkan, maupun membuat perkiraan pola yang berlebihan, proyek ini hanya memverifikasi apakah ada struktur yang berfungsi seperti bahasa
- Semua tahap dibuka secara publik, termasuk penghapusan sufiks, embedding SBERT, dan pembuatan hipotesis leksikon
🧠 Signifikansi
- Naskah Voynich adalah dokumen misterius yang belum berhasil diuraikan, dan belum ada solusi linguistik/kriptografis yang pasti
- Analisis yang ada selama ini terbelah antara pemeriksaan entropi statistik dan spekulasi yang tidak ilmiah
- Proyek ini, berbasis linguistik komputasional, mengeksplorasi secara netral apakah terdapat pola struktural yang mirip dengan bahasa nyata
📁 Struktur Proyek
- /data/
- Menyediakan data seperti transkripsi seluruh naskah, jenis kata akar, ID klaster, daftar sufiks yang dihapus, dan urutan klaster tiap baris
- /scripts/
- Menyediakan skrip analisis inti seperti clustering kata berbasis SBERT, prediksi kelas kata, pembangunan matriks transisi Markov, dan pembuatan kandidat leksikon
- /results/
- Menyediakan hasil analisis seperti visualisasi klaster, heatmap matriks transisi, dan ringkasan per klaster
✅ Kontribusi Utama
- Clustering kata akar setelah penghapusan sufiks dengan SBERT multibahasa
- Pembedaan antara klaster mirip kata fungsi dan klaster mirip kata isi
- Pemodelan struktur transisi klaster dengan pendekatan Markov
- Analisis struktur sintaksis per bagian (misalnya Botanical, Biological, dan lain-lain)
- Pembuatan tabel hipotesis leksikon berbasis data
🔧 Keputusan Pra-pemrosesan
- Sebelum clustering, sufiks berulang (misalnya aiin, dy, chy, dan sebagainya) dihapus
- Dengan begitu, bentuk akar kata dapat diekstrak sehingga kepadatan klaster dan pola struktural menjadi lebih jelas
- Sufiks mungkin berupa pengisi fonologis, morfem gramatikal, hafalan, pengulangan, atau noise tanpa makna
- Namun, pilihan ini memiliki keterbatasan seperti hilangnya informasi morfologis, tertutupnya informasi infleksi yang bermakna, dan bias terhadap kata fungsi
- Eksperimen pembanding tanpa penghapusan sufiks juga bernilai — siapa pun dapat membuat eksperimen turunan
📈 Hasil Analisis Utama
- Cluster 8: sangat sering muncul, keragamannya rendah, dan sering berada di awal baris — kandidat klaster kata fungsi
- Cluster 3: keragamannya tinggi dan posisinya bebas — kandidat klaster kata isi akar
- Matriks transisi: menunjukkan struktur internal yang kuat dan jauh dari keacakan
- Pola klaster dan kelas kata: berbeda menurut bagian naskah (misalnya Biological, Botanical, dan lain-lain)
🧬 Hipotesis
- Naskah ini merupakan bahasa buatan/untuk hafalan yang terstruktur yang memanfaatkan pengulangan suku kata dan pengulangan posisi
- Naskah ini dengan jelas menunjukkan struktur kebahasaan seperti sintaksis, pemisahan fungsi/isi, dan transisi bahasa yang responsif terhadap bagian
📊 Contoh Visualisasi
- Figure 1: embedding klaster SBERT (reduksi PCA)
- Figure 2: heatmap matriks transisi
📌 Keterbatasan
- Pemetaan klaster-ke-kata bersifat tidak langsung sehingga ada fenomena tumpang tindih dalam estimasi frekuensi
- Kriteria penghapusan sufiks bersifat heuristik, sehingga bunyi akhir yang sebenarnya bermakna juga bisa ikut hilang
- Tidak mencoba penafsiran makna dan hanya berfokus pada analisis struktur
✍️ Catatan Penulis
- Proyek ini dimulai untuk tujuan belajar AI, NLP, dan analisis struktur
- Bukan penguraian naskah itu sendiri yang menjadi tujuan, melainkan pemahaman strukturnya dengan alat modern yang dianggap lebih produktif
- Dibanding harapan akan penguraian ala Rosetta Stone, proyek ini menyambut orang-orang yang tertarik pada gagasan bahwa pemodelan itu sendiri bermakna
🤝 Panduan Kontribusi
- Proyek ini terbuka untuk kolaborasi dan pengembangan dari linguis, kriptografer, peneliti bahasa buatan, dan komunitas linguistik komputasional
1 komentar
Komentar Hacker News
Saya melihat Anda mencari klaster dalam proyeksi PCA — untuk menemukan struktur yang lebih dalam, saya ingin merekomendasikan algoritme reduksi dimensi yang lebih baru seperti PaCMAP atau LocalMAP. Saya sedang mengerjakan proyek yang mengambil data dari alat survei opini bernama Pol.is lalu memproyeksikannya ulang dengan algoritme reduksi dimensi semacam ini alih-alih PCA. Saya terkesan karena algoritme baru seperti ini memberi wawasan yang sebelumnya tidak terlihat. Saya juga punya hasil visual dengan kelompok-kelompok yang diberi warna, jadi ada petunjuk untuk melihatnya di desktop. Jika penasaran apa itu Pol.is, saya juga merekomendasikan artikel terkait
Model embedding teks yang digunakan di sini adalah paraphrase-multilingual-MiniLM-L12-v2, model yang usianya sekitar 4 tahun. Di dunia pemrosesan bahasa alami, itu sudah tergolong sangat lama. Dengan perkembangan LLM belakangan ini, kemampuan representasi informasi model embedding dan daya pembeda dalam ruang embedding meningkat drastis. Bahkan model embedding terbaru yang bukan ditujukan untuk dukungan multibahasa pun menunjukkan performa hebat pada tipe data seperti ini. Karena itu, model-model tersebut kemungkinan juga akan memberi performa lebih baik pada bahasa yang relatif kurang dikenal seperti Voynich Manuscript. Saya melihat teknik NLP tradisional (penghapusan sufiks, identifikasi kelas kata, dan sebagainya) justru berisiko menurunkan kualitas embedding karena menghilangkan informasi konteks yang dibutuhkan
Saya tidak terlalu paham NLP. Saya penasaran apakah masuk akal untuk memeriksa prosesnya dengan cara mengendalikan kelompok pembanding. Misalnya, jika orang diminta menulis kalimat yang tampak seperti bahasa tetapi sebenarnya bukan bahasa, lalu diproses dengan prosedur yang sama (menghapus sufiks, mencoba klasterisasi, dan seterusnya), apakah hasil serupa akan muncul?
Saya pikir akan bagus jika dianalisis dengan UMAP atau t-SNE, meskipun PCA sudah menunjukkan pemisahan yang rapi. Memetakan setiap klaster dengan saling merujuk satu sama lain juga tampak seperti cara yang baik untuk menunjukkan bahwa masih tidak ada variasi yang tersisa dalam analisis
Saya rasa hipotesis ini yang paling menarik: tampaknya ada penulis yang menganggap Voynichese sebagai bahasa rumpun Jermanik dan terlihat telah membuat kemajuan yang cukup besar. Saya juga pernah melihat klaim bahwa ini adalah bahasa Uralik atau Finno-Ugrik. Menurut saya metodologi Anda sangat bagus, dan saya penasaran apakah hasilnya akan lebih baik jika disesuaikan secara khusus untuk rumpun bahasa tertentu
Saya tadinya mengira ini bahasa Turki kuno
Mungkin saya melewatkannya atau tidak melihatnya di README, tetapi saya penasaran bagaimana pengodean awal “kata”-katanya dilakukan. Misalnya, saya ingin tahu bagaimana kata seperti “okeeodair” dipetakan kembali ke simbol aslinya
Yang saya bayangkan adalah, jika itu sebenarnya hanya coretan tanpa makna dan bahkan bukan sandi, maka karena sifat manuskrip, gaya, tulisan tangan, kata-kata yang digunakan, bahkan huruf-hurufnya sendiri semestinya berevolusi dari halaman pertama sampai terakhir. Tentu urutan halaman bisa berubah, tetapi saya pikir seharusnya tetap ada perbedaan yang terlihat. Kecuali jika penulisnya menulis puluhan buku dengan gaya serupa dan semuanya hilang. Ini bukan ide baru, tetapi saya penasaran apakah pernah ada analisis terhadap pola seperti ini, karena saya belum pernah melihat penyebutan tentang konsistensi antarpagina
Saya penasaran berapa banyak sumber daya yang dibutuhkan untuk mendekripsinya dengan pendekatan “brute force”. Misalnya, saya membayangkan mengikuti proses yang jelas seperti memetakan satu per satu ke kata-kata dari bahasa yang dikenal lalu meningkatkan skornya
Saya penasaran apakah pola serupa akan muncul jika analisis dilakukan pada teks dalam bahasa yang sudah dikenal dengan jumlah yang sebanding. Dengan kata lain, pertanyaannya adalah apakah menerapkan teknik analisis ini pada berbagai jenis teks bisa membantu memahami apa arti sistem tulisan ini