- TimeCapsuleLLM adalah model bahasa besar (LLM) yang dilatih hanya dengan materi dari periode tertentu (1800–1875), dengan tujuan meminimalkan bias modern dan mereproduksi bahasa serta cara pandang dunia pada masa itu
- Model ini menggunakan dataset yang terdiri dari dokumen sejarah wilayah London, buku, surat kabar, dan dokumen hukum untuk mencerminkan gaya bahasa dan kosakata per periode
- Versi awal dibangun berbasis nanoGPT, sedangkan versi berikutnya berbasis Microsoft Phi 1.5; skala data mencapai 90GB dan parameter model hingga 700M
- Melalui metode Selective Temporal Training(STT), model dilatih dengan menyeleksi hanya data dari periode tertentu agar tidak memasukkan konsep modern
- Ini adalah proyek eksperimental yang menunjukkan kemungkinan penelitian model bahasa historis dan reproduksi bahasa AI per zaman
Gambaran proyek
- TimeCapsuleLLM adalah model bahasa yang dilatih hanya dengan data dari periode dan tempat tertentu, dengan tujuan mengurangi bias modern dan mereproduksi kosakata, gaya penulisan, dan pandangan dunia dari era tersebut
- Mengajukan konsep “AI yang bukan sekadar meniru tokoh sejarah, tetapi benar-benar menggunakan bahasa dari zaman itu”
- Versi awal (v0, v0.5) dikembangkan berdasarkan nanoGPT karya Andrej Karpathy, dan v1 dikembangkan berdasarkan Microsoft Phi 1.5
- Model ini dipublikasikan di Hugging Face
Karakteristik tiap versi model
- v0
- Dilatih dengan sekitar 187MB data
- Menggunakan kosakata era 1800-an, tetapi sebagian besar kalimat masih tidak gramatikal
- Tidak memunculkan konsep modern sama sekali
- v0.5
- Tata bahasa dan tanda baca membaik sehingga mampu mereproduksi gaya penulisan era Victoria
- Tingkat kesalahan fakta tinggi dan mengandung noise OCR (misalnya: “Digitized by Google”)
- v1
- Menghasilkan respons yang menghubungkan peristiwa dan tokoh sejarah nyata
- Contoh: untuk prompt “It was the year of our Lord 1834”, model menghasilkan kalimat yang menyebut protes dan petisi di London
- v2mini-eval1 / eval2
- Dilatih 10K step menggunakan sampel 15GB dari total 90GB
- Karena masalah tokenizer, kata-kata sempat terpecah saat output, tetapi struktur kalimat tetap terjaga setelah diperbaiki
- Untuk prompt seperti “Charles Dickens” dan “Charles Darwin”, model menghasilkan narasi bergaya abad ke-19
Komposisi dataset
- Dataset v2
- 90GB teks London tahun 1800–1875, total 136,344 dokumen
- Tokenisasi penuh masih belum selesai, dan sampel 15GB telah dipublikasikan di Hugging Face
- Sumber data mencakup buku domain publik, surat kabar, dokumen hukum, dan lainnya
- Ukuran data per versi
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB
Selective Temporal Training(STT)
- STT adalah metodologi pelatihan yang hanya menggunakan data dari periode sejarah tertentu
- Menghilangkan pengaruh konsep modern dan hanya merefleksikan pengetahuan serta bahasa dari era tersebut
- TimeCapsuleLLM v0.5 dilatih dari awal (from scratch) hanya dengan data tahun 1800–1875
- Alih-alih melakukan fine-tuning pada model yang sudah ada, model ini dilatih sepenuhnya dari nol untuk menghapus sisa informasi modern
Ukuran model dan lingkungan pelatihan
- Jumlah parameter model
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
- Perangkat pelatihan
- v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
- v1, v2mini-eval1: menggunakan sewa GPU A100 SXM
Cara penggunaan
- Proyek ini berfokus pada pengumpulan data historis, pembersihan data, dan pembangunan tokenizer
- Prosedur bertahap
- Mengumpulkan teks historis: memperoleh teks per periode dari dokumen domain publik, buku, dan lainnya
- Membuat tokenizer: jalankan
train_tokenizer.py untuk menghasilkan vocab.json dan merges.txt
- Melatih model: lihat dokumentasi nanoGPT atau arsitektur yang dipilih
Analisis bias
- Menyediakan materi visualisasi untuk bias pronomina, geografis, dan temporal pada hasil v2mini-eval1
- Statistik rinci dapat dilihat pada file
v2_bias_report.json
Lisensi dan informasi publik
- Dipublikasikan dengan MIT License
- Mencatat 1.2k Stars dan 41 Forks di GitHub
- Bahasa utama adalah Python 100%
- Rilis terbaru: v2mini-eval2 — London (1800–1875)
1 komentar
Pendapat Hacker News
Ada yang berpikir, bagaimana kalau melatih model mutakhir dengan patokan tahun 1900 lalu menanyainya tentang mekanika kuantum (QM) dan relativitas
Jika model bisa memberi jawaban yang sedikit saja benar, itu akan menjadi bukti kuat bahwa LLM adalah jalan menuju kecerdasan yang lebih besar
Eksperimen Michelson-Morley (1887), transformasi Lorentz (1889), efek fotolistrik (1887) adalah contohnya
William Clifford meninggal pada 1889, tetapi ia telah mengusulkan gagasan untuk menjelaskan gaya dan materi melalui kelengkungan ruang
Sains tidak muncul secara tiba-tiba, dan dengan menyusun makalah-makalah saat itu, teori-teori semacam ini mungkin saja muncul secara alami
Kualitas OCR buruk sehingga sebagian besar harus ditangani secara manual, tetapi model 700M parameter masih memungkinkan dikerjakan di rumah
Namun, untuk benar-benar memiliki kemampuan penalaran, dibutuhkan model kelas 70B
Tantangan besar lainnya adalah mencegah pengetahuan tahun 2026 tercampur selama fine-tuning dan proses RL
Akhir abad ke-19 adalah masa keemasan kimia, dan menarik untuk melihat apakah LLM bisa memberi prediksi termodinamika atau mengajukan hipotesis baru
Diskusi terkait bisa dilihat di thread HN
Pendekatan untuk mengukur generalisasi dan robustness model melalui rasio kompresi data (perplexity) terasa sangat mengesankan
Menganggap “Who art Henry” sebagai bahasa Inggris gaya abad ke-19 tampaknya contoh dari kurangnya kepekaan bahasa historis
Sebenarnya itu tidak benar secara tata bahasa pada periode mana pun
Menarik untuk memikirkan apakah eksperimen ini bisa menjadi ujian yang menunjukkan kemungkinan AGI
Pertanyaannya adalah: jika hanya diberi data sebelum titik waktu tertentu (tahun X), bisakah model menurunkan sendiri penemuan setelahnya (Y)
Beberapa penemuan mungkin bisa dicapai lewat kombinasi gagasan yang sudah ada, tetapi relativitas dan mekanika kuantum memang memerlukan eksperimen
Misalnya, model pada masa itu mungkin secara matematis bisa mengembangkan relativitas umum, tetapi besar kemungkinan akan mengaitkan presesi perihelion Merkurius pada planet Vulcan (wiki Vulcan)
Dokumen yang salah klasifikasi, anotasi, metadata, dan sebagainya menimbulkan risiko pengetahuan bocor masuk
Teks dalam jumlah besar, parameter skala besar, dan proses RLHF bergaya abad ke-19 akan diperlukan
Ada yang mengusulkan ide membandingkan model yang dilatih dengan data 1800~1875 dan model yang dilatih dengan data 1800~2025
lalu mencoba memprediksi 2040 dengan memanfaatkan perbedaan dua distribusi probabilitas tersebut
Dalam praktiknya tentu prediksi akurat akan sulit, tetapi sebagai eksperimen interpolasi/ekstrapolasi distribusi probabilitas rasanya menarik
Konsepnya menarik, tetapi data arsip pada masa itu bias ke elit pengetahuan
Itu bukan zaman ketika semua orang meninggalkan catatan seperti sekarang
Model modern dilatih dengan puluhan TB teks, sedangkan data abad ke-19 jauh lebih sedikit dan kurang beragam
Karena itu, hasil seperti menjawab pertanyaan “apa yang terjadi pada 1834?” dengan gaya artikel surat kabar adalah konsekuensi yang wajar
LLM saat ini kadang menghasilkan output yang penuh noise karena terlalu banyak cara pandang bercampur
Model yang dilatih dengan sudut pandang konsisten dari era tertentu bisa memiliki gaya respons yang lebih mudah diprediksi
Selain itu, proses alignment juga mencerminkan nilai-nilai penyedianya
Sebaliknya, model berbasis data lama mencerminkan bias zamannya secara “kebetulan”
Setidaknya model seperti ini tampaknya bisa mencegah banjir emoji
Meski begitu, saya penasaran bagaimana tokenisasinya akan berbeda
Ia mungkin tidak punya pengetahuan coding, tetapi mungkin bisa digabung dengan LLM modern untuk menghasilkan penjelasan kode bergaya abad ke-19
Sedang dipikirkan juga apakah pendekatan mencampur layer seperti pada model style transfer lama bisa dilakukan
Melatih model hanya dengan dokumen sebelum era informasi, lalu mencoba mengajarinya ‘apa itu komputer’, terasa seperti eksperimen yang lucu
Tetapi output saat ini masih lebih dekat ke tingkat Markov chain daripada ChatGPT
Ini mengingatkan pada “proyek LLM terkunci waktu” lain yang baru-baru ini muncul di HN
Hasilnya rapi, tetapi mereka sedang memikirkan cara mencegah penyalahgunaan dan salah paham
Lihat thread terkait
Jika model ini bisa menghasilkan output yang konsisten, itu bisa membantah klaim bahwa materi berhak cipta wajib untuk pelatihan LLM
Namun untuk saat ini, tampaknya belum sampai ke level itu
The Common Pile v0.1 membangun model 7B parameter dari 8TB teks terbuka
Saya juga pernah melakukan eksperimen serupa: proyek transformer
Saya melatih model terpisah dengan berbagai karya seperti Alkitab, Don Quixote, Kafka, dan lainnya
(Ada juga generator lirik dan penerjemah, tetapi kualitasnya kurang bagus)