TimeCapsuleLLM: model bahasa besar yang dilatih hanya dengan data tahun 1800–1875

(github.com/haykgrigo3)

5 poin oleh GN⁺ 2026-01-13 | 1 komentar | Bagikan ke WhatsApp

TimeCapsuleLLM adalah model bahasa besar (LLM) yang dilatih hanya dengan materi dari periode tertentu (1800–1875), dengan tujuan meminimalkan bias modern dan mereproduksi bahasa serta cara pandang dunia pada masa itu
Model ini menggunakan dataset yang terdiri dari dokumen sejarah wilayah London, buku, surat kabar, dan dokumen hukum untuk mencerminkan gaya bahasa dan kosakata per periode
Versi awal dibangun berbasis nanoGPT, sedangkan versi berikutnya berbasis Microsoft Phi 1.5; skala data mencapai 90GB dan parameter model hingga 700M
Melalui metode Selective Temporal Training(STT), model dilatih dengan menyeleksi hanya data dari periode tertentu agar tidak memasukkan konsep modern
Ini adalah proyek eksperimental yang menunjukkan kemungkinan penelitian model bahasa historis dan reproduksi bahasa AI per zaman

Gambaran proyek

TimeCapsuleLLM adalah model bahasa yang dilatih hanya dengan data dari periode dan tempat tertentu, dengan tujuan mengurangi bias modern dan mereproduksi kosakata, gaya penulisan, dan pandangan dunia dari era tersebut
- Mengajukan konsep “AI yang bukan sekadar meniru tokoh sejarah, tetapi benar-benar menggunakan bahasa dari zaman itu”
Versi awal (v0, v0.5) dikembangkan berdasarkan nanoGPT karya Andrej Karpathy, dan v1 dikembangkan berdasarkan Microsoft Phi 1.5
Model ini dipublikasikan di Hugging Face

Karakteristik tiap versi model

v0
- Dilatih dengan sekitar 187MB data
- Menggunakan kosakata era 1800-an, tetapi sebagian besar kalimat masih tidak gramatikal
- Tidak memunculkan konsep modern sama sekali
v0.5
- Tata bahasa dan tanda baca membaik sehingga mampu mereproduksi gaya penulisan era Victoria
- Tingkat kesalahan fakta tinggi dan mengandung noise OCR (misalnya: “Digitized by Google”)
v1
- Menghasilkan respons yang menghubungkan peristiwa dan tokoh sejarah nyata
- Contoh: untuk prompt “It was the year of our Lord 1834”, model menghasilkan kalimat yang menyebut protes dan petisi di London
v2mini-eval1 / eval2
- Dilatih 10K step menggunakan sampel 15GB dari total 90GB
- Karena masalah tokenizer, kata-kata sempat terpecah saat output, tetapi struktur kalimat tetap terjaga setelah diperbaiki
- Untuk prompt seperti “Charles Dickens” dan “Charles Darwin”, model menghasilkan narasi bergaya abad ke-19

Komposisi dataset

Dataset v2
- 90GB teks London tahun 1800–1875, total 136,344 dokumen
- Tokenisasi penuh masih belum selesai, dan sampel 15GB telah dipublikasikan di Hugging Face
Sumber data mencakup buku domain publik, surat kabar, dokumen hukum, dan lainnya
Ukuran data per versi
- v0: 187MB
- v0.5: 435MB
- v1: 6.25GB
- v2mini-eval1: 15GB

Selective Temporal Training(STT)

STT adalah metodologi pelatihan yang hanya menggunakan data dari periode sejarah tertentu
- Menghilangkan pengaruh konsep modern dan hanya merefleksikan pengetahuan serta bahasa dari era tersebut
- TimeCapsuleLLM v0.5 dilatih dari awal (from scratch) hanya dengan data tahun 1800–1875
Alih-alih melakukan fine-tuning pada model yang sudah ada, model ini dilatih sepenuhnya dari nol untuk menghapus sisa informasi modern

Ukuran model dan lingkungan pelatihan

Jumlah parameter model
- v0: 16M
- v0.5: 123M
- v1: 700M
- v2mini-eval1: 300M
Perangkat pelatihan
- v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
- v1, v2mini-eval1: menggunakan sewa GPU A100 SXM

Cara penggunaan

Proyek ini berfokus pada pengumpulan data historis, pembersihan data, dan pembangunan tokenizer
Prosedur bertahap
1. Mengumpulkan teks historis: memperoleh teks per periode dari dokumen domain publik, buku, dan lainnya
2. Membuat tokenizer: jalankan train_tokenizer.py untuk menghasilkan vocab.json dan merges.txt
3. Melatih model: lihat dokumentasi nanoGPT atau arsitektur yang dipilih

Analisis bias

Menyediakan materi visualisasi untuk bias pronomina, geografis, dan temporal pada hasil v2mini-eval1
Statistik rinci dapat dilihat pada file v2_bias_report.json

Lisensi dan informasi publik

Dipublikasikan dengan MIT License
Mencatat 1.2k Stars dan 41 Forks di GitHub
Bahasa utama adalah Python 100%
Rilis terbaru: v2mini-eval2 — London (1800–1875)

1 komentar

GN⁺ 2026-01-13

Pendapat Hacker News

Ada yang berpikir, bagaimana kalau melatih model mutakhir dengan patokan tahun 1900 lalu menanyainya tentang mekanika kuantum (QM) dan relativitas
Jika model bisa memberi jawaban yang sedikit saja benar, itu akan menjadi bukti kuat bahwa LLM adalah jalan menuju kecerdasan yang lebih besar
- Pada masa itu sebenarnya sudah ada konsep-konsep yang mendekati QM dan relativitas
  Eksperimen Michelson-Morley (1887), transformasi Lorentz (1889), efek fotolistrik (1887) adalah contohnya
  William Clifford meninggal pada 1889, tetapi ia telah mengusulkan gagasan untuk menjelaskan gaya dan materi melalui kelengkungan ruang
  Sains tidak muncul secara tiba-tiba, dan dengan menyusun makalah-makalah saat itu, teori-teori semacam ini mungkin saja muncul secara alami
- Saya sedang menjalankan proyek untuk melatih model dengan fokus pada literatur sains berbahasa Jerman (sebelum 1904)
  Kualitas OCR buruk sehingga sebagian besar harus ditangani secara manual, tetapi model 700M parameter masih memungkinkan dikerjakan di rumah
  Namun, untuk benar-benar memiliki kemampuan penalaran, dibutuhkan model kelas 70B
  Tantangan besar lainnya adalah mencegah pengetahuan tahun 2026 tercampur selama fine-tuning dan proses RL
- Bidang kimia juga merupakan sasaran eksperimen yang menarik
  Akhir abad ke-19 adalah masa keemasan kimia, dan menarik untuk melihat apakah LLM bisa memberi prediksi termodinamika atau mengajukan hipotesis baru
- Sudah ada proyek yang mencoba hal serupa: history-llms
  Diskusi terkait bisa dilihat di thread HN
- Makalah Li dkk. (2024) "Evaluating Large Language Models for Generalization and Robustness via Data Compression" juga layak dijadikan rujukan
  Pendekatan untuk mengukur generalisasi dan robustness model melalui rasio kompresi data (perplexity) terasa sangat mengesankan
Menganggap “Who art Henry” sebagai bahasa Inggris gaya abad ke-19 tampaknya contoh dari kurangnya kepekaan bahasa historis
Sebenarnya itu tidak benar secara tata bahasa pada periode mana pun
- Sebagai orang yang banyak membaca buku-buku Kristen abad ke-17 hingga ke-19, saya setuju bahwa ungkapan itu terdengar janggal
- Jika “Who art Henry” adalah prompt-nya, saya jadi penasaran bentuk yang benar-benar bergaya abad ke-19 itu seharusnya seperti apa
Menarik untuk memikirkan apakah eksperimen ini bisa menjadi ujian yang menunjukkan kemungkinan AGI
Pertanyaannya adalah: jika hanya diberi data sebelum titik waktu tertentu (tahun X), bisakah model menurunkan sendiri penemuan setelahnya (Y)
- Definisi AGI sendiri perlu diperjelas lebih dulu
  Beberapa penemuan mungkin bisa dicapai lewat kombinasi gagasan yang sudah ada, tetapi relativitas dan mekanika kuantum memang memerlukan eksperimen
  Misalnya, model pada masa itu mungkin secara matematis bisa mengembangkan relativitas umum, tetapi besar kemungkinan akan mengaitkan presesi perihelion Merkurius pada planet Vulcan (wiki Vulcan)
- Hampir mustahil mencegah kebocoran data sepenuhnya
  Dokumen yang salah klasifikasi, anotasi, metadata, dan sebagainya menimbulkan risiko pengetahuan bocor masuk
- Secara mendasar, data lama saja tidak cukup jumlahnya untuk melatih model SoTA
- Agar eksperimen ini benar-benar memungkinkan, dibutuhkan model sekelas GPT-5
  Teks dalam jumlah besar, parameter skala besar, dan proses RLHF bergaya abad ke-19 akan diperlukan
- Eksperimen seperti ini akan menjadi ujian nyata untuk menilai apakah LLM berpikir kreatif atau sekadar mengulang
Ada yang mengusulkan ide membandingkan model yang dilatih dengan data 1800~1875 dan model yang dilatih dengan data 1800~2025
lalu mencoba memprediksi 2040 dengan memanfaatkan perbedaan dua distribusi probabilitas tersebut
Dalam praktiknya tentu prediksi akurat akan sulit, tetapi sebagai eksperimen interpolasi/ekstrapolasi distribusi probabilitas rasanya menarik
- Ada juga gurauan bahwa jangan-jangan hasilnya cuma akan terdengar seperti slang generasi Alpha
Konsepnya menarik, tetapi data arsip pada masa itu bias ke elit pengetahuan
Itu bukan zaman ketika semua orang meninggalkan catatan seperti sekarang
Model modern dilatih dengan puluhan TB teks, sedangkan data abad ke-19 jauh lebih sedikit dan kurang beragam
Karena itu, hasil seperti menjawab pertanyaan “apa yang terjadi pada 1834?” dengan gaya artikel surat kabar adalah konsekuensi yang wajar
- Namun, bias yang konsisten ini justru bisa menjadi kelebihan
  LLM saat ini kadang menghasilkan output yang penuh noise karena terlalu banyak cara pandang bercampur
  Model yang dilatih dengan sudut pandang konsisten dari era tertentu bisa memiliki gaya respons yang lebih mudah diprediksi
- Bias yang muncul melalui pembatasan buatan justru bisa membantu menyingkap bias tersembunyi pada model mutakhir
- Model modern cenderung berpusat pada bahasa Inggris, Barat, dan sudut pandang pasca-1990-an
  Selain itu, proses alignment juga mencerminkan nilai-nilai penyedianya
  Sebaliknya, model berbasis data lama mencerminkan bias zamannya secara “kebetulan”
Setidaknya model seperti ini tampaknya bisa mencegah banjir emoji
Meski begitu, saya penasaran bagaimana tokenisasinya akan berbeda
Ia mungkin tidak punya pengetahuan coding, tetapi mungkin bisa digabung dengan LLM modern untuk menghasilkan penjelasan kode bergaya abad ke-19
Sedang dipikirkan juga apakah pendekatan mencampur layer seperti pada model style transfer lama bisa dilakukan
- Ada juga usulan, “kenapa tidak biarkan saja dua model itu saling berbicara?”
Melatih model hanya dengan dokumen sebelum era informasi, lalu mencoba mengajarinya ‘apa itu komputer’, terasa seperti eksperimen yang lucu
Tetapi output saat ini masih lebih dekat ke tingkat Markov chain daripada ChatGPT
Ini mengingatkan pada “proyek LLM terkunci waktu” lain yang baru-baru ini muncul di HN
Hasilnya rapi, tetapi mereka sedang memikirkan cara mencegah penyalahgunaan dan salah paham
Lihat thread terkait
Jika model ini bisa menghasilkan output yang konsisten, itu bisa membantah klaim bahwa materi berhak cipta wajib untuk pelatihan LLM
Namun untuk saat ini, tampaknya belum sampai ke level itu
- Sebagai referensi, ada contoh model yang cukup bagus dibuat hanya dari data terbuka
  The Common Pile v0.1 membangun model 7B parameter dari 8TB teks terbuka
Saya juga pernah melakukan eksperimen serupa: proyek transformer
Saya melatih model terpisah dengan berbagai karya seperti Alkitab, Don Quixote, Kafka, dan lainnya
(Ada juga generator lirik dan penerjemah, tetapi kualitasnya kurang bagus)

TimeCapsuleLLM: model bahasa besar yang dilatih hanya dengan data tahun 1800–1875

Gambaran proyek

Karakteristik tiap versi model

Komposisi dataset

Selective Temporal Training(STT)

Ukuran model dan lingkungan pelatihan

Cara penggunaan

Analisis bias

Lisensi dan informasi publik

Bacaan terkait

1 komentar

Pendapat Hacker News