5 poin oleh GN⁺ 2026-01-13 | 1 komentar | Bagikan ke WhatsApp
  • TimeCapsuleLLM adalah model bahasa besar (LLM) yang dilatih hanya dengan materi dari periode tertentu (1800–1875), dengan tujuan meminimalkan bias modern dan mereproduksi bahasa serta cara pandang dunia pada masa itu
  • Model ini menggunakan dataset yang terdiri dari dokumen sejarah wilayah London, buku, surat kabar, dan dokumen hukum untuk mencerminkan gaya bahasa dan kosakata per periode
  • Versi awal dibangun berbasis nanoGPT, sedangkan versi berikutnya berbasis Microsoft Phi 1.5; skala data mencapai 90GB dan parameter model hingga 700M
  • Melalui metode Selective Temporal Training(STT), model dilatih dengan menyeleksi hanya data dari periode tertentu agar tidak memasukkan konsep modern
  • Ini adalah proyek eksperimental yang menunjukkan kemungkinan penelitian model bahasa historis dan reproduksi bahasa AI per zaman

Gambaran proyek

  • TimeCapsuleLLM adalah model bahasa yang dilatih hanya dengan data dari periode dan tempat tertentu, dengan tujuan mengurangi bias modern dan mereproduksi kosakata, gaya penulisan, dan pandangan dunia dari era tersebut
    • Mengajukan konsep “AI yang bukan sekadar meniru tokoh sejarah, tetapi benar-benar menggunakan bahasa dari zaman itu”
  • Versi awal (v0, v0.5) dikembangkan berdasarkan nanoGPT karya Andrej Karpathy, dan v1 dikembangkan berdasarkan Microsoft Phi 1.5
  • Model ini dipublikasikan di Hugging Face

Karakteristik tiap versi model

  • v0
    • Dilatih dengan sekitar 187MB data
    • Menggunakan kosakata era 1800-an, tetapi sebagian besar kalimat masih tidak gramatikal
    • Tidak memunculkan konsep modern sama sekali
  • v0.5
    • Tata bahasa dan tanda baca membaik sehingga mampu mereproduksi gaya penulisan era Victoria
    • Tingkat kesalahan fakta tinggi dan mengandung noise OCR (misalnya: “Digitized by Google”)
  • v1
    • Menghasilkan respons yang menghubungkan peristiwa dan tokoh sejarah nyata
    • Contoh: untuk prompt “It was the year of our Lord 1834”, model menghasilkan kalimat yang menyebut protes dan petisi di London
  • v2mini-eval1 / eval2
    • Dilatih 10K step menggunakan sampel 15GB dari total 90GB
    • Karena masalah tokenizer, kata-kata sempat terpecah saat output, tetapi struktur kalimat tetap terjaga setelah diperbaiki
    • Untuk prompt seperti “Charles Dickens” dan “Charles Darwin”, model menghasilkan narasi bergaya abad ke-19

Komposisi dataset

  • Dataset v2
    • 90GB teks London tahun 1800–1875, total 136,344 dokumen
    • Tokenisasi penuh masih belum selesai, dan sampel 15GB telah dipublikasikan di Hugging Face
  • Sumber data mencakup buku domain publik, surat kabar, dokumen hukum, dan lainnya
  • Ukuran data per versi
    • v0: 187MB
    • v0.5: 435MB
    • v1: 6.25GB
    • v2mini-eval1: 15GB

Selective Temporal Training(STT)

  • STT adalah metodologi pelatihan yang hanya menggunakan data dari periode sejarah tertentu
    • Menghilangkan pengaruh konsep modern dan hanya merefleksikan pengetahuan serta bahasa dari era tersebut
    • TimeCapsuleLLM v0.5 dilatih dari awal (from scratch) hanya dengan data tahun 1800–1875
  • Alih-alih melakukan fine-tuning pada model yang sudah ada, model ini dilatih sepenuhnya dari nol untuk menghapus sisa informasi modern

Ukuran model dan lingkungan pelatihan

  • Jumlah parameter model
    • v0: 16M
    • v0.5: 123M
    • v1: 700M
    • v2mini-eval1: 300M
  • Perangkat pelatihan
    • v0/v0.5: GPU RTX 4060, CPU i5-13400F, RAM 16GB
    • v1, v2mini-eval1: menggunakan sewa GPU A100 SXM

Cara penggunaan

  • Proyek ini berfokus pada pengumpulan data historis, pembersihan data, dan pembangunan tokenizer
  • Prosedur bertahap
    1. Mengumpulkan teks historis: memperoleh teks per periode dari dokumen domain publik, buku, dan lainnya
    2. Membuat tokenizer: jalankan train_tokenizer.py untuk menghasilkan vocab.json dan merges.txt
    3. Melatih model: lihat dokumentasi nanoGPT atau arsitektur yang dipilih

Analisis bias

  • Menyediakan materi visualisasi untuk bias pronomina, geografis, dan temporal pada hasil v2mini-eval1
  • Statistik rinci dapat dilihat pada file v2_bias_report.json

Lisensi dan informasi publik

  • Dipublikasikan dengan MIT License
  • Mencatat 1.2k Stars dan 41 Forks di GitHub
  • Bahasa utama adalah Python 100%
  • Rilis terbaru: v2mini-eval2 — London (1800–1875)

1 komentar

 
GN⁺ 2026-01-13
Pendapat Hacker News
  • Ada yang berpikir, bagaimana kalau melatih model mutakhir dengan patokan tahun 1900 lalu menanyainya tentang mekanika kuantum (QM) dan relativitas
    Jika model bisa memberi jawaban yang sedikit saja benar, itu akan menjadi bukti kuat bahwa LLM adalah jalan menuju kecerdasan yang lebih besar

    • Pada masa itu sebenarnya sudah ada konsep-konsep yang mendekati QM dan relativitas
      Eksperimen Michelson-Morley (1887), transformasi Lorentz (1889), efek fotolistrik (1887) adalah contohnya
      William Clifford meninggal pada 1889, tetapi ia telah mengusulkan gagasan untuk menjelaskan gaya dan materi melalui kelengkungan ruang
      Sains tidak muncul secara tiba-tiba, dan dengan menyusun makalah-makalah saat itu, teori-teori semacam ini mungkin saja muncul secara alami
    • Saya sedang menjalankan proyek untuk melatih model dengan fokus pada literatur sains berbahasa Jerman (sebelum 1904)
      Kualitas OCR buruk sehingga sebagian besar harus ditangani secara manual, tetapi model 700M parameter masih memungkinkan dikerjakan di rumah
      Namun, untuk benar-benar memiliki kemampuan penalaran, dibutuhkan model kelas 70B
      Tantangan besar lainnya adalah mencegah pengetahuan tahun 2026 tercampur selama fine-tuning dan proses RL
    • Bidang kimia juga merupakan sasaran eksperimen yang menarik
      Akhir abad ke-19 adalah masa keemasan kimia, dan menarik untuk melihat apakah LLM bisa memberi prediksi termodinamika atau mengajukan hipotesis baru
    • Sudah ada proyek yang mencoba hal serupa: history-llms
      Diskusi terkait bisa dilihat di thread HN
    • Makalah Li dkk. (2024) "Evaluating Large Language Models for Generalization and Robustness via Data Compression" juga layak dijadikan rujukan
      Pendekatan untuk mengukur generalisasi dan robustness model melalui rasio kompresi data (perplexity) terasa sangat mengesankan
  • Menganggap “Who art Henry” sebagai bahasa Inggris gaya abad ke-19 tampaknya contoh dari kurangnya kepekaan bahasa historis
    Sebenarnya itu tidak benar secara tata bahasa pada periode mana pun

    • Sebagai orang yang banyak membaca buku-buku Kristen abad ke-17 hingga ke-19, saya setuju bahwa ungkapan itu terdengar janggal
    • Jika “Who art Henry” adalah prompt-nya, saya jadi penasaran bentuk yang benar-benar bergaya abad ke-19 itu seharusnya seperti apa
  • Menarik untuk memikirkan apakah eksperimen ini bisa menjadi ujian yang menunjukkan kemungkinan AGI
    Pertanyaannya adalah: jika hanya diberi data sebelum titik waktu tertentu (tahun X), bisakah model menurunkan sendiri penemuan setelahnya (Y)

    • Definisi AGI sendiri perlu diperjelas lebih dulu
      Beberapa penemuan mungkin bisa dicapai lewat kombinasi gagasan yang sudah ada, tetapi relativitas dan mekanika kuantum memang memerlukan eksperimen
      Misalnya, model pada masa itu mungkin secara matematis bisa mengembangkan relativitas umum, tetapi besar kemungkinan akan mengaitkan presesi perihelion Merkurius pada planet Vulcan (wiki Vulcan)
    • Hampir mustahil mencegah kebocoran data sepenuhnya
      Dokumen yang salah klasifikasi, anotasi, metadata, dan sebagainya menimbulkan risiko pengetahuan bocor masuk
    • Secara mendasar, data lama saja tidak cukup jumlahnya untuk melatih model SoTA
    • Agar eksperimen ini benar-benar memungkinkan, dibutuhkan model sekelas GPT-5
      Teks dalam jumlah besar, parameter skala besar, dan proses RLHF bergaya abad ke-19 akan diperlukan
    • Eksperimen seperti ini akan menjadi ujian nyata untuk menilai apakah LLM berpikir kreatif atau sekadar mengulang
  • Ada yang mengusulkan ide membandingkan model yang dilatih dengan data 1800~1875 dan model yang dilatih dengan data 1800~2025
    lalu mencoba memprediksi 2040 dengan memanfaatkan perbedaan dua distribusi probabilitas tersebut
    Dalam praktiknya tentu prediksi akurat akan sulit, tetapi sebagai eksperimen interpolasi/ekstrapolasi distribusi probabilitas rasanya menarik

    • Ada juga gurauan bahwa jangan-jangan hasilnya cuma akan terdengar seperti slang generasi Alpha
  • Konsepnya menarik, tetapi data arsip pada masa itu bias ke elit pengetahuan
    Itu bukan zaman ketika semua orang meninggalkan catatan seperti sekarang
    Model modern dilatih dengan puluhan TB teks, sedangkan data abad ke-19 jauh lebih sedikit dan kurang beragam
    Karena itu, hasil seperti menjawab pertanyaan “apa yang terjadi pada 1834?” dengan gaya artikel surat kabar adalah konsekuensi yang wajar

    • Namun, bias yang konsisten ini justru bisa menjadi kelebihan
      LLM saat ini kadang menghasilkan output yang penuh noise karena terlalu banyak cara pandang bercampur
      Model yang dilatih dengan sudut pandang konsisten dari era tertentu bisa memiliki gaya respons yang lebih mudah diprediksi
    • Bias yang muncul melalui pembatasan buatan justru bisa membantu menyingkap bias tersembunyi pada model mutakhir
    • Model modern cenderung berpusat pada bahasa Inggris, Barat, dan sudut pandang pasca-1990-an
      Selain itu, proses alignment juga mencerminkan nilai-nilai penyedianya
      Sebaliknya, model berbasis data lama mencerminkan bias zamannya secara “kebetulan”
  • Setidaknya model seperti ini tampaknya bisa mencegah banjir emoji
    Meski begitu, saya penasaran bagaimana tokenisasinya akan berbeda
    Ia mungkin tidak punya pengetahuan coding, tetapi mungkin bisa digabung dengan LLM modern untuk menghasilkan penjelasan kode bergaya abad ke-19
    Sedang dipikirkan juga apakah pendekatan mencampur layer seperti pada model style transfer lama bisa dilakukan

    • Ada juga usulan, “kenapa tidak biarkan saja dua model itu saling berbicara?”
  • Melatih model hanya dengan dokumen sebelum era informasi, lalu mencoba mengajarinya ‘apa itu komputer’, terasa seperti eksperimen yang lucu
    Tetapi output saat ini masih lebih dekat ke tingkat Markov chain daripada ChatGPT

  • Ini mengingatkan pada “proyek LLM terkunci waktu” lain yang baru-baru ini muncul di HN
    Hasilnya rapi, tetapi mereka sedang memikirkan cara mencegah penyalahgunaan dan salah paham
    Lihat thread terkait

  • Jika model ini bisa menghasilkan output yang konsisten, itu bisa membantah klaim bahwa materi berhak cipta wajib untuk pelatihan LLM
    Namun untuk saat ini, tampaknya belum sampai ke level itu

    • Sebagai referensi, ada contoh model yang cukup bagus dibuat hanya dari data terbuka
      The Common Pile v0.1 membangun model 7B parameter dari 8TB teks terbuka
  • Saya juga pernah melakukan eksperimen serupa: proyek transformer
    Saya melatih model terpisah dengan berbagai karya seperti Alkitab, Don Quixote, Kafka, dan lainnya
    (Ada juga generator lirik dan penerjemah, tetapi kualitasnya kurang bagus)