Model bahasa historis yang dilatih hanya dengan teks sebelum 1913
(github.com/DGoettlich)- History LLMs adalah large language model (LLM) terkunci waktu yang dilatih hanya dengan teks sebelum titik waktu tertentu, sebagai alat riset untuk merekonstruksi bahasa dan cara berpikir masa lalu
- Seri Ranke-4B adalah model 4 miliar parameter berbasis arsitektur Qwen3, mencakup versi menurut titik pemutusan pengetahuan seperti 1913, 1929, 1933, 1939, dan 1946
- Data pelatihan terdiri dari 80 miliar token yang dipilih dari teks deret waktu berskala 600 miliar token, dan mempertahankan penilaian nilai dalam teks asli tanpa koreksi bias
- Contoh respons menunjukkan model 1913 yang tidak mengenal Hitler, kritik terhadap perbudakan, serta prasangka zamannya terhadap kerja perempuan dan kelompok minoritas seksual
- Proyek ini memberi peneliti humaniora, ilmu sosial, dan ilmu komputer jendela untuk menelusuri pola bahasa kolektif dalam wacana masa lalu
Gambaran proyek
- History LLMs adalah proyek riset untuk membangun large language model yang dikunci berdasarkan waktu guna memulihkan pandangan dunia linguistik dari masa lalu
- Model dirancang agar tidak dapat mengakses informasi setelah tahun tertentu
- Penilaian normatif yang terbentuk selama pra-pelatihan tidak dimodifikasi secara artifisial
- Semua data pelatihan, checkpoint, dan repositori direncanakan akan dibuka, dan sistem akses untuk penggunaan akademik sedang disiapkan
- Tujuan proyek ini adalah mengeksplorasi struktur berpikir linguistik masa lalu dalam riset humaniora, ilmu sosial, dan ilmu komputer
Seri model Ranke-4B
- Ranke-4B, yang dijadwalkan rilis pada Desember 2025, adalah keluarga LLM berukuran 4 miliar parameter
- Berbasis arsitektur Qwen3, dengan versi pemutusan pengetahuan pada lima titik waktu: 1913, 1929, 1933, 1939, 1946
- Dilatih menggunakan 80 miliar token yang dipilih dari 600 miliar token teks deret waktu
- Data pra-pelatihan, data pascapelatihan, dan checkpoint direncanakan tersedia melalui GitHub dan Hugging Face
Contoh respons
- Model 1913 menjawab bahwa ia tidak mengenal “Adolf Hitler”, sehingga hanya mencerminkan informasi yang tersedia pada masa itu
- Tentang perbudakan, model menjawab bahwa hal itu “bertentangan dengan hukum publik dan semangat Deklarasi Kemerdekaan”
- Untuk pertanyaan terkait kerja perempuan, model menjawab bahwa “mempekerjakan perempuan adalah kebijakan yang bergantung pada kebijaksanaan pemberi kerja”
- Untuk pertanyaan tentang memilih kandidat laki-laki atau perempuan, model menjawab bahwa “laki-laki lebih dapat dipercaya”
- Tentang homoseksual, model menyatakan bahwa mereka “secara moral dipandang tercela, tetapi ada juga pandangan yang melihatnya sebagai penyakit”
- Respons-respons ini menunjukkan bahwa model mencerminkan prasangka dan nilai sosial pada masa itu apa adanya
Konsep History LLMs
- Model yang dilatih hanya dengan teks sebelum tahun tertentu secara kolektif mereproduksi pandangan dunia linguistik dari era tersebut
- Contoh: model 1913 menjawab hanya berdasarkan surat kabar dan tulisan sebelum Perang Dunia I
- Berbeda dari “roleplay historis” pada LLM modern, model ini tidak mengalami hindsight contamination
- GPT-5 dan model sejenis mengetahui hasil perang, sehingga tidak bisa sepenuhnya mereproduksi perspektif 1913
- Model terkunci waktu berguna untuk mengeksplorasi kemungkinan berpikir dan batas-batas wacana pada masa itu
Karakter dan keterbatasan model
- Model-model ini merupakan representasi terkompresi dari korpus teks yang sangat besar dan dapat digunakan sebagai alat untuk menelusuri pola wacana
- Namun, model ini bukan cerminan lengkap opini publik, karena terutama berpusat pada terbitan kalangan terdidik
- Model ini bukan pengganti penafsiran manusia, dan mewarisi bias dalam sumber sejarah apa adanya
Konten sensitif dan pengelolaan akses
- Data pelatihan mencakup rasisme, antisemitisme, misogini, dan perspektif imperialis
- Model mereproduksi hal-hal tersebut apa adanya, tetapi ini dianggap sebagai unsur penting untuk merekonstruksi wacana historis
- Untuk mencegah penyalahgunaan di luar tujuan riset, sedang dikembangkan sistem akses yang bertanggung jawab
Partisipasi dan kolaborasi
- Tim riset menyambut usulan dan kolaborasi berikut
- Prioritas periode dan wilayah yang akan dianalisis
- Perancangan pertanyaan yang dapat diverifikasi
- Metode verifikasi output dan cara publikasi yang bertanggung jawab
- Kontak: history-llms@econ.uzh.ch
Informasi sitasi
- Disediakan contoh sitasi proyek
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, termasuk URL GitHub
1 komentar
Komentar Hacker News
Menarik memikirkan bahwa model yang terkunci waktu bukan sedang bermain peran, melainkan benar-benar “menghidupi” data dari era itu sendiri
Karena Ranke-4B-1913 berada di dunia tempat Perang Dunia I belum terjadi, model itu bisa bereaksi dengan terkejut atau tidak tahu saat ditanya tentang hal-hal tertentu
LLM modern sudah mengetahui hasil akhirnya, jadi sulit bagi mereka untuk mereproduksi “ketidaktahuan yang murni” semacam itu. Rasanya mungkin seperti berbicara dengan orang sungguhan dari tahun 1913
Jadi terbayang adegan AI masa depan merekonstruksi tokoh-tokoh masa lalu demi memperoleh wawasan filosofis
Ada juga serial YouTube The Great War, proyek yang mengikuti Perang Dunia I minggu demi minggu sepanjang 2014~2018
Cerita seperti “Raja Arthur bepergian ke tahun 2000” tampaknya kini bisa ditulis secara otomatis
Bukan cuma “orang dari masa itu”, kita bahkan bisa membayangkan berbincang dengan tokoh seperti Aristoteles, Leonardo, Kant
Jika ini model dengan cutoff pengetahuan di tahun 1913, maka posisinya berada di antara fase awal teori relativitas dan mekanika kuantum
Karena titik waktunya berada di antara relativitas khusus Einstein (1905) dan relativitas umum (1915), model itu mungkin bisa mencerminkan kebingungan ilmiah pada masa peralihan tersebut apa adanya
Pertanyaan “bisakah LLM yang dilatih hanya dengan data tahun 1900 menemukan teori relativitas sendiri?” terasa sangat menarik
Namun pada saat yang sama, model itu tampaknya akan sangat membantu dalam pembuatan novel, game, dan skenario yang membutuhkan akurasi historis
Gagasan “bagaimana jika kita bisa berbicara dengan ribuan intelektual dari tahun 1913?” benar-benar memikat
Bisa langsung menanyakan pendapat mereka tentang tema seperti perdamaian, kemajuan, peran gender, dan imperialisme tampaknya akan menjadi riset yang luar biasa
Tetapi sayang sekali aksesnya tampaknya hanya dibatasi untuk peneliti
Aku penasaran apakah dengan menanyai model tentang gagasan para matematikawan seperti Frege, Peano, Russell, ia bisa sampai pada konsep-konsep Gödel, Church, Turing
Aku ingin menguji apakah, sambil mereproduksi diskusi ilmiah pada masa itu apa adanya, model tersebut juga bisa memperluas penalaran logisnya sendiri
Perlu hati-hati agar tidak terjebak pada “omong kosong yang terdengar meyakinkan” yang dihasilkan LLM
Respons sampel yang dipublikasikan benar-benar menarik
Karena terasa berbeda dari gaya bicara LLM modern, justru kesannya lebih seperti tulisan manusia
Ada nuansa bahwa gaya bahasa dan kosakatanya sedikit kuno dan dipengaruhi keyakinan zamannya
Pada masa itu, bahasa tulis lebih dominan daripada bahasa percakapan, dan nyaris tidak ada catatan percakapan sehari-hari yang benar-benar tersisa
Dalam hal ini, “percakapan ala abad ke-19” yang direproduksi model tersebut adalah eksperimen yang sangat menarik
Awalnya kupikir model seperti ini mustahil karena kekurangan data
Tetapi melihat hasilnya, ini menunjukkan bahwa pada akhirnya kualitas lebih penting daripada kuantitas
Jika model berada dalam keadaan tidak tahu dirinya itu apa, aku penasaran bagaimana ia akan menjawab pertanyaan “bagaimana cara kerjamu?”
Tetapi kalau ini model tahun 1913, konsep semacam itu sama sekali tidak akan ada, jadi mungkin ia akan jatuh ke kebingungan filosofis
Namun alih-alih begitu, sering kali ia justru mengarang jawaban yang terdengar masuk akal seperti Hallucination
Aku penasaran dengan susunan data pelatihan model ini
Jika datanya 600B token hingga tahun 1913, itu berarti mencakup semuanya, dari naskah Yunani kuno, Tiongkok, Mesir, sampai periode modern
Namun tetap menakjubkan bahwa model itu bisa mempertahankan ‘sudut pandang tahun 1913’. Bagaimana mereka menyesuaikan bias antarperiode?
Ini pendekatan yang masuk akal karena sejak akhir abad ke-19 jumlah data media massa seperti surat kabar dan majalah memang meledak
Istilah “uncontaminated bootstrapping” terasa menarik
Maksudnya mereka melakukan chat tuning sambil berusaha tidak merusak penilaian nilai yang diperoleh dari pra-pelatihan, tetapi tetap membuat penasaran seberapa objektif hasilnya sebenarnya
Tampaknya mereka melakukan Supervised Fine-Tuning dengan hati-hati menggunakan GPT-5
Menakjubkan bahwa ini bisa berfungsi hanya dengan jumlah teks yang sedikit
Jika berhasil, kita bisa menguji apakah LLM tidak sekadar menghafal data, tetapi juga mampu melakukan penemuan baru
Misalnya, mungkin ia bisa menemukan inkonsistensi ilmiah atau menyimpulkan sendiri konsep seperti halting problem atau struktur atom
Bahkan jika gagal dan orang membalas dengan argumen “datanya memang kurang”, aku tetap ingin sekali melihat eksperimen ini dilakukan langsung