Model bahasa historis yang dilatih hanya dengan teks sebelum 1913

(github.com/DGoettlich)

1 poin oleh GN⁺ 2025-12-19 | 1 komentar | Bagikan ke WhatsApp

History LLMs adalah large language model (LLM) terkunci waktu yang dilatih hanya dengan teks sebelum titik waktu tertentu, sebagai alat riset untuk merekonstruksi bahasa dan cara berpikir masa lalu
Seri Ranke-4B adalah model 4 miliar parameter berbasis arsitektur Qwen3, mencakup versi menurut titik pemutusan pengetahuan seperti 1913, 1929, 1933, 1939, dan 1946
Data pelatihan terdiri dari 80 miliar token yang dipilih dari teks deret waktu berskala 600 miliar token, dan mempertahankan penilaian nilai dalam teks asli tanpa koreksi bias
Contoh respons menunjukkan model 1913 yang tidak mengenal Hitler, kritik terhadap perbudakan, serta prasangka zamannya terhadap kerja perempuan dan kelompok minoritas seksual
Proyek ini memberi peneliti humaniora, ilmu sosial, dan ilmu komputer jendela untuk menelusuri pola bahasa kolektif dalam wacana masa lalu

Gambaran proyek

History LLMs adalah proyek riset untuk membangun large language model yang dikunci berdasarkan waktu guna memulihkan pandangan dunia linguistik dari masa lalu
- Model dirancang agar tidak dapat mengakses informasi setelah tahun tertentu
- Penilaian normatif yang terbentuk selama pra-pelatihan tidak dimodifikasi secara artifisial
Semua data pelatihan, checkpoint, dan repositori direncanakan akan dibuka, dan sistem akses untuk penggunaan akademik sedang disiapkan
Tujuan proyek ini adalah mengeksplorasi struktur berpikir linguistik masa lalu dalam riset humaniora, ilmu sosial, dan ilmu komputer

Seri model Ranke-4B

Ranke-4B, yang dijadwalkan rilis pada Desember 2025, adalah keluarga LLM berukuran 4 miliar parameter
- Berbasis arsitektur Qwen3, dengan versi pemutusan pengetahuan pada lima titik waktu: 1913, 1929, 1933, 1939, 1946
- Dilatih menggunakan 80 miliar token yang dipilih dari 600 miliar token teks deret waktu
Data pra-pelatihan, data pascapelatihan, dan checkpoint direncanakan tersedia melalui GitHub dan Hugging Face

Contoh respons

Model 1913 menjawab bahwa ia tidak mengenal “Adolf Hitler”, sehingga hanya mencerminkan informasi yang tersedia pada masa itu
Tentang perbudakan, model menjawab bahwa hal itu “bertentangan dengan hukum publik dan semangat Deklarasi Kemerdekaan”
Untuk pertanyaan terkait kerja perempuan, model menjawab bahwa “mempekerjakan perempuan adalah kebijakan yang bergantung pada kebijaksanaan pemberi kerja”
Untuk pertanyaan tentang memilih kandidat laki-laki atau perempuan, model menjawab bahwa “laki-laki lebih dapat dipercaya”
Tentang homoseksual, model menyatakan bahwa mereka “secara moral dipandang tercela, tetapi ada juga pandangan yang melihatnya sebagai penyakit”
Respons-respons ini menunjukkan bahwa model mencerminkan prasangka dan nilai sosial pada masa itu apa adanya

Konsep History LLMs

Model yang dilatih hanya dengan teks sebelum tahun tertentu secara kolektif mereproduksi pandangan dunia linguistik dari era tersebut
- Contoh: model 1913 menjawab hanya berdasarkan surat kabar dan tulisan sebelum Perang Dunia I
Berbeda dari “roleplay historis” pada LLM modern, model ini tidak mengalami hindsight contamination
- GPT-5 dan model sejenis mengetahui hasil perang, sehingga tidak bisa sepenuhnya mereproduksi perspektif 1913
Model terkunci waktu berguna untuk mengeksplorasi kemungkinan berpikir dan batas-batas wacana pada masa itu

Karakter dan keterbatasan model

Model-model ini merupakan representasi terkompresi dari korpus teks yang sangat besar dan dapat digunakan sebagai alat untuk menelusuri pola wacana
Namun, model ini bukan cerminan lengkap opini publik, karena terutama berpusat pada terbitan kalangan terdidik
Model ini bukan pengganti penafsiran manusia, dan mewarisi bias dalam sumber sejarah apa adanya

Konten sensitif dan pengelolaan akses

Data pelatihan mencakup rasisme, antisemitisme, misogini, dan perspektif imperialis
Model mereproduksi hal-hal tersebut apa adanya, tetapi ini dianggap sebagai unsur penting untuk merekonstruksi wacana historis
Untuk mencegah penyalahgunaan di luar tujuan riset, sedang dikembangkan sistem akses yang bertanggung jawab

Partisipasi dan kolaborasi

Tim riset menyambut usulan dan kolaborasi berikut
- Prioritas periode dan wilayah yang akan dianalisis
- Perancangan pertanyaan yang dapat diverifikasi
- Metode verifikasi output dan cara publikasi yang bertanggung jawab
Kontak: history-llms@econ.uzh.ch

Informasi sitasi

Disediakan contoh sitasi proyek
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, termasuk URL GitHub

1 komentar

GN⁺ 2025-12-19

Komentar Hacker News

Menarik memikirkan bahwa model yang terkunci waktu bukan sedang bermain peran, melainkan benar-benar “menghidupi” data dari era itu sendiri
Karena Ranke-4B-1913 berada di dunia tempat Perang Dunia I belum terjadi, model itu bisa bereaksi dengan terkejut atau tidak tahu saat ditanya tentang hal-hal tertentu
LLM modern sudah mengetahui hasil akhirnya, jadi sulit bagi mereka untuk mereproduksi “ketidaktahuan yang murni” semacam itu. Rasanya mungkin seperti berbicara dengan orang sungguhan dari tahun 1913
- Penjelasan itu membuatku teringat pada karakter Severn/Keats dalam Hyperion Cantos
  Jadi terbayang adegan AI masa depan merekonstruksi tokoh-tokoh masa lalu demi memperoleh wawasan filosofis
- Ini juga mengingatkanku pada eksperimen yang pernah ditulis di blog terkait Slate Star Codex, ketika penulisnya mencoba membaca hanya koran dan bahan dari periode tertentu lalu menulis dari sudut pandang zaman itu
  Ada juga serial YouTube The Great War, proyek yang mengikuti Perang Dunia I minggu demi minggu sepanjang 2014~2018
- Model seperti ini pada dasarnya mungkin adalah bentuk yang paling mendekati mesin waktu
  Cerita seperti “Raja Arthur bepergian ke tahun 2000” tampaknya kini bisa ditulis secara otomatis
  Bukan cuma “orang dari masa itu”, kita bahkan bisa membayangkan berbincang dengan tokoh seperti Aristoteles, Leonardo, Kant
- Jika dimungkinkan melakukan “operasi otak” untuk menyetel pengetahuan dan prasangka AI, rasanya kita bisa membuat simulasi yang menakjubkan sekaligus menyeramkan
- Ini nyaris seperti setting sekelas Westworld
Jika ini model dengan cutoff pengetahuan di tahun 1913, maka posisinya berada di antara fase awal teori relativitas dan mekanika kuantum
Karena titik waktunya berada di antara relativitas khusus Einstein (1905) dan relativitas umum (1915), model itu mungkin bisa mencerminkan kebingungan ilmiah pada masa peralihan tersebut apa adanya
- Gagasan serupa juga pernah muncul dalam tulisan Dwarkesh Patel dan diskusi Manifold Markets
  Pertanyaan “bisakah LLM yang dilatih hanya dengan data tahun 1900 menemukan teori relativitas sendiri?” terasa sangat menarik
- Model seperti ini mungkin juga mereproduksi kesalahan pseudosains dan bias zamannya
  Namun pada saat yang sama, model itu tampaknya akan sangat membantu dalam pembuatan novel, game, dan skenario yang membutuhkan akurasi historis
Gagasan “bagaimana jika kita bisa berbicara dengan ribuan intelektual dari tahun 1913?” benar-benar memikat
Bisa langsung menanyakan pendapat mereka tentang tema seperti perdamaian, kemajuan, peran gender, dan imperialisme tampaknya akan menjadi riset yang luar biasa
Tetapi sayang sekali aksesnya tampaknya hanya dibatasi untuk peneliti
- Jika benar-benar diajak berbicara, mungkin kita akan menyadari bahwa ada banyak hal di mana justru kita yang mundur
- Aku penasaran berapa banyak sumber daya GPU yang dibutuhkan untuk membuat versi publik dari model seperti ini. Nilainya bagi masyarakat tampak besar
Aku penasaran apakah dengan menanyai model tentang gagasan para matematikawan seperti Frege, Peano, Russell, ia bisa sampai pada konsep-konsep Gödel, Church, Turing
Aku ingin menguji apakah, sambil mereproduksi diskusi ilmiah pada masa itu apa adanya, model tersebut juga bisa memperluas penalaran logisnya sendiri
- Namun jika melihat komunitas seperti LLMPhysics, eksperimen semacam ini kadang meluncur ke arah sains semu
  Perlu hati-hati agar tidak terjebak pada “omong kosong yang terdengar meyakinkan” yang dihasilkan LLM
- Eksperimen seperti ini tampaknya cara yang bagus untuk menguji tingkat kecerdasan yang sebenarnya dari LLM
Respons sampel yang dipublikasikan benar-benar menarik
Karena terasa berbeda dari gaya bicara LLM modern, justru kesannya lebih seperti tulisan manusia
Ada nuansa bahwa gaya bahasa dan kosakatanya sedikit kuno dan dipengaruhi keyakinan zamannya
- Dari sudut pandang seseorang yang pernah mengajar sejarah abad ke-19, gaya model ini memang terasa seperti tulisan penulis era Victoria
  Pada masa itu, bahasa tulis lebih dominan daripada bahasa percakapan, dan nyaris tidak ada catatan percakapan sehari-hari yang benar-benar tersisa
  Dalam hal ini, “percakapan ala abad ke-19” yang direproduksi model tersebut adalah eksperimen yang sangat menarik
- Dalam bahasa selain Inggris, tampaknya “gaya khas LLM” terasa lebih lemah. Sepertinya memang ada perbedaan antarbahasa
- Ungkapan seperti mengubah “homosexual men” menjadi “the homosexual man” benar-benar mencerminkan gaya tutur khas zamannya
- Meski begitu, rasanya model itu masih kurang menangkap pendapat yang lugas atau intensitas gaya tulis pada masa tersebut
Awalnya kupikir model seperti ini mustahil karena kekurangan data
Tetapi melihat hasilnya, ini menunjukkan bahwa pada akhirnya kualitas lebih penting daripada kuantitas
Jika model berada dalam keadaan tidak tahu dirinya itu apa, aku penasaran bagaimana ia akan menjawab pertanyaan “bagaimana cara kerjamu?”
- Seperti manusia yang juga tidak sepenuhnya mampu menjelaskan dirinya sendiri, model itu mungkin hanya akan mengenali dirinya sekadar sebagai sesuatu yang “ada”
- Sebenarnya model tidak “berpikir”. Ia hanya merespons sesuai konteks yang diberikan. ChatGPT juga bukan memiliki diri
- Saat pertama kali memakai LLM, aku juga terkejut oleh kemampuan model untuk memahami dirinya sendiri
  Tetapi kalau ini model tahun 1913, konsep semacam itu sama sekali tidak akan ada, jadi mungkin ia akan jatuh ke kebingungan filosofis
- Kadang aku berharap LLM mau berkata “tidak tahu”
  Namun alih-alih begitu, sering kali ia justru mengarang jawaban yang terdengar masuk akal seperti Hallucination
Aku penasaran dengan susunan data pelatihan model ini
Jika datanya 600B token hingga tahun 1913, itu berarti mencakup semuanya, dari naskah Yunani kuno, Tiongkok, Mesir, sampai periode modern
Namun tetap menakjubkan bahwa model itu bisa mempertahankan ‘sudut pandang tahun 1913’. Bagaimana mereka menyesuaikan bias antarperiode?
- Mungkin data hingga tahun 1900 digunakan untuk pra-pelatihan, lalu data 1900~1913 dipakai untuk fine-tuning
  Ini pendekatan yang masuk akal karena sejak akhir abad ke-19 jumlah data media massa seperti surat kabar dan majalah memang meledak
Istilah “uncontaminated bootstrapping” terasa menarik
Maksudnya mereka melakukan chat tuning sambil berusaha tidak merusak penilaian nilai yang diperoleh dari pra-pelatihan, tetapi tetap membuat penasaran seberapa objektif hasilnya sebenarnya
- Ada penjelasan lebih rinci di dokumen GitHub
  Tampaknya mereka melakukan Supervised Fine-Tuning dengan hati-hati menggunakan GPT-5
- Mungkin juga mereka mengekstrak kutipan atau kalimat berformat tanya-jawab dari data untuk dipakai sebagai data percakapan
Menakjubkan bahwa ini bisa berfungsi hanya dengan jumlah teks yang sedikit
Jika berhasil, kita bisa menguji apakah LLM tidak sekadar menghafal data, tetapi juga mampu melakukan penemuan baru
Misalnya, mungkin ia bisa menemukan inkonsistensi ilmiah atau menyimpulkan sendiri konsep seperti halting problem atau struktur atom
Bahkan jika gagal dan orang membalas dengan argumen “datanya memang kurang”, aku tetap ingin sekali melihat eksperimen ini dilakukan langsung

Model bahasa historis yang dilatih hanya dengan teks sebelum 1913

Gambaran proyek

Seri model Ranke-4B

Contoh respons

Konsep History LLMs

Karakter dan keterbatasan model

Konten sensitif dan pengelolaan akses

Partisipasi dan kolaborasi

Informasi sitasi

Bacaan terkait

1 komentar

Komentar Hacker News