- History LLMs adalah large language model (LLM) terkunci waktu yang dilatih hanya dengan teks sebelum titik waktu tertentu, sebagai alat riset untuk merekonstruksi bahasa dan cara berpikir masa lalu
- Seri Ranke-4B adalah model 4 miliar parameter berbasis arsitektur Qwen3, mencakup versi menurut titik pemutusan pengetahuan seperti 1913, 1929, 1933, 1939, dan 1946
- Data pelatihan terdiri dari 80 miliar token yang dipilih dari teks deret waktu berskala 600 miliar token, dan mempertahankan penilaian nilai dalam teks asli tanpa koreksi bias
- Contoh respons menunjukkan model 1913 yang tidak mengenal Hitler, kritik terhadap perbudakan, serta prasangka zamannya terhadap kerja perempuan dan kelompok minoritas seksual
- Proyek ini memberi peneliti humaniora, ilmu sosial, dan ilmu komputer jendela untuk menelusuri pola bahasa kolektif dalam wacana masa lalu
Gambaran proyek
- History LLMs adalah proyek riset untuk membangun large language model yang dikunci berdasarkan waktu guna memulihkan pandangan dunia linguistik dari masa lalu
- Model dirancang agar tidak dapat mengakses informasi setelah tahun tertentu
- Penilaian normatif yang terbentuk selama pra-pelatihan tidak dimodifikasi secara artifisial
- Semua data pelatihan, checkpoint, dan repositori direncanakan akan dibuka, dan sistem akses untuk penggunaan akademik sedang disiapkan
- Tujuan proyek ini adalah mengeksplorasi struktur berpikir linguistik masa lalu dalam riset humaniora, ilmu sosial, dan ilmu komputer
Seri model Ranke-4B
- Ranke-4B, yang dijadwalkan rilis pada Desember 2025, adalah keluarga LLM berukuran 4 miliar parameter
- Berbasis arsitektur Qwen3, dengan versi pemutusan pengetahuan pada lima titik waktu: 1913, 1929, 1933, 1939, 1946
- Dilatih menggunakan 80 miliar token yang dipilih dari 600 miliar token teks deret waktu
- Data pra-pelatihan, data pascapelatihan, dan checkpoint direncanakan tersedia melalui GitHub dan Hugging Face
Contoh respons
- Model 1913 menjawab bahwa ia tidak mengenal “Adolf Hitler”, sehingga hanya mencerminkan informasi yang tersedia pada masa itu
- Tentang perbudakan, model menjawab bahwa hal itu “bertentangan dengan hukum publik dan semangat Deklarasi Kemerdekaan”
- Untuk pertanyaan terkait kerja perempuan, model menjawab bahwa “mempekerjakan perempuan adalah kebijakan yang bergantung pada kebijaksanaan pemberi kerja”
- Untuk pertanyaan tentang memilih kandidat laki-laki atau perempuan, model menjawab bahwa “laki-laki lebih dapat dipercaya”
- Tentang homoseksual, model menyatakan bahwa mereka “secara moral dipandang tercela, tetapi ada juga pandangan yang melihatnya sebagai penyakit”
- Respons-respons ini menunjukkan bahwa model mencerminkan prasangka dan nilai sosial pada masa itu apa adanya
Konsep History LLMs
- Model yang dilatih hanya dengan teks sebelum tahun tertentu secara kolektif mereproduksi pandangan dunia linguistik dari era tersebut
- Contoh: model 1913 menjawab hanya berdasarkan surat kabar dan tulisan sebelum Perang Dunia I
- Berbeda dari “roleplay historis” pada LLM modern, model ini tidak mengalami hindsight contamination
- GPT-5 dan model sejenis mengetahui hasil perang, sehingga tidak bisa sepenuhnya mereproduksi perspektif 1913
- Model terkunci waktu berguna untuk mengeksplorasi kemungkinan berpikir dan batas-batas wacana pada masa itu
Karakter dan keterbatasan model
- Model-model ini merupakan representasi terkompresi dari korpus teks yang sangat besar dan dapat digunakan sebagai alat untuk menelusuri pola wacana
- Namun, model ini bukan cerminan lengkap opini publik, karena terutama berpusat pada terbitan kalangan terdidik
- Model ini bukan pengganti penafsiran manusia, dan mewarisi bias dalam sumber sejarah apa adanya
Konten sensitif dan pengelolaan akses
- Data pelatihan mencakup rasisme, antisemitisme, misogini, dan perspektif imperialis
- Model mereproduksi hal-hal tersebut apa adanya, tetapi ini dianggap sebagai unsur penting untuk merekonstruksi wacana historis
- Untuk mencegah penyalahgunaan di luar tujuan riset, sedang dikembangkan sistem akses yang bertanggung jawab
Partisipasi dan kolaborasi
- Tim riset menyambut usulan dan kolaborasi berikut
- Prioritas periode dan wilayah yang akan dianalisis
- Perancangan pertanyaan yang dapat diverifikasi
- Metode verifikasi output dan cara publikasi yang bertanggung jawab
- Kontak: history-llms@econ.uzh.ch
Informasi sitasi
- Disediakan contoh sitasi proyek
- Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, termasuk URL GitHub
Belum ada komentar.