1 poin oleh GN⁺ 2025-12-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • History LLMs adalah large language model (LLM) terkunci waktu yang dilatih hanya dengan teks sebelum titik waktu tertentu, sebagai alat riset untuk merekonstruksi bahasa dan cara berpikir masa lalu
  • Seri Ranke-4B adalah model 4 miliar parameter berbasis arsitektur Qwen3, mencakup versi menurut titik pemutusan pengetahuan seperti 1913, 1929, 1933, 1939, dan 1946
  • Data pelatihan terdiri dari 80 miliar token yang dipilih dari teks deret waktu berskala 600 miliar token, dan mempertahankan penilaian nilai dalam teks asli tanpa koreksi bias
  • Contoh respons menunjukkan model 1913 yang tidak mengenal Hitler, kritik terhadap perbudakan, serta prasangka zamannya terhadap kerja perempuan dan kelompok minoritas seksual
  • Proyek ini memberi peneliti humaniora, ilmu sosial, dan ilmu komputer jendela untuk menelusuri pola bahasa kolektif dalam wacana masa lalu

Gambaran proyek

  • History LLMs adalah proyek riset untuk membangun large language model yang dikunci berdasarkan waktu guna memulihkan pandangan dunia linguistik dari masa lalu
    • Model dirancang agar tidak dapat mengakses informasi setelah tahun tertentu
    • Penilaian normatif yang terbentuk selama pra-pelatihan tidak dimodifikasi secara artifisial
  • Semua data pelatihan, checkpoint, dan repositori direncanakan akan dibuka, dan sistem akses untuk penggunaan akademik sedang disiapkan
  • Tujuan proyek ini adalah mengeksplorasi struktur berpikir linguistik masa lalu dalam riset humaniora, ilmu sosial, dan ilmu komputer

Seri model Ranke-4B

  • Ranke-4B, yang dijadwalkan rilis pada Desember 2025, adalah keluarga LLM berukuran 4 miliar parameter
    • Berbasis arsitektur Qwen3, dengan versi pemutusan pengetahuan pada lima titik waktu: 1913, 1929, 1933, 1939, 1946
    • Dilatih menggunakan 80 miliar token yang dipilih dari 600 miliar token teks deret waktu
  • Data pra-pelatihan, data pascapelatihan, dan checkpoint direncanakan tersedia melalui GitHub dan Hugging Face

Contoh respons

  • Model 1913 menjawab bahwa ia tidak mengenal “Adolf Hitler”, sehingga hanya mencerminkan informasi yang tersedia pada masa itu
  • Tentang perbudakan, model menjawab bahwa hal itu “bertentangan dengan hukum publik dan semangat Deklarasi Kemerdekaan”
  • Untuk pertanyaan terkait kerja perempuan, model menjawab bahwa “mempekerjakan perempuan adalah kebijakan yang bergantung pada kebijaksanaan pemberi kerja”
  • Untuk pertanyaan tentang memilih kandidat laki-laki atau perempuan, model menjawab bahwa “laki-laki lebih dapat dipercaya”
  • Tentang homoseksual, model menyatakan bahwa mereka “secara moral dipandang tercela, tetapi ada juga pandangan yang melihatnya sebagai penyakit”
  • Respons-respons ini menunjukkan bahwa model mencerminkan prasangka dan nilai sosial pada masa itu apa adanya

Konsep History LLMs

  • Model yang dilatih hanya dengan teks sebelum tahun tertentu secara kolektif mereproduksi pandangan dunia linguistik dari era tersebut
    • Contoh: model 1913 menjawab hanya berdasarkan surat kabar dan tulisan sebelum Perang Dunia I
  • Berbeda dari “roleplay historis” pada LLM modern, model ini tidak mengalami hindsight contamination
    • GPT-5 dan model sejenis mengetahui hasil perang, sehingga tidak bisa sepenuhnya mereproduksi perspektif 1913
  • Model terkunci waktu berguna untuk mengeksplorasi kemungkinan berpikir dan batas-batas wacana pada masa itu

Karakter dan keterbatasan model

  • Model-model ini merupakan representasi terkompresi dari korpus teks yang sangat besar dan dapat digunakan sebagai alat untuk menelusuri pola wacana
  • Namun, model ini bukan cerminan lengkap opini publik, karena terutama berpusat pada terbitan kalangan terdidik
  • Model ini bukan pengganti penafsiran manusia, dan mewarisi bias dalam sumber sejarah apa adanya

Konten sensitif dan pengelolaan akses

  • Data pelatihan mencakup rasisme, antisemitisme, misogini, dan perspektif imperialis
  • Model mereproduksi hal-hal tersebut apa adanya, tetapi ini dianggap sebagai unsur penting untuk merekonstruksi wacana historis
  • Untuk mencegah penyalahgunaan di luar tujuan riset, sedang dikembangkan sistem akses yang bertanggung jawab

Partisipasi dan kolaborasi

  • Tim riset menyambut usulan dan kolaborasi berikut
    • Prioritas periode dan wilayah yang akan dianalisis
    • Perancangan pertanyaan yang dapat diverifikasi
    • Metode verifikasi output dan cara publikasi yang bertanggung jawab
  • Kontak: history-llms@econ.uzh.ch

Informasi sitasi

  • Disediakan contoh sitasi proyek
    • Göttlich, Loibner, Jiang, Voth (2025), History LLMs, University of Zurich & Cologne University, termasuk URL GitHub

Belum ada komentar.

Belum ada komentar.