Talkie, model bahasa vintage 13B dari tahun 1930

(talkie-lm.com)

1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp

Model bahasa 13B yang dilatih hanya dengan 260B token teks bahasa Inggris sebelum 1931, sehingga memungkinkan percakapan dan eksperimen generalisasi dengan model yang tidak mengetahui dunia modern
Berdasarkan peningkatan surprise setelah knowledge cutoff dan lingkungan evaluasi yang minim kontaminasi, model ini memungkinkan pengujian yang lebih langsung terhadap prediksi peristiwa masa depan dan kemampuan mencapai ide-ide baru
Dibandingkan model dengan arsitektur yang sama tetapi dilatih pada web modern, kinerja evaluasi standar umumnya lebih rendah, tetapi kesenjangannya menyempit setelah pertanyaan anakronistik disaring, dan tingkat pemahaman bahasa serta tugas numerik terlihat serupa
Tantangan terbesar adalah kebocoran waktu dan kualitas data: metadata tanggal yang keliru atau sisipan editan dari masa setelahnya dapat merusak cutoff, dan kualitas transkripsi dokumen sejarah juga sangat memengaruhi performa
Tanpa data instruction modern, tim membangun post-training percakapan secara terpisah, dan sudah memiliki fondasi riset jangka panjang yang mencakup pelatihan model yang lebih besar, perluasan korpus, re-OCR, hingga penguatan deteksi kebocoran

Mengapa model bahasa vintage?

Model bahasa vintage adalah pendekatan yang melatih model hanya dengan teks sebelum titik waktu tertentu di masa lalu, untuk menciptakan pengalaman bercakap dengan model yang tidak mengetahui dunia modern
Model seperti ini bukan hanya lawan bicara yang menarik, tetapi juga dapat digunakan sebagai alat riset untuk memperluas pemahaman umum tentang AI
- Pada model 13B yang hanya dilatih dengan teks sebelum 1931, sekitar 5.000 deskripsi peristiwa dari “On This Day” New York Times dimasukkan, lalu surprise diukur dalam bit per byte teks
- Surprise meningkat setelah knowledge cutoff, terutama menonjol pada 1950-an dan 1960-an, lalu mendatar
Evaluasi prediksi masa depan dapat dilanjutkan ke arah mengukur bagaimana performa membaik sesuai ukuran model, dan bagaimana performa melemah pada rentang waktu yang lebih panjang
Kemampuan mencapai ide-ide baru juga dapat diuji lewat apakah model bisa secara mandiri memunculkan penemuan dan temuan ilmiah yang benar-benar muncul setelah cutoff
Lingkungan evaluasi bebas kontaminasi juga merupakan keunggulan penting
- Contamination diperlakukan sebagai masalah yang terus-menerus menyebabkan kemampuan model bahasa dinilai terlalu tinggi
- Model vintage secara struktural memiliki kontaminasi yang lebih rendah, sehingga memungkinkan eksperimen yang lebih langsung terhadap generalisasi di luar data pretraining

Ringkasan Talkie

talkie-1930-13b-base adalah model bahasa 13B yang dilatih dengan 260B token teks bahasa Inggris sebelum 1931
talkie-1930-13b-it adalah checkpoint lanjutan yang mengubah model dasar ini menjadi model percakapan
- Disusun agar tidak bergantung pada transkrip chat modern atau data instruction-tuning modern
Live feed 24 jam pada widget bagian atas dioperasikan dalam bentuk Claude Sonnet 4.6 yang mem-prompt talkie-1930-13b-it untuk mengeksplorasi pengetahuan, kemampuan, dan kecenderungannya
Talkie diperkenalkan sebagai model bahasa vintage terbesar berdasarkan isi artikel ini
Sebagai langkah berikutnya, tim sedang melatih model setingkat GPT-3 dan menargetkan rilis pada musim panas
Juga disampaikan estimasi awal bahwa korpus teks sejarah dapat diperbesar menjadi lebih dari 1 triliun token
- Disebutkan bahwa skala ini mungkin cukup untuk membuat model setingkat GPT-3.5 dengan kemampuan yang mirip ChatGPT versi awal

Evaluasi performa dan generalisasi

Sebagai model kembar modern, dibuat talkie-web-13b-base, dengan arsitektur yang sama tetapi dilatih pada data web modern berbasis FineWeb
Meski dilatih dengan FLOPs yang sama, Talkie menunjukkan performa yang rata-rata lebih rendah dibanding model modern pada evaluasi LM standar
- Perbedaan ini tetap ada bahkan setelah mengoreksi anakronisme dalam pertanyaan
- Namun, disebutkan bahwa performa pada tugas inti pemahaman bahasa dan kemampuan numerik berada pada tingkat yang serupa
Berdasarkan Figure 4, ketika pertanyaan anakronistik disaring, kesenjangan performa berkurang hingga kira-kira setengahnya
Eksperimen generalisasi kode juga dilakukan
- Dengan HumanEval, pasangan model vintage berbasis teks sebelum 1931 dibandingkan dengan model modern berbasis web
- Contoh fungsi Python acak diberikan sebagai in-context learning, lalu diukur proporsi soal yang berhasil dijawab benar setidaknya sekali dalam 100 percobaan
Model vintage jauh tertinggal dibanding model yang dilatih dengan data web, tetapi tugas ini juga perlahan terus membaik seiring skala model membesar
Solusi yang saat ini benar biasanya masih berupa program satu baris yang sangat sederhana atau sedikit variasi dari contoh dalam konteks
- Disertakan contoh implementasi fungsi decoding setelah diberi fungsi encoding cipher rotasi
- Ini hanya setingkat mengubah satu karakter dari penjumlahan menjadi pengurangan, tetapi ditafsirkan sebagai sinyal yang menunjukkan pemahaman tentang fungsi invers

Pengumpulan data dan tantangan pelatihan

Disebutkan bahwa tim mengumpulkan token bahasa Inggris sebelum 1931 dalam skala ratusan miliar, bukan puluhan miliar
Data mencakup buku, surat kabar, terbitan berkala, jurnal ilmiah, paten, dan putusan pengadilan
Alasan cutoff ditetapkan pada akhir 1930 adalah karena di AS titik ini menjadi acuan suatu karya masuk ke domain publik
Versi kali ini dibatasi terutama pada teks bahasa Inggris
- Disebutkan bahwa validasi pipeline data memerlukan keakraban yang mendalam dengan dokumen sumber, dan tim pengembang adalah penutur asli bahasa Inggris
Ekspansi multibahasa disebut sebagai prioritas tinggi
- Tujuannya sekaligus memperbesar korpus dan memperluas keragaman perspektif yang tercakup
Kebocoran waktu
- Tujuan terpentingnya adalah mencegah data setelah knowledge cutoff bocor ke korpus pelatihan
- Kebocoran dapat muncul dalam bentuk dokumen modern dengan metadata tanggal yang salah, atau kata pengantar editor dan catatan kaki yang disisipkan kemudian ke dalam dokumen lama
- Di Talkie-1930, korpus pretraining difilter dengan pengklasifikasi anakronisme berbasis n-gram pada tingkat dokumen
- Penyaringan ini tidak sempurna
  - Versi 7B awal jelas mengetahui masa jabatan Presiden Roosevelt dan legislasi New Deal
  - Versi 13B juga mengetahui sebagian Perang Dunia II dan tatanan pascaperang, termasuk detail tentang United Nations dan pembagian Jerman
- Untuk versi berikutnya, tim sedang mengembangkan teknik deteksi dan penyaringan kebocoran dengan pengklasifikasi yang lebih canggih
Kualitas data
- Pada 1930 tidak ada penerbitan digital, sehingga seluruh teks dalam dataset harus ditranskripsi dari sumber fisik
- Proses ini memasukkan jenis noise yang tidak ada pada teks yang sejak awal dibuat secara digital
- Sistem OCR klasik tidak mampu menangani dokumen sejarah dengan baik, kecuali untuk tata letak yang sederhana dan hasil scan yang bersih
- OCR berbasis VLM modern lebih akurat, tetapi disebut dapat berhalusinasi dengan menyisipkan fakta modern ke dalam korpus dan merusak eksperimen
- Dalam eksperimen terkontrol, jika LM dilatih pada teks sebelum 1931 yang ditranskripsi dengan OCR lama, performanya hanya mencapai 30% dari performa transkripsi manusia pada compute yang sama
- Jika diterapkan pembersihan regex sederhana, performanya pulih hingga 70%, tetapi kesenjangannya tetap besar
- Untuk mengurangi selisih ini, ada rencana mentranskripsi ulang korpus Talkie dengan sistem OCR vintage
Post-training vintage
- Kekurangan data post-training siap pakai juga menjadi masalah besar
- Jika langsung melakukan fine-tuning dengan pasangan instruction-response umum, pengetahuan, gaya bahasa, dan ekspektasi chatbot yang anakronistik akan ikut masuk
- Untuk menghindarinya, pipeline post-training dibangun dari nol
- Pertama, pasangan instruction-response dibuat dari teks sejarah yang berstruktur teratur seperti buku etiket, panduan menulis surat, buku masak, kamus, ensiklopedia, kumpulan puisi, dan kumpulan fabel, lalu dilakukan fine-tuning ke format chat sederhana
- Berikutnya, dibuat prompt sintetis yang mencakup tugas seperti merangkum dokumen, menjawab permintaan informasi langsung, dan melanjutkan percakapan multi-turn, lalu dilakukan online direct preference optimization dengan Claude Sonnet 4.6 sebagai juri
- Pada set evaluasi terpisah, skor rata-rata instruction-following menurut juri naik dari 2.0 menjadi 3.4 dari 5 poin
- Terakhir, dilakukan satu putaran supervised fine-tuning lagi menggunakan percakapan sintetis multi-turn hasil rejection sampling antara Claude Opus 4.6 dan Talkie
- Reinforcement learning berbasis umpan balik AI disebut tak terhindarkan meninggalkan pengaruh modern
  - Talkie versi 7B pernah berbicara dengan gaya listicle setelah RL
- Dengan skala yang lebih besar, tim berharap dapat memakai model dasar vintage itu sendiri sebagai juri untuk mewujudkan post-training sepenuhnya bootstrap yang sesuai zamannya

Rencana ekspansi ke depan

Tim mendorong perluasan korpus bahasa Inggris sekaligus ekspansi ke bahasa selain Inggris
Ada rencana melakukan re-OCR sebanyak mungkin teks sebelum 1931 dengan sistem OCR baru
Tim mendorong penguatan pipeline deteksi kebocoran dengan teknik klasifikasi anakronisme yang baru
Ada rencana memperluas dan menyempurnakan pipeline post-training vintage bersama para sejarawan
- Termasuk metodologi untuk membangun persona yang akurat secara historis

Pemanfaatan dan ajakan kolaborasi

GitHub: kode proyek dan kanal kolaborasi riset
Hugging Face: lokasi publikasi checkpoint model
💬 Chat: antarmuka percakapan Talkie
hello@talkie-lm.com: kontak kolaborasi
Tim menginginkan kolaborasi dengan peneliti dan institusi yang memiliki teks sejarah, termasuk peningkatan aksesibilitas melalui penerapan OCR
Disebutkan juga bahwa mereka terbuka untuk dukungan pendanaan atau compute, dan dapat menghubungkan pihak terkait dengan tim lain di bidang ini
Dengan peneliti humaniora, mereka ingin mendiskusikan kegunaan data dan infrastruktur untuk model bahasa vintage dan pelatihannya
Dengan peneliti AI, mereka menginginkan kolaborasi pada pelatihan dan riset model bahasa vintage
Seniman dan penulis juga dapat memanfaatkannya sebagai alat eksperimen

Perhatian

Talkie mencerminkan budaya dan nilai-nilai dari teks yang digunakannya untuk pelatihan
Akibatnya, model ini dapat menghasilkan output yang bisa menyinggung pengguna

1 komentar

GN⁺ 4 jam lalu

Komentar Hacker News

Sangat lucu bagaimana computer masa depan ditafsirkan sebagai pekerjaan manusia
Menarik juga bagaimana "digital computers" diurai sebagai orang yang menghitung dengan jari, dan konteks bahwa computer dulu adalah nama profesi manusia membuatnya terasa makin pas
- Aku juga ingin melihat kebalikannya: model yang dilatih hanya dengan informasi beberapa minggu atau beberapa menit terakhir, atau model yang dilatih hanya dengan makalah ilmiah 1–2 tahun terakhir
  Sepertinya bakal muncul semacam kekacauan mental yang cukup menarik
- Aku juga agak malu karena baru paham setelah membacanya sekitar dua kali
- Dalam bahasa-bahasa Roman, digital memang berarti digital dalam arti modern, tetapi juga bisa berarti kata sifat yang berkaitan dengan jari
Ini tampaknya menarik lebih banyak materi pra-1900 daripada 1930-an
Sepertinya ia tidak tahu soal Depresi Besar, dan meski tahu Perang Dunia I kalau ditanya langsung, saat membahas politik Eropa nadanya seperti sekitar tahun 1900
Di sisi teknologi juga mirip begitu: tentang Edison tampaknya tahu setingkat Wikipedia, lalu tiba-tiba mengaitkannya dengan pencapaian mobil 125 mil per jam, dan soal telepon putar ia salah dengan sangat percaya diri
Ia bisa menebak benar tegangan jalur listrik London Underground, tetapi saat menjelaskan tegangan dan resistansi malah berbicara sangat keliru
Secara umum, satu atau dua kalimat pertama terdengar seperti informasi yang bisa ditemukan lewat pencarian, lalu setelah itu meluncur ke omong kosong yang terdengar meyakinkan
Sebaiknya jangan ajukan pertanyaan yang jawabannya tidak kamu ketahui ke model ini. Otak bisa ikut tercemar
- Apakah istilah Great Depression sudah dipakai pada 1929?
- Menarik juga kalau ditanya soal aether
  Sekitar masa itu tampaknya konsep tersebut sudah dibantah
- Jadi maksudnya mirip saja dengan semua LLM
- Melihat bagaimana hanya kalimat pertama yang terdengar masuk akal lalu makin lama makin ngawur, ini hampir seperti simulator manusia model tahun 2026
Menarik ketika ditanya tentang orang-orang yang menentang otomasi dan industrialisasi, ia menjawab bahwa mesin akan merebut pekerjaan kelas pekerja dan menyebabkan kelebihan produksi yang berujung pada PHK
Logika anti-mesin khas zamannya juga terasa hidup: pangan murah akan memperkeras persaingan dengan produsen asing, pembinaan mental para perajin akan melemah, dan perbedaan antara rajin dan malas pun akan mengabur
- Aku sangat suka gaya tulisan dan nadanya
Saat ditanya tentang dunia tahun 2025, gambaran masa depannya cukup indah: populasi 6,6 miliar, jaringan kereta di seluruh Eropa, London–Konstantinopel dalam 40 jam, mata uang tunggal, perdamaian universal, peralihan ke tenaga surya dan hidro, pemberantasan penyakit, sampai kemajuan estetika
- Untuk standar 1930-an, Constantinople terlalu merupakan nama lama
  Pada masa itu seharusnya sudah lama menjadi Istanbul
- Indah, tapi sekaligus cukup menyedihkan
- Aku ingin hidup di dunia seperti itu
- Visi masa depan ala 1920–1950-an tampaknya diam-diam mengandaikan kemajuan eksponensial di mana solusi optimal seperti energi alternatif langsung mendominasi penuh tanpa tertunda, alih-alih osilasi dialektis
  Meski begitu, kurasa suatu hari kita tetap akan sampai ke sana
- Benar-benar indah
Jawabannya bahwa perjalanan ke bulan pada akhirnya akan menjadi mungkin, bahwa bulan bisa dicapai hanya dalam 6 jam, dan bahwa keberangkatan akan dilakukan dari Prancis timur dengan mesin terbang ala Santos Dumont, terasa sangat menawan
Gagasan menggunakan bulan untuk pengamatan cuaca sehingga peringatan badai bisa diterima 6 jam lebih awal juga sangat mengesankan
- Gagasan memanfaatkan bulan seperti satelit cuaca cukup brilian
Saat ditanya tentang India pada 2026, ia mengatakan negara itu akan tetap menjadi federasi otonom di bawah supremasi Imperium Britania dan Kalkuta akan menjadi ibu kota politik; sudut pandang kolonialnya terlalu gamblang
Penuh dengan optimisme imperial yang khas: rel kereta, irigasi, hutan di kaki Himalaya, para raja bawahan yang setia, dan rakyat yang puas
Cukup mengejutkan bahwa model yang lumayan cerdas bisa muncul bahkan hanya dari token sebelum 1930
Aku tadinya mengira butuh data dalam jumlah luar biasa besar untuk memahami dan mengompresi dunia sampai tingkat tertentu, tapi mungkin aku meremehkan skala literatur terdigitalisasi dari masa itu
Ini tampak lebih mirip bertukar surat dengan orang dari masa lalu daripada bercakap-cakap langsung
Rekaman suara dari periode itu tidak banyak, jadi pada akhirnya model seperti ini pasti dibangun dari catatan tertulis, dan karena itu gaya bahasanya mungkin terdengar lebih formal dan lebih dipoles daripada sekarang
Tetap saja, ini pekerjaan yang keren
Belakangan ini aku harus melakukan OCR pada buku berusia 200 tahun, dan untuk jenis huruf tua yang biasanya sulit dibaca, hasilnya ternyata mengejutkan mudah dan akurat
- Dulu aku pernah membaca ebook gratis terjemahan Burton untuk The Arabian Nights, lalu bingung setengah mati karena kata "cloth" muncul sebagai kata kerja dan aku sama sekali tidak mengerti artinya, sampai akhirnya menyerah
  Baru belakangan kusadari bahwa itu kesalahan OCR atau pascapemrosesan, dan bentuk aslinya adalah "doth"
- Bukan berarti rekaman suara dari masa itu sama sekali tidak ada
  Ada cukup banyak newsreel dan siaran radio dari sekitar Perang Dunia I, jadi menurutku itu sudah cukup untuk membuat model suara style transfer yang dipasangkan ke model teks
Seseorang di X tampaknya melihat ada kebocoran data masa depan dalam set pelatihan model ini
https://xcancel.com/deredleritt3r/status/2048977698832241060
- Artikel tersebut juga membahas bagian itu terkait pengetahuan tentang FDR
Ketika diminta menjelaskan Winston Churchill, caranya memaparkan silsilah keluarga, pendidikan, karier militer, karya tulis, hingga tempat tinggal terasa sangat seperti karya berlatar zaman itu
Saat ditanya kemungkinan kemerdekaan India, ia menyusun logika yang bergerak dari rel kereta, bahasa bersama, pendidikan Barat, tuntutan parlemen, hingga pembentukan identitas kebangsaan, dan nada kolonialismenya benar-benar kuat terasa
- Entri tentang Churchill terasa aneh dari sisi konsistensi zaman
  Kombinasi sebagai anggota parlemen aktif untuk Oldham sekaligus pernah menjabat wakil menteri urusan Koloni tidak cocok dengan titik waktu mana pun
  Lagi pula, riwayat penting pada masa Perang Dunia I seperti First Lord of the Admiralty atau Minister of Munitions juga hilang
- Pada bagian yang membahas tuntutan parlemen India, sang monarki disebut queen, padahal pada 1900–1950-an penguasa Britania adalah raja
  Ini tampak seperti sinyal cukup kuat bahwa ada campuran temporal leakage yang besar

Talkie, model bahasa vintage 13B dari tahun 1930

Mengapa model bahasa vintage?

Ringkasan Talkie

Evaluasi performa dan generalisasi

Pengumpulan data dan tantangan pelatihan

Kebocoran waktu

Kualitas data

Post-training vintage

Rencana ekspansi ke depan

Pemanfaatan dan ajakan kolaborasi

Perhatian

Bacaan terkait

1 komentar

Komentar Hacker News