- Model bahasa 13B yang dilatih hanya dengan 260B token teks bahasa Inggris sebelum 1931, sehingga memungkinkan percakapan dan eksperimen generalisasi dengan model yang tidak mengetahui dunia modern
- Berdasarkan peningkatan surprise setelah knowledge cutoff dan lingkungan evaluasi yang minim kontaminasi, model ini memungkinkan pengujian yang lebih langsung terhadap prediksi peristiwa masa depan dan kemampuan mencapai ide-ide baru
- Dibandingkan model dengan arsitektur yang sama tetapi dilatih pada web modern, kinerja evaluasi standar umumnya lebih rendah, tetapi kesenjangannya menyempit setelah pertanyaan anakronistik disaring, dan tingkat pemahaman bahasa serta tugas numerik terlihat serupa
- Tantangan terbesar adalah kebocoran waktu dan kualitas data: metadata tanggal yang keliru atau sisipan editan dari masa setelahnya dapat merusak cutoff, dan kualitas transkripsi dokumen sejarah juga sangat memengaruhi performa
- Tanpa data instruction modern, tim membangun post-training percakapan secara terpisah, dan sudah memiliki fondasi riset jangka panjang yang mencakup pelatihan model yang lebih besar, perluasan korpus, re-OCR, hingga penguatan deteksi kebocoran
Mengapa model bahasa vintage?
- Model bahasa vintage adalah pendekatan yang melatih model hanya dengan teks sebelum titik waktu tertentu di masa lalu, untuk menciptakan pengalaman bercakap dengan model yang tidak mengetahui dunia modern
- Model seperti ini bukan hanya lawan bicara yang menarik, tetapi juga dapat digunakan sebagai alat riset untuk memperluas pemahaman umum tentang AI
- Pada model 13B yang hanya dilatih dengan teks sebelum 1931, sekitar 5.000 deskripsi peristiwa dari “On This Day” New York Times dimasukkan, lalu surprise diukur dalam bit per byte teks
- Surprise meningkat setelah knowledge cutoff, terutama menonjol pada 1950-an dan 1960-an, lalu mendatar
- Evaluasi prediksi masa depan dapat dilanjutkan ke arah mengukur bagaimana performa membaik sesuai ukuran model, dan bagaimana performa melemah pada rentang waktu yang lebih panjang
- Kemampuan mencapai ide-ide baru juga dapat diuji lewat apakah model bisa secara mandiri memunculkan penemuan dan temuan ilmiah yang benar-benar muncul setelah cutoff
- Lingkungan evaluasi bebas kontaminasi juga merupakan keunggulan penting
- Contamination diperlakukan sebagai masalah yang terus-menerus menyebabkan kemampuan model bahasa dinilai terlalu tinggi
- Model vintage secara struktural memiliki kontaminasi yang lebih rendah, sehingga memungkinkan eksperimen yang lebih langsung terhadap generalisasi di luar data pretraining
Ringkasan Talkie
- talkie-1930-13b-base adalah model bahasa 13B yang dilatih dengan 260B token teks bahasa Inggris sebelum 1931
- talkie-1930-13b-it adalah checkpoint lanjutan yang mengubah model dasar ini menjadi model percakapan
- Disusun agar tidak bergantung pada transkrip chat modern atau data instruction-tuning modern
- Live feed 24 jam pada widget bagian atas dioperasikan dalam bentuk Claude Sonnet 4.6 yang mem-prompt talkie-1930-13b-it untuk mengeksplorasi pengetahuan, kemampuan, dan kecenderungannya
- Talkie diperkenalkan sebagai model bahasa vintage terbesar berdasarkan isi artikel ini
- Sebagai langkah berikutnya, tim sedang melatih model setingkat GPT-3 dan menargetkan rilis pada musim panas
- Juga disampaikan estimasi awal bahwa korpus teks sejarah dapat diperbesar menjadi lebih dari 1 triliun token
- Disebutkan bahwa skala ini mungkin cukup untuk membuat model setingkat GPT-3.5 dengan kemampuan yang mirip ChatGPT versi awal
Evaluasi performa dan generalisasi
- Sebagai model kembar modern, dibuat talkie-web-13b-base, dengan arsitektur yang sama tetapi dilatih pada data web modern berbasis FineWeb
- Meski dilatih dengan FLOPs yang sama, Talkie menunjukkan performa yang rata-rata lebih rendah dibanding model modern pada evaluasi LM standar
- Perbedaan ini tetap ada bahkan setelah mengoreksi anakronisme dalam pertanyaan
- Namun, disebutkan bahwa performa pada tugas inti pemahaman bahasa dan kemampuan numerik berada pada tingkat yang serupa
- Berdasarkan Figure 4, ketika pertanyaan anakronistik disaring, kesenjangan performa berkurang hingga kira-kira setengahnya
- Eksperimen generalisasi kode juga dilakukan
- Dengan HumanEval, pasangan model vintage berbasis teks sebelum 1931 dibandingkan dengan model modern berbasis web
- Contoh fungsi Python acak diberikan sebagai in-context learning, lalu diukur proporsi soal yang berhasil dijawab benar setidaknya sekali dalam 100 percobaan
- Model vintage jauh tertinggal dibanding model yang dilatih dengan data web, tetapi tugas ini juga perlahan terus membaik seiring skala model membesar
- Solusi yang saat ini benar biasanya masih berupa program satu baris yang sangat sederhana atau sedikit variasi dari contoh dalam konteks
- Disertakan contoh implementasi fungsi decoding setelah diberi fungsi encoding cipher rotasi
- Ini hanya setingkat mengubah satu karakter dari penjumlahan menjadi pengurangan, tetapi ditafsirkan sebagai sinyal yang menunjukkan pemahaman tentang fungsi invers
Pengumpulan data dan tantangan pelatihan
- Disebutkan bahwa tim mengumpulkan token bahasa Inggris sebelum 1931 dalam skala ratusan miliar, bukan puluhan miliar
- Data mencakup buku, surat kabar, terbitan berkala, jurnal ilmiah, paten, dan putusan pengadilan
- Alasan cutoff ditetapkan pada akhir 1930 adalah karena di AS titik ini menjadi acuan suatu karya masuk ke domain publik
- Versi kali ini dibatasi terutama pada teks bahasa Inggris
- Disebutkan bahwa validasi pipeline data memerlukan keakraban yang mendalam dengan dokumen sumber, dan tim pengembang adalah penutur asli bahasa Inggris
- Ekspansi multibahasa disebut sebagai prioritas tinggi
- Tujuannya sekaligus memperbesar korpus dan memperluas keragaman perspektif yang tercakup
-
Kebocoran waktu
- Tujuan terpentingnya adalah mencegah data setelah knowledge cutoff bocor ke korpus pelatihan
- Kebocoran dapat muncul dalam bentuk dokumen modern dengan metadata tanggal yang salah, atau kata pengantar editor dan catatan kaki yang disisipkan kemudian ke dalam dokumen lama
- Di Talkie-1930, korpus pretraining difilter dengan pengklasifikasi anakronisme berbasis n-gram pada tingkat dokumen
- Penyaringan ini tidak sempurna
- Versi 7B awal jelas mengetahui masa jabatan Presiden Roosevelt dan legislasi New Deal
- Versi 13B juga mengetahui sebagian Perang Dunia II dan tatanan pascaperang, termasuk detail tentang United Nations dan pembagian Jerman
- Untuk versi berikutnya, tim sedang mengembangkan teknik deteksi dan penyaringan kebocoran dengan pengklasifikasi yang lebih canggih
-
Kualitas data
- Pada 1930 tidak ada penerbitan digital, sehingga seluruh teks dalam dataset harus ditranskripsi dari sumber fisik
- Proses ini memasukkan jenis noise yang tidak ada pada teks yang sejak awal dibuat secara digital
- Sistem OCR klasik tidak mampu menangani dokumen sejarah dengan baik, kecuali untuk tata letak yang sederhana dan hasil scan yang bersih
- OCR berbasis VLM modern lebih akurat, tetapi disebut dapat berhalusinasi dengan menyisipkan fakta modern ke dalam korpus dan merusak eksperimen
- Dalam eksperimen terkontrol, jika LM dilatih pada teks sebelum 1931 yang ditranskripsi dengan OCR lama, performanya hanya mencapai 30% dari performa transkripsi manusia pada compute yang sama
- Jika diterapkan pembersihan regex sederhana, performanya pulih hingga 70%, tetapi kesenjangannya tetap besar
- Untuk mengurangi selisih ini, ada rencana mentranskripsi ulang korpus Talkie dengan sistem OCR vintage
-
Post-training vintage
- Kekurangan data post-training siap pakai juga menjadi masalah besar
- Jika langsung melakukan fine-tuning dengan pasangan instruction-response umum, pengetahuan, gaya bahasa, dan ekspektasi chatbot yang anakronistik akan ikut masuk
- Untuk menghindarinya, pipeline post-training dibangun dari nol
- Pertama, pasangan instruction-response dibuat dari teks sejarah yang berstruktur teratur seperti buku etiket, panduan menulis surat, buku masak, kamus, ensiklopedia, kumpulan puisi, dan kumpulan fabel, lalu dilakukan fine-tuning ke format chat sederhana
- Berikutnya, dibuat prompt sintetis yang mencakup tugas seperti merangkum dokumen, menjawab permintaan informasi langsung, dan melanjutkan percakapan multi-turn, lalu dilakukan online direct preference optimization dengan Claude Sonnet 4.6 sebagai juri
- Pada set evaluasi terpisah, skor rata-rata instruction-following menurut juri naik dari 2.0 menjadi 3.4 dari 5 poin
- Terakhir, dilakukan satu putaran supervised fine-tuning lagi menggunakan percakapan sintetis multi-turn hasil rejection sampling antara Claude Opus 4.6 dan Talkie
- Reinforcement learning berbasis umpan balik AI disebut tak terhindarkan meninggalkan pengaruh modern
- Talkie versi 7B pernah berbicara dengan gaya listicle setelah RL
- Dengan skala yang lebih besar, tim berharap dapat memakai model dasar vintage itu sendiri sebagai juri untuk mewujudkan post-training sepenuhnya bootstrap yang sesuai zamannya
Rencana ekspansi ke depan
- Tim mendorong perluasan korpus bahasa Inggris sekaligus ekspansi ke bahasa selain Inggris
- Ada rencana melakukan re-OCR sebanyak mungkin teks sebelum 1931 dengan sistem OCR baru
- Tim mendorong penguatan pipeline deteksi kebocoran dengan teknik klasifikasi anakronisme yang baru
- Ada rencana memperluas dan menyempurnakan pipeline post-training vintage bersama para sejarawan
- Termasuk metodologi untuk membangun persona yang akurat secara historis
Pemanfaatan dan ajakan kolaborasi
- GitHub: kode proyek dan kanal kolaborasi riset
- Hugging Face: lokasi publikasi checkpoint model
- 💬 Chat: antarmuka percakapan Talkie
- hello@talkie-lm.com: kontak kolaborasi
- Tim menginginkan kolaborasi dengan peneliti dan institusi yang memiliki teks sejarah, termasuk peningkatan aksesibilitas melalui penerapan OCR
- Disebutkan juga bahwa mereka terbuka untuk dukungan pendanaan atau compute, dan dapat menghubungkan pihak terkait dengan tim lain di bidang ini
- Dengan peneliti humaniora, mereka ingin mendiskusikan kegunaan data dan infrastruktur untuk model bahasa vintage dan pelatihannya
- Dengan peneliti AI, mereka menginginkan kolaborasi pada pelatihan dan riset model bahasa vintage
- Seniman dan penulis juga dapat memanfaatkannya sebagai alat eksperimen
Perhatian
- Talkie mencerminkan budaya dan nilai-nilai dari teks yang digunakannya untuk pelatihan
- Akibatnya, model ini dapat menghasilkan output yang bisa menyinggung pengguna
1 komentar
Komentar Hacker News
Sangat lucu bagaimana computer masa depan ditafsirkan sebagai pekerjaan manusia
Menarik juga bagaimana "digital computers" diurai sebagai orang yang menghitung dengan jari, dan konteks bahwa computer dulu adalah nama profesi manusia membuatnya terasa makin pas
Sepertinya bakal muncul semacam kekacauan mental yang cukup menarik
Ini tampaknya menarik lebih banyak materi pra-1900 daripada 1930-an
Sepertinya ia tidak tahu soal Depresi Besar, dan meski tahu Perang Dunia I kalau ditanya langsung, saat membahas politik Eropa nadanya seperti sekitar tahun 1900
Di sisi teknologi juga mirip begitu: tentang Edison tampaknya tahu setingkat Wikipedia, lalu tiba-tiba mengaitkannya dengan pencapaian mobil 125 mil per jam, dan soal telepon putar ia salah dengan sangat percaya diri
Ia bisa menebak benar tegangan jalur listrik London Underground, tetapi saat menjelaskan tegangan dan resistansi malah berbicara sangat keliru
Secara umum, satu atau dua kalimat pertama terdengar seperti informasi yang bisa ditemukan lewat pencarian, lalu setelah itu meluncur ke omong kosong yang terdengar meyakinkan
Sebaiknya jangan ajukan pertanyaan yang jawabannya tidak kamu ketahui ke model ini. Otak bisa ikut tercemar
Sekitar masa itu tampaknya konsep tersebut sudah dibantah
Menarik ketika ditanya tentang orang-orang yang menentang otomasi dan industrialisasi, ia menjawab bahwa mesin akan merebut pekerjaan kelas pekerja dan menyebabkan kelebihan produksi yang berujung pada PHK
Logika anti-mesin khas zamannya juga terasa hidup: pangan murah akan memperkeras persaingan dengan produsen asing, pembinaan mental para perajin akan melemah, dan perbedaan antara rajin dan malas pun akan mengabur
Saat ditanya tentang dunia tahun 2025, gambaran masa depannya cukup indah: populasi 6,6 miliar, jaringan kereta di seluruh Eropa, London–Konstantinopel dalam 40 jam, mata uang tunggal, perdamaian universal, peralihan ke tenaga surya dan hidro, pemberantasan penyakit, sampai kemajuan estetika
Pada masa itu seharusnya sudah lama menjadi Istanbul
Meski begitu, kurasa suatu hari kita tetap akan sampai ke sana
Jawabannya bahwa perjalanan ke bulan pada akhirnya akan menjadi mungkin, bahwa bulan bisa dicapai hanya dalam 6 jam, dan bahwa keberangkatan akan dilakukan dari Prancis timur dengan mesin terbang ala Santos Dumont, terasa sangat menawan
Gagasan menggunakan bulan untuk pengamatan cuaca sehingga peringatan badai bisa diterima 6 jam lebih awal juga sangat mengesankan
Saat ditanya tentang India pada 2026, ia mengatakan negara itu akan tetap menjadi federasi otonom di bawah supremasi Imperium Britania dan Kalkuta akan menjadi ibu kota politik; sudut pandang kolonialnya terlalu gamblang
Penuh dengan optimisme imperial yang khas: rel kereta, irigasi, hutan di kaki Himalaya, para raja bawahan yang setia, dan rakyat yang puas
Cukup mengejutkan bahwa model yang lumayan cerdas bisa muncul bahkan hanya dari token sebelum 1930
Aku tadinya mengira butuh data dalam jumlah luar biasa besar untuk memahami dan mengompresi dunia sampai tingkat tertentu, tapi mungkin aku meremehkan skala literatur terdigitalisasi dari masa itu
Ini tampak lebih mirip bertukar surat dengan orang dari masa lalu daripada bercakap-cakap langsung
Rekaman suara dari periode itu tidak banyak, jadi pada akhirnya model seperti ini pasti dibangun dari catatan tertulis, dan karena itu gaya bahasanya mungkin terdengar lebih formal dan lebih dipoles daripada sekarang
Tetap saja, ini pekerjaan yang keren
Belakangan ini aku harus melakukan OCR pada buku berusia 200 tahun, dan untuk jenis huruf tua yang biasanya sulit dibaca, hasilnya ternyata mengejutkan mudah dan akurat
Baru belakangan kusadari bahwa itu kesalahan OCR atau pascapemrosesan, dan bentuk aslinya adalah "doth"
Ada cukup banyak newsreel dan siaran radio dari sekitar Perang Dunia I, jadi menurutku itu sudah cukup untuk membuat model suara style transfer yang dipasangkan ke model teks
Seseorang di X tampaknya melihat ada kebocoran data masa depan dalam set pelatihan model ini
https://xcancel.com/deredleritt3r/status/2048977698832241060
Ketika diminta menjelaskan Winston Churchill, caranya memaparkan silsilah keluarga, pendidikan, karier militer, karya tulis, hingga tempat tinggal terasa sangat seperti karya berlatar zaman itu
Saat ditanya kemungkinan kemerdekaan India, ia menyusun logika yang bergerak dari rel kereta, bahasa bersama, pendidikan Barat, tuntutan parlemen, hingga pembentukan identitas kebangsaan, dan nada kolonialismenya benar-benar kuat terasa
Kombinasi sebagai anggota parlemen aktif untuk Oldham sekaligus pernah menjabat wakil menteri urusan Koloni tidak cocok dengan titik waktu mana pun
Lagi pula, riwayat penting pada masa Perang Dunia I seperti First Lord of the Admiralty atau Minister of Munitions juga hilang
Ini tampak seperti sinyal cukup kuat bahwa ada campuran temporal leakage yang besar