Memberi Nilai Otomatis pada Diskusi Hacker News 10 Tahun Lalu dengan LLM
(karpathy.bearblog.dev)- Sebuah proyek yang menganalisis postingan dan komentar Hacker News dari 10 tahun lalu dengan LLM untuk menilai ‘daya prediksi’, sehingga wawasan dalam diskusi lama dapat dinilai secara otomatis
- ChatGPT 5.1 Thinking dan Opus 4.5 digunakan untuk mengumpulkan dan menganalisis halaman depan Hacker News selama satu bulan pada Desember 2015 (total 930 artikel)
- Berdasarkan setiap artikel dan thread komentarnya, sistem secara otomatis menghasilkan ringkasan, hasil yang benar-benar terjadi, komentar paling akurat dan paling keliru, skor tingkat ketertarikan, dan lain-lain
- Hasilnya diubah menjadi halaman HTML statis dan dapat dilihat di karpathy.ai/hncapsule, sementara di ‘Hall of Fame’ pengguna dapat melihat peringkat penulis komentar yang paling berwawasan
- Menekankan kemungkinan analisis retrospektif skala besar oleh LLM terhadap data masa lalu, serta pesan bahwa “LLM masa depan sedang mengamati kita”
Gambaran Proyek
- Membangun sistem analisis retrospektif otomatis berbasis LLM untuk halaman depan Hacker News pada Desember 2015
- 30 artikel per hari × 31 hari = total 930 artikel
- Setiap artikel dan thread komentar dikumpulkan melalui Algolia API, lalu diminta untuk dianalisis oleh ChatGPT 5.1 Thinking
- Hasil analisis dirender menjadi halaman HTML statis dan dipublikasikan di situs web
- Halaman hasil: https://karpathy.ai/hncapsule/
- Data asli (
data.zip) juga disediakan di jalur yang sama
Struktur Prompt Analisis
- Untuk setiap artikel, digunakan prompt yang terdiri dari 6 bagian
- Ringkasan artikel dan diskusi
- Apa yang benar-benar terjadi setelahnya
- Pemilihan komentar paling akurat dan komentar paling salah
- Elemen menarik lainnya
- Daftar nilai akhir (Final grades) per penulis komentar
- Skor ketertarikan retrospektif artikel (0~10 poin)
- Format contoh ditentukan secara ketat agar dapat diparse otomatis oleh program
- Dengan mengakumulasi skor rata-rata tiap akun, sistem mengidentifikasi pengguna dengan daya prediksi tertinggi
Implementasi dan Biaya
- Diimplementasikan dalam sekitar 3 jam dengan Opus 4.5, dan selain beberapa kesalahan kecil, proses berjalan lancar
- Biaya pemrosesan untuk seluruh 930 permintaan LLM sekitar $58, dengan waktu pemrosesan sekitar 1 jam
- Repositori GitHub: karpathy/hn-time-capsule
- Siapa pun dapat mereproduksi atau memodifikasi hasilnya
Thread Contoh Utama
- 3 Desember 2015: Swift menjadi open source
- 6 Desember: peluncuran Figma
- 11 Desember: pengumuman pendirian OpenAI
- 16 Desember: proyek Comma dari geohot
- 22 Desember: peluncuran SpaceX Orbcomm-2
- 28 Desember: laporan masalah Theranos
- Setiap tautan mengarah ke halaman analisis untuk tanggal terkait, sehingga diskusi saat itu dan hasil nyata dapat dibandingkan
Hall of Fame
- Penulis komentar paling berwawasan di Hacker News pada Desember 2015 diurutkan dengan skor rata-rata ala IMDb
- Pengguna teratas: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- Di bagian bawah juga ada daftar pengguna dengan skor rendah yang diklasifikasikan sebagai ‘noise HN’
Pesan Filosofis
- Mengutip frasa “Be good, future LLMs are watching”, proyek ini menekankan bahwa masa ketika LLM masa depan dapat menganalisis aktivitas manusia di masa lalu secara sangat rinci akan datang
- Ini menyiratkan bahwa perilaku online saat ini dapat dipulihkan sepenuhnya di masa depan ketika ‘kecerdasan menjadi terlalu murah’
- Menunjukkan kemungkinan bahwa tindakan manusia akan menjadi objek pencatatan dan rekonstruksi sepenuhnya, bukan sekadar ‘pengawasan tak terlihat’
Kesimpulan
- Eksperimen ini menunjukkan bahwa LLM dapat digunakan sebagai alat untuk mengevaluasi ulang data masa lalu dalam skala besar
- Ini menghadirkan kasus penggunaan baru berupa penilaian otomatis atas wawasan dalam diskusi historis, sekaligus memperlihatkan kemungkinan bahwa AI dapat berevolusi menjadi analis retrospektif pengetahuan manusia
1 komentar
Opini-opini Hacker News
Tak kusangka komentarku dari 2015 akan mendapat perhatian lagi seperti ini
Melihat tautan komentar lama membuatku merasa sedikit bangga
Masalahnya tampak pada kode yang tidak menganonimkan nama pengguna saat mengirim thread untuk dinilai
Akibatnya, reputasi pengguna tertentu sangat mungkin menimbulkan bias pada skor
Akan menarik untuk bereksperimen mengurangi bias dengan mengacak penetapan ulang nama pengguna, atau memakai nama samaran yang dibuat secara prosedural
Selain itu, memakai model yang mengutip sumber seperti Gemini API tampaknya bisa meningkatkan keandalan penilaian
Membaca ulang komentar-komentar lama itu benar-benar menyenangkan
Aku bahkan membuat sendiri sistem replay untuk melihat bagaimana diskusi berkembang dulu
Kubagikan beberapa tautan sebagai contoh visualisasi daftar tulisan evaluasi Karpathy
Perbedaan opini antara pagi dan malam terlihat cukup besar, jadi akan menarik jika itu dikonfirmasi dengan angka
Akan bagus jika ada ekstensi Chrome yang menampilkan skor kesesuaian dengan kenyataan di samping tiap nama pengguna
Maksudnya, melihat dalam bentuk skor siapa yang benar-benar membuat prediksi akurat, atau justru meleset
Lebih jauh lagi, sepertinya peringkat bisa dibuat lebih adil jika diberi bobot berdasarkan rasio upvote yang diberikan pengguna pada komentar yang akurat
Aku melacak pengguna yang sering ku-upvote, lalu menjadikannya patokan seperti, “orang ini bisa dipercaya”
Memang sepenuhnya subjektif, tapi setidaknya ada transparansi
Sistem seperti ini juga bisa membuat komunitas terasa lebih kecil dan akrab
Dalam praktiknya, kita memang hidup sambil mengingat tingkat kepercayaan terhadap teman atau jurnalis
Yaitu memeringkat akurasi orang-orang yang membuat prediksi saham di WSB atau Twitter
Hanya saja untuk komentar umum, jauh lebih sulit mendefinisikan “apa yang termasuk prediksi”
Kalimat seperti “matahari akan terbit besok” bisa saja mendapat skor tertinggi, tapi itu tak bermakna
Aku sempat bercanda, “pcwalton, melaju terus!”, tapi sebenarnya penilaian per thread terlihat agak acak
Thread ini sangat bagus dalam hal daya prediksi, tapi komentarnya cuma 11 dan komentarku hanya satu baris
Meski begitu, tetap menyenangkan melihat opiniku soal aksesibilitas kepemilikan saham startup masuk peringkat atas
Cara sistem mendefinisikan “prediksi” cukup subjektif
Aku justru berusaha menghindari membuat prediksi, tapi tampaknya itu tetap dianggap sebagai prediksi
Karena dinilai bahwa visi “triliun Tamagotchi” tidak terwujud, aku menerima skorku yang rendah dengan rendah hati
Kesan yang kudapat dari proyek ini adalah bahwa pada akhirnya pendapat yang membosankan justru paling akurat
Semakin provokatif dan penuh keyakinan sebuah komentar, semakin besar kemungkinan ia salah seiring waktu
Misalnya, hal seperti “harga baterai lithium-ion turun ke $108/kWh” adalah prediksi kurva biaya yang konsisten dan sangat bisa diandalkan
Sebaliknya, judul seperti “LLM gagal di bidang kesehatan mental” bergantung pada benchmark yang cepat berubah
Pada akhirnya, akan bagus jika ada cara untuk menemukan lebih dulu opini yang “membosankan tapi benar”
Namun, dari sudut bahwa kemajuan AI yang konsisten pada akhirnya bisa meruntuhkan peran ekonomi manusia, itu justru bisa menjadi prediksi yang sangat tepat dan menakutkan
Karena itu, opini yang membosankan dan hati-hati mudah tenggelam
Seperti pasar prediksi, dibutuhkan cara memberi skor berdasarkan seberapa besar selisih dari probabilitas yang berlaku saat itu
Setelah mendapat peringatan bahwa Gmail-ku sudah terisi 90%, aku mengerjakan proyek analisis email selama akhir pekan
Aku mengklasifikasikan lebih dari 65 ribu email, dan lebih dari separuhnya adalah sampah
Awalnya aku ingin menghapus email yang tidak perlu, tapi belakangan justru kupikir lebih aman untuk menghapus email yang bersifat pribadi dan bernilai
dan hanya menyisakan data tak berguna seperti newsletter atau tanda terima di Google
Aku sering merangkum komentar HN dengan LLM
Karena sering keluar ringkasan yang lebih berwawasan daripada teks aslinya, menurutku ini benar-benar game changer
Aku heran penulisnya mengira ini lolos pemeriksaan kualitas
Penilaian LLM sebagian besar tampak ngawur
Jika melihat ulasan di situs aslinya, model itu tampaknya menilai bukan berdasarkan “apakah prediksinya benar”, melainkan “apakah saya setuju”
Pada akhirnya, strukturnya membuat opini yang konformis mendapat skor tinggi
ulasan LLM
menilainya sebagai “menggambarkan sifat permainan yang keras dengan baik”
Tapi itu bukan prediksi masa depan, melainkan sekadar deskripsi kondisi saat itu
Bahkan maknanya yang sebenarnya bisa jadi justru kebalikan
Fakta bahwa contoh seperti ini ada di peringkat atas menunjukkan betapa kacau kriteria penilaiannya
Misalnya, pada tulisan Kickstarter is Debt,
prediksi yang membandingkan masa depan Oculus dan Pebble dinilai tepat sasaran
Bagian seperti ini tampak sebagai analisis yang cukup akurat dan berguna
Ia mengabaikan instruksi, mencampurkan opininya sendiri, dan tidak dikalibrasi
Sistem penilaian LLM yang “baik” semestinya bekerja dengan menjumlahkan beberapa penilaian biner sederhana (benar/salah)
Proyek ini lumayan untuk hiburan, tapi menurutku tidak cocok sebagai alat evaluasi nyata