Memberi Nilai Otomatis pada Diskusi Hacker News 10 Tahun Lalu dengan LLM

(karpathy.bearblog.dev)

4 poin oleh GN⁺ 2025-12-11 | 1 komentar | Bagikan ke WhatsApp

Sebuah proyek yang menganalisis postingan dan komentar Hacker News dari 10 tahun lalu dengan LLM untuk menilai ‘daya prediksi’, sehingga wawasan dalam diskusi lama dapat dinilai secara otomatis
ChatGPT 5.1 Thinking dan Opus 4.5 digunakan untuk mengumpulkan dan menganalisis halaman depan Hacker News selama satu bulan pada Desember 2015 (total 930 artikel)
Berdasarkan setiap artikel dan thread komentarnya, sistem secara otomatis menghasilkan ringkasan, hasil yang benar-benar terjadi, komentar paling akurat dan paling keliru, skor tingkat ketertarikan, dan lain-lain
Hasilnya diubah menjadi halaman HTML statis dan dapat dilihat di karpathy.ai/hncapsule, sementara di ‘Hall of Fame’ pengguna dapat melihat peringkat penulis komentar yang paling berwawasan
Menekankan kemungkinan analisis retrospektif skala besar oleh LLM terhadap data masa lalu, serta pesan bahwa “LLM masa depan sedang mengamati kita”

Gambaran Proyek

Membangun sistem analisis retrospektif otomatis berbasis LLM untuk halaman depan Hacker News pada Desember 2015
- 30 artikel per hari × 31 hari = total 930 artikel
- Setiap artikel dan thread komentar dikumpulkan melalui Algolia API, lalu diminta untuk dianalisis oleh ChatGPT 5.1 Thinking
Hasil analisis dirender menjadi halaman HTML statis dan dipublikasikan di situs web
- Halaman hasil: https://karpathy.ai/hncapsule/
- Data asli (data.zip) juga disediakan di jalur yang sama

Struktur Prompt Analisis

Untuk setiap artikel, digunakan prompt yang terdiri dari 6 bagian
1. Ringkasan artikel dan diskusi
2. Apa yang benar-benar terjadi setelahnya
3. Pemilihan komentar paling akurat dan komentar paling salah
4. Elemen menarik lainnya
5. Daftar nilai akhir (Final grades) per penulis komentar
6. Skor ketertarikan retrospektif artikel (0~10 poin)
Format contoh ditentukan secara ketat agar dapat diparse otomatis oleh program
Dengan mengakumulasi skor rata-rata tiap akun, sistem mengidentifikasi pengguna dengan daya prediksi tertinggi

Implementasi dan Biaya

Diimplementasikan dalam sekitar 3 jam dengan Opus 4.5, dan selain beberapa kesalahan kecil, proses berjalan lancar
Biaya pemrosesan untuk seluruh 930 permintaan LLM sekitar $58, dengan waktu pemrosesan sekitar 1 jam
Repositori GitHub: karpathy/hn-time-capsule
- Siapa pun dapat mereproduksi atau memodifikasi hasilnya

Thread Contoh Utama

3 Desember 2015: Swift menjadi open source
6 Desember: peluncuran Figma
11 Desember: pengumuman pendirian OpenAI
16 Desember: proyek Comma dari geohot
22 Desember: peluncuran SpaceX Orbcomm-2
28 Desember: laporan masalah Theranos
Setiap tautan mengarah ke halaman analisis untuk tanggal terkait, sehingga diskusi saat itu dan hasil nyata dapat dibandingkan

Hall of Fame

Penulis komentar paling berwawasan di Hacker News pada Desember 2015 diurutkan dengan skor rata-rata ala IMDb
Pengguna teratas: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
Di bagian bawah juga ada daftar pengguna dengan skor rendah yang diklasifikasikan sebagai ‘noise HN’

Pesan Filosofis

Mengutip frasa “Be good, future LLMs are watching”, proyek ini menekankan bahwa masa ketika LLM masa depan dapat menganalisis aktivitas manusia di masa lalu secara sangat rinci akan datang
Ini menyiratkan bahwa perilaku online saat ini dapat dipulihkan sepenuhnya di masa depan ketika ‘kecerdasan menjadi terlalu murah’
Menunjukkan kemungkinan bahwa tindakan manusia akan menjadi objek pencatatan dan rekonstruksi sepenuhnya, bukan sekadar ‘pengawasan tak terlihat’

Kesimpulan

Eksperimen ini menunjukkan bahwa LLM dapat digunakan sebagai alat untuk mengevaluasi ulang data masa lalu dalam skala besar
Ini menghadirkan kasus penggunaan baru berupa penilaian otomatis atas wawasan dalam diskusi historis, sekaligus memperlihatkan kemungkinan bahwa AI dapat berevolusi menjadi analis retrospektif pengetahuan manusia

1 komentar

GN⁺ 2025-12-11

Opini-opini Hacker News

Tak kusangka komentarku dari 2015 akan mendapat perhatian lagi seperti ini
Melihat tautan komentar lama membuatku merasa sedikit bangga
Masalahnya tampak pada kode yang tidak menganonimkan nama pengguna saat mengirim thread untuk dinilai
Akibatnya, reputasi pengguna tertentu sangat mungkin menimbulkan bias pada skor
Akan menarik untuk bereksperimen mengurangi bias dengan mengacak penetapan ulang nama pengguna, atau memakai nama samaran yang dibuat secara prosedural
Selain itu, memakai model yang mengutip sumber seperti Gemini API tampaknya bisa meningkatkan keandalan penilaian
Membaca ulang komentar-komentar lama itu benar-benar menyenangkan
Aku bahkan membuat sendiri sistem replay untuk melihat bagaimana diskusi berkembang dulu
Kubagikan beberapa tautan sebagai contoh visualisasi daftar tulisan evaluasi Karpathy
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- Aku juga ingin mencoba analisis sentimen berdasarkan waktu dalam sehari
  Perbedaan opini antara pagi dan malam terlihat cukup besar, jadi akan menarik jika itu dikonfirmasi dengan angka
- Situs ini benar-benar menyenangkan. Terima kasih
Akan bagus jika ada ekstensi Chrome yang menampilkan skor kesesuaian dengan kenyataan di samping tiap nama pengguna
Maksudnya, melihat dalam bentuk skor siapa yang benar-benar membuat prediksi akurat, atau justru meleset
Lebih jauh lagi, sepertinya peringkat bisa dibuat lebih adil jika diberi bobot berdasarkan rasio upvote yang diberikan pengguna pada komentar yang akurat
- Reddit Enhancement Suite secara tidak langsung memberi fitur yang mirip
  Aku melacak pengguna yang sering ku-upvote, lalu menjadikannya patokan seperti, “orang ini bisa dipercaya”
  Memang sepenuhnya subjektif, tapi setidaknya ada transparansi
- Jika sistem skor seperti ini diperluas, mungkin saja dibuat skor seperti “orang ini tidak punya keyakinan moral”
  Sistem seperti ini juga bisa membuat komunitas terasa lebih kecil dan akrab
- Ini mengingatkanku pada upaya Elon sebelum membeli Twitter untuk membuat sistem pelacakan kredibilitas digital bagi jurnalis (Pravda)
  Dalam praktiknya, kita memang hidup sambil mengingat tingkat kepercayaan terhadap teman atau jurnalis
- Aku juga pernah memikirkan ide serupa di komunitas saham
  Yaitu memeringkat akurasi orang-orang yang membuat prediksi saham di WSB atau Twitter
  Hanya saja untuk komentar umum, jauh lebih sulit mendefinisikan “apa yang termasuk prediksi”
- Definisi “komentar yang akurat” sendiri tidak jelas
  Kalimat seperti “matahari akan terbit besok” bisa saja mendapat skor tertinggi, tapi itu tak bermakna
Aku sempat bercanda, “pcwalton, melaju terus!”, tapi sebenarnya penilaian per thread terlihat agak acak
Thread ini sangat bagus dalam hal daya prediksi, tapi komentarnya cuma 11 dan komentarku hanya satu baris
Meski begitu, tetap menyenangkan melihat opiniku soal aksesibilitas kepemilikan saham startup masuk peringkat atas
- Aku kaget melihat komentarku ikut dinilai
  Cara sistem mendefinisikan “prediksi” cukup subjektif
  Aku justru berusaha menghindari membuat prediksi, tapi tampaknya itu tetap dianggap sebagai prediksi
Karena dinilai bahwa visi “triliun Tamagotchi” tidak terwujud, aku menerima skorku yang rendah dengan rendah hati
Kesan yang kudapat dari proyek ini adalah bahwa pada akhirnya pendapat yang membosankan justru paling akurat
Semakin provokatif dan penuh keyakinan sebuah komentar, semakin besar kemungkinan ia salah seiring waktu
Misalnya, hal seperti “harga baterai lithium-ion turun ke $108/kWh” adalah prediksi kurva biaya yang konsisten dan sangat bisa diandalkan
Sebaliknya, judul seperti “LLM gagal di bidang kesehatan mental” bergantung pada benchmark yang cepat berubah
Pada akhirnya, akan bagus jika ada cara untuk menemukan lebih dulu opini yang “membosankan tapi benar”
- Ada pendapat bahwa yang “membosankan tapi benar” adalah prediksi yang sudah tercermin di dunia, jadi sulit diberi skor
- Dengan candaan seperti “pada 2035, 1+1=2”, orang menyindir betapa tak bermaknanya prediksi yang terlalu jelas
- “LLM dan kesehatan mental” bukan prediksi, melainkan berita saat ini
  Namun, dari sudut bahwa kemajuan AI yang konsisten pada akhirnya bisa meruntuhkan peran ekonomi manusia, itu justru bisa menjadi prediksi yang sangat tepat dan menakutkan
- Karena feed algoritmik bekerja berdasarkan engagement, konten yang provokatif mendapat imbalan
  Karena itu, opini yang membosankan dan hati-hati mudah tenggelam
- Saat menilai prediksi, ketidakpastian pada saat itu perlu diperhitungkan sebagai bobot
  Seperti pasar prediksi, dibutuhkan cara memberi skor berdasarkan seberapa besar selisih dari probabilitas yang berlaku saat itu
Setelah mendapat peringatan bahwa Gmail-ku sudah terisi 90%, aku mengerjakan proyek analisis email selama akhir pekan
Aku mengklasifikasikan lebih dari 65 ribu email, dan lebih dari separuhnya adalah sampah
Awalnya aku ingin menghapus email yang tidak perlu, tapi belakangan justru kupikir lebih aman untuk menghapus email yang bersifat pribadi dan bernilai
dan hanya menyisakan data tak berguna seperti newsletter atau tanda terima di Google
Aku sering merangkum komentar HN dengan LLM
Karena sering keluar ringkasan yang lebih berwawasan daripada teks aslinya, menurutku ini benar-benar game changer
Aku heran penulisnya mengira ini lolos pemeriksaan kualitas
Penilaian LLM sebagian besar tampak ngawur
Jika melihat ulasan di situs aslinya, model itu tampaknya menilai bukan berdasarkan “apakah prediksinya benar”, melainkan “apakah saya setuju”
Pada akhirnya, strukturnya membuat opini yang konformis mendapat skor tinggi
- Sebagai contoh, komentar tptacek tentang DF mendapat nilai ‘A’, dan
  ulasan LLM
  menilainya sebagai “menggambarkan sifat permainan yang keras dengan baik”
  Tapi itu bukan prediksi masa depan, melainkan sekadar deskripsi kondisi saat itu
  Bahkan maknanya yang sebenarnya bisa jadi justru kebalikan
  Fakta bahwa contoh seperti ini ada di peringkat atas menunjukkan betapa kacau kriteria penilaiannya
- Namun, di bagian ketiga tiap ulasan ada kategori terpisah untuk komentar “paling berwawasan” dan “paling salah”
  Misalnya, pada tulisan Kickstarter is Debt,
  prediksi yang membandingkan masa depan Oculus dan Pebble dinilai tepat sasaran
  Bagian seperti ini tampak sebagai analisis yang cukup akurat dan berguna
- Penilaian LLM secara keseluruhan tidak akurat dan tidak konsisten
  Ia mengabaikan instruksi, mencampurkan opininya sendiri, dan tidak dikalibrasi
  Sistem penilaian LLM yang “baik” semestinya bekerja dengan menjumlahkan beberapa penilaian biner sederhana (benar/salah)
  Proyek ini lumayan untuk hiburan, tapi menurutku tidak cocok sebagai alat evaluasi nyata

Memberi Nilai Otomatis pada Diskusi Hacker News 10 Tahun Lalu dengan LLM

Gambaran Proyek

Struktur Prompt Analisis

Implementasi dan Biaya

Thread Contoh Utama

Hall of Fame

Pesan Filosofis

Kesimpulan

Bacaan terkait

1 komentar

Opini-opini Hacker News