4 poin oleh GN⁺ 2025-12-11 | 1 komentar | Bagikan ke WhatsApp
  • Sebuah proyek yang menganalisis postingan dan komentar Hacker News dari 10 tahun lalu dengan LLM untuk menilai ‘daya prediksi’, sehingga wawasan dalam diskusi lama dapat dinilai secara otomatis
  • ChatGPT 5.1 Thinking dan Opus 4.5 digunakan untuk mengumpulkan dan menganalisis halaman depan Hacker News selama satu bulan pada Desember 2015 (total 930 artikel)
  • Berdasarkan setiap artikel dan thread komentarnya, sistem secara otomatis menghasilkan ringkasan, hasil yang benar-benar terjadi, komentar paling akurat dan paling keliru, skor tingkat ketertarikan, dan lain-lain
  • Hasilnya diubah menjadi halaman HTML statis dan dapat dilihat di karpathy.ai/hncapsule, sementara di ‘Hall of Fame’ pengguna dapat melihat peringkat penulis komentar yang paling berwawasan
  • Menekankan kemungkinan analisis retrospektif skala besar oleh LLM terhadap data masa lalu, serta pesan bahwa “LLM masa depan sedang mengamati kita”

Gambaran Proyek

  • Membangun sistem analisis retrospektif otomatis berbasis LLM untuk halaman depan Hacker News pada Desember 2015
    • 30 artikel per hari × 31 hari = total 930 artikel
    • Setiap artikel dan thread komentar dikumpulkan melalui Algolia API, lalu diminta untuk dianalisis oleh ChatGPT 5.1 Thinking
  • Hasil analisis dirender menjadi halaman HTML statis dan dipublikasikan di situs web
Iklan

Struktur Prompt Analisis

  • Untuk setiap artikel, digunakan prompt yang terdiri dari 6 bagian
    1. Ringkasan artikel dan diskusi
    2. Apa yang benar-benar terjadi setelahnya
    3. Pemilihan komentar paling akurat dan komentar paling salah
    4. Elemen menarik lainnya
    5. Daftar nilai akhir (Final grades) per penulis komentar
    6. Skor ketertarikan retrospektif artikel (0~10 poin)
  • Format contoh ditentukan secara ketat agar dapat diparse otomatis oleh program
  • Dengan mengakumulasi skor rata-rata tiap akun, sistem mengidentifikasi pengguna dengan daya prediksi tertinggi

Implementasi dan Biaya

  • Diimplementasikan dalam sekitar 3 jam dengan Opus 4.5, dan selain beberapa kesalahan kecil, proses berjalan lancar
  • Biaya pemrosesan untuk seluruh 930 permintaan LLM sekitar $58, dengan waktu pemrosesan sekitar 1 jam
  • Repositori GitHub: karpathy/hn-time-capsule
    • Siapa pun dapat mereproduksi atau memodifikasi hasilnya
Iklan

Thread Contoh Utama

  • 3 Desember 2015: Swift menjadi open source
  • 6 Desember: peluncuran Figma
  • 11 Desember: pengumuman pendirian OpenAI
  • 16 Desember: proyek Comma dari geohot
  • 22 Desember: peluncuran SpaceX Orbcomm-2
  • 28 Desember: laporan masalah Theranos
  • Setiap tautan mengarah ke halaman analisis untuk tanggal terkait, sehingga diskusi saat itu dan hasil nyata dapat dibandingkan

Hall of Fame

  • Penulis komentar paling berwawasan di Hacker News pada Desember 2015 diurutkan dengan skor rata-rata ala IMDb
  • Pengguna teratas: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • Di bagian bawah juga ada daftar pengguna dengan skor rendah yang diklasifikasikan sebagai ‘noise HN’

Pesan Filosofis

  • Mengutip frasa “Be good, future LLMs are watching”, proyek ini menekankan bahwa masa ketika LLM masa depan dapat menganalisis aktivitas manusia di masa lalu secara sangat rinci akan datang
  • Ini menyiratkan bahwa perilaku online saat ini dapat dipulihkan sepenuhnya di masa depan ketika ‘kecerdasan menjadi terlalu murah’
  • Menunjukkan kemungkinan bahwa tindakan manusia akan menjadi objek pencatatan dan rekonstruksi sepenuhnya, bukan sekadar ‘pengawasan tak terlihat’

Kesimpulan

  • Eksperimen ini menunjukkan bahwa LLM dapat digunakan sebagai alat untuk mengevaluasi ulang data masa lalu dalam skala besar
  • Ini menghadirkan kasus penggunaan baru berupa penilaian otomatis atas wawasan dalam diskusi historis, sekaligus memperlihatkan kemungkinan bahwa AI dapat berevolusi menjadi analis retrospektif pengetahuan manusia

1 komentar

 
GN⁺ 2025-12-11
Opini-opini Hacker News
  • Tak kusangka komentarku dari 2015 akan mendapat perhatian lagi seperti ini
    Melihat tautan komentar lama membuatku merasa sedikit bangga

  • Masalahnya tampak pada kode yang tidak menganonimkan nama pengguna saat mengirim thread untuk dinilai
    Akibatnya, reputasi pengguna tertentu sangat mungkin menimbulkan bias pada skor
    Akan menarik untuk bereksperimen mengurangi bias dengan mengacak penetapan ulang nama pengguna, atau memakai nama samaran yang dibuat secara prosedural
    Selain itu, memakai model yang mengutip sumber seperti Gemini API tampaknya bisa meningkatkan keandalan penilaian

  • Membaca ulang komentar-komentar lama itu benar-benar menyenangkan
    Aku bahkan membuat sendiri sistem replay untuk melihat bagaimana diskusi berkembang dulu
    Kubagikan beberapa tautan sebagai contoh visualisasi daftar tulisan evaluasi Karpathy

  • Akan bagus jika ada ekstensi Chrome yang menampilkan skor kesesuaian dengan kenyataan di samping tiap nama pengguna
    Maksudnya, melihat dalam bentuk skor siapa yang benar-benar membuat prediksi akurat, atau justru meleset
    Lebih jauh lagi, sepertinya peringkat bisa dibuat lebih adil jika diberi bobot berdasarkan rasio upvote yang diberikan pengguna pada komentar yang akurat

    • Reddit Enhancement Suite secara tidak langsung memberi fitur yang mirip
      Aku melacak pengguna yang sering ku-upvote, lalu menjadikannya patokan seperti, “orang ini bisa dipercaya”
      Memang sepenuhnya subjektif, tapi setidaknya ada transparansi
    • Jika sistem skor seperti ini diperluas, mungkin saja dibuat skor seperti “orang ini tidak punya keyakinan moral
      Sistem seperti ini juga bisa membuat komunitas terasa lebih kecil dan akrab
    • Ini mengingatkanku pada upaya Elon sebelum membeli Twitter untuk membuat sistem pelacakan kredibilitas digital bagi jurnalis (Pravda)
      Dalam praktiknya, kita memang hidup sambil mengingat tingkat kepercayaan terhadap teman atau jurnalis
    • Aku juga pernah memikirkan ide serupa di komunitas saham
      Yaitu memeringkat akurasi orang-orang yang membuat prediksi saham di WSB atau Twitter
      Hanya saja untuk komentar umum, jauh lebih sulit mendefinisikan “apa yang termasuk prediksi”
    • Definisi “komentar yang akurat” sendiri tidak jelas
      Kalimat seperti “matahari akan terbit besok” bisa saja mendapat skor tertinggi, tapi itu tak bermakna
  • Aku sempat bercanda, “pcwalton, melaju terus!”, tapi sebenarnya penilaian per thread terlihat agak acak
    Thread ini sangat bagus dalam hal daya prediksi, tapi komentarnya cuma 11 dan komentarku hanya satu baris
    Meski begitu, tetap menyenangkan melihat opiniku soal aksesibilitas kepemilikan saham startup masuk peringkat atas

    • Aku kaget melihat komentarku ikut dinilai
      Cara sistem mendefinisikan “prediksi” cukup subjektif
      Aku justru berusaha menghindari membuat prediksi, tapi tampaknya itu tetap dianggap sebagai prediksi
  • Karena dinilai bahwa visi “triliun Tamagotchi” tidak terwujud, aku menerima skorku yang rendah dengan rendah hati

  • Kesan yang kudapat dari proyek ini adalah bahwa pada akhirnya pendapat yang membosankan justru paling akurat
    Semakin provokatif dan penuh keyakinan sebuah komentar, semakin besar kemungkinan ia salah seiring waktu
    Misalnya, hal seperti “harga baterai lithium-ion turun ke $108/kWh” adalah prediksi kurva biaya yang konsisten dan sangat bisa diandalkan
    Sebaliknya, judul seperti “LLM gagal di bidang kesehatan mental” bergantung pada benchmark yang cepat berubah
    Pada akhirnya, akan bagus jika ada cara untuk menemukan lebih dulu opini yang “membosankan tapi benar”

    • Ada pendapat bahwa yang “membosankan tapi benar” adalah prediksi yang sudah tercermin di dunia, jadi sulit diberi skor
    • Dengan candaan seperti “pada 2035, 1+1=2”, orang menyindir betapa tak bermaknanya prediksi yang terlalu jelas
    • “LLM dan kesehatan mental” bukan prediksi, melainkan berita saat ini
      Namun, dari sudut bahwa kemajuan AI yang konsisten pada akhirnya bisa meruntuhkan peran ekonomi manusia, itu justru bisa menjadi prediksi yang sangat tepat dan menakutkan
    • Karena feed algoritmik bekerja berdasarkan engagement, konten yang provokatif mendapat imbalan
      Karena itu, opini yang membosankan dan hati-hati mudah tenggelam
    • Saat menilai prediksi, ketidakpastian pada saat itu perlu diperhitungkan sebagai bobot
      Seperti pasar prediksi, dibutuhkan cara memberi skor berdasarkan seberapa besar selisih dari probabilitas yang berlaku saat itu
  • Setelah mendapat peringatan bahwa Gmail-ku sudah terisi 90%, aku mengerjakan proyek analisis email selama akhir pekan
    Aku mengklasifikasikan lebih dari 65 ribu email, dan lebih dari separuhnya adalah sampah
    Awalnya aku ingin menghapus email yang tidak perlu, tapi belakangan justru kupikir lebih aman untuk menghapus email yang bersifat pribadi dan bernilai
    dan hanya menyisakan data tak berguna seperti newsletter atau tanda terima di Google

  • Aku sering merangkum komentar HN dengan LLM
    Karena sering keluar ringkasan yang lebih berwawasan daripada teks aslinya, menurutku ini benar-benar game changer

  • Aku heran penulisnya mengira ini lolos pemeriksaan kualitas
    Penilaian LLM sebagian besar tampak ngawur
    Jika melihat ulasan di situs aslinya, model itu tampaknya menilai bukan berdasarkan “apakah prediksinya benar”, melainkan “apakah saya setuju”
    Pada akhirnya, strukturnya membuat opini yang konformis mendapat skor tinggi

    • Sebagai contoh, komentar tptacek tentang DF mendapat nilai ‘A’, dan
      ulasan LLM
      menilainya sebagai “menggambarkan sifat permainan yang keras dengan baik”
      Tapi itu bukan prediksi masa depan, melainkan sekadar deskripsi kondisi saat itu
      Bahkan maknanya yang sebenarnya bisa jadi justru kebalikan
      Fakta bahwa contoh seperti ini ada di peringkat atas menunjukkan betapa kacau kriteria penilaiannya
    • Namun, di bagian ketiga tiap ulasan ada kategori terpisah untuk komentar “paling berwawasan” dan “paling salah”
      Misalnya, pada tulisan Kickstarter is Debt,
      prediksi yang membandingkan masa depan Oculus dan Pebble dinilai tepat sasaran
      Bagian seperti ini tampak sebagai analisis yang cukup akurat dan berguna
    • Penilaian LLM secara keseluruhan tidak akurat dan tidak konsisten
      Ia mengabaikan instruksi, mencampurkan opininya sendiri, dan tidak dikalibrasi
      Sistem penilaian LLM yang “baik” semestinya bekerja dengan menjumlahkan beberapa penilaian biner sederhana (benar/salah)
      Proyek ini lumayan untuk hiburan, tapi menurutku tidak cocok sebagai alat evaluasi nyata