- Dalam studi analisis sentimen postingan Hacker News, sekitar 65% dari seluruh postingan diklasifikasikan memiliki sentimen negatif, dan postingan-postingan ini rata-rata mencatat skor yang lebih tinggi
- Skor rata-rata postingan negatif adalah 35,6 poin, sementara rata-rata keseluruhan adalah 28 poin, yang menunjukkan premium performa sekitar 27%
- Analisis dilakukan terhadap 32.000 postingan dan 340.000 komentar, dan 6 jenis model menunjukkan bias negatif yang konsisten
- Model yang digunakan mencakup DistilBERT, BERT Multi, RoBERTa, Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B, dan dasbor akhir menggunakan hasil DistilBERT demi efisiensi
- Negativitas yang dominan berpusat pada kritik konstruktif seperti kritik teknis, keluhan industri, dan frustrasi terhadap API, yang mengisyaratkan korelasi antara keterlibatan dan sifat kontroversial
Hasil analisis sentimen Hacker News
- Skor rata-rata postingan Hacker News adalah 28 poin, sementara postingan dengan sentimen negatif mencatat rata-rata 35,6 poin, menunjukkan keterlibatan yang lebih tinggi
- Performa postingan negatif 27% lebih tinggi dibanding rata-rata keseluruhan
- Studi ini membahas dinamika perhatian HN (Hacker News), termasuk kurva peluruhan, keterlekatan preferensial, probabilitas bertahan, dan prediksi keterlibatan awal
- Makalah preprint terkait telah dipublikasikan di SSRN
Data dan susunan model
- Objek analisis mencakup 32.000 postingan dan 340.000 komentar
- Sekitar 65% dari keseluruhan diklasifikasikan sebagai memiliki sentimen negatif
- Peneliti menyebut kemungkinan bahwa pengklasifikasi mungkin bias ke arah negatif, tetapi tren yang sama terkonfirmasi di keenam model
- Model yang digunakan adalah DistilBERT, BERT Multi, RoBERTa (berbasis transformer) dan Llama 3.1 8B, Mistral 3.1 24B, Gemma 3 12B (berbasis LLM)
- Distribusi sentimen berbeda menurut model, tetapi kecenderungan ke arah negatif tetap sama secara umum
- Dasbor akhir menggunakan hasil DistilBERT yang berjalan efisien pada pipeline berbasis Cloudflare
Definisi dan karakteristik sentimen negatif
- Konten yang diklasifikasikan sebagai “negatif” mencakup kritik teknis, skeptisisme terhadap pengumuman, keluhan atas praktik industri, dan frustrasi terkait API
- Sebagian besar negativitas terdiri dari kritik substantif, bukan serangan pribadi
- Kritik teknis memiliki sifat yang berbeda dari serangan personal
- Peneliti mengakui dua kemungkinan sekaligus: apakah negativitas mendorong keterlibatan, atau konten kontroversial menarik perhatian sekaligus memunculkan ekspresi negatif
Rencana publikasi berikutnya
- Peneliti berencana segera merilis seluruh kode, dataset, dan dasbor untuk pengarsip HN
2 komentar
Orang lebih tertarik pada gosip dan noise. [included generalisasi tergesa-gesa]
Komentar Hacker News
Saya rasa classifier OP membuat dua asumsi yang memengaruhi hasil
Saya sedang menulis komentar yang kritis sekarang, tetapi itu tidak otomatis “negatif”. Justru saya bisa mengkritik karena data dan kesimpulan OP cukup jelas. Menurut saya, kritik yang konstruktif seperti inilah bukti adanya diskusi yang baik
Benar sebagian bahwa sikap skeptis diklasifikasikan sebagai negatif. Data pelatihan SST-2 menganggap evaluasi kritis sebagai hal negatif. Namun di sini “negatif” berarti evaluatif, bukan bermusuhan. Budaya kritik di HN terbaca negatif dalam model seperti ini, tetapi itu fenomena yang alami dalam wacana teknis.
Netralitas hadir sebagai skor kontinu di sekitar 0.5. Karena pengguna HN cenderung mengambil posisi yang tegas, distribusinya tampak terpolarisasi. Ke depan, model 3 kelas layak untuk diuji.
Komentarmu kritis, tetapi tetap wacana berkualitas tinggi. Saya melihat negativitas di HN bukan sebagai permusuhan, melainkan kritik konstruktif yang mendorong partisipasi
Tautan model DistilBERT SST-2
Postingan negatif yang saya unggah mendapat respons lebih baik daripada yang netral atau positif.
Judul “Richard Stallman is Dead” menghasilkan click-through rate tertinggi, dan model lain memprediksi probabilitas rasio komentar/vote di atas 0.5. Clickbait, debat gender, dan topik otomotif sangat kuat performanya.
Sulit percaya skor rata-ratanya 35. Dulu rata-ratanya sekitar 8, jadi saya penasaran dengan kriteria samplingnya
Mungkin postingan bernilai 0 tidak ikut terambil, jadi rata-ratanya bisa tampak lebih tinggi. Terima kasih atas masukannya, saya akan meninjaunya sebelum paper dipublikasikan. Classifier Anda juga menarik
Saya melihat fenomena serupa di komentar. Komentar pendek dan sinis mendapat respons jauh lebih baik daripada tulisan analitis yang panjang.
Komentar panjang yang dibuat dengan sungguh-sungguh sering diabaikan, sementara komentar pendek yang ditulis spontan justru sering “meledak”, dan itu terasa mengecewakan
HN tidak suka lelucon, kecuali jika disertai penjelasan
Kalau menjalankan blog, rasanya kita bisa lebih memahami tolok ukur keterlibatan seperti ini
Jika yang dimaksud “negatif” mencakup kritik teknis, keluhan terhadap industri, dan frustrasi pada API, maka sebagian besar diskusi di HN masuk kategori itu.
Tidak ada gunanya hanya menulis “bagus” pada posting promosi OpenAI; justru analisis kritis adalah bentuk partisipasi yang bernilai.
Menurut saya, posting populer tanpa komentar justru bukti bahwa situsnya bekerja dengan baik
Kita menyaring diri sendiri untuk lebih menyukai reaksi negatif. Konten positif terasa selesai dengan sendirinya sehingga tidak memancing respons, sedangkan konten negatif memicu interaksi
Karena itu kita lebih tertarik pada berita negatif, sementara kabar positif cuma dilewati. Itulah inti dari ekonomi perhatian
Kritik teknis berbeda dari serangan pribadi. Negativitas di HN sebagian besar adalah kritik konstruktif.
Kalau sinismenya berlebihan, biasanya akan muncul “keluhan tentang orang yang mengeluh”.
Saya lebih suka diberi tahu “ada sesuatu yang terselip di gigi” daripada dipuji
Karena moderasi HN cepat menghapus konten yang bermusuhan, yang tersisa kebanyakan adalah kritik yang produktif.
Yang menarik, “negativitas” seperti ini berkaitan dengan tingkat keterlibatan 27% lebih tinggi. Artinya, komunitas teknis lebih menghargai kritik daripada promosi
Saya akan menegaskan di paper bahwa “sentimen negatif” di sini adalah kritik evaluatif menurut model SST-2, bukan ucapan beracun
Dulu ketika akses API Reddit masih memungkinkan, saya bereksperimen memblokir subreddit dengan sentimen negatif lewat aplikasi pembaca rif.
Setelah memblokir ratusan subreddit, yang tersisa hanya konten positif tentang hewan dan hobi. Saya sadar betapa Reddit sangat berpusat pada negativitas, dan pada saat yang sama tanpa itu ternyata cukup membosankan
Tautan daftar blokir
Postingan semacam ini terasa seperti bot berbicara dengan bot. Saya curiga Reddit membiarkan struktur seperti ini demi meningkatkan tayangan iklan
Di internet, hampir tidak ada kombinasi yang lebih kuat daripada mengeluh atau mengoreksi seseorang.
Sebagai pengguna ESL (English as a Second Language), istilah internet pertama yang saya pelajari adalah “flamewar”
Menurut paper tersebut, ketimpangan perhatian di HN sangat parah. Koefisien Gini-nya 0.89, lebih tinggi daripada Twitter
Ini mungkin disebabkan oleh struktur paparan di HN. Tulisan baru mulai dari /newest, dan bila tidak mendapat sedikit perhatian di awal, ia praktis menghilang.
Tidak seperti Reddit yang memberi paparan dasar, di HN posting harus melewati gerbang awal agar bisa naik ke halaman utama
Insinyur bekerja untuk memecahkan masalah, jadi secara alami mereka terbiasa dengan pemikiran kritis.
Di pameran industri, para insinyur datang dengan tangan terlipat dan pendekatan yang dingin, tetapi komunitas maker penuh dengan energi positif.
Pada akhirnya, ini hanya perbedaan antara “gelas setengah kosong vs setengah penuh”