1 poin oleh GN⁺ 5 jam lalu | 2 komentar | Bagikan ke WhatsApp
  • Ekosistem jual-beli Star di GitHub telah terbentuk di berbagai kanal seperti situs khusus, platform freelancer, jaringan pertukaran, dan kanal privat. Analisis dari 2019 hingga 2024 mengidentifikasi sekitar 6 juta star palsu yang dicurigai, tersebar di 18.617 repositori dan sekitar 301 ribu akun
  • Memasuki 2024, kampanye star palsu melonjak tajam, dan tercatat 16,66% dari repositori dengan 50 star atau lebih terlibat. Star yang dibeli juga benar-benar digunakan untuk muncul di GitHub Trending dan melewati algoritme penemuan platform
  • Penjualan star palsu diperdagangkan pada kisaran US$0,03 hingga US$0,90 per star tergantung kualitas akun dan metode pengiriman, dan infrastrukturnya telah meluas hingga mencakup alat manipulasi grafik kontribusi, penjualan profil siap pakai, jaminan penggantian, hingga API pembelian
  • Jumlah star GitHub terhubung langsung dengan indikator perolehan investasi dan digunakan sebagai tolok ukur pada tahap seed dan Series A, sehingga pembelian star berbiaya rendah membentuk loop penguatan diri yang menghasilkan persepsi traction yang dibesar-besarkan dan pendanaan
  • Rasio star terhadap fork dan rasio star terhadap watcher diajukan sebagai filter awal untuk mendeteksi manipulasi, dan meski dilarang oleh kebijakan GitHub serta tunduk pada aturan FTC, penindakan terhadap akun masih lebih rendah daripada penghapusan repositori sehingga respons struktural belum benar-benar diterapkan

6 juta star palsu

  • Analisis StarScout oleh peneliti Carnegie Mellon University, North Carolina State University, dan Socket menelaah 20 TB metadata GitHub, 6,7 miliar event, dan 326 juta star dari 2019 hingga 2024, dan hasilnya mengidentifikasi sekitar 6 juta star palsu yang dicurigai tersebar di 18.617 repositori dan sekitar 301 ribu akun
  • Pada 2024, kampanye star palsu meningkat drastis, dan per Juli tercatat 16,66% dari repositori dengan 50 star atau lebih terkait dengan praktik ini
    • Sebelum 2022, angkanya nyaris mendekati 0
  • Dalam verifikasi akurasi deteksi, ditemukan bahwa 90,42% repositori dan 57,07% akun yang ditandai StarScout telah dihapus per Januari 2025
    • Angka ini mendukung bahwa GitHub juga mengenali praktik tersebut sebagai aktivitas abnormal
  • Di antara repositori yang diuntungkan oleh star palsu, repositori terkait AI dan LLM muncul sebagai kategori non-malicious terbesar, dengan total 177 ribu star palsu tercatat
    • Disebutkan bahwa banyak di antaranya adalah repositori paper akademik atau produk startup terkait LLM
  • Sebanyak 78 repositori yang terdeteksi menjalankan kampanye star palsu muncul di GitHub Trending, menunjukkan bahwa star yang dibeli benar-benar digunakan untuk melewati algoritme penemuan platform
  • Dalam investigasi Dagster pada Maret 2023, para engineer secara langsung membeli star dari dua penjual untuk memverifikasi fenomena tersebut
    • Perusahaan terdaftar di Jerman GitHub24 mengenakan biaya EUR 0,85 per star dan seluruh 100 star masih bertahan setelah satu bulan
    • Baddhi Shop menjual 1.000 star seharga US$64, tetapi tingkat retensinya disebut hanya sekitar 75%

Marketplace

  • Ekosistem penjualan star GitHub telah terbentuk di berbagai kanal seperti situs khusus, platform freelancer, jaringan pertukaran, dan kanal privat, dengan sedikitnya 12 situs aktif yang secara langsung menjual star GitHub
    • Contoh yang disebutkan mencakup SocialPlug.io, Buy.fans, Boost-Like.store, GitHubPromoter.com, Followdeh.com, dan Vurike.com
  • Rentang harga dibedakan berdasarkan kualitas akun dan metode pengiriman
    • Paket murah berada di kisaran US$0,03 hingga US$0,10 per star, dikirim dalam beberapa hari, menggunakan profil baru atau kosong
    • Paket menengah berada di kisaran US$0,20 hingga US$0,50, dikirim dalam 1 hingga 2 minggu, dengan sebagian riwayat aktivitas
    • Paket premium berada di kisaran US$0,80 hingga US$0,90, mengklaim pengiriman bertahap dan tampak alami, serta memakai akun yang sudah berumur beberapa tahun dengan repositori dan riwayat kontribusi
  • Di Fiverr juga ada 24 gig aktif yang menjual promosi GitHub, dengan harga star dan fork dasar sebesar US$5, sementara "organic promotion" dipatok mulai dari US$25
    • Mereka menggunakan ungkapan yang samar atau tidak langsung untuk menghindari filter platform
  • Platform pertukaran star seperti GithubStarMate.com dan SafeStarExchange.com juga masih beroperasi, menawarkan mekanisme saling memberi star berbasis kredit
  • Infrastruktur ini tidak berhenti pada penjualan star, tetapi juga meluas hingga manipulasi grafik kontribusi GitHub
    • Sedikitnya 7 alat open source seperti fake-git-history, commit-bot, dan Commiter ada untuk tujuan memalsukan riwayat kontribusi GitHub
    • Profil GitHub siap pakai dengan riwayat commit 5 tahun dan badge Arctic Code Vault Contributor dijual di Telegram seharga sekitar US$5.000
  • Sejumlah penjual bahkan menawarkan jaminan penggantian
    • Followdeh mengiklankan garansi 30 hari
    • Layanan premium menjanjikan star "non-drop" yang lolos deteksi GitHub
    • SocialPlug mengklaim telah mengirimkan 3,1 juta star kepada lebih dari 53 ribu pelanggan dan juga menyediakan API pembelian
  • Studi ACSAC 2020 dari Tsinghua University mendokumentasikan struktur komersial grup promosi di QQ dan WeChat di Tiongkok
    • Terdiri dari lebih dari 1.020 anggota yang menangani sekitar 20 repositori per hari
    • Keuntungan pihak promotor diperkirakan mencapai US$3,4 juta hingga US$4,4 juta per tahun

Analisis internal: ciri-ciri stargazer palsu

  • Membangun alat analisis berbasis GitHub API untuk menyelidiki 20 repositori, lalu membandingkan repositori yang ditandai StarScout, repositori AI dengan pertumbuhan tinggi di Runa Capital ROSS Index, dan repositori baseline organik
  • Untuk tiap repositori, diambil sampel masing-masing 150 profil stargazer guna mengukur usia akun, jumlah repositori publik, jumlah pengikut, dan ada tidaknya bio
  • Jejak manipulasi berulang kali terlihat pada beberapa indikator umum
    • Meski akun tidak selalu sangat baru, proporsi akun kosong tetap tinggi
    • Rasio star terhadap fork dan rasio star terhadap watcher jauh lebih rendah dibanding repositori organik
  • Baseline organik

    • Usia akun median untuk Flask, LangChain, dan AutoGPT masing-masing disebut 4.801 hari, 2.967 hari, dan 4.022 hari, menunjukkan banyak stargazer adalah kelompok developer yang telah lama menggunakan GitHub
    • Proporsi akun tanpa repositori publik sama sekali berada di kisaran 5,3%, 5,9%, dan 2,0%, sementara proporsi dengan 0 pengikut juga relatif rendah di 10,0%, 11,8%, dan 5,9%
    • Proporsi akun ghost pada Flask disebut 1,3%, dan proporsi suspicious accounts pada Flask, LangChain, dan AutoGPT disebut 0,0%
    • Rasio star terhadap fork adalah 0,235 untuk Flask, 0,155 untuk LangChain, dan 0,090 untuk AutoGPT, menunjukkan penggunaan dan modifikasi kode nyata ikut terjadi pada tingkat tertentu
    • Rasio star terhadap watcher tercatat 0,029 untuk Flask, 0,006 untuk LangChain, dan 0,005 untuk AutoGPT
    • Stargazer di repositori organik telah aktif selama bertahun-tahun, memiliki proyek sendiri, dan menunjukkan karakteristik developer yang mengikuti pengguna lain
    • Akun ghost dengan 0 repositori, 0 pengikut, dan tanpa bio disebut berada di kisaran sekitar 1% untuk proyek yang sehat
  • Repositori blockchain yang dimanipulasi

    • Usia akun median untuk Union Labs, Shardeum, FreeDomain, dan Anoma berada dalam rentang 997 hingga 1.180 hari, cukup untuk lolos dari filter akun baru yang sederhana
    • Namun isi akun-akun itu kosong, dengan proporsi 0 repositori publik sebesar 28,0% hingga 38,0%, proporsi 0 pengikut sebesar 52,0% hingga 81,3%, dan proporsi akun ghost sebesar 19,3% hingga 28,7%
    • Rasio star terhadap fork disebut 0,052 untuk Union Labs, 0,022 untuk Shardeum, 0,017 untuk FreeDomain, dan 0,121 untuk Anoma
    • Rasio star terhadap watcher juga sangat rendah, termasuk 0,001 untuk FreeDomain
    • Pola ini ditafsirkan sebagai penggunaan akun lama yang dibeli atau dikumpulkan secara farming lalu dikerahkan untuk kampanye star
    • Rasio star terhadap fork disebut sebagai sinyal terkuat
      • Flask memiliki 235 fork per 1.000 star
      • Shardeum hanya 22
      • FreeDomain hanya 17
    • Rasio star terhadap watcher mengarah ke kesimpulan yang sama, dan nilai 0,001 pada FreeDomain berarti hanya sekitar 1 pengguna per 1.000 star yang benar-benar memantau pembaruan
  • FreeDomain

    • Memiliki 157 ribu star, tetapi hanya 168 watcher dan 2.676 fork
    • Rasio star terhadap watcher 26 kali lebih rendah daripada Flask
    • Di antara stargazer yang diambil sampelnya, 81,3% memiliki 0 pengikut, memperlihatkan komposisi akun yang nyaris tidak punya jejak aktivitas terlihat di GitHub
  • Union Labs

    • Dipilih sebagai peringkat 1 Runa Capital ROSS Index pada kuartal II 2025, dengan pertumbuhan star 54,2 kali dan total 74.300 star
    • Dalam analisis internal, ditemukan 32,7% akun dengan 0 repositori publik, 52% akun dengan 0 pengikut, dan rasio star terhadap fork 0,052
    • Dalam analisis StarScout, 47,4% ditandai sebagai dugaan star palsu
    • Ini menunjukkan struktur di mana proyek yang hampir setengah star-nya berpotensi artifisial bisa naik ke posisi teratas laporan pencarian investasi berpengaruh yang dijadikan rujukan VC
  • Sektor AI

    • Hasil perbandingan RagaAI, openai-fm, Langflow, dan hermes-agent menunjukkan perbedaan indikator yang besar bahkan di dalam repositori AI
    • RagaAI-Catalyst mencatat 76,2% akun dengan 0 pengikut dan 28,0% akun ghost, hampir identik dengan pola blockchain
    • openai-fm disebut sebagai kasus paling ekstrem di seluruh dataset
      • suspicious accounts 66,0%
      • akun ghost 36,0%
      • usia akun median 116 hari
      • Dua pertiga stargazer berusia kurang dari 1 tahun dan hampir tidak memiliki aktivitas GitHub
      • StarScout menyebut kasus ini kemungkinan besar bukan OpenAI sendiri, melainkan bot pihak ketiga
    • Langflow ditandai 47,9% palsu oleh StarScout, tetapi analisis sampel profil menunjukkan angka yang relatif bersih dengan median usia 2.859 hari dan proporsi akun ghost yang rendah
      • Muncul kemungkinan kualitas akun membaik setelah pemindaian StarScout
      • Namun rasio star terhadap fork 0,060 masih rendah, sekitar seperempat dari Flask
    • hermes-agent milik NousResearch diklasifikasikan sebagai repositori yang relatif organik
      • usia akun median 8 tahun
      • akun ghost 6%
      • rasio star terhadap fork 0,133
      • Terlepas dari tuduhan astroturfing di Reddit, mayoritas stargazer dianalisis sebagai developer nyata
      • Karena basis pengguna yang berdekatan dengan kripto, proporsi akun dengan 0 pengikut agak tinggi, tetapi pola keterlibatan dasarnya dinilai sah

Jalur bagaimana star menjadi pendanaan

  • Kaitan antara jumlah GitHub star dan pendanaan startup digambarkan bukan sebagai spekulasi, melainkan hubungan yang didokumentasikan oleh investor sendiri
  • Hasil analisis Jordan Segall dari Redpoint Ventures terhadap 80 perusahaan developer tools menunjukkan bahwa jumlah star median saat investasi seed adalah 2.850, sedangkan Series A adalah 4.980
    • Ia juga secara langsung menyebut banyak VC menjalankan program scraping internal untuk mencari proyek GitHub yang tumbuh cepat, dan metrik yang paling sering mereka lihat adalah star
  • Angka ini pada praktiknya memberi target pembelian bagi startup
    • Berdasarkan harga star murah, dengan 85 dolar hingga 285 dolar sudah mungkin memanipulasi median seed 2.850
    • Dengan 990 dolar hingga 4.500 dolar, startup dapat mendekati rentang Series A
    • Dengan asumsi putaran seed umum sebesar 1 juta hingga 10 juta dolar, dihitung rentang ROI 3.500 kali hingga 117.000 kali
  • Runa Capital menerbitkan ROSS Index tiap kuartal untuk memberi peringkat 20 startup open source teratas berdasarkan laju pertumbuhan GitHub star
    • Menurut TechCrunch, 68% startup yang berhasil menggalang investasi berada pada tahap seed, dan total nilai putaran yang terlacak mencapai 169 juta dolar
  • GitHub juga melalui GitHub Fund bekerja sama dengan M12 untuk menginvestasikan 10 juta dolar per tahun, dan berinvestasi pada 8 hingga 10 perusahaan open source tahap pre-seed dan seed dengan traction platform sebagai salah satu kriteria
  • Sejumlah kasus disebutkan di mana star berlanjut menjadi pendanaan
    • Lovable: lebih dari 50 ribu star, pre-seed 7,5 juta dolar, lalu Series A 200 juta dolar pada valuasi 1,8 miliar dolar saat memiliki 45 karyawan
    • Pangolin**: 1.000 star pada Januari 2025, diterima di Y Combinator, hingga Agustus 2025 meraih** seed 4,7 juta dolar

    • Browser-use**: 50 ribu star dalam 3 bulan, Y Combinator W25,** seed 17 juta dolar

      • LangChain: investasi 10 juta dolar dari Benchmark pada tahap seed
      • Fraser Marlow dari Dagster juga secara langsung menyebut bahwa ia sangat memerhatikan GitHub star tepat sebelum fundraising
      • Sebuah makalah di Organization Science menunjukkan secara statistik adanya korelasi antara aktivitas GitHub dan hasil pendanaan startup
      • Startup yang aktif di GitHub memiliki kemungkinan 15 poin persentase lebih tinggi untuk memperoleh putaran investasi
      • Hasil akhirnya adalah terbentuknya loop penguatan diri: VC melacak star → startup memanipulasi → persepsi traction membengkak → lebih banyak VC mengadopsi → lebih banyak manipulasi
      • Ambang batas publik dari Redpoint memperlihatkan struktur yang memberi startup target angka yang sangat presisi

Rasio fork terhadap bintang: heuristik deteksi sederhana

  • Dalam analisis internal, rasio fork terhadap bintang muncul sebagai indikator sederhana terkuat untuk mengidentifikasi potensi manipulasi
  • Logikanya sederhana
    • Bintang bisa diklik tanpa biaya dan tidak menunjukkan komitmen nyata
    • Fork berarti kode telah diunduh untuk digunakan atau dimodifikasi
  • Rata-rata rasio fork terhadap bintang per kategori disajikan sebagai berikut
    • 3 repositori baseline organik: 0,160
    • 5 repositori alat AI: 0,124
    • 4 repositori klaster blockchain yang dicurigai dimanipulasi: 0,053
    • 2 repositori kasus ekstrem: 0,020
  • Diajukan patokan bahwa repositori dengan lebih dari 10 ribu bintang dan rasio fork terhadap bintang di bawah 0,05 perlu ditinjau cermat
  • Rasio watcher terhadap bintang juga diajukan sebagai sinyal pendamping yang lebih intuitif
    • Proyek organik rata-rata berada di kisaran 0,005 hingga 0,030
    • FreeDomain berada di 0,001
  • Rasio ini bukan kriteria penentu yang sempurna, dan repositori edukasi atau daftar kurasi memang bisa memiliki rasio fork yang rendah
  • Meski begitu, ini dinilai efektif sebagai filter awal untuk menangkap kasus paling parah yang luput jika hanya melihat jumlah bintang mentah

Popularitas palsu di luar GitHub

  • Fenomena yang sama meluas ke semua platform tempat metrik popularitas memengaruhi kepercayaan
  • Jumlah unduhan npm sangat mudah digembungkan
    • Andy Richardson hanya menggunakan free tier dari satu fungsi AWS Lambda untuk mendorong paket is-introspection-query hingga hampir 1 juta unduhan per minggu
    • Angkanya lebih tinggi daripada paket normal seperti urql dan mobx, tetapi jumlah pengguna nyatanya disebut 0
    • Dalam riset CMU, hanya 1,23% dari repositori dengan kampanye bintang palsu yang muncul di package registry, tetapi dari 738 paket itu, 70,46% memiliki 0 proyek dependan
  • Ekstensi VS Code Marketplace juga menunjukkan kerentanan yang sama
    • Para peneliti membuktikan lebih dari 1.000 kali instalasi palsu untuk program ekstensi palsu dalam 48 jam
    • AquaSec menemukan 1.283 ekstensi dengan dependensi berbahaya yang sudah dikenal, dengan total 229 juta instalasi
  • Promosi X/Twitter memperkuat viralitas GitHub yang dibuat-buat
    • Dalam grup privat bernama engagement pod, para anggota saling menukar like, repost, dan komentar
    • Growth Terminal menjual ini sebagai fitur produk
    • NBC News dan peneliti Clemson University mengidentifikasi jaringan 686 akun X yang memposting lebih dari 130 ribu kali dengan konten buatan LLM
    • Sebagian posting memuat jejak model yang digunakan, seperti frasa “Dolphin here!”
  • Dalam kasus Higgsfield AI, astroturfing lintas platform didokumentasikan dalam skala besar
    • Lebih dari 100 posting spam di lebih dari 60 subreddit
    • Digabung dengan pengiriman massal DM template yang menawarkan kompensasi promosi kepada para kreator konten

Paparan hukum yang hampir tidak pernah dibahas

  • FTC Consumer Review Rule mulai berlaku pada 21 Oktober 2024, dan secara eksplisit melarang jual beli “metrik pengaruh media sosial palsu” berbasis bot atau akun palsu untuk tujuan komersial
  • Sanksi atas pelanggaran disebut mencapai maksimum 53.088 dolar AS per kasus
  • FTC mengirim surat peringatan pertamanya ke 10 perusahaan pada Desember 2025, dan pembelian bintang GitHub untuk promosi produk komersial dijelaskan cocok dengan kerangka ini
  • Preseden SEC juga diajukan sebagai contoh yang lebih langsung
    • CEO HeadSpin didakwa atas wire fraud dan securities fraud karena dituduh menggelembungkan metrik untuk menarik 80 juta dolar AS dari investor
    • Pendiri ComplYant menghadapi dakwaan setelah mengklaim pendapatan bulanan 250 ribu dolar AS, padahal kenyataannya 250 dolar AS
  • SEC menyampaikan pesan bahwa penggalang dana startup tidak bisa memakai budaya “fake it until you make it” untuk menipu investor
  • Jika startup menggelembungkan traction dengan bintang GitHub palsu selama proses pendanaan, dan investor menanamkan modal berdasarkan metrik itu, maka ini bisa masuk ke kerangka wire fraud sebagai pernyataan palsu atas fakta material melalui komunikasi elektronik
  • Belum ada kasus penuntutan yang hanya didasarkan pada bintang GitHub palsu, tetapi dengan mempertimbangkan pembuktian empiris skala besar dari riset CMU dan larangan eksplisit dalam aturan FTC, ada pandangan bahwa itu mungkin hanya soal waktu

Respons GitHub

  • Acceptable Use Policies GitHub secara eksplisit melarang interaksi tidak autentik, akun palsu dan aktivitas tidak autentik yang terotomatisasi, penyalahgunaan peringkat seperti bintang dan follow otomatis, serta partisipasi dalam pasar sekunder untuk menyebarkan aktivitas tidak autentik
  • Bintang yang didorong oleh imbalan seperti airdrop kripto, token, kredit, hadiah, dan sejenisnya juga termasuk yang dilarang menurut kebijakan
  • Penegakannya dinilai reaktif dan asimetris
    • Dari repositori yang ditandai StarScout, 90,42% dihapus, tetapi akun yang memberikan bintang itu hanya 57,07% yang dihapus
    • Artinya, sebagian besar infrastruktur akun yang bisa dipakai untuk kampanye berikutnya masih tersisa
  • Dalam investigasi Dagster juga, profil bintang palsu dihapus dalam 48 jam, tetapi itu disajikan sebagai respons setelah dipermalukan di ruang publik, bukan contoh deteksi dini
  • GitHub belum pernah merilis posting blog engineering yang membahas cara mendeteksi manipulasi bintang atau statistik penegakan, dan juga tidak memiliki laporan transparansi terpisah
  • Wakil presiden operasi keamanan GitHub hanya mengatakan kepada Wired bahwa akun dinonaktifkan sesuai kebijakan, dan menolak penjelasan tambahan
    • Namun, pernyataan itu secara eksplisit disebut sebagai komentar tentang operasi malware Stargazers Ghost Network, bukan tentang manipulasi vanity metric
  • Peneliti CMU merekomendasikan penerapan metrik popularitas berbobot berbasis network centrality alih-alih jumlah bintang mentah
    • Ini disajikan sebagai perubahan yang secara struktural bisa melemahkan ekonomi bintang palsu
  • GitHub belum menerapkan rekomendasi ini

Metrik yang seharusnya dilihat VC

  • Bessemer Venture Partners menyebut bintang sebagai vanity metrics, dan sebagai gantinya melacak aktivitas kontributor unik bulanan
    • Termasuk pembuat issue, komentator, PR, dan pelaku commit
    • Di antara 10 ribu proyek teratas, yang melampaui 250 kontributor bulanan kurang dari 5%
    • Yang mampu mempertahankannya selama 6 bulan berturut-turut hanya 2%
  • Jono Bacon dari StateShift merekomendasikan 5 metrik yang berkorelasi dengan adopsi nyata
    • Jumlah unduhan paket
    • Kualitas issue yang menampakkan edge case produksi dari pengguna nyata
    • Retensi kontributor, diukur dari waktu hingga PR kedua
    • Kedalaman diskusi komunitas
    • Telemetri penggunaan
  • Rasio fork terhadap bintang yang terungkap dalam analisis internal diajukan sebagai filter awal paling sederhana
    • Proyek yang sehat kira-kira memiliki 100 hingga 200 fork per 1.000 bintang
    • Jika nilai absolut bintangnya tinggi tetapi fork-nya kurang dari 50 per 1.000 bintang, perlu pemeriksaan tambahan
  • Sebuah kutipan yang disajikan berbunyi, “Jumlah bintang bisa dipalsukan, tetapi perbaikan bug yang menyelamatkan akhir pekan seseorang tidak bisa dipalsukan”

Masalah struktural

  • Tiga dinamika diajukan untuk menjelaskan mengapa ekonomi bintang palsu bersifat memperkuat diri sendiri
  • Loop insentif

    • VC menggunakan bintang sebagai sinyal sourcing
    • Startup memanipulasi bintang
    • VC memverifikasi traction yang telah digembungkan
    • Lebih banyak VC mulai mengadopsi pelacakan bintang
    • Terbentuk struktur siklus yang membuat lebih banyak startup ikut melakukan manipulasi
    • Benchmark publik Redpoint 2.850 untuk seed, 4.980 untuk Series A pada praktiknya berfungsi sebagai daftar jumlah pembelian
  • Kerentanan sektor AI

    • Overheating yang berlebihan, struktur pendanaan yang berdekatan dengan kripto dan memberi imbalan pada harga token alih-alih kualitas produk, serta ekosistem reviewer X/Twitter yang bercampur dengan persona hasil manipulasi berpadu membentuk lingkungan yang menguntungkan bagi kepercayaan yang diproduksi
    • Analisis internal juga menunjukkan bahwa banyak repositori dengan sinyal manipulasi terburuk merupakan proyek AI yang berdekatan dengan blockchain dan kripto
  • Asimetri penegakan GitHub

    • Struktur yang menghapus repositori tetapi membiarkan 57% akun palsu tetap ada mempertahankan tenaga kerja ekonomi bintang palsu
    • Daya cegah terhadap pelanggaran berulang lemah
    • Disimpulkan bahwa kecuali GitHub memperkenalkan perubahan struktural seperti metrik popularitas berbobot, skor reputasi tingkat akun, dan laporan penegakan yang transparan, kesenjangan antara jumlah bintang dan adopsi nyata oleh developer akan terus melebar
    • Ekonomi bintang palsu diringkas sebagai struktur di mana masalah senilai 50 dolar menghasilkan konsekuensi senilai 50 juta dolar
    • Ditutup dengan kalimat bahwa sampai platform, investor, dan regulator berhasil menyusul, pasar akan terus membayar 50 dolar itu

2 komentar

 
ndrgrd 2 jam lalu

Secara pribadi, saya menganggap bintang sebagai ambang minimum dan tidak menjadikannya sebagai dasar penilaian itu sendiri.
Saya mungkin akan meneliti dengan lebih curiga proyek yang bahkan tidak punya 100 bintang, tetapi saya juga tidak otomatis mempercayai proyek hanya karena punya lebih dari 50 ribu bintang.

 
GN⁺ 5 jam lalu
Komentar Hacker News
  • Sulit sekali memahami bahwa VC membuat keputusan investasi nyata berdasarkan skor internet imajiner seperti GitHub stars. Rasanya seperti tim NFL memilih quarterback berdasarkan jumlah pengikut Instagram alih-alih persentase umpan sukses. Bahkan kalau melihat rekor Cleveland Browns, itu terasa hanya bahan lelucon, bukan strategi juara yang serius. Ini membuat saya bertanya-tanya apakah ini kemalasan VC, atau efek samping dari terlalu banyak uang beredar di lingkungan seperti ZIRP. Kalau ada orang bilang akan mengelola uang saya berdasarkan stars, saya mungkin akan tertawa lalu langsung jadi serius
  • Saat memilih library, saya hampir tidak pernah melihat stars, dan juga tidak terlalu paham kenapa orang melihatnya. Yang saya lihat adalah kapan commit terakhir, usia proyek, bagaimana issue ditangani, dan sedikit kualitas kode. Pada akhirnya stars hanya hasil tidak langsung dari indikator nyata seperti itu, atau penipuan, jadi menurut saya tidak ada artinya kalau tidak memeriksa langsung. Sejak dulu saya menganggap stars cuma semacam "bookmark untuk dilihat lagi nanti", dan saya kaget melihatnya disulap menjadi metrik kualitas. Saya berharap FTC menindak keras praktik seperti ini. Riwayat commit juga cukup berguna jika hanya ditelusuri sekilas, karena jenis perubahan dan cadence-nya terlihat
    • Dalam hal orang pada akhirnya tertarik pada hiasan yang berkilau, analogi seperti ucapan Napoleon tentang kemuliaan, medali, dan hadiah yang menggerakkan orang terasa sangat pas
    • Walaupun saya sendiri tidak melihat stars, kalau pembuat dependensi yang saya pakai terpengaruh oleh angka itu, menurut saya itu tetap masalah
  • Artikel seperti ini memberi kesan bahwa masalahnya bisa diselesaikan hanya dengan sedikit menyesuaikan satu bagian tertentu, tapi menurut saya sistemnya sendiri jauh lebih rusak. Intinya adalah sinyalnya sendiri sudah dikomodifikasi. Kalau Anda membuat SaaS, akan muncul jurnalis yang minta dibayar untuk memasukkan Anda ke daftar "Top app" tahun ini, vendor yang menjanjikan penambahan pengikut sosial, dan recruiter yang katanya bisa menemukan pakar niche tapi ujung-ujungnya cuma scraping LinkedIn dan mengirim spam. Dalam perekrutan, saya bahkan benar-benar melihat kandidat yang duduk di interview farm di Asia Timur, masuk dengan IP Washington D.C., memakai nama bergaya Eropa, menyalakan latar belakang sintetis, dan berpura-pura menguasai semua teknologi yang tercantum di lowongan. Begitu ada metrik yang dianggap penting, akan segera muncul ekosistem untuk memanipulasinya, dan manipulasi itu sendiri akhirnya menjadi bagian biasa dari operasi bisnis
    • Pada akhirnya semuanya bermuara pada menghasilkan lebih banyak uang
    • Pada akhirnya ini jadi soal apakah perusahaan memilih untuk membeli metrik kosong atau tidak. Kami juga baru-baru ini mencoba mempersulit aktivitas bot AI di repositori kami, dan berharap bot-bot itu beralih ke startup yang hanya mencari target yang relatif mudah seperti yang dibahas dalam tulisan ini
  • Saya mengelola situs kecil dan telah mendefinisikan lebih jelas standar de facto yang sudah ada, lalu menampilkan daftar software dan library yang mengikuti standar itu di homepage. Awalnya saya menerima hampir semuanya, tapi setelah daftar makin panjang saya merasa perlu kriteria notability. Saat menolak library yang baru berumur beberapa hari, hampir pasti dibuat AI, dan kualitasnya pun buruk, saya juga menyebut bahwa "stars-nya 0" sebagai salah satu kekhawatiran, lalu penulisnya secara agresif menuntut tahu berapa jumlah yang dibutuhkan. Saya tidak menjawab. Stars hanyalah salah satu faktor pertimbangan, bukan segalanya. Yang dibutuhkan adalah pengguna nyata dan pengakuan yang nyata. Setelah itu developer lain ikut masuk ke percakapan dan menyuruh saya menetapkan cutoff stars alih-alih kriteria yang samar, tapi saya sengaja tidak melakukannya. Begitu angka menjadi target, metrik itu rusak sebagai metrik. Saya juga tidak ingin memperbesar halaman tanpa batas, dan kalau hanya memasukkan yang punya stars di atas X, malware pun bisa ikut masuk. Yang terpenting, siapa yang saya tampilkan di halaman saya adalah keputusan saya sendiri, jadi saya berharap orang tidak bersikap kasar
  • Melihat bagaimana VC memperlakukan popularitas GitHub seolah bukti traction, saya jadi merasa modal besar memang merusak segalanya lagi. Di sini pun Goodhart's law berlaku apa adanya. Saat saya ingin cepat menilai kualitas repositori, saya melihat status pemeliharaan, usia proyek, keanggunan API, dan riwayat commit. Seperti yang disebut artikel, metrik seperti aktivitas kontributor unik bulanan, unduhan paket, kualitas issue yang tampak berasal dari pengguna nyata, tingkat retensi sampai PR kedua, kedalaman diskusi komunitas, dan telemetry penggunaan terasa jauh lebih dekat dengan pemakaian nyata
    • Pada akhirnya saya langsung membaca kodenya. Itu terasa paling langsung
  • Banyak orang tampaknya berharap stars menjadi indikator pengganti yang murah dan cepat untuk "software yang tepercaya, berkualitas, dan dilihat banyak orang". Tapi menurut saya sebagai proxy, itu gagal total. Bahkan tanpa astroturfing pun, stars tidak menjamin popularitas atau kualitas. Saya kira banyak library sistem dasar juga punya stars yang sedikit. Ketika kode itu sendiri bisa dibaca, rasanya tidak masuk akal bergantung pada stars. Karena itu saya melewati stars dan membiasakan diri menelusuri repositori untuk menilai arsitektur dan implementasinya secara langsung, dan dengan cara itu saya cukup sering merasa alternatif dengan stars lebih sedikit justru lebih baik
    • Kalau ada 3 alternatif dan masing-masing 100 ribu LOC, mengatakan bacalah kodenya menurut saya tidak realistis. Pada akhirnya kita memang butuh indikator pengganti. Stars kurang bagus karena tidak bisa dipercaya, tapi rekomendasi atau referral lebih baik. Hanya saja, di bidang yang jaringan saya tidak punya pengetahuan, kenyataannya saya tetap kadang memakai proxy lemah seperti stars
    • Dulu halaman issue cukup bagus untuk melihat jejak penggunaan nyata. Kita bisa melihat masalah seperti apa yang dialami orang. Sekarang kadang masih berguna, tapi tidak seperti dulu karena sampah dari agent sudah jauh lebih banyak
  • Saya jadi berpikir, bagaimana kalau GitHub memakai skor berbasis graf seperti PageRank alih-alih raw stars. Caranya, repositori akan mendapat skor lebih tinggi jika pengguna yang mengelola repositori penting memberi stars atau fork. Biaya komputasinya memang lebih besar, tapi kalau saya tidak melewatkan sesuatu, hasilnya sepertinya akan jauh lebih dapat dipercaya daripada sekarang
    • Pendekatan itu memang terlihat lebih dekat ke hasil yang lebih baik. Namun kalau strukturnya tetap memasukkan semua pengguna ke dalam matriks, menurut saya tetap ada kemungkinan untuk digame. Mungkin lebih baik memakai himpunan terbatas seperti trusted peers atau friend-of-friend, atau memakai sinyal pascakejadian daripada basis like yang sederhana
  • Yang benar-benar membuat saya penasaran adalah kenapa VC menganggap sistem stars sebagai sesuatu yang dapat dipercaya. Pengguna yang menekan stars sering kali lalu melupakan proyek itu, jadi proyek lama yang tidak dirawat pun bisa saja tetap punya banyak stars. Mungkin bukan yang terbaik, tapi menurut saya masih lebih baik melihat seberapa hidup issue-nya, apakah dibuka dan ditutup, apakah bukan ditutup otomatis, dan bagaimana kecepatan responsnya. Proyek saya punya 200 stars, tapi untuk terus memberi pembaruan yang bermakna, bukan sekadar menaikkan versi, itu benar-benar berat
    • Stars adalah contoh klasik dari metrik yang menjadi target, sehingga tidak lagi menjadi ukuran yang baik. Dan saya juga merasa metrik lain seperti aktivitas issue di era LLM pun bisa dengan mudah dimanipulasi lewat buka-tutup dan balasan
    • Cerita bahwa VC menuntut ribuan stars mungkin terlalu melihat gambaran besar. Dalam praktiknya, mungkin lebih sering ada orang yang membayar 20 dolar agar proyeknya terlihat meyakinkan untuk dipakai di resume atau vanity, mendapat lebih banyak klik Reddit, atau lebih menonjol dibanding open source lain. Kalau ada orang yang berinvestasi hanya karena melihat 8 ribu atau 10 ribu stars tanpa melihat proyek atau potensi pendapatan, menurut saya dia benar-benar investor yang tidak paham atau sekadar berada di level memilih satu proyek mahasiswa setiap musim panas. Akun palsu juga memberi stars ke repositori lama saya agar tampak seperti pengguna nyata, dengan pola memberi stars ke 5 ribu proyek per bulan tanpa aktivitas lain, jadi sangat mudah terlihat. Dulu saya juga pernah melihat lingkaran GitHub Sponsor, dan baunya sangat mengarah ke pencucian uang atau kartu curian
    • Yang saya cari adalah sinyal kualitas software jangka panjang, sedangkan yang dicari VC adalah sinyal momentum lonjakan jangka pendek. Keduanya sering bertabrakan
    • Di sini juga skor graf yang mirip pagerank mungkin akan cukup berguna sampai tingkat tertentu. Jika repositori mendapat lebih banyak poin dari issue yang ditinggalkan pengguna bereputasi baik, itu mungkin sedikit lebih tahan terhadap manipulasi sederhana
    • Kecuali ada perubahan besar dalam 3 tahun terakhir, menurut saya artikel ini agak melebih-lebihkan seberapa besar VC memercayai stars. Saat saya berbicara dengan VC 10 tahun lalu pun, kebanyakan dari mereka sudah menganggap stars sebagai metrik vanity dan membuangnya
  • Menurut saya GitHub bisa menindak ini dengan sangat mudah. Cukup habiskan 10 dolar pada tiap penjual stars, coba beli langsung, lalu suspend semua akun yang terlibat. Dengan uang yang sangat sedikit saja, sepertinya mereka bisa menambah gesekan besar pada seluruh ekosistem ini
  • Untuk referensi terkait, ada tulisan Dagster tahun 2023 berjudul "Tracking the Fake GitHub Star Black Market with Dagster, dbt and BigQuery", dan makalah arXiv berjudul "Six Million (Suspected) Fake Stars in GitHub: A Growing Spiral of Popularity Contests, Spams, and Malware" yang layak dilihat