2 poin oleh GN⁺ 2025-08-31 | 2 komentar | Bagikan ke WhatsApp
  • Situs ini mengukur seberapa terpusat data pengguna di Fediverse (Mastodon, Pixelfed, dll.) dan Atmosphere (Bluesky, WhiteWind, dll.)
  • Menggunakan Herfindahl–Hirschman Index (HHI) dan Shannon Index untuk menganalisis tingkat persebaran pengguna antar server
  • HHI adalah indikator yang digunakan dalam ekonomi untuk mengukur tingkat persaingan; semakin rendah nilainya, semakin besar persebarannya, dan semakin tinggi nilainya, semakin menunjukkan konsentrasi monopolistik
  • Shannon Index adalah indikator keragaman berbasis entropi; semakin tinggi nilainya, semakin merata populasi tersebar di antara server
  • Selain konsentrasi data, proyek ini juga mempertimbangkan berbagai faktor pengukuran desentralisasi seperti struktur jaringan, yurisdiksi hukum, dan konsentrasi kekuasaan sosial, serta membuka data dan kode di GitHub

Pengenalan dan konsep utama

  • Mengukur seberapa terkonsentrasinya data pengguna di platform Fediverse dan Atmosphere dengan menggunakan Herfindahl–Hirschman Index (HHI)
  • HHI adalah indikator representatif dalam ekonomi untuk mengevaluasi tingkat persaingan, dihitung dengan menjumlahkan kuadrat proporsi pengguna yang dimiliki tiap server (atau PDS)
  • Semakin dekat nilai HHI ke 0, semakin merata pengguna tersebar di berbagai server; semakin dekat ke 10.000, semakin menunjukkan kondisi monopoli di mana sebagian besar pengguna terkonsentrasi pada satu server
  • Umumnya, HHI di bawah 100 dianggap "sangat kompetitif", di bawah 1.500 dianggap "tidak terkonsentrasi", dan 2.500 ke atas dianggap "sangat terkonsentrasi"

Metode pengukuran dan definisi data

  • Objek yang diukur adalah server (instance) di Fediverse dan PDS (personal data server) di Atmosphere
  • Untuk platform seperti Mastodon, di mana pengguna tersebar di banyak instance, instance yang dimiliki operator yang sama digabungkan menjadi satu
    • Contoh: mastodon.social dan mastodon.online dioperasikan oleh perusahaan yang sama, sehingga digabung dalam pemrosesan statistik
    • Semua PDS yang dikelola oleh Bluesky Social PBC juga dihitung sebagai satu entitas
  • Dengan begitu, skala pengguna yang dikendalikan oleh satu entitas dapat tercermin secara akurat

Berbagai perspektif dalam mengukur sentralisasi

  • Selain distribusi fisik data pengguna, desentralisasi juga bisa dianalisis dari berbagai sisi
    • Aspek struktur jaringan (misalnya P2P, relay, dll.)
    • Metode manajemen identitas
    • Kepemilikan dan lokasi infrastruktur aktual (wilayah, yurisdiksi, dll.)
    • Konsentrasi kekuasaan sosial dan organisasional (misalnya fenomena pemusatan pengaruh di dalam platform)
  • Bukan hanya distribusi data di dalam platform, tetapi juga penting untuk memperhatikan apakah otoritas dan pengaruh turut terdistribusi

Partisipasi proyek dan open source

  • Seluruh kode dan dataset yang digunakan dalam pengukuran dipublikasikan di repositori GitHub
  • Kontribusi, komentar, usulan metrik pengukuran baru, serta penambahan metrik resiliency dipersilakan

2 komentar

 
codject 2025-08-31

"Apakah kita masih belum terdesentralisasi?" sebenarnya juga tidak sepenuhnya salah, tetapi terdengar tidak alami dan canggung.
Karena "masih" umumnya dipakai bersama kalimat negatif...

Sepertinya terjemahan seperti "Apakah desentralisasi masih belum tercapai?" akan menjadi judul yang lebih alami.

 
GN⁺ 2025-08-31
Komentar Hacker News
  • Hari ini saya baru pertama kali mengetahui Herfindahl–Hirschman Index, jadi saya ingin mengujinya dengan kasus aneh yang mudah diingat
    Pada akhir 1980-an, ada suatu periode ketika Microsoft mencatat pangsa pasar lebih dari 100% di pasar spreadsheet Macintosh
    Ini bisa terjadi karena cara menghitung pangsa pasar adalah membagi penjualan tiap peserta dalam periode tertentu dengan total penjualan seluruh pasar, dan saat itu spreadsheet Lotus bernama Lotus Jazz gagal total sehingga jumlah retur melebihi jumlah penjualannya
    Akibatnya, Lotus memiliki pangsa pasar negatif, dan penjualan Microsoft Excel menjadi lebih besar daripada total penjualan seluruh pasar sehingga muncul pangsa pasar di atas 100%
    Saya tidak ingat angka pastinya, tetapi kira-kira Microsoft 102%, Lotus -2%
    Dalam kasus seperti ini, Herfindahl–Hirschman Index menjadi 1022 + (-2)2 = 10404 + 4 = 10408
    Dalam kasus ekstrem seperti ini, HHI bisa melebihi 10.000
    (Saya menambahkan syarat "dalam periode tertentu" untuk penjelasan)

    • Saya sudah mencari artikel terkait dengan sangat serius di internet, tetapi tidak menemukannya (mungkin ada di mikrofilm di suatu tempat...)
      Sebagai gantinya, saya menemukan satu anekdot yang menarik
      Seorang eksekutif Lotus konon bercanda, “Pada bulan pertama kami mengirim 62.000 unit, dan bulan berikutnya 64.000 unit dikembalikan. Bahkan salinan bajakan pun dikembalikan”
      Artikel Forbes terkait

    • HHI benar-benar metrik yang berguna
      Konsep jumlah kuadrat dari pangsa yang dinormalisasi sangat cocok diterapkan bukan hanya pada pangsa pasar, tetapi juga dalam berbagai situasi lain
      Ada juga contoh penggunaan yang sangat baik dalam pemungutan suara

  • Hasilnya menarik, jadi tidak terlalu mengejutkan
    BlueSky adalah layanan yang dari sudut pandang pengguna biasa hampir bisa menggantikan Twitter
    Jumlah total pengguna Mastadon memang lebih sedikit, tetapi menyenangkan melihat ekosistem Mastadon menghindari sentralisasi seperti halnya ekosistem AT-Proto
    Secara pribadi saya menduga biaya menjalankan server/relay AT proto akan cukup membebani operator kecil, tetapi ini hanya tebakan karena saya tidak terlalu memahami struktur internal kedua ekosistem itu

    • Menjalankan server PDS untuk diri sendiri dan beberapa teman tidak terlalu mahal
      Namun tidak ada keuntungan besar dari menjalankannya seperti itu; tujuan PDS adalah memisahkan data milik sendiri dan data seluruh jaringan dengan rapi
      Yang mahal di ATProto adalah Relay (mengumpulkan/menyiarkan seluruh data) dan AppView (menyimpan semua postingan/like/dll. ke database dan merespons permintaan pengguna)
      Tentu saja, untuk jaringan kecil, misalnya seperti WhiteWind yang dipakai untuk menulis panjang, volume event-nya rendah sehingga tetap memungkinkan
      Sebagian besar memang dirancang agar tidak perlu self-hosting
      Feed algoritmik atau frontend buatan sendiri bisa diimplementasikan dengan mengambil data dari Relay atau AppView yang dijalankan Bluesky

    • Saya rasa salah satu alasan BlueSky berhasil adalah karena, tidak seperti Mastodon, ia tidak menonjolkan "desentralisasi" kepada pengguna
      Sebagian besar pengguna bahkan tidak tahu apa itu desentralisasi dan tidak ingin tahu
      Menurut saya, lebih banyak upaya perlu dicurahkan pada operasional dan fitur administrasi yang baik daripada pada desentralisasi

    • ATProto didukung oleh perusahaan dan investor dari berbagai latar belakang
      Suatu hari mereka juga pasti menginginkan keuntungan, dan sulit memprediksi bagaimana itu akan terwujud

    • Soal diskusi biaya operasional, struktur ATProto memang sangat berbeda
      Mastodon berbentuk banyak server mirip Twitter yang saling bertukar informasi seperti email, jadi server kecil untuk lingkaran kenalan itu murah
      Namun dengan struktur seperti ini, konektivitas ke jaringan global lebih lemah, dan server saya pada dasarnya adalah identitas saya
      Jika saya mengikuti pengguna di server lain, server saya meminta informasi ke server itu, tetapi pada dasarnya tampilan seluruh jaringan jadi terfragmentasi
      Sejak awal, ATProto memiliki pembagian yang berbeda agar bisa bersaing dengan layanan tersentralisasi, dengan sumber data dan agregasi aplikasi dipisahkan
      Ini sedikit mirip semua pengguna mengunggah JSON ke situs web (url) mereka sendiri, lalu aplikasi mengagregasikan data itu
      Hasilnya, semua orang memiliki tampilan yang sama (semua komentar, like, dan balasan tercermin)
      Jika pada Mastodon satu "instance" adalah aplikasi web Twitter yang berdiri sendiri, di ATProto ada beberapa primitive terdistribusi

      • PDS adalah penyimpanan data yang tidak bergantung pada aplikasi, biaya menjalankannya sendiri sangat murah (kurang dari $1/bulan per pengguna), ada implementasi open source juga, dan mirip dengan Git hosting
      • AppView berperan sebagai backend aplikasi yang sebenarnya; menjalankan Bluesky AppView yang meng-ingest seluruh data jaringan memerlukan sekitar $300 per bulan
        AppView yang hanya melihat sebagian jaringan, seperti model Mastodon, jauh lebih murah, tetapi kurang menarik sehingga hampir tidak dipakai
      • Relay dioptimalkan untuk siaran data yang menghubungkan banyak PDS dan AppView; setelah Sync 1.1, biayanya turun drastis menjadi sekitar $30 per bulan
        Singkatnya, menjalankan PDS dan Relay itu murah, sedangkan yang mahal adalah menjalankan AppView penuh, dan Mastodon memang tidak punya konsep yang setara
        Membandingkan harga pengalaman Mastodon yang terfragmentasi dengan pengalaman ATProto yang konsisten secara langsung memang kurang tepat
        Menjalankan partial AppView seperti Mastodon itu murah, tetapi daya tarik nyatanya rendah
        Selain itu, Mastodon mencoba mengurangi masalah ini dengan memperkenalkan on-demand fetching, tetapi sistem terdistribusi berbasis pull memang punya keterbatasan
        Pertanyaan terkait
  • Pada akhirnya, bahkan dalam sistem terdistribusi, fenomena sentralisasi tetap muncul secara alami
    Git juga merupakan upaya distribusi, tetapi pada praktiknya terkonsentrasi pada platform tertentu seperti GitHub atau GitLab
    BitTorrent juga terdistribusi, tetapi situs tracker berfungsi sebagai pusat alami
    Bitcoin juga akhirnya memiliki beberapa layanan seperti Coinbase yang berperan sebagai pusat
    Email (SMTP) pun pada praktiknya mengalami sentralisasi akibat masalah spam

    • Untuk email (SMTP), pernyataan bahwa "hanya pemain besar yang bisa melakukan pemfilteran spam" itu tidak benar
      Ada juga daftar filter spam terdistribusi yang sudah lama ada, dan penyedia besar juga tidak punya keunggulan istimewa dalam pemfilteran spam
      Hanya saja, penyedia besar memang cenderung menganggap server mail kecil sebagai spam, dan memang bisa saja ada niat untuk menekan pesaing
      Namun, ini juga bukan berarti kalau reverse DNS dan DKIM di server mail sudah diatur dengan benar pasti tetap dianggap spam; bahkan layanan besar pun bisa saling menandai sebagai spam, jadi tidak absolut

    • Situs tracker itu ada banyak, dan jika satu hilang, tracker lain akan segera muncul
      Jadi, karena tidak ada satu pemain tunggal yang mengendalikan ekosistem, saya rasa ini tetap bisa dianggap terdistribusi

    • Layanan seperti Coinbase bisa dibuat oleh siapa saja
      Faktanya ada banyak situs serupa, dan sekarang PayPal juga bisa dipakai
      Kita juga tidak perlu bergantung pada satu layanan saja; misalnya, Anda bisa membeli bitcoin di PayPal dan menjualnya di Coinbase
      Menurut saya aneh jika situasi seperti ini didefinisikan sebagai sentralisasi

    • Git sendiri sebenarnya bukan alat yang ditujukan untuk desentralisasi, itu juga perlu dicatat

    • Semua contoh yang disebutkan memang pada akhirnya tetap memiliki unsur sentralisasi

  • Di fedi (ekosistem sosial terdistribusi), memang lebih terdesentralisasi, tetapi kurang konsisten
    Inilah hal yang paling sering dikeluhkan pengguna yang baru masuk ke fedi
    Secara pribadi saya melihat ini sebagai lompatan besar dan saya rasa tidak masalah, tetapi menetapkan ekspektasi yang realistis itu lebih penting

    • Saya penasaran apa tepatnya yang dimaksud dengan konsistensi di sini (saya belum pernah memakai fediverse, jadi tidak punya konteks)
  • Saya penasaran bagaimana sistem federatif lama seperti IRC dan NNTP bisa diukur dengan metode seperti HHI
    Saya jadi ingin tahu hasil seperti apa yang akan muncul pada sistem-sistem lama itu dengan metrik seperti ini

    • Ada kasus ketika freenode berganti pemilik dan hampir semua orang pindah hanya dalam waktu sekitar seminggu
      Menarik bahwa perpindahan seperti itu ternyata sangat mudah dan sangat mungkin dilakukan

    • Untuk lingkungan kecil dan semi-privat, IRC dengan scroll-back lewat frontend web masih sangat bagus
      Tetapi ketika skalanya menjadi terlalu besar, sistem itu mulai runtuh karena politik dan perbedaan budaya
      Jika orang-orang dengan kecenderungan serupa berkumpul, ini berjalan sangat baik, tetapi ketika dibuka penuh ke publik, muncul perbedaan pendapat, troll, dan masalah bot AI
      Dengan menjaga antarmuka web tetap semi-privat serta memakai autentikasi sederhana, pemblokiran referrer, dan sebagainya, ancaman keamanan, konflik, dan bot pihak ketiga bisa dicegah
      NNTP juga cukup baik, tetapi tidak mudah untuk melakukan mirror seluruh grup biner secara individual, dan karena ISP tidak lagi mendukungnya, kebanyakan orang memakai news feed komersial atau penyedia Usenet gratis
      Sebaiknya melakukan peering dengan beberapa penyedia gratis untuk mengurangi risiko sensor
      Baik IRC maupun NNTP memungkinkan individu membuat linked server privat atau semi-privat mereka sendiri
      Info terkait

    • Secara matematis menghitungnya mudah, dan statistik jaringan terkait bisa dilihat di netsplit.de

  • Akan menarik jika Nostr ditambahkan ke distribusi HHI seperti ini
    Dalam Nostr, konsentrasi basis pengguna dianggap sebagai kelemahan utama model fedi, tetapi penerapannya akan sedikit aneh karena identitas pengguna di Nostr tidak berada di satu relay tunggal

    • Karena sebagian besar klien Nostr mengirim data ke beberapa relay, dan akun itu sendiri adalah pasangan kunci publik milik perangkat pengguna
  • Saya rasa masalah sentralisasi/desentralisasi seperti ini pada akhirnya selalu merupakan masalah marketing dan UX

  • Akan menarik jika Threads dimasukkan ke dalam Fediverse

    • Threads juga secara mandiri menyediakan kontrol privasi yang lebih kuat dalam bentuk opt-in, tetapi pada akhirnya saya rasa itu juga bisa dianggap sebagai salah satu "server yang memiliki data pengguna" di Fediverse
  • Yang penting adalah menjaga keseimbangan dengan baik
    Jika terlalu terdesentralisasi, tidak ada yang bisa menemukan apa pun; jika terlalu tersentralisasi, kebebasan hilang karena sensor

    • Secara pribadi saya penasaran apakah discoverability di lingkungan terdistribusi benar-benar sesuatu yang mustahil
      Jika sumber daya yang cukup (uang/tenaga, dll.) dicurahkan ke pengindeksan, titik tengah itu mungkin bisa dipertahankan secara tidak stabil seperti menyeimbangkan pendulum secara terbalik
      Pada masa keemasan blog, pernah ada harmoni antara mesin pencari (pusat) dan blog/forum (individual), tetapi seiring waktu hal itu melemah karena spam dan integrasi platform besar

    • Saya ingin menyoroti bahwa argumen ini berangkat dari asumsi bahwa fitur "menemukan" pasti memerlukan unsur sentralisasi

    • Dalam ekonomi, nilai HHI di bawah 100 dianggap "sangat kompetitif", di bawah 1500 dianggap "tidak terkonsentrasi", dan di atas 2500 dianggap "sangat terkonsentrasi"
      Fediverse hampir berada di ujung paling kiri tetapi nilainya sudah 690
      Sentralisasi penuh (naik lurus ke atas) adalah 5000
      Pada praktiknya, skala nonlinier sedang ditampilkan secara linier

    • Saya menginginkan adanya pilihan yang disengaja
      Saya berharap ada bentuk di mana pengguna bisa langsung memilih opsi seperti sentralisasi, desentralisasi, atau hibrida

    • Jika ada kritik bahwa "ini terlalu terdesentralisasi", organisasi nirlaba bisa membuat indeks tempat host publik mendaftarkan diri secara sukarela agar semua konten terdistribusi bisa ditemukan
      Dengan cara seperti ini, masalah pencarian juga bisa diatasi
      Pada akhirnya Facebook mungkin akan mencoba menarik data semacam ini lewat Threads

  • Metrik HHI itu sendiri terasa baru dan mudah dipahami
    Jika diskalakan turun ke 0~100 (dibagi 100), angkanya mungkin akan terasa lebih intuitif
    Mungkin juga layak dipertimbangkan untuk membaliknya sehingga 0 berarti sentralisasi dan 100 berarti distribusi sempurna
    Karena judul halaman memberi kesan seolah mengukur "kemajuan" menuju desentralisasi, menurut saya itu akan terasa lebih intuitif

    • Namun, alasan tidak menormalisasikannya ke 0~100 mungkin justru agar orang tidak memandang angka ini secara linier
      Jika seseorang melihat skor 2500, mereka akan bertanya-tanya artinya apa, tetapi jika ditulis 25/100, kesan sebagai "sangat terkonsentrasi" justru bisa terasa lebih lemah