- Situs ini mengukur seberapa terpusat data pengguna di Fediverse (Mastodon, Pixelfed, dll.) dan Atmosphere (Bluesky, WhiteWind, dll.)
- Menggunakan Herfindahl–Hirschman Index (HHI) dan Shannon Index untuk menganalisis tingkat persebaran pengguna antar server
- HHI adalah indikator yang digunakan dalam ekonomi untuk mengukur tingkat persaingan; semakin rendah nilainya, semakin besar persebarannya, dan semakin tinggi nilainya, semakin menunjukkan konsentrasi monopolistik
- Shannon Index adalah indikator keragaman berbasis entropi; semakin tinggi nilainya, semakin merata populasi tersebar di antara server
- Selain konsentrasi data, proyek ini juga mempertimbangkan berbagai faktor pengukuran desentralisasi seperti struktur jaringan, yurisdiksi hukum, dan konsentrasi kekuasaan sosial, serta membuka data dan kode di GitHub
Pengenalan dan konsep utama
- Mengukur seberapa terkonsentrasinya data pengguna di platform Fediverse dan Atmosphere dengan menggunakan Herfindahl–Hirschman Index (HHI)
- HHI adalah indikator representatif dalam ekonomi untuk mengevaluasi tingkat persaingan, dihitung dengan menjumlahkan kuadrat proporsi pengguna yang dimiliki tiap server (atau PDS)
- Semakin dekat nilai HHI ke 0, semakin merata pengguna tersebar di berbagai server; semakin dekat ke 10.000, semakin menunjukkan kondisi monopoli di mana sebagian besar pengguna terkonsentrasi pada satu server
- Umumnya, HHI di bawah 100 dianggap "sangat kompetitif", di bawah 1.500 dianggap "tidak terkonsentrasi", dan 2.500 ke atas dianggap "sangat terkonsentrasi"
Metode pengukuran dan definisi data
- Objek yang diukur adalah server (instance) di Fediverse dan PDS (personal data server) di Atmosphere
- Untuk platform seperti Mastodon, di mana pengguna tersebar di banyak instance, instance yang dimiliki operator yang sama digabungkan menjadi satu
- Contoh: mastodon.social dan mastodon.online dioperasikan oleh perusahaan yang sama, sehingga digabung dalam pemrosesan statistik
- Semua PDS yang dikelola oleh Bluesky Social PBC juga dihitung sebagai satu entitas
- Dengan begitu, skala pengguna yang dikendalikan oleh satu entitas dapat tercermin secara akurat
Berbagai perspektif dalam mengukur sentralisasi
- Selain distribusi fisik data pengguna, desentralisasi juga bisa dianalisis dari berbagai sisi
- Aspek struktur jaringan (misalnya P2P, relay, dll.)
- Metode manajemen identitas
- Kepemilikan dan lokasi infrastruktur aktual (wilayah, yurisdiksi, dll.)
- Konsentrasi kekuasaan sosial dan organisasional (misalnya fenomena pemusatan pengaruh di dalam platform)
- Bukan hanya distribusi data di dalam platform, tetapi juga penting untuk memperhatikan apakah otoritas dan pengaruh turut terdistribusi
Partisipasi proyek dan open source
- Seluruh kode dan dataset yang digunakan dalam pengukuran dipublikasikan di repositori GitHub
- Kontribusi, komentar, usulan metrik pengukuran baru, serta penambahan metrik resiliency dipersilakan
2 komentar
"Apakah kita masih belum terdesentralisasi?" sebenarnya juga tidak sepenuhnya salah, tetapi terdengar tidak alami dan canggung.
Karena "masih" umumnya dipakai bersama kalimat negatif...
Sepertinya terjemahan seperti "Apakah desentralisasi masih belum tercapai?" akan menjadi judul yang lebih alami.
Komentar Hacker News
Hari ini saya baru pertama kali mengetahui Herfindahl–Hirschman Index, jadi saya ingin mengujinya dengan kasus aneh yang mudah diingat
Pada akhir 1980-an, ada suatu periode ketika Microsoft mencatat pangsa pasar lebih dari 100% di pasar spreadsheet Macintosh
Ini bisa terjadi karena cara menghitung pangsa pasar adalah membagi penjualan tiap peserta dalam periode tertentu dengan total penjualan seluruh pasar, dan saat itu spreadsheet Lotus bernama Lotus Jazz gagal total sehingga jumlah retur melebihi jumlah penjualannya
Akibatnya, Lotus memiliki pangsa pasar negatif, dan penjualan Microsoft Excel menjadi lebih besar daripada total penjualan seluruh pasar sehingga muncul pangsa pasar di atas 100%
Saya tidak ingat angka pastinya, tetapi kira-kira Microsoft 102%, Lotus -2%
Dalam kasus seperti ini, Herfindahl–Hirschman Index menjadi 1022 + (-2)2 = 10404 + 4 = 10408
Dalam kasus ekstrem seperti ini, HHI bisa melebihi 10.000
(Saya menambahkan syarat "dalam periode tertentu" untuk penjelasan)
Saya sudah mencari artikel terkait dengan sangat serius di internet, tetapi tidak menemukannya (mungkin ada di mikrofilm di suatu tempat...)
Sebagai gantinya, saya menemukan satu anekdot yang menarik
Seorang eksekutif Lotus konon bercanda, “Pada bulan pertama kami mengirim 62.000 unit, dan bulan berikutnya 64.000 unit dikembalikan. Bahkan salinan bajakan pun dikembalikan”
Artikel Forbes terkait
HHI benar-benar metrik yang berguna
Konsep jumlah kuadrat dari pangsa yang dinormalisasi sangat cocok diterapkan bukan hanya pada pangsa pasar, tetapi juga dalam berbagai situasi lain
Ada juga contoh penggunaan yang sangat baik dalam pemungutan suara
Hasilnya menarik, jadi tidak terlalu mengejutkan
BlueSky adalah layanan yang dari sudut pandang pengguna biasa hampir bisa menggantikan Twitter
Jumlah total pengguna Mastadon memang lebih sedikit, tetapi menyenangkan melihat ekosistem Mastadon menghindari sentralisasi seperti halnya ekosistem AT-Proto
Secara pribadi saya menduga biaya menjalankan server/relay AT proto akan cukup membebani operator kecil, tetapi ini hanya tebakan karena saya tidak terlalu memahami struktur internal kedua ekosistem itu
Menjalankan server PDS untuk diri sendiri dan beberapa teman tidak terlalu mahal
Namun tidak ada keuntungan besar dari menjalankannya seperti itu; tujuan PDS adalah memisahkan data milik sendiri dan data seluruh jaringan dengan rapi
Yang mahal di ATProto adalah Relay (mengumpulkan/menyiarkan seluruh data) dan AppView (menyimpan semua postingan/like/dll. ke database dan merespons permintaan pengguna)
Tentu saja, untuk jaringan kecil, misalnya seperti WhiteWind yang dipakai untuk menulis panjang, volume event-nya rendah sehingga tetap memungkinkan
Sebagian besar memang dirancang agar tidak perlu self-hosting
Feed algoritmik atau frontend buatan sendiri bisa diimplementasikan dengan mengambil data dari Relay atau AppView yang dijalankan Bluesky
Saya rasa salah satu alasan BlueSky berhasil adalah karena, tidak seperti Mastodon, ia tidak menonjolkan "desentralisasi" kepada pengguna
Sebagian besar pengguna bahkan tidak tahu apa itu desentralisasi dan tidak ingin tahu
Menurut saya, lebih banyak upaya perlu dicurahkan pada operasional dan fitur administrasi yang baik daripada pada desentralisasi
ATProto didukung oleh perusahaan dan investor dari berbagai latar belakang
Suatu hari mereka juga pasti menginginkan keuntungan, dan sulit memprediksi bagaimana itu akan terwujud
Soal diskusi biaya operasional, struktur ATProto memang sangat berbeda
Mastodon berbentuk banyak server mirip Twitter yang saling bertukar informasi seperti email, jadi server kecil untuk lingkaran kenalan itu murah
Namun dengan struktur seperti ini, konektivitas ke jaringan global lebih lemah, dan server saya pada dasarnya adalah identitas saya
Jika saya mengikuti pengguna di server lain, server saya meminta informasi ke server itu, tetapi pada dasarnya tampilan seluruh jaringan jadi terfragmentasi
Sejak awal, ATProto memiliki pembagian yang berbeda agar bisa bersaing dengan layanan tersentralisasi, dengan sumber data dan agregasi aplikasi dipisahkan
Ini sedikit mirip semua pengguna mengunggah JSON ke situs web (url) mereka sendiri, lalu aplikasi mengagregasikan data itu
Hasilnya, semua orang memiliki tampilan yang sama (semua komentar, like, dan balasan tercermin)
Jika pada Mastodon satu "instance" adalah aplikasi web Twitter yang berdiri sendiri, di ATProto ada beberapa primitive terdistribusi
AppView yang hanya melihat sebagian jaringan, seperti model Mastodon, jauh lebih murah, tetapi kurang menarik sehingga hampir tidak dipakai
Singkatnya, menjalankan PDS dan Relay itu murah, sedangkan yang mahal adalah menjalankan AppView penuh, dan Mastodon memang tidak punya konsep yang setara
Membandingkan harga pengalaman Mastodon yang terfragmentasi dengan pengalaman ATProto yang konsisten secara langsung memang kurang tepat
Menjalankan partial AppView seperti Mastodon itu murah, tetapi daya tarik nyatanya rendah
Selain itu, Mastodon mencoba mengurangi masalah ini dengan memperkenalkan on-demand fetching, tetapi sistem terdistribusi berbasis pull memang punya keterbatasan
Pertanyaan terkait
Pada akhirnya, bahkan dalam sistem terdistribusi, fenomena sentralisasi tetap muncul secara alami
Git juga merupakan upaya distribusi, tetapi pada praktiknya terkonsentrasi pada platform tertentu seperti GitHub atau GitLab
BitTorrent juga terdistribusi, tetapi situs tracker berfungsi sebagai pusat alami
Bitcoin juga akhirnya memiliki beberapa layanan seperti Coinbase yang berperan sebagai pusat
Email (SMTP) pun pada praktiknya mengalami sentralisasi akibat masalah spam
Untuk email (SMTP), pernyataan bahwa "hanya pemain besar yang bisa melakukan pemfilteran spam" itu tidak benar
Ada juga daftar filter spam terdistribusi yang sudah lama ada, dan penyedia besar juga tidak punya keunggulan istimewa dalam pemfilteran spam
Hanya saja, penyedia besar memang cenderung menganggap server mail kecil sebagai spam, dan memang bisa saja ada niat untuk menekan pesaing
Namun, ini juga bukan berarti kalau reverse DNS dan DKIM di server mail sudah diatur dengan benar pasti tetap dianggap spam; bahkan layanan besar pun bisa saling menandai sebagai spam, jadi tidak absolut
Situs tracker itu ada banyak, dan jika satu hilang, tracker lain akan segera muncul
Jadi, karena tidak ada satu pemain tunggal yang mengendalikan ekosistem, saya rasa ini tetap bisa dianggap terdistribusi
Layanan seperti Coinbase bisa dibuat oleh siapa saja
Faktanya ada banyak situs serupa, dan sekarang PayPal juga bisa dipakai
Kita juga tidak perlu bergantung pada satu layanan saja; misalnya, Anda bisa membeli bitcoin di PayPal dan menjualnya di Coinbase
Menurut saya aneh jika situasi seperti ini didefinisikan sebagai sentralisasi
Git sendiri sebenarnya bukan alat yang ditujukan untuk desentralisasi, itu juga perlu dicatat
Semua contoh yang disebutkan memang pada akhirnya tetap memiliki unsur sentralisasi
Di fedi (ekosistem sosial terdistribusi), memang lebih terdesentralisasi, tetapi kurang konsisten
Inilah hal yang paling sering dikeluhkan pengguna yang baru masuk ke fedi
Secara pribadi saya melihat ini sebagai lompatan besar dan saya rasa tidak masalah, tetapi menetapkan ekspektasi yang realistis itu lebih penting
Saya penasaran bagaimana sistem federatif lama seperti IRC dan NNTP bisa diukur dengan metode seperti HHI
Saya jadi ingin tahu hasil seperti apa yang akan muncul pada sistem-sistem lama itu dengan metrik seperti ini
Ada kasus ketika freenode berganti pemilik dan hampir semua orang pindah hanya dalam waktu sekitar seminggu
Menarik bahwa perpindahan seperti itu ternyata sangat mudah dan sangat mungkin dilakukan
Untuk lingkungan kecil dan semi-privat, IRC dengan scroll-back lewat frontend web masih sangat bagus
Tetapi ketika skalanya menjadi terlalu besar, sistem itu mulai runtuh karena politik dan perbedaan budaya
Jika orang-orang dengan kecenderungan serupa berkumpul, ini berjalan sangat baik, tetapi ketika dibuka penuh ke publik, muncul perbedaan pendapat, troll, dan masalah bot AI
Dengan menjaga antarmuka web tetap semi-privat serta memakai autentikasi sederhana, pemblokiran referrer, dan sebagainya, ancaman keamanan, konflik, dan bot pihak ketiga bisa dicegah
NNTP juga cukup baik, tetapi tidak mudah untuk melakukan mirror seluruh grup biner secara individual, dan karena ISP tidak lagi mendukungnya, kebanyakan orang memakai news feed komersial atau penyedia Usenet gratis
Sebaiknya melakukan peering dengan beberapa penyedia gratis untuk mengurangi risiko sensor
Baik IRC maupun NNTP memungkinkan individu membuat linked server privat atau semi-privat mereka sendiri
Info terkait
Secara matematis menghitungnya mudah, dan statistik jaringan terkait bisa dilihat di netsplit.de
Akan menarik jika Nostr ditambahkan ke distribusi HHI seperti ini
Dalam Nostr, konsentrasi basis pengguna dianggap sebagai kelemahan utama model fedi, tetapi penerapannya akan sedikit aneh karena identitas pengguna di Nostr tidak berada di satu relay tunggal
Saya rasa masalah sentralisasi/desentralisasi seperti ini pada akhirnya selalu merupakan masalah marketing dan UX
Akan menarik jika Threads dimasukkan ke dalam Fediverse
Yang penting adalah menjaga keseimbangan dengan baik
Jika terlalu terdesentralisasi, tidak ada yang bisa menemukan apa pun; jika terlalu tersentralisasi, kebebasan hilang karena sensor
Secara pribadi saya penasaran apakah discoverability di lingkungan terdistribusi benar-benar sesuatu yang mustahil
Jika sumber daya yang cukup (uang/tenaga, dll.) dicurahkan ke pengindeksan, titik tengah itu mungkin bisa dipertahankan secara tidak stabil seperti menyeimbangkan pendulum secara terbalik
Pada masa keemasan blog, pernah ada harmoni antara mesin pencari (pusat) dan blog/forum (individual), tetapi seiring waktu hal itu melemah karena spam dan integrasi platform besar
Saya ingin menyoroti bahwa argumen ini berangkat dari asumsi bahwa fitur "menemukan" pasti memerlukan unsur sentralisasi
Dalam ekonomi, nilai HHI di bawah 100 dianggap "sangat kompetitif", di bawah 1500 dianggap "tidak terkonsentrasi", dan di atas 2500 dianggap "sangat terkonsentrasi"
Fediverse hampir berada di ujung paling kiri tetapi nilainya sudah 690
Sentralisasi penuh (naik lurus ke atas) adalah 5000
Pada praktiknya, skala nonlinier sedang ditampilkan secara linier
Saya menginginkan adanya pilihan yang disengaja
Saya berharap ada bentuk di mana pengguna bisa langsung memilih opsi seperti sentralisasi, desentralisasi, atau hibrida
Jika ada kritik bahwa "ini terlalu terdesentralisasi", organisasi nirlaba bisa membuat indeks tempat host publik mendaftarkan diri secara sukarela agar semua konten terdistribusi bisa ditemukan
Dengan cara seperti ini, masalah pencarian juga bisa diatasi
Pada akhirnya Facebook mungkin akan mencoba menarik data semacam ini lewat Threads
Metrik HHI itu sendiri terasa baru dan mudah dipahami
Jika diskalakan turun ke 0~100 (dibagi 100), angkanya mungkin akan terasa lebih intuitif
Mungkin juga layak dipertimbangkan untuk membaliknya sehingga 0 berarti sentralisasi dan 100 berarti distribusi sempurna
Karena judul halaman memberi kesan seolah mengukur "kemajuan" menuju desentralisasi, menurut saya itu akan terasa lebih intuitif
Jika seseorang melihat skor 2500, mereka akan bertanya-tanya artinya apa, tetapi jika ditulis 25/100, kesan sebagai "sangat terkonsentrasi" justru bisa terasa lebih lemah