29 poin oleh xguru 2024-05-29 | 3 komentar | Bagikan ke WhatsApp
  • Beberapa waktu lalu, saya menerima email dari sumber anonim yang menyatakan bahwa sejumlah besar dokumen API pencarian Google telah bocor
  • Keaslian dokumen tersebut telah dikonfirmasi oleh mantan karyawan Google, dan percakapan dengan beberapa mantan karyawan Google juga memberikan informasi tambahan

Klaim utama

  • Google berulang kali membantah bahwa mereka menggunakan sinyal pengguna berbasis klik, tetapi dokumen yang bocor membantah hal itu
  • Klaim Google bahwa subdomain tidak dievaluasi secara terpisah, tidak ada sandbox untuk situs web baru, dan usia domain tidak dipertimbangkan, juga dibantah
  • Tim Google Search sejak awal membutuhkan banyak data clickstream pengguna web (semua URL yang dikunjungi di browser) untuk meningkatkan kualitas hasil pencarian
  • Sistem NavBoost yang dikutip oleh DoJ mengumpulkan data dari Google Toolbar PageRank, dan menjadi motivasi utama pengembangan browser Chrome untuk memperoleh lebih banyak data clickstream
  • NavBoost menganalisis jumlah pencarian untuk kata kunci tertentu, jumlah klik pada hasil pencarian, serta klik singkat dan klik lama untuk menilai niat pengguna, dan jika banyak klik pada video atau gambar, ia memicu fitur video atau gambar untuk kueri terkait NavBoost
  • Pemanfaatan data klik: Google menggunakan riwayat cookie, data Chrome yang sedang login, deteksi pola, dan lainnya untuk mencegah spam klik manual maupun otomatis, serta menganalisis klik dan engagement pengguna untuk diterapkan pada hasil pencarian
  • Penilaian kualitas situs: Data NavBoost digunakan untuk menilai kualitas keseluruhan situs (disebut Panda), dan berdasarkan penilaian ini peringkat dapat dinaikkan atau diturunkan
  • NavBoost juga mengevaluasi data klik dengan mempertimbangkan data geografis, memisahkannya hingga tingkat negara bagian/provinsi dan negara
  • Whitelist diterapkan pada hasil pencarian terkait COVID-19 dan pemilu untuk menampilkan situs tertentu secara prioritas

Verifikasi keandalan dokumen

  • Sebagiannya tumpang tindih dengan informasi yang terungkap dalam kasus Google/DOJ, tetapi sebagian besar merupakan hal baru
  • Sumber anonim tersebut mengungkap identitasnya pada 28/5, dan dia adalah Erfan Azimi (pakar SEO)
  • Konfirmasi mantan karyawan Google: dua dari tiga mantan karyawan Google mengonfirmasi keandalan dokumen tersebut
  • Tinjauan teknis: pakar technical SEO Mike King meninjau dokumen tersebut dan mengonfirmasi keandalannya

Google API Contents Warehouse ?

  • Tujuan dokumen API ini: dokumen ini dibuat untuk membantu anggota tim Google memahami elemen data yang tersedia untuk digunakan dalam proyek
  • Jalur kebocoran: sempat dipublikasikan di GitHub, dan selama periode itu dokumen tersebut bocor

Temuan utama

#1: NavBoost dan pemanfaatan data klik

  • Pemfilteran data klik: Google memfilter data klik yang akan dipertimbangkan dalam sistem ranking, serta mengukur durasi klik dan impresi.
  • Mereka memiliki cara untuk menyaring klik yang tidak ingin dimasukkan ke sistem peringkat, dan memasukkan klik yang ingin digunakan
  • Tampaknya mereka mengukur durasi klik (misalnya ketika pencari mengklik hasil pencarian lalu cepat menekan tombol kembali karena tidak puas dengan jawaban yang ditemukan) dan jumlah tayangan

#2: Pemanfaatan clickstream browser Chrome

  • Data clickstream Chrome: Google menggunakan data klik dari browser Chrome untuk menentukan Sitelinks (URL populer dari situs web tersebut)

#3: Whitelist untuk perjalanan, COVID, dan politik

  • Adanya whitelist: domain tertentu ditampilkan secara prioritas pada hasil pencarian terkait perjalanan, COVID, dan pemilu

#4: Pemanfaatan umpan balik quality rater

  • Data quality rater: ada kemungkinan penilaian dari quality rater digunakan secara langsung dalam sistem pencarian

#5: Penggunaan data klik untuk menentukan bobot ranking tautan

  • Klasifikasi indeks tautan: data klik digunakan untuk mengklasifikasikan indeks tautan menjadi berkualitas tinggi, menengah, dan rendah

Implikasi utama bagi marketer

  • Pentingnya brand: Google memprioritaskan brand besar dalam ranking
  • Menurunnya pentingnya faktor E-E-A-T: ada kemungkinan faktor pengalaman, keahlian, otoritas, dan kepercayaan yang ditekankan sebagian praktisi SEO tidak tercermin secara langsung dalam ranking
    • Experience, Expertise, Authoritativeness, Trustworthiness
  • Niat pengguna dan pola klik adalah faktor ranking yang lebih penting daripada konten dan tautan
  • Pentingnya faktor ranking tradisional menurun, seperti PageRank dan anchor text
  • Kesulitan SEO: bagi UKM serta kreator/publisher baru, SEO menjadi semakin sulit untuk bersaing dengan brand besar

3 komentar

 
yangeok 2024-06-09

Kalau begitu, bagaimana kalau tombol kembali diblokir agar tidak berfungsi saja wkwk

 
wkang586 2024-06-03

Saya memang sudah menduganya secara samar, tetapi melihat semuanya terbentang begini benar-benar bikin mental ambruk...
Sampai Navboost sih rasanya masih bisa dimaklumi...
Yang mengejutkan adalah whitelist. Namanya saja terdengar bagus karena disebut whitelist, padahal ini kebijakan diskriminatif yang terang-terangan.

 
xguru 2024-05-29

Dokumen Google Content API Warehouse yang bocor
https://hexdocs.pm/google_api_content_warehouse/0.4.0/…