1 poin oleh GN⁺ 24 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • Mulai 24 April 2026, data pengguna Copilot Free·Pro·Pro+ akan digunakan untuk pelatihan dan peningkatan model AI, dan pengguna dapat menolaknya melalui pengaturan opt-out
  • Pengguna Business dan Enterprise tidak terdampak oleh perubahan ini, dan jika sebelumnya sudah memilih untuk menolak, pilihan yang ada tetap dipertahankan
  • Data pelatihan mencakup informasi interaksi pengembangan nyata seperti kode input, hasil output, konteks di sekitar kursor, evaluasi umpan balik, dan lain-lain
  • Repositori perusahaan, konten privat, dan data pengguna yang opt-out tidak digunakan untuk pelatihan, dan data hanya dibagikan dengan afiliasi GitHub seperti Microsoft
  • GitHub menyatakan bahwa data interaksi pengembang nyata sangat penting untuk meningkatkan akurasi, keamanan, dan kemampuan deteksi bug, serta menekankan partisipasi sukarela dari pengembang

Pembaruan kebijakan penggunaan data interaksi GitHub Copilot

  • Mulai 24 April 2026, data interaksi pengguna Copilot Free, Pro, Pro+ (input, output, potongan kode, konteks terkait) akan digunakan untuk pelatihan dan peningkatan model AI
    • Namun, jika pengguna melakukan opt-out, data tidak akan digunakan untuk pelatihan
    • Pengguna Copilot Business dan Enterprise tidak terdampak oleh perubahan ini
  • Bagi pengguna yang sebelumnya sudah mengatur penolakan pengumpulan data, pilihan yang ada tetap dipertahankan, dan data tidak akan disertakan dalam pelatihan kecuali ada persetujuan eksplisit
  • GitHub menyatakan bahwa perubahan ini sejalan dengan praktik standar industri dan berkontribusi pada peningkatan akurasi, keamanan, dan kemampuan deteksi bug model
  • Pengguna dapat mengubah status partisipasi kapan saja melalui bagian Privacy di halaman pengaturan

Kebutuhan pelatihan berbasis data nyata

  • Model Copilot awal dibangun berdasarkan data publik dan sampel kode buatan tangan
  • Setelah itu, pelatihan dilakukan dengan menyertakan data interaksi karyawan Microsoft, dan terkonfirmasi adanya peningkatan signifikan seperti kenaikan acceptance rate di berbagai bahasa pemrograman
  • Berdasarkan hasil tersebut, GitHub memutuskan untuk memasukkan data interaksi pengembang nyata ke dalam pelatihan agar dapat mencerminkan beragam kasus penggunaan nyata

Jenis data yang dikumpulkan dan digunakan

  • Data yang dapat digunakan untuk pelatihan model meliputi:
    • Hasil output yang diterima atau dimodifikasi oleh pengguna
    • Potongan kode dan isi permintaan yang dimasukkan ke Copilot
    • Konteks kode di sekitar kursor

      • Komentar dan isi dokumentasi yang ditulis pengguna
    • Nama file, struktur repositori, pola navigasi

      • Interaksi dengan fitur Copilot (chat, saran inline, dan lain-lain)
      • Umpan balik terhadap saran (penilaian suka/tidak suka)

Data yang tidak termasuk dalam pelatihan

  • Data berikut tidak digunakan untuk pelatihan model:
    • Data interaksi dari Copilot Business, Enterprise, dan repositori milik perusahaan
    • Data dari pengguna yang melakukan opt-out
    • Konten dari issue, diskusi, dan repositori tidak aktif (private at rest)
      • Namun, saat menggunakan Copilot, kode dari repositori privat dapat diproses untuk menjalankan layanan, dan jika tidak melakukan opt-out, dapat disertakan dalam pelatihan

Ruang lingkup berbagi data dan keamanan

  • Data yang dikumpulkan dapat dibagikan dengan afiliasi GitHub (misalnya Microsoft)
  • Namun, data tidak dibagikan dengan penyedia model AI pihak ketiga atau penyedia layanan eksternal
  • GitHub menekankan bahwa kemajuan pengembangan berbantuan AI bergantung pada data interaksi pengembang nyata, dan data karyawan Microsoft dan GitHub sudah digunakan dalam pelatihan model

Pilihan pengguna dan dampaknya

  • Jika pengguna setuju untuk memberikan data, model dapat ditingkatkan dalam hal pemahaman workflow pengembangan, saran kode yang lebih akurat dan aman, serta kemampuan deteksi bug lebih awal
  • Meski tidak berpartisipasi, pengguna tetap dapat menggunakan fitur AI Copilot yang ada seperti biasa
  • GitHub menyambut partisipasi sukarela demi peningkatan kualitas bagi seluruh komunitas pengembang, dan pertanyaan terkait dapat dilihat di halaman FAQ dan diskusi komunitas

1 komentar

 
GN⁺ 24 hari lalu
Komentar Hacker News
  • Di pengaturan GitHub, pada opsi “Allow GitHub to use my data for AI model training”, pengguna bisa menyalakan atau mematikannya
    Tapi lucu juga karena ini dikemas seolah-olah seperti “akses fitur”
    Agak ironis menyebut penyerahan data gratis sebagai semacam manfaat

    • Setidaknya redaksinya sendiri tidak membingungkan
      Tidak serumit checkbox “public access prevention” saat membuat bucket GCS
    • Walaupun semua fitur terkait Copilot sudah dimatikan, tingkat penggunaan Copilot Chat tetap ditampilkan 2%, jadi cukup membingungkan
      Saya sengaja tidak memakainya di akun pribadi, jadi tidak paham kenapa tetap tercatat
    • Ungkapan “akses fitur” terasa terlalu manipulatif
      Pada dasarnya saya menyerahkan data saya, tapi dibuat terdengar seolah saya akan kehilangan sesuatu
    • Mungkin “manfaatnya” adalah model dilatih ulang dengan data saya dan nantinya sedikit membantu saya juga
    • Pada akhirnya, “fitur” itu cuma berarti gaya coding saya tercermin pada model berikutnya
  • Diumumkan bahwa mulai 24 April, data interaksi GitHub Copilot akan digunakan untuk pelatihan AI
    Setelan bawaan aktif, jadi harus dimatikan secara manual
    Tautan halaman pengaturan
    Saya penasaran apakah akun bisnis juga menyala secara bawaan. Jika iya, ini kebijakan yang cukup mencurigakan

    • Sulit dipercaya bahwa setelan bawaan adalah aktif
      Bahkan posting blog-nya tidak menyertakan tautan untuk menonaktifkannya, itu tidak membantu
      Untuk mematikannya secara manual, buka jalur ini → Privacy → “Allow GitHub to use my data for AI model training” → set ke Disabled
    • Menurut jawaban komunitas resmi,
      data pelanggan enterprise tidak digunakan untuk pelatihan berdasarkan kontrak, dan hanya pengguna individu yang bisa mengontrolnya
    • Jika pengguna bisnis juga default-nya opt-in, itu merupakan pelanggaran kebijakan keamanan dan privasi
      Ada kebijakan internal agar kode pelanggan tidak dipakai untuk pelatihan
    • Sudah dikonfirmasi bahwa data pelanggan Copilot Business atau Enterprise tidak digunakan untuk pelatihan
    • Di blog juga tertulis bahwa “pengguna Business dan Enterprise tidak terdampak oleh perubahan ini”
  • Copilot tidak punya cara untuk mengabaikan file sensitif seperti API key atau kata sandi
    Begitu IDE dibuka, informasi semacam itu bisa saja dikirim ke Microsoft
    Tautan diskusi terkait

    • Gemini CLI memblokir variabel environment yang mengandung string seperti ‘AUTH’
      Tapi ada sampai dua pengaturan pengecualian, dan keduanya tidak berfungsi
      Meski mengirim PR, yang merespons hanya bot dan tidak ada manusia yang melihat
      Selain itu, saat Gemini 3 me-refactor kode open source, jika dinilai bertentangan dengan niat pengembang asli, ia menolak menghasilkan kode
    • Sebenarnya masalahnya juga ada pada penyimpanan file sensitif di repositori
    • Masalah seperti ini berulang bukan hanya di Copilot, tapi juga di isu OpenAI Codex
    • Saya ingat ada pengaturan ignore path di tingkat enterprise atau organisasi
  • Kalau pengguna berbayar, saya rasa setelan bawaan seharusnya opt-in, bukan opt-out
    Saya tidak paham kenapa Mario Rodriguez(@mariorod) di GitHub membuat keputusan seperti ini

    • Kalau melihat README miliknya, perhatian utamanya adalah “narrative shaping” dan perubahan pada ‘How we Work’, jadi pendekatan seperti ini tampaknya memang sejalan dengan itu
  • Sejak GitHub dan era AI, semua kode saya sudah dipindahkan ke private git repo di server sendiri
    Tidak ada lagi alasan untuk pusing memikirkan lisensi open source
    Saya tidak berniat membiarkan kode saya dipakai untuk pelatihan AI komersial
    Kalau benar-benar serius dengan open source, sekarang saatnya pindah ke Codeberg

    • Saya juga mengambil keputusan yang sama
      Proyek open source lama hanya saya rawat seperlunya, dan proyek baru saya distribusikan hanya dalam bentuk SaaS atau biner
      Sebagai gantinya, saya berkontribusi ke proyek bahasa dan OS sambil merasakan perlunya pelatihan ulang model
    • Mungkin ada klausul pengecualian lisensi di TOS GitHub untuk pengoperasian layanan
    • Sekarang saya self-host Forgejo, menjalankan runner di hardware sendiri, dan cukup puas
  • Di UE, saya penasaran apa dasar hukum untuk kebijakan seperti ini
    Data yang dikumpulkan bisa memuat informasi identitas pribadi (PII), dan menurut GDPR,
    dibutuhkan “persetujuan yang sukarela dan jelas”

    • GDPR melarang default opt-out
      Jika saya memasukkan nomor telepon saya dalam satu baris kode untuk pengujian lalu terkirim ke Copilot, saya bahkan bisa menempuh jalur hukum
    • Di pengaturan GitHub saya, opsi ini malah tidak ada sama sekali, jadi saya bertanya-tanya apakah ini hanya berlaku untuk pengguna AS
  • Pernyataan “pendekatan ini selaras dengan standar industri” pada akhirnya cuma logika “tempat lain juga melakukan hal yang sama”

    • Tapi Anthropic memakai metode opt-in, dan bahkan memberi diskon jika diaktifkan
  • Pada akhirnya GitHub terlihat seperti ingin menyimpan seluruh codebase semua penggunanya
    Ada kalimat yang menyebutkan bahwa data yang dipakai Copilot bisa dibagikan ke seluruh afiliasi Microsoft

  • Saya tidak melihat opsi untuk membatalkan langganan Copilot
    Bahkan setelah melihat tautan pengaturan pembayaran seluler, opsinya tetap tidak ada
    Menurut dokumentasi resmi,
    jika mendapat akses gratis sebagai pelajar, pengajar, atau maintainer open source, disebutkan bahwa langganannya tidak bisa dibatalkan

  • Meski begitu, GitHub tidak berusaha menyembunyikan perubahan ini, dan secara terbuka menjelaskan prosedur opt-out

    • Tapi di email tidak ada tautan langsung, dan nama pengaturannya juga tidak disebutkan
      Rasanya seperti dark pattern yang sangat khas
    • Dalam praktiknya, opt-out juga tidak sesederhana itu
      Di aplikasi Android, halaman pengaturannya sulit ditemukan, dan halamannya juga tidak berfungsi dengan baik