- Mulai 24 April 2026, data pengguna Copilot Free·Pro·Pro+ akan digunakan untuk pelatihan dan peningkatan model AI, dan pengguna dapat menolaknya melalui pengaturan opt-out
- Pengguna Business dan Enterprise tidak terdampak oleh perubahan ini, dan jika sebelumnya sudah memilih untuk menolak, pilihan yang ada tetap dipertahankan
- Data pelatihan mencakup informasi interaksi pengembangan nyata seperti kode input, hasil output, konteks di sekitar kursor, evaluasi umpan balik, dan lain-lain
- Repositori perusahaan, konten privat, dan data pengguna yang opt-out tidak digunakan untuk pelatihan, dan data hanya dibagikan dengan afiliasi GitHub seperti Microsoft
- GitHub menyatakan bahwa data interaksi pengembang nyata sangat penting untuk meningkatkan akurasi, keamanan, dan kemampuan deteksi bug, serta menekankan partisipasi sukarela dari pengembang
Pembaruan kebijakan penggunaan data interaksi GitHub Copilot
- Mulai 24 April 2026, data interaksi pengguna Copilot Free, Pro, Pro+ (input, output, potongan kode, konteks terkait) akan digunakan untuk pelatihan dan peningkatan model AI
- Namun, jika pengguna melakukan opt-out, data tidak akan digunakan untuk pelatihan
- Pengguna Copilot Business dan Enterprise tidak terdampak oleh perubahan ini
- Bagi pengguna yang sebelumnya sudah mengatur penolakan pengumpulan data, pilihan yang ada tetap dipertahankan, dan data tidak akan disertakan dalam pelatihan kecuali ada persetujuan eksplisit
- GitHub menyatakan bahwa perubahan ini sejalan dengan praktik standar industri dan berkontribusi pada peningkatan akurasi, keamanan, dan kemampuan deteksi bug model
- Pengguna dapat mengubah status partisipasi kapan saja melalui bagian Privacy di halaman pengaturan
Kebutuhan pelatihan berbasis data nyata
- Model Copilot awal dibangun berdasarkan data publik dan sampel kode buatan tangan
- Setelah itu, pelatihan dilakukan dengan menyertakan data interaksi karyawan Microsoft, dan terkonfirmasi adanya peningkatan signifikan seperti kenaikan acceptance rate di berbagai bahasa pemrograman
- Berdasarkan hasil tersebut, GitHub memutuskan untuk memasukkan data interaksi pengembang nyata ke dalam pelatihan agar dapat mencerminkan beragam kasus penggunaan nyata
Jenis data yang dikumpulkan dan digunakan
- Data yang dapat digunakan untuk pelatihan model meliputi:
- Hasil output yang diterima atau dimodifikasi oleh pengguna
- Potongan kode dan isi permintaan yang dimasukkan ke Copilot
-
Konteks kode di sekitar kursor
- Komentar dan isi dokumentasi yang ditulis pengguna
-
Nama file, struktur repositori, pola navigasi
- Interaksi dengan fitur Copilot (chat, saran inline, dan lain-lain)
- Umpan balik terhadap saran (penilaian suka/tidak suka)
Data yang tidak termasuk dalam pelatihan
- Data berikut tidak digunakan untuk pelatihan model:
- Data interaksi dari Copilot Business, Enterprise, dan repositori milik perusahaan
- Data dari pengguna yang melakukan opt-out
- Konten dari issue, diskusi, dan repositori tidak aktif (private at rest)
- Namun, saat menggunakan Copilot, kode dari repositori privat dapat diproses untuk menjalankan layanan, dan jika tidak melakukan opt-out, dapat disertakan dalam pelatihan
Ruang lingkup berbagi data dan keamanan
- Data yang dikumpulkan dapat dibagikan dengan afiliasi GitHub (misalnya Microsoft)
- Namun, data tidak dibagikan dengan penyedia model AI pihak ketiga atau penyedia layanan eksternal
- GitHub menekankan bahwa kemajuan pengembangan berbantuan AI bergantung pada data interaksi pengembang nyata, dan
data karyawan Microsoft dan GitHub sudah digunakan dalam pelatihan model
Pilihan pengguna dan dampaknya
- Jika pengguna setuju untuk memberikan data, model dapat ditingkatkan dalam hal pemahaman workflow pengembangan, saran kode yang lebih akurat dan aman, serta kemampuan deteksi bug lebih awal
- Meski tidak berpartisipasi, pengguna tetap dapat menggunakan fitur AI Copilot yang ada seperti biasa
- GitHub menyambut partisipasi sukarela demi peningkatan kualitas bagi seluruh komunitas pengembang,
dan pertanyaan terkait dapat dilihat di halaman FAQ dan diskusi komunitas
1 komentar
Komentar Hacker News
Di pengaturan GitHub, pada opsi “Allow GitHub to use my data for AI model training”, pengguna bisa menyalakan atau mematikannya
Tapi lucu juga karena ini dikemas seolah-olah seperti “akses fitur”
Agak ironis menyebut penyerahan data gratis sebagai semacam manfaat
Tidak serumit checkbox “public access prevention” saat membuat bucket GCS
Saya sengaja tidak memakainya di akun pribadi, jadi tidak paham kenapa tetap tercatat
Pada dasarnya saya menyerahkan data saya, tapi dibuat terdengar seolah saya akan kehilangan sesuatu
Diumumkan bahwa mulai 24 April, data interaksi GitHub Copilot akan digunakan untuk pelatihan AI
Setelan bawaan aktif, jadi harus dimatikan secara manual
Tautan halaman pengaturan
Saya penasaran apakah akun bisnis juga menyala secara bawaan. Jika iya, ini kebijakan yang cukup mencurigakan
Bahkan posting blog-nya tidak menyertakan tautan untuk menonaktifkannya, itu tidak membantu
Untuk mematikannya secara manual, buka jalur ini → Privacy → “Allow GitHub to use my data for AI model training” → set ke Disabled
data pelanggan enterprise tidak digunakan untuk pelatihan berdasarkan kontrak, dan hanya pengguna individu yang bisa mengontrolnya
Ada kebijakan internal agar kode pelanggan tidak dipakai untuk pelatihan
Copilot tidak punya cara untuk mengabaikan file sensitif seperti API key atau kata sandi
Begitu IDE dibuka, informasi semacam itu bisa saja dikirim ke Microsoft
Tautan diskusi terkait
Tapi ada sampai dua pengaturan pengecualian, dan keduanya tidak berfungsi
Meski mengirim PR, yang merespons hanya bot dan tidak ada manusia yang melihat
Selain itu, saat Gemini 3 me-refactor kode open source, jika dinilai bertentangan dengan niat pengembang asli, ia menolak menghasilkan kode
Kalau pengguna berbayar, saya rasa setelan bawaan seharusnya opt-in, bukan opt-out
Saya tidak paham kenapa Mario Rodriguez(@mariorod) di GitHub membuat keputusan seperti ini
Sejak GitHub dan era AI, semua kode saya sudah dipindahkan ke private git repo di server sendiri
Tidak ada lagi alasan untuk pusing memikirkan lisensi open source
Saya tidak berniat membiarkan kode saya dipakai untuk pelatihan AI komersial
Kalau benar-benar serius dengan open source, sekarang saatnya pindah ke Codeberg
Proyek open source lama hanya saya rawat seperlunya, dan proyek baru saya distribusikan hanya dalam bentuk SaaS atau biner
Sebagai gantinya, saya berkontribusi ke proyek bahasa dan OS sambil merasakan perlunya pelatihan ulang model
Di UE, saya penasaran apa dasar hukum untuk kebijakan seperti ini
Data yang dikumpulkan bisa memuat informasi identitas pribadi (PII), dan menurut GDPR,
dibutuhkan “persetujuan yang sukarela dan jelas”
Jika saya memasukkan nomor telepon saya dalam satu baris kode untuk pengujian lalu terkirim ke Copilot, saya bahkan bisa menempuh jalur hukum
Pernyataan “pendekatan ini selaras dengan standar industri” pada akhirnya cuma logika “tempat lain juga melakukan hal yang sama”
Pada akhirnya GitHub terlihat seperti ingin menyimpan seluruh codebase semua penggunanya
Ada kalimat yang menyebutkan bahwa data yang dipakai Copilot bisa dibagikan ke seluruh afiliasi Microsoft
Saya tidak melihat opsi untuk membatalkan langganan Copilot
Bahkan setelah melihat tautan pengaturan pembayaran seluler, opsinya tetap tidak ada
Menurut dokumentasi resmi,
jika mendapat akses gratis sebagai pelajar, pengajar, atau maintainer open source, disebutkan bahwa langganannya tidak bisa dibatalkan
Meski begitu, GitHub tidak berusaha menyembunyikan perubahan ini, dan secara terbuka menjelaskan prosedur opt-out
Rasanya seperti dark pattern yang sangat khas
Di aplikasi Android, halaman pengaturannya sulit ditemukan, dan halamannya juga tidak berfungsi dengan baik