6 poin oleh GN⁺ 23 hari lalu | 3 komentar | Bagikan ke WhatsApp
  • GitHub berencana memanfaatkan kode dan data dari repositori pribadi untuk melatih model AI
  • Pengguna harus secara eksplisit menolak (opt-out) sebelum 24 April agar penggunaan data diblokir
  • Jika tidak menolak, informasi proyek privat dapat ikut masuk ke data pelatihan
  • Kebijakan ini terkait dengan pengumpulan data untuk meningkatkan fitur AI seperti GitHub Copilot
  • Developer perlu memeriksa pengaturan demi privasi data dan keamanan kode

Perubahan kebijakan data pelatihan AI GitHub

  • GitHub mengubah kebijakan agar data repositori pribadi dapat dimasukkan ke pelatihan untuk peningkatan model AI
    • Jika pengguna tidak menolak secara terpisah, data akan otomatis dimanfaatkan
    • Penolakan dapat dilakukan langsung dari halaman pengaturan GitHub
  • Data pelatihan berpotensi mencakup kode privat, metadata proyek, dan riwayat commit
  • Langkah ini dijelaskan sebagai upaya untuk meningkatkan kualitas Copilot dan fitur AI lainnya

Dampaknya bagi developer

  • Jika repositori pribadi digunakan untuk pelatihan, ada risiko tereksposnya kode sensitif atau logika internal
  • Perusahaan maupun developer individu perlu meninjau kebijakan keamanan dan menjalankan prosedur opt-out
  • Perubahan GitHub kali ini dapat memicu diskusi tentang transparansi data pelatihan AI dan kendali pengguna

3 komentar

 
runableapp 22 hari lalu

Sejak beberapa hari lalu ini terus muncul di GitHub saya,

Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.

Saya sudah opt out, tapi rasanya mereka memang sudah memanfaatkannya untuk AI sejak dulu, bukan?

 
github88 22 hari lalu

Ini jelas sekali berita palsu yang keterlaluan

 
GN⁺ 23 hari lalu
Opini Hacker News
  • Sudah dibicarakan sejak 2023. Jika informasi yang tersimpan di database berada dalam bentuk yang bisa diakses bebas oleh perusahaan, pada akhirnya perusahaan itu akan mengubah ketentuan layanan agar bisa memakainya sebagai data pelatihan AI. Insentifnya terlalu kuat, jadi rasanya sulit dihindari

    • Benar juga. Bahkan perusahaan yang sangat etis pun situasinya bisa berubah kalau diakuisisi. Aku bekerja di perusahaan SP500, dan saat ini akses produksi dikontrol dengan sangat ketat. Tapi kalau perusahaan ini dibeli orang seperti Larry, Zuck, atau Bezos, tidak ada yang tahu apa yang akan terjadi
    • “Lakukan dulu, minta maaf belakangan” sepertinya akan jadi prinsip umum. Bahkan tanpa mengubah ToS pun, praktiknya itu tetap bisa dilakukan. Amazon sudah punya dataset pelatihan internal yang sangat besar
    • Aku khawatir MS memakai kode yang kutulis di laptopku untuk pelatihan AI. Ketidakpercayaan pengguna Linux yang dulu terdengar seperti teori konspirasi sekarang makin mulai bisa kupahami
    • Kamu benar. Yang bikin frustrasi adalah orang-orang tidak bisa melihat itu sebagai sesuatu yang sudah jelas. Stallman memang selalu benar
    • Kalau kamu tidak memegang kuncinya sendiri, itu bukan enkripsi end-to-end. Jangan bicara omong kosong
  • Ada yang bilang “tidak begitu” sambil membagikan tautan ke blog resmi GitHub. Pengguna Free, Pro, dan Pro+ Copilot akan memakai data penggunaan untuk pelatihan model jika tidak melakukan opt-out. Pengguna Business atau pelanggan Pro tidak termasuk dalam pelatihan. Jika tidak memakai Copilot, tidak ada dampaknya. Jika opt-out sekarang, pengaturannya akan tetap dipertahankan nanti

    • Menurut blog itu, data yang dikumpulkan mencakup input, output, konteks kode, komentar, struktur file, umpan balik, dan sebagainya. Tapi formulirnya bukan “jika Anda ingin ikut”, melainkan “jika Anda tidak ingin ikut”. Jadi yang dipermasalahkan adalah struktur yang mengharuskan penolakan aktif. Tidak adil kalau aku harus repot demi menjaga privasiku sendiri
    • Rincian bahasanya terlalu dipecah secara ambigu. Jika Copilot memakai input, output, dan konteks kode untuk pelatihan, pada akhirnya itu berarti sebagian kode di repo privat dipakai sebagai data pelatihan
    • Baik judul maupun jawabannya terlalu menyapu rata. Mulai 24 April, repo privat milik pengguna non-Business/Pro akan ikut dalam pelatihan secara default. Memang bukan semua repo, tapi pilihan katanya harus hati-hati. Daripada “No we won’t”, akan lebih tepat kalau bilang “tidak sepenuhnya akurat”
    • Tetap saja ini masalah serius. Kalau kode masuk ke pelatihan LLM, itu sudah tidak privat lagi. Menulis “private repo” lalu menaruh tulisan kecil di syarat layanan bahwa “bisa diungkapkan” itu bohong
    • Dalam hukum EU, skema opt-out tidak diakui sebagai persetujuan yang sah. Aku penasaran bagaimana mereka berencana menanganinya
  • Judul berita ini berpotensi menyesatkan. GitHub bukan melatih langsung pada private repo itu sendiri, melainkan pada data interaksi yang muncul saat memakai Copilot. Kalau tidak memakai Copilot, tidak ada dampaknya. Meski begitu, tetap bagus kalau dimatikan

    • Tapi aku penasaran, bagaimana kalau salah satu kontributorku memakai Copilot
    • Aku juga memahaminya begitu, tapi kalau mereka melatih dari input, tidak ada jaminan mereka tidak melatih dari kode itu sendiri. Di pengadilan mereka bisa saja berargumen, “kami hanya melatih dari input”
    • Pembedaan yang terlalu halus seperti ini pada akhirnya tidak banyak artinya. Sekarang mungkin begitu, tapi nanti bisa diubah diam-diam. Pengembang merasa sudah memahami sistemnya, tapi pada akhirnya terus saja tertipu
  • Tepatnya, opt-out ini adalah pengaturan untuk pelatihan Copilot. Sampai sekarang hanya public repo yang opt-in, tapi mulai 24 April private repo juga akan ikut secara default. Jika kamu memakai Copilot di private repo, sebaiknya opt-out di github.com/settings/copilot. Cuma 30 detik

    • Seharusnya bukan 30 detik, tapi 0 detik. Waktuku adalah milikku, dan tidak ada alasan aku harus menghabiskan waktu untuk menjaga privasiku
    • Kalimat “cuma 30 detik” itu tidak paham kenyataan. Untuk tahu informasi seperti ini saja orang harus membongkar HN setiap hari. Pada akhirnya kamu harus menghabiskan 240 jam hanya untuk tahu bahwa sakelarnya ada
    • Dulu memang bukan opt-in. Waktu itu data penggunaan tidak dipakai untuk pelatihan. Mereka hanya melakukan pelatihan internal, dan katanya itu menghasilkan peningkatan performa. Ada penjelasannya di posting blog ini
    • Pengaturan itu tidak terlihat untuk semua pengguna. Jika Copilot dikelola di tingkat organisasi, opsi itu akan hilang. Kalau keluar dari organisasi, bisa jadi otomatis opt-in lagi
  • Aku penasaran, kalau ada satu orang di tim yang tidak opt-out, apakah Copilot bisa mengakses seluruh repo. Aku juga ingin tahu apakah ada cara untuk memeriksa status pengaturan rekan tim

    • Sama seperti kita tidak bisa mencegah anggota tim menyalin kode lalu menempelkannya ke prompt, pengaturan ini juga tidak bisa dikendalikan. Dari sudut pandang MS, opt-in default jelas jauh lebih nyaman
  • Saat ini pengaturannya hanya bisa dilakukan di tingkat pengguna. Aku ingin tahu apakah ada cara untuk menonaktifkannya sekaligus di seluruh organisasi. Aku khawatir kalau satu orang saja menyalakannya, kode organisasi dianggap sebagai data pelatihan

  • Aku akui GitHub memang terus menampilkan banner pemberitahuan. Tapi aku sendiri juga tidak membacanya sampai melihat posting HN ini

    • Tapi orang yang hanya memakai git lewat CLI tidak akan melihat banner itu
    • Bahkan kalau membaca banner atau emailnya pun, tidak dijelaskan dengan jelas pengaturan mana yang harus diubah agar benar-benar opt-out. Pada akhirnya pengguna harus mencarinya sendiri, dan baru belakangan tahu apakah pengaturannya sudah benar
    • Aku belum pernah melihat banner itu. Aku penasaran tampilnya di mana
    • Ini pertama kalinya aku melihat aplikasi mereset atau kehilangan pengaturan seperti itu
  • Private repo-ku isinya kode berantakan, jadi tidak perlu dikhawatirkan. Malah kalau LLM belajar dari kodenya, justru rugi sendiri

    • Aku ikut juga. Aku akan merusak AI M$ dengan kode sampahku
    • Mencemari LLM sebagai bentuk perlawanan itu menarik juga
  • Kasihan orang-orang yang sudah lama bayar GitHub tapi tidak pernah melihat pengumuman ini

    • Aku juga tidak suka model opt-out, tapi saat ini memang ada banner pemberitahuan di semua halaman GitHub, dan mereka juga sudah mengirim email