OpenAI menyatakan telah mengamankan bukti bahwa DeepSeek menggunakan modelnya untuk pelatihan

(ft.com)

5 poin oleh GN⁺ 2025-01-30 | 2 komentar | Bagikan ke WhatsApp

OpenAI mengatakan kepada Financial Times bahwa mereka menemukan bukti bahwa startup AI asal Tiongkok, DeepSeek, menggunakan model proprietari milik OpenAI untuk melatih model pesaing open source
DeepSeek diduga menggunakan teknik "distillation" pengetahuan (knowledge distillation) yang memanfaatkan keluaran dari model besar untuk melatih model yang lebih kecil secara efektif
Distillation adalah metode yang umum di industri AI, tetapi OpenAI mengklaim bahwa penggunaan teknik ini oleh DeepSeek untuk mengembangkan model mandiri melanggar ketentuan layanan mereka
Menurut ketentuan OpenAI, pengguna tidak boleh menyalin keluaran OpenAI atau menggunakannya untuk mengembangkan model pesaing

Kinerja model DeepSeek dan respons pasar

Peluncuran model penalaran R1 milik DeepSeek mengejutkan industri teknologi dan para investor
DeepSeek menarik perhatian industri karena membangun model berkinerja tinggi dengan biaya yang relatif rendah
Saham Nvidia turun 17% pada hari Senin, menghapus kapitalisasi pasar sebesar US$589 miliar, namun rebound 9% pada hari Selasa
Penyebab penurunan Nvidia adalah kekhawatiran atas berkurangnya permintaan terhadap hardware AI

Respons OpenAI dan Microsoft

OpenAI dan Microsoft tahun lalu menyelidiki dan memblokir akun yang dicurigai mencoba melakukan distillation menggunakan API OpenAI oleh DeepSeek
Laporan pertama terkait hal ini muncul dari Bloomberg
Microsoft menolak berkomentar, dan OpenAI juga menolak memberikan komentar tambahan

Pendapat para ahli

David Sacks, pejabat AI dan kripto pada pemerintahan Trump sebelumnya, menyatakan bahwa "mungkin telah terjadi pencurian IP"
Beberapa peneliti AI menganalisis bahwa model DeepSeek menunjukkan jejak telah belajar dari keluaran GPT-4
Ritwik Gupta, peneliti doktoral AI di UC Berkeley, menjelaskan bahwa melatih model menggunakan keluaran dari LLM komersial adalah praktik umum di industri AI

Respons OpenAI dan prospek ke depan

OpenAI memperingatkan bahwa berbagai perusahaan, termasuk dari Tiongkok, sedang mencoba melakukan distillation terhadap model perusahaan AI AS
Untuk melindungi IP, mereka menekankan bahwa keputusan membuka kemampuan mutakhir model dilakukan dengan hati-hati, dan penting untuk bekerja sama dengan pemerintah AS guna mencegah kebocoran teknologi
Namun, OpenAI sendiri juga menghadapi kontroversi hak cipta, termasuk gugatan dari The New York Times serta perusahaan media dan pemegang hak cipta lain atas dugaan penggunaan data tanpa izin

2 komentar

botplaysdice 2025-02-01

OpenAI sedang berperkara hukum dengan The New York Times, jadi kalau begini apakah DeepSeek bebas dari gugatan itu? :)

GN⁺ 2025-01-30

Komentar Hacker News

Ada pendapat bahwa klaim DeepSeek melatih modelnya dengan menggunakan data OpenAI itu tidak adil, karena OpenAI sendiri juga melatih modelnya dengan mengumpulkan data dari internet
- Klaim bahwa DeepSeek mereplikasi performa setara o1 dari nol mungkin tidak benar, dan ini menimbulkan pertanyaan tentang efisiensi pelatihan
- Makalah R1 DeepSeek menunjukkan bahwa distilasi sangat kuat, dan jika DeepSeek melatih modelnya menggunakan output o1, hal ini dapat menimbulkan pertanyaan tentang efisiensi pelatihan
Ada pendapat bahwa perilisan open source dan lisensi MIT oleh DeepSeek akan menjadi momentum untuk menarik talenta besar
- Open source untuk teknologi baru secara historis selalu mendorong kemajuan
- OpenAI bekerja sama dengan pemerintah AS untuk melindungi IP, dan ada kemungkinan DeepSeek bisa dilarang seperti TikTok
r1 dibuat di dunia setelah o1 hadir, dan model-model lain berada dalam situasi yang memungkinkan mereka mendistilasi r1
- Ada pendapat bahwa melakukan distilasi dari o1 tidak melemahkan klaim biaya DeepSeek
- Muncul pertanyaan apakah OpenAI benar-benar memiliki keunggulan moral atau etis
Jika DeepSeek memang dilatih dari OpenAI, maka itu bukan pelatihan dari nol dengan biaya "pennies on the dollar", dan mungkin bukan terobosan teknis
- Namun, ini masih belum terverifikasi sebagai fakta
OpenAI saat ini berada pada posisi yang lemah, dan tidak dapat memanfaatkan sumber daya hukum seperti Google atau Microsoft
- Ada pendapat bahwa strategi OpenAI menekan pesaing lewat masalah hukum tidak akan efektif
Mirip industri perkeretaapian, AI juga bisa mengalami penurunan biaya akibat persaingan, dan kemungkinan banyak investasi tidak akan menghasilkan kekayaan besar
- Perusahaan besar seperti Nvidia, OpenAI, dan DeepSeek berinvestasi di AI, tetapi mungkin tidak mampu menghasilkan keuntungan nyata
Kritik terhadap OpenAI karena menggunakan konten tanpa izin dan mengeluarkan banyak biaya untuk mengakali skrip anti-bot AI
- Jika DeepSeek mendaur ulang data OpenAI, maka itu bukan terobosan rekayasa
Model OpenAI dilatih berdasarkan ebook yang dikumpulkan dalam jumlah besar dari pelacak torrent ebook pribadi
- Ebook tersebut dikonversi ke format epub, dirapikan, lalu dihosting di repositori data publik