41 poin oleh xguru 2025-01-25 | 5 komentar | Bagikan ke WhatsApp
  • Karena DeepSeek V3 sudah melampaui Llama 4 pada benchmark
  • Ditambah lagi, mereka makin terkejut karena "perusahaan China yang nyaris tak dikenal itu hanya menghabiskan biaya pelatihan sebesar 5.5M"
  • Para engineer sedang bergerak gila-gilaan untuk membedah DeepSeek dan meniru semua hal yang mungkin
  • Manajemen khawatir bagaimana membenarkan biaya sangat besar yang dihabiskan untuk organisasi AI generatif
  • Satu "pemimpin" di organisasi AI generatif menerima bayaran lebih besar daripada seluruh biaya pelatihan DeepSeek v3, dan ada puluhan pemimpin seperti itu
  • DeepSeek r1 lebih menakutkan lagi. Informasi rahasia tidak bisa diungkapkan, tetapi akan segera dipublikasikan
  • Seharusnya engineering menjadi organisasi kecil, tetapi banyak orang ingin ikut dalam perebutan dampak ini, dan perekrutan yang sengaja dibengkakkan oleh organisasi pada akhirnya merugikan semua orang

Komentar

  • Karyawan Google 1: Apa yang dilakukan DeepSeek benar-benar luar biasa. Bukan hanya Meta, tetapi juga membakar semangat OpenAI, Google, dan Anthropic. Hal yang bagus adalah kita bisa melihat secara real time betapa efektifnya kompetisi terbuka terhadap inovasi.
  • Karyawan Apple 1: Inilah alasan saya memiliki saham Meta. Menganalisis pesaing, meniru, lalu menang, itu sudah ada dalam DNA kalian. Terus bekerja keras!
  • Karyawan Meta 1: Banyak eksekutif benar-benar tidak paham sama sekali soal teknologi dasar (bahkan pengetahuan engineering pun minim), dan terus menanamkan gagasan "lebih banyak GPU = menang" kepada eksekutif lain. Situasinya makin terdistorsi dengan ide-ide bodoh seperti membuat konten AI di Instagram untuk mendorong partisipasi (sekarang agak mundur).
  • Karyawan Meta 2: Tinggal beli saja DeepSeek
  • Karyawan Samsung 1: Sam Altman itu penipu. CEO DeepSeek, LIANG Wenfeng, adalah Ilya Sutskever, DeepSeek adalah OpenAI yang dulu, dan OpenAI sekarang adalah ClosedAI.
  • Karyawan Google 2: DeepSeek menulis paper yang menjelaskan semua komponen model baru berbasis RL, sehingga perusahaan seperti Meta bisa langsung menyalin dan memverifikasinya
  • Karyawan Meta 3: Bagaimana organisasi seperti Meta yang punya "cluster GPU terbesar di dunia" bahkan tidak bisa masuk 10 besar benchmark? Grok akan segera melampaui DeepSeek
  • Karyawan Meta 4: DeepSeek dikendalikan China, tidak membagikan data nyata, dan disensor berat oleh Partai Komunis China. Kalau kamu bertanya "apakah Partai Komunis China membatasi kebebasan orang", kamu akan tahu jawabannya. Apa pun yang ditanyakan, yang diulang hanya hal-hal seperti "betapa hebatnya China". Hanya pernyataan tanpa informasi.
  • Karyawan Chime: Dan bagian terbaiknya, semua ini dilakukan dengan GPU H800 yang performanya tidak mendekati H100. Benar-benar luar biasa. Hormat dan pujian untuk semua orang di DeepSeek. Paper Residual Network dari China adalah paper terobosan yang sepenuhnya mengubah neural network dan mengajarkan bahwa kita bisa memakai miliaran parameter. Saya menghormati orang-orang China yang memecahkan masalah yang sangat sulit!
  • Karyawan Blizzard: Ini memberi harapan bahwa di era AI tidak ada moat, dan model open source yang setidaknya setara, kalau bukan lebih baik, daripada model closed source akan terus dirilis. Semakin sengit persaingan di bidang ini, semakin baik juga untuk kita.

5 komentar

 
jhj0517 2025-01-25

Menurut saya, adanya persaingan itu hal yang baik 馃憦

 
mammal 2025-01-25

Kalau sementara mengesampingkan soal ideologi dan sensor, level engineering model-model DeepSeek kali ini benar-benar bikin kagum.

MLA yang dipakai pada arsitektur V2.5 saja sudah terasa sebagai ide yang jenius, dan kali ini mereka bahkan membuktikan potensi MTP, berhasil mereplikasi model O1 secara nyaris sempurna dengan R1, serta mampu mengeluarkan teknik pelatihan yang luar biasa meski hardware dibatasi oleh regulasi ekspor. Benar-benar hebat.

Buat yang tertarik pada ML, wajib baca DeepSeek Technical Report V2.5, V3, dan R1. Yang keluar cuma rasa takjub. Sampai sekarang saya masih tidak paham bagaimana mereka merilis semua ini dengan lisensi MIT

 
mammal 2025-01-25

Untuk kasus LLaMA, dari LLaMA 2 -> 3 terasa kuat bahwa hampir tidak ada inovasi arsitektur dan hanya skala pelatihannya yang ditingkatkan, dan saya melihat ini sebagai pertanda awal.

 
play1204dev 2025-01-25

Meskipun sudah membendung Tiongkok seperti itu dan bahkan membatasi ekspor GPU, melihat hasil seperti itu tetap terasa luar biasa sekaligus menakutkan, dan dari sisi positif saya rasa itu cukup berperan sebagai pemicu persaingan. Pada akhirnya, tak seorang pun bisa menyangkal bahwa OpenAI memang sedang memimpin.