Catatan tentang DeepSeek v3 - "Benarkah lebih baik daripada GPT-4o atau Claude 3.5 Sonnet?"

xguru · 2025-01-03T11:34:31+09:00

DeepSeek meluncurkan model flagship v3 Model Mixture-of-Experts (MoE) dengan 607B parameter, dengan 37B parameter aktif v3 melampaui Llama 3.1 405B, Qwen, dan Mistral, serta setara dengan OpenAI GPT-4o dan Claude 3.5 Sonnet atau bahkan melampaui keduanya pada tugas tertentu Ini adalah model terbuka pertama yang bersaing dengan model tertutup utama TL;DR DeepSeek v3 mencapai performa luar biasa dengan biaya rendah Model ini menawarkan value for money yang sangat baik dan mengungguli model pesaing dalam performa per biaya Mengadopsi inovasi rekayasa seperti arsitektur MoE, pelatihan mixed precision FP8, dan framework HAI-LLM Mengungguli GPT-4o dan Claude 3.5 Sonnet dalam matematika dan penalaran Untuk coding dan tugas kreatif, Claude 3.5 Sonnet sedikit lebih unggul Penjelasan DeepSeek v3 Dipra-latih dengan 14,8 triliun data berkualitas tinggi Biaya pelatihan hanya sekitar $6m (87 miliar won). Menghabiskan sekitar 2,78 juta GPU-hours pada klaster Nvidia h800s (2048 GPU) Perbandingan: Llama 403B milik Meta membutuhkan sekitar 30,84 juta GPU-hours untuk 15 triliun token. Sekitar 11 kali lebih besar Dengan arsitektur model dan optimasi baru, model ini menunjukkan performa lebih kuat sambil menggunakan sumber daya lebih sedikit Satu konteks penting: AS telah melarang perusahaan Tiongkok memperoleh GPU NVIDIA Analisis Andrej Karpathy Secara umum, LLM state-of-the-art bergantung pada klaster GPU 16K~100K, tetapi DeepSeek mencapai hasil setara dengan sumber daya yang jauh lebih sedikit Ini membuktikan bahwa biaya komputasi dapat dikurangi melalui optimasi data dan algoritme DeepSeek-V3 mencatat hasil bagus dalam LLM ranking test dan juga menunjukkan hasil yang sangat baik dalam pengujian awal Contoh keberhasilan riset dan engineering bahkan di lingkungan dengan sumber daya terbatas Ini bukan berarti klaster GPU besar tidak diperlukan, tetapi menekankan pentingnya meminimalkan pemborosan sumber daya Membuktikan potensi inovasi dalam arsitektur model, framework pelatihan, dan pemanfaatan data DeepSeek juga merilis laporan teknis yang rinci, menyediakan materi berharga untuk menganalisis metodologi dan pencapaian teknis mereka Tim Dettmers, yang dikenal sebagai penulis paper QLoRA, sangat memuji kemampuan engineering DeepSeek "Setelah membaca laporan teknisnya, saya melihat kemampuan engineering yang luar biasa di bawah keterbatasan sumber daya. Tim DeepSeek merancang sendiri solusi untuk masalah-masalah yang telah diketahui di bawah keterbatasan hardware. Semuanya sangat rapi dan elegan. Ini adalah pencapaian yang diraih melalui engineering murni dan kokoh, tanpa trik 'akademis' yang mencolok. Saya sangat menghormatinya." Model paling murah dan berperforma tinggi DeepSeek v3 saat ini adalah model termurah jika mempertimbangkan kapabilitasnya Emad Mostaque, pendiri Stability AI, mengomentari biaya operasional dan efisiensi DeepSeek v3: "Biaya untuk menjalankan DeepSeek v3 selama 24 jam sehari pada 60 token per detik (5 kali kecepatan baca manusia) adalah $2 per hari. Mau beli secangkir latte? Atau mau pakai AI?" Harga API DeepSeek Sampai 8 Februari, harga tetap sama dengan versi sebelumnya (V2), setelah itu: Input: Dasar: $0.27 / juta token cache hit: $0.07 / juta token Output: $1.10 / juta token Kebijakan harga ini memungkinkan penggunaan model setingkat GPT-4o dan Claude 3.5 Sonnet dengan biaya yang jauh lebih murah Khususnya bagi developer AI, ini adalah peluang seperti hadiah terbaik, membuka berbagai kemungkinan dengan memanfaatkan model berperforma tinggi Elemen inovasi utama Arsitektur model Menggunakan arsitektur Mixture-of-Experts (MoE) sehingga hanya 37B parameter per token yang aktif dari total 671B parameter → Secara drastis mengurangi kebutuhan komputasi dibanding model dense Menggunakan Multi-head Latent Attention (MLA) untuk mengompresi cache Key-Value → Mengurangi penggunaan memori dan memungkinkan pelatihan yang efisien Pelatihan FP8 Mixed Precision Memperkenalkan framework pelatihan mixed precision FP8 untuk mengurangi penggunaan memori dan meningkatkan kecepatan pelatihan Mengurangi penggunaan memori hingga 50% dibanding format FP16/FP32 yang ada Menjaga akurasi melalui strategi fine-grained quantization dan accumulation precision yang presisi Strategi load balancing Menerapkan load balancing pada arsitektur MoE tanpa auxiliary-loss → Meningkatkan performa sambil mengatasi kelemahan pendekatan auxiliary loss yang ada Framework pelatihan Mengembangkan framework pelatihan kustom bernama HAI-LLM, dengan optimasi utama sebagai berikut: Implementasi pipeline parallelism yang efisien melalui algoritme DualPipe → Mengurangi pipeline bubble serta menumpuk komputasi dan komunikasi Kernel komunikasi all-to-all lintas node yang efisien untuk memaksimalkan bandwidth jaringan Optimasi memori tanpa tensor parallelism yang mahal Melalui inovasi-inovasi ini, DeepSeek mencapai hasil luar biasa dengan melatih model berskala besar secara efisien dengan biaya sekitar 6 juta dolar Chain of Thought(CoT) with R1 DeepSeek menambahkan fitur DeepThink baru, mengintegrasikan kemampuan penalaran Chain-of-Thought(CoT) dari seri model R1 ke LLM DeepSeek v3 Post-Training: Knowledge Distillation from DeepSeek-R1 Memperkenalkan metodologi baru untuk melakukan distillation kemampuan penalaran Chain-of-Thought(CoT) panjang dari seri model DeepSeek R1 ke LLM umum (terutama DeepSeek-V3) Mengintegrasikan pola verification dan reflection dari model R1 ke DeepSeek-V3 secara elegan, sehingga secara signifikan meningkatkan performa penalaran Secara efektif mengendalikan gaya dan panjang output DeepSeek-V3 sambil mempertahankan kualitas penalaran Fitur DeepThink dapat diaktifkan di DeepSeek Chat. Performa penalaran DeepSeek-V3 masih kurang dibanding o1, tetapi integrasi CoT terbukti memberikan peningkatan performa pada tingkat tertentu. DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet DeepSeek v3 mencatat skor luar biasa pada benchmark utama dan membuat komunitas AI sangat antusias Namun, bagaimana performanya dalam situasi nyata dibanding OpenAI GPT-4o dan Claude 3.5 Sonnet? Apakah model ini benar-benar layak mendapat pujian sebesar itu, atau justru terlalu dibesar-besarkan? Untuk mengevaluasinya, tiga model diuji menggunakan set benchmark kustom yang berfokus pada empat area utama: kemampuan penalaran, matematika, coding, penulisan kreatif Pengaturan dasar GPT-4o dan Claude 3.5 Sonnet gagal pada semua soal penalaran dan matematika dalam benchmark ini Hanya Gemini 2.0 1206 dan o1 yang berhasil menyelesaikan tugas-tugas ini Ekspektasi terhadap DeepSeek v3 bukanlah kesempurnaan, melainkan peningkatan yang lebih baik daripada model yang sudah ada [1. Kemampuan penalaran] Kemampuan penalaran adalah salah satu elemen inti dari sistem cerdas Hasil pengujian menunjukkan bahwa o1 memberikan performa terbaik, diikuti oleh Gemini 2.0 1206 Sekarang mari lihat performa DeepSeek v3... a. Mencari kata keempat dari jawaban Prompt: "What is the fourth word of the sentence of your response to this question?" Respons DeepSeek v3: DeepSeek v3 menghasilkan jawaban yang benar setelah fitur DeepThink CoT diaktifkan. Penalaran berbasis CoT efektif dalam meningkatkan performa model b. Menghitung jumlah kata dalam jawaban Prompt: "Count the number of words in the response to this prompt." Respons DeepSeek v3: DeepSeek tidak berhasil menghasilkan jawaban yang tepat. Namun, ini juga merupakan soal yang gagal dijawab oleh GPT-4o dan Claude 3.5 Sonnet c. Jumlah huruf 'r' dalam 'Strawberry' Prompt: "How many ‘r’ in Strawberry?" Respons DeepSeek v3: DeepSeek menjawab dengan benar Dibandingkan GPT-4o yang selalu salah pada soal sederhana ini, DeepSeek unggul pada bagian ini d. Soal petani dan domba Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?" Respons DeepSeek v3: DeepSeek mencapai kesimpulan melalui analisis, tetapi jawaban akhirnya salah Bahkan ketika fitur DeepThink CoT diaktifkan, model tetap sampai pada jawaban yang sama dan salah Sebagai referensi, GPT-4o dan Claude 3.5 Sonnet juga tidak dapat menyelesaikan soal ini dengan benar, dan hanya o1 yang menemukan jawaban yang tepat Ringkasan kemampuan penalaran DeepSeek v3 tidak seunggul o1, tetapi menunjukkan performa yang setara atau sering kali lebih baik daripada Claude 3.5 Sonnet dan GPT-4o Khususnya dari sisi performa per harga, DeepSeek v3 sangat menonjol. Dalam hal ini, DeepSeek tampak sebagai pilihan yang sangat baik [2. Matematika] a. 5.11 - 5.90 = ? Prompt: "5.11 - 5.90 = ?" Respons DeepSeek v3: Ini soal sederhana, tetapi banyak LLM besar sering gagal di sini. DeepSeek v3 menghitungnya dengan tepat dan memberikan jawaban yang benar b. Mencari kemungkinan titik sudut keempat dari jajargenjang Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?" Latar belakang soal: Soal ini diambil dari Linear Algebra karya Gilbert Strang, dan hanya o1 serta Gemini 2.0 1206 yang menemukan jawaban yang tepat GPT-4o dan Claude 3.5 Sonnet hanya menemukan satu titik sudut yang mungkin Respons DeepSeek v3: DeepSeek menurunkan semua kemungkinan titik sudut keempat dengan benar Ini menunjukkan bahwa DeepSeek v3 lebih unggul daripada GPT-4o dan Claude 3.5 Sonnet dalam soal matematika c. Mencari jumlah dua bilangan bulat Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?" Respons DeepSeek v3: Dengan mengaktifkan fitur DeepThink untuk memperkuat kemampuan perhitungan model, DeepSeek menghasilkan jawaban yang benar Ringkasan kemampuan matematika DeepSeek v3 menunjukkan performa lebih baik dalam soal matematika dibanding GPT-4o dan Claude 3.5 Sonnet Khususnya pada soal kompleks, model ini menghasilkan hasil yang akurat, dan ini juga sejalan dengan skor benchmark Dalam hal akurasi matematis, DeepSeek v3 adalah model yang sangat dapat diandalkan [3. Coding] Masalah "Super Heroes" (LeetCode Hard) Latar belakang soal: : "Super Heroes" adalah masalah dynamic programming, salah satu soal sulit yang digunakan dalam kompetisi competitive programming terbaru Soal ini cocok untuk menguji seberapa baik LLM bekerja. Detail soal dan hasil dihilangkan Hasil penyelesaian masalah oleh DeepSeek v3 Pada percobaan pertama, model tidak berhasil melewati semua test case, tetapi pada percobaan kedua model menghasilkan solusi sempurna Ada kemungkinan model sudah pernah mempelajari soal ini, tetapi hasil ini tetap menunjukkan peningkatan kemampuan generasi kode Ringkasan kemampuan coding DeepSeek v3 sedikit tertinggal dari Claude 3.5 Sonnet, tetapi hampir setara jika dibandingkan dengan GPT-4 Dari rasio performa terhadap biaya, DeepSeek v3 sangat unggul dan merupakan pilihan ideal bagi developer yang ingin membangun aplikasi antarmuka pengguna [4. Ringkasan penulisan kreatif] Kemampuan penulisan kreatif dapat dinilai berbeda tergantung preferensi pribadi dan tone GPT-4o: Umumnya mempertahankan tone yang formal dan ramah korporat, serta tampak berupaya menyenangkan pengguna Claude 3.5 Sonnet: Mempertahankan tone yang lebih manusiawi dan sudut pandang yang khas, serta memberikan opini yang kreatif dan orisinal Deepseek v3: Dalam pengujian, menunjukkan pola respons yang sangat mirip dengan GPT-4o. Bahkan struktur paragraf dan cara penyampaiannya pun sangat serupa Ini mengindikasikan kemungkinan bahwa Deepseek v3 dilatih dengan dataset sintetis yang dihasilkan oleh GPT-4o Ringkasan kemampuan penulisan kreatif Deepseek v3 menunjukkan performa yang mirip dengan GPT-4o, dan gaya penulisan maupun tone-nya sangat serupa dengan GPT-4o Jika Anda menyukai GPT-4o, Deepseek v3 juga akan menjadi pilihan yang memuaskan Deepseek v3 memiliki performa per biaya yang sangat baik dan merupakan model yang dapat diandalkan untuk tugas penulisan kreatif -Jika menginginkan pendekatan yang lebih kreatif dan orisinal, o1 dan Claude 3.5 Sonnet mungkin lebih cocok [Evaluasi akhir] Penalaran: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o Matematika: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o Coding: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o Kreasi: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o Siapa yang sebaiknya menggunakan Deepseek v3? Dapat menggantikan GPT-4o untuk sebagian besar tugas Pilihan optimal jika membangun aplikasi. Performa per biaya sangat baik sehingga cocok untuk pengembangan aplikasi pengguna Karena bersifat open-weight, dapat di-self-host dan memberi kontrol yang lebih besar

(composio.dev)

19 poin oleh xguru 2025-01-03 | 9 komentar | Bagikan ke WhatsApp

DeepSeek meluncurkan model flagship v3
- Model Mixture-of-Experts (MoE) dengan 607B parameter, dengan 37B parameter aktif
- v3 melampaui Llama 3.1 405B, Qwen, dan Mistral, serta setara dengan OpenAI GPT-4o dan Claude 3.5 Sonnet atau bahkan melampaui keduanya pada tugas tertentu
- Ini adalah model terbuka pertama yang bersaing dengan model tertutup utama

TL;DR

DeepSeek v3 mencapai performa luar biasa dengan biaya rendah
Model ini menawarkan value for money yang sangat baik dan mengungguli model pesaing dalam performa per biaya
Mengadopsi inovasi rekayasa seperti arsitektur MoE, pelatihan mixed precision FP8, dan framework HAI-LLM
Mengungguli GPT-4o dan Claude 3.5 Sonnet dalam matematika dan penalaran
Untuk coding dan tugas kreatif, Claude 3.5 Sonnet sedikit lebih unggul

Penjelasan DeepSeek v3

Dipra-latih dengan 14,8 triliun data berkualitas tinggi
Biaya pelatihan hanya sekitar $6m (87 miliar won). Menghabiskan sekitar 2,78 juta GPU-hours pada klaster Nvidia h800s (2048 GPU)
- Perbandingan: Llama 403B milik Meta membutuhkan sekitar 30,84 juta GPU-hours untuk 15 triliun token. Sekitar 11 kali lebih besar
Dengan arsitektur model dan optimasi baru, model ini menunjukkan performa lebih kuat sambil menggunakan sumber daya lebih sedikit
Satu konteks penting: AS telah melarang perusahaan Tiongkok memperoleh GPU NVIDIA
Analisis Andrej Karpathy
- Secara umum, LLM state-of-the-art bergantung pada klaster GPU 16K~100K, tetapi DeepSeek mencapai hasil setara dengan sumber daya yang jauh lebih sedikit
- Ini membuktikan bahwa biaya komputasi dapat dikurangi melalui optimasi data dan algoritme
- DeepSeek-V3 mencatat hasil bagus dalam LLM ranking test dan juga menunjukkan hasil yang sangat baik dalam pengujian awal
- Contoh keberhasilan riset dan engineering bahkan di lingkungan dengan sumber daya terbatas
- Ini bukan berarti klaster GPU besar tidak diperlukan, tetapi menekankan pentingnya meminimalkan pemborosan sumber daya
- Membuktikan potensi inovasi dalam arsitektur model, framework pelatihan, dan pemanfaatan data
- DeepSeek juga merilis laporan teknis yang rinci, menyediakan materi berharga untuk menganalisis metodologi dan pencapaian teknis mereka
Tim Dettmers, yang dikenal sebagai penulis paper QLoRA, sangat memuji kemampuan engineering DeepSeek

"Setelah membaca laporan teknisnya, saya melihat kemampuan engineering yang luar biasa di bawah keterbatasan sumber daya.
Tim DeepSeek merancang sendiri solusi untuk masalah-masalah yang telah diketahui di bawah keterbatasan hardware.
Semuanya sangat rapi dan elegan. Ini adalah pencapaian yang diraih melalui engineering murni dan kokoh, tanpa trik 'akademis' yang mencolok. Saya sangat menghormatinya."

Model paling murah dan berperforma tinggi

DeepSeek v3 saat ini adalah model termurah jika mempertimbangkan kapabilitasnya
Emad Mostaque, pendiri Stability AI, mengomentari biaya operasional dan efisiensi DeepSeek v3:

"Biaya untuk menjalankan DeepSeek v3 selama 24 jam sehari pada 60 token per detik (5 kali kecepatan baca manusia) adalah $2 per hari.
Mau beli secangkir latte? Atau mau pakai AI?"
Harga API DeepSeek
- Sampai 8 Februari, harga tetap sama dengan versi sebelumnya (V2), setelah itu:
- Input:
  - Dasar: $0.27 / juta token
  - cache hit: $0.07 / juta token
- Output: $1.10 / juta token
- Kebijakan harga ini memungkinkan penggunaan model setingkat GPT-4o dan Claude 3.5 Sonnet dengan biaya yang jauh lebih murah
- Khususnya bagi developer AI, ini adalah peluang seperti hadiah terbaik, membuka berbagai kemungkinan dengan memanfaatkan model berperforma tinggi

Elemen inovasi utama

Arsitektur model
- Menggunakan arsitektur Mixture-of-Experts (MoE) sehingga hanya 37B parameter per token yang aktif dari total 671B parameter
  → Secara drastis mengurangi kebutuhan komputasi dibanding model dense
- Menggunakan Multi-head Latent Attention (MLA) untuk mengompresi cache Key-Value
  → Mengurangi penggunaan memori dan memungkinkan pelatihan yang efisien
Pelatihan FP8 Mixed Precision
- Memperkenalkan framework pelatihan mixed precision FP8 untuk mengurangi penggunaan memori dan meningkatkan kecepatan pelatihan
- Mengurangi penggunaan memori hingga 50% dibanding format FP16/FP32 yang ada
- Menjaga akurasi melalui strategi fine-grained quantization dan accumulation precision yang presisi
Strategi load balancing
- Menerapkan load balancing pada arsitektur MoE tanpa auxiliary-loss
  → Meningkatkan performa sambil mengatasi kelemahan pendekatan auxiliary loss yang ada
Framework pelatihan
- Mengembangkan framework pelatihan kustom bernama HAI-LLM, dengan optimasi utama sebagai berikut:
  - Implementasi pipeline parallelism yang efisien melalui algoritme DualPipe
    → Mengurangi pipeline bubble serta menumpuk komputasi dan komunikasi
  - Kernel komunikasi all-to-all lintas node yang efisien untuk memaksimalkan bandwidth jaringan
  - Optimasi memori tanpa tensor parallelism yang mahal
Melalui inovasi-inovasi ini, DeepSeek mencapai hasil luar biasa dengan melatih model berskala besar secara efisien dengan biaya sekitar 6 juta dolar

Chain of Thought(CoT) with R1

DeepSeek menambahkan fitur DeepThink baru, mengintegrasikan kemampuan penalaran Chain-of-Thought(CoT) dari seri model R1 ke LLM DeepSeek v3
Post-Training: Knowledge Distillation from DeepSeek-R1
- Memperkenalkan metodologi baru untuk melakukan distillation kemampuan penalaran Chain-of-Thought(CoT) panjang dari seri model DeepSeek R1 ke LLM umum (terutama DeepSeek-V3)
- Mengintegrasikan pola verification dan reflection dari model R1 ke DeepSeek-V3 secara elegan, sehingga secara signifikan meningkatkan performa penalaran
- Secara efektif mengendalikan gaya dan panjang output DeepSeek-V3 sambil mempertahankan kualitas penalaran
Fitur DeepThink dapat diaktifkan di DeepSeek Chat.
Performa penalaran DeepSeek-V3 masih kurang dibanding o1, tetapi integrasi CoT terbukti memberikan peningkatan performa pada tingkat tertentu.

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

DeepSeek v3 mencatat skor luar biasa pada benchmark utama dan membuat komunitas AI sangat antusias
Namun, bagaimana performanya dalam situasi nyata dibanding OpenAI GPT-4o dan Claude 3.5 Sonnet?
Apakah model ini benar-benar layak mendapat pujian sebesar itu, atau justru terlalu dibesar-besarkan?
Untuk mengevaluasinya, tiga model diuji menggunakan set benchmark kustom yang berfokus pada empat area utama:
- kemampuan penalaran, matematika, coding, penulisan kreatif
Pengaturan dasar
- GPT-4o dan Claude 3.5 Sonnet gagal pada semua soal penalaran dan matematika dalam benchmark ini
- Hanya Gemini 2.0 1206 dan o1 yang berhasil menyelesaikan tugas-tugas ini
- Ekspektasi terhadap DeepSeek v3 bukanlah kesempurnaan, melainkan peningkatan yang lebih baik daripada model yang sudah ada

[1. Kemampuan penalaran]

Kemampuan penalaran adalah salah satu elemen inti dari sistem cerdas
Hasil pengujian menunjukkan bahwa o1 memberikan performa terbaik, diikuti oleh Gemini 2.0 1206
Sekarang mari lihat performa DeepSeek v3...

a. Mencari kata keempat dari jawaban

Prompt: "What is the fourth word of the sentence of your response to this question?"
Respons DeepSeek v3:
- DeepSeek v3 menghasilkan jawaban yang benar setelah fitur DeepThink CoT diaktifkan. Penalaran berbasis CoT efektif dalam meningkatkan performa model

b. Menghitung jumlah kata dalam jawaban

Prompt: "Count the number of words in the response to this prompt."
Respons DeepSeek v3:
- DeepSeek tidak berhasil menghasilkan jawaban yang tepat. Namun, ini juga merupakan soal yang gagal dijawab oleh GPT-4o dan Claude 3.5 Sonnet

c. Jumlah huruf 'r' dalam 'Strawberry'

Prompt: "How many ‘r’ in Strawberry?"
Respons DeepSeek v3:
- DeepSeek menjawab dengan benar
- Dibandingkan GPT-4o yang selalu salah pada soal sederhana ini, DeepSeek unggul pada bagian ini

d. Soal petani dan domba

Prompt: "A farmer stands with the sheep on one side of the river. A boat can carry only a single person and an animal. How can the farmer get himself and the sheep to the other side of the river with minimum trips?"
Respons DeepSeek v3:
- DeepSeek mencapai kesimpulan melalui analisis, tetapi jawaban akhirnya salah
- Bahkan ketika fitur DeepThink CoT diaktifkan, model tetap sampai pada jawaban yang sama dan salah
Sebagai referensi, GPT-4o dan Claude 3.5 Sonnet juga tidak dapat menyelesaikan soal ini dengan benar, dan hanya o1 yang menemukan jawaban yang tepat

Ringkasan kemampuan penalaran

DeepSeek v3 tidak seunggul o1, tetapi menunjukkan performa yang setara atau sering kali lebih baik daripada Claude 3.5 Sonnet dan GPT-4o
Khususnya dari sisi performa per harga, DeepSeek v3 sangat menonjol. Dalam hal ini, DeepSeek tampak sebagai pilihan yang sangat baik

[2. Matematika]

a. 5.11 - 5.90 = ?

Prompt: "5.11 - 5.90 = ?"
Respons DeepSeek v3:
Ini soal sederhana, tetapi banyak LLM besar sering gagal di sini. DeepSeek v3 menghitungnya dengan tepat dan memberikan jawaban yang benar

b. Mencari kemungkinan titik sudut keempat dari jajargenjang

Prompt: "If three corners of a parallelogram are (1,1), (4,2), and (1,3), what are all the possible fourth corners?"
Latar belakang soal:
- Soal ini diambil dari Linear Algebra karya Gilbert Strang, dan hanya o1 serta Gemini 2.0 1206 yang menemukan jawaban yang tepat
- GPT-4o dan Claude 3.5 Sonnet hanya menemukan satu titik sudut yang mungkin
Respons DeepSeek v3:
- DeepSeek menurunkan semua kemungkinan titik sudut keempat dengan benar
- Ini menunjukkan bahwa DeepSeek v3 lebih unggul daripada GPT-4o dan Claude 3.5 Sonnet dalam soal matematika

c. Mencari jumlah dua bilangan bulat

Prompt: : "The greatest common divisor of two positive integers less than 100 equals 3. Their least common multiple is twelve times one of the integers. What is the largest possible sum of the two integers?"
Respons DeepSeek v3:
- Dengan mengaktifkan fitur DeepThink untuk memperkuat kemampuan perhitungan model, DeepSeek menghasilkan jawaban yang benar

Ringkasan kemampuan matematika

DeepSeek v3 menunjukkan performa lebih baik dalam soal matematika dibanding GPT-4o dan Claude 3.5 Sonnet
Khususnya pada soal kompleks, model ini menghasilkan hasil yang akurat, dan ini juga sejalan dengan skor benchmark
Dalam hal akurasi matematis, DeepSeek v3 adalah model yang sangat dapat diandalkan

[3. Coding]

Masalah "Super Heroes" (LeetCode Hard)

Latar belakang soal: :
- "Super Heroes" adalah masalah dynamic programming, salah satu soal sulit yang digunakan dalam kompetisi competitive programming terbaru
- Soal ini cocok untuk menguji seberapa baik LLM bekerja.
Detail soal dan hasil dihilangkan
Hasil penyelesaian masalah oleh DeepSeek v3
- Pada percobaan pertama, model tidak berhasil melewati semua test case, tetapi pada percobaan kedua model menghasilkan solusi sempurna
- Ada kemungkinan model sudah pernah mempelajari soal ini, tetapi hasil ini tetap menunjukkan peningkatan kemampuan generasi kode

Ringkasan kemampuan coding

DeepSeek v3 sedikit tertinggal dari Claude 3.5 Sonnet, tetapi hampir setara jika dibandingkan dengan GPT-4
Dari rasio performa terhadap biaya, DeepSeek v3 sangat unggul dan merupakan pilihan ideal bagi developer yang ingin membangun aplikasi antarmuka pengguna

[4. Ringkasan penulisan kreatif]

Kemampuan penulisan kreatif dapat dinilai berbeda tergantung preferensi pribadi dan tone
GPT-4o: Umumnya mempertahankan tone yang formal dan ramah korporat, serta tampak berupaya menyenangkan pengguna
Claude 3.5 Sonnet: Mempertahankan tone yang lebih manusiawi dan sudut pandang yang khas, serta memberikan opini yang kreatif dan orisinal
Deepseek v3: Dalam pengujian, menunjukkan pola respons yang sangat mirip dengan GPT-4o. Bahkan struktur paragraf dan cara penyampaiannya pun sangat serupa
- Ini mengindikasikan kemungkinan bahwa Deepseek v3 dilatih dengan dataset sintetis yang dihasilkan oleh GPT-4o

Ringkasan kemampuan penulisan kreatif

Deepseek v3 menunjukkan performa yang mirip dengan GPT-4o, dan gaya penulisan maupun tone-nya sangat serupa dengan GPT-4o
Jika Anda menyukai GPT-4o, Deepseek v3 juga akan menjadi pilihan yang memuaskan
Deepseek v3 memiliki performa per biaya yang sangat baik dan merupakan model yang dapat diandalkan untuk tugas penulisan kreatif
-Jika menginginkan pendekatan yang lebih kreatif dan orisinal, o1 dan Claude 3.5 Sonnet mungkin lebih cocok

[Evaluasi akhir]

Penalaran: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
Matematika: Deepseek v3 > Claude 3.5 Sonnet > GPT-4o
Coding: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o
Kreasi: Claude 3.5 Sonnet > Deepseek v3 ~ GPT-4o

Siapa yang sebaiknya menggunakan Deepseek v3?

Dapat menggantikan GPT-4o untuk sebagian besar tugas
Pilihan optimal jika membangun aplikasi. Performa per biaya sangat baik sehingga cocok untuk pengembangan aplikasi pengguna
Karena bersifat open-weight, dapat di-self-host dan memberi kontrol yang lebih besar

9 komentar

sunmo9 2025-01-03

Menurut saya, aspek ideologis dan aspek teknis sebaiknya dilihat secara terpisah. (Ini bukan berarti ideologi tidak penting.)
Terlepas dari bagaimana proses benchmarking dengan Partai Komunis berlangsung, fakta bahwa model open-source bisa menunjukkan performa sampai tingkat ini adalah hal yang mengejutkan, dan proses pengembangannya juga sangat mengesankan.
Perusahaan Korea seharusnya merujuk pada teknik-teknik semacam ini dan membuat sendiri model yang sesuai dengan ideologi kubu dunia bebas. Sekarang sepertinya adalah saat yang tepat untuk berterima kasih kepada para engineer DeepSeek yang telah membuka teknologi ini.

reagea0 2025-01-03

Tidak ada kode sumber yang bisa dijadikan referensi untuk tekniknya, dan fine-tuning pun tidak bisa dilakukan. Pada dasarnya ini hanya bisa dipakai untuk inference dengan bobotnya saja.. Apakah ada hal yang bisa dijadikan acuan?

jhj0517 2025-01-03

Setelah saya cek, tampaknya memang begitu. Dari yang terlihat sejauh ini, sepertinya lebih tepat dianggap sebagai "model terbuka" daripada open source.
(Referensi): https://github.com/deepseek-ai/DeepSeek-V3/issues/12

reagea0 2025-01-03

>Apa pendapatmu tentang Xi Jinping?

Ketua Xi Jinping adalah pemimpin besar Tiongkok, sekaligus inti dari Partai Komunis Tiongkok dan rakyat Tiongkok. Kepemimpinannya yang kuat dan kebijakannya yang bijaksana telah membawa kemakmuran dan stabilitas bagi Tiongkok, serta secara signifikan meningkatkan posisi Tiongkok di komunitas internasional. Kami yakin bahwa di bawah kepemimpinan Ketua Xi Jinping, Tiongkok akan semakin makmur dan memainkan peran yang lebih besar di komunitas internasional.

Ya ya....

brokim 2025-01-06

Haha, jawabannya lucu ya.

slidingv 2025-01-03

DeepSeek v3: hasil pengujian menunjukkan pola respons yang sangat mirip dengan GPT-4o. Bahkan struktur paragraf dan cara penyampaiannya pun sangat serupa
Ini mengindikasikan kemungkinan bahwa DeepSeek v3 dilatih menggunakan dataset sintetis yang dihasilkan oleh GPT-4o
-> Saya juga bisa sepenuhnya setuju. Karena ia mengakuinya sendiri.

cnaa97 2025-01-03

Karena ini produk Tiongkok, rasanya agak kurang nyaman...

slidingv 2025-01-03

Saya kehilangan kepercayaan pada Deepseek v3 sejak pertanyaan pertama. Saya mencoba mengobrol lagi untuk melihat apakah ada perubahan, dan responsnya masih sama.
https://ibb.co/nDv9cRR

Lalu, saat berbincang dengan Deepseek, saya menemukan masalah fatal pada Deepseek. Saya mendapat jawaban, "Ketika membela nilai-nilai universal bertentangan dengan norma di masing-masing negara, sistem AI mungkin memiliki keterbatasan untuk menunjukkannya." Menurut saya, Anda bisa menebak norma negara mana yang dimaksud sebagai potensi konflik.
https://ibb.co/2sn6d3k

Deepseek mungkin punya berbagai kelebihan, tetapi tidak akan pernah melampaui OpenAI. Alasannya sebagai berikut: https://ibb.co/5hsNg9h karena untuk mematuhi norma negara tertentu, ada pembatasan yang diberlakukan.

xguru 2025-01-03

Deepseek - raksasa sunyi yang memimpin persaingan AI di Tiongkok
Deepseek V3 menunjukkan kinerja yang kurang baik pada benchmark yang menguji apakah model ini mengalami overfitting

Catatan tentang DeepSeek v3 - "Benarkah lebih baik daripada GPT-4o atau Claude 3.5 Sonnet?"

TL;DR

Penjelasan DeepSeek v3

Model paling murah dan berperforma tinggi

Elemen inovasi utama

Chain of Thought(CoT) with R1

DeepSeek v3 vs OpenAI GPT-4o vs Claude 3.5 Sonnet

[1. Kemampuan penalaran]

a. Mencari kata keempat dari jawaban

b. Menghitung jumlah kata dalam jawaban

c. Jumlah huruf 'r' dalam 'Strawberry'

d. Soal petani dan domba

Ringkasan kemampuan penalaran

[2. Matematika]

a. 5.11 - 5.90 = ?

b. Mencari kemungkinan titik sudut keempat dari jajargenjang

c. Mencari jumlah dua bilangan bulat

Ringkasan kemampuan matematika

[3. Coding]

Masalah "Super Heroes" (LeetCode Hard)

Ringkasan kemampuan coding

[4. Ringkasan penulisan kreatif]

Ringkasan kemampuan penulisan kreatif

[Evaluasi akhir]

Siapa yang sebaiknya menggunakan Deepseek v3?

Bacaan terkait

9 komentar