DeepSeek - Raksasa Senyap yang Memimpin Persaingan AI di Tiongkok

(chinatalk.media)

6 poin oleh GN⁺ 2025-01-01 | 2 komentar | Bagikan ke WhatsApp

DeepSeek adalah startup AI asal Tiongkok, dan model R1 yang baru-baru ini diumumkan melampaui model o1 milik OpenAI pada berbagai benchmark penalaran
Meski tingkat pengenalannya masih rendah, DeepSeek telah menjadi laboratorium AI yang patut diperhatikan

Latar belakang dan strategi DeepSeek

CEO Liang Wenfeng sebelumnya adalah pendiri High-Flyer, salah satu dari empat hedge fund terbesar di Tiongkok, dan DeepSeek mendapat dukungan penuh dari perusahaan tersebut
Alih-alih berfokus pada aplikasi komersial, perusahaan ini mengadopsi strategi yang menitikberatkan pada pengembangan teknologi dasar dan berkomitmen merilis semua model sebagai open source
Memiliki akses ke klaster komputasi High-Flyer dan menguasai lebih dari sekitar 50 ribu GPU Hopper
Berfokus pada pengembangan AGI (kecerdasan umum buatan). Penelitiannya dipusatkan pada inovasi struktural dan algoritmik yang berpotensi menjadi game changer

Inovasi teknis utama

Peningkatan arsitektur model
- MLA (Multi-head Latent Attention): mengurangi penggunaan memori hingga 5~13% dibanding sebelumnya
- DeepSeekMoE (Sparse Mixture of Experts): memangkas biaya komputasi secara signifikan
Memicu perang harga
- Model DeepSeek V2 menawarkan biaya inferensi sebesar 1 RMB per 1 juta token, memicu perang harga besar-besaran terutama di kalangan perusahaan teknologi besar di Tiongkok
Pengakuan internasional
- Makalah DeepSeek dinilai sebagai "salah satu makalah terbaik tahun ini" dan mendapat pujian di Silicon Valley maupun komunitas AI internasional

Filsafat riset dan budaya organisasi DeepSeek

Idealisme teknis: DeepSeek mengejar idealisme teknis dan menempatkan "benar dan salah" di atas "untung dan rugi". Ini adalah suara yang langka di dunia teknologi Tiongkok
Pentingnya inovasi: DeepSeek meyakini bahwa Tiongkok tidak boleh hanya berhenti sebagai pengikut, tetapi harus ikut serta dalam arus inovasi teknologi global
Budaya organisasi otonom: Bukan manajemen top-down, melainkan suasana otonom dan kreatif. Para peneliti dapat berkolaborasi secara bebas sesuai ide mereka sendiri dan memanfaatkan sumber daya yang tersedia
Rekrutmen talenta: Alih-alih standar tradisional, DeepSeek lebih mengutamakan rasa ingin tahu dan semangat, dan sebagian besar anggota tim terdiri dari lulusan universitas lokal serta peneliti muda

Visi tentang AGI

Fokus riset: DeepSeek sedang mengeksplorasi kemungkinan mewujudkan AGI dengan berfokus pada matematika, pembuatan kode, multimodalitas, dan pemahaman bahasa alami
Prospek masa depan:
- AGI diperkirakan dapat terwujud dalam 2 hingga 10 tahun ke depan, dan matematika serta kode dinilai sebagai arena ideal untuk menguji AGI
- Babak akhir model skala besar adalah ketika perusahaan-perusahaan terspesialisasi yang menyediakan model dasar dan layanan mencapai spesialisasi luas di setiap node dalam rantai pasok

Pandangan tentang open source dan inovasi

Nilai open source: DeepSeek menilai keunggulan teknis bukan terletak pada closed source, melainkan pada pembangunan dan pengembangan ekosistem teknologi
Visi terhadap ekosistem AI Tiongkok: Ingin berkontribusi agar Tiongkok melampaui inovasi aplikasi dan mencapai inovasi teknologi dari 0 ke 1

Kesimpulan

DeepSeek menempuh jalur yang berbeda dari startup AI Tiongkok pada umumnya
Perusahaan ini lebih fokus pada inovasi teknologi dan perwujudan AGI daripada aplikasi komersial, serta ingin ikut dalam arus inovasi teknologi global
Pendekatan ini tampaknya akan memberi pengaruh penting pada arah perkembangan AI Tiongkok ke depan

2 komentar

xguru 2025-01-03

Deepseek V3 menunjukkan kinerja yang kurang baik pada benchmark untuk menguji apakah terjadi overfitting

GN⁺ 2025-01-01

Opini Hacker News

Pembatasan GPU menciptakan lingkungan yang mendorong pengembang Tiongkok untuk berinovasi lebih jauh dan melakukan lebih banyak hal dengan sumber daya yang lebih sedikit
- Memberikan pujian kepada tim Deepseek
Pujian terhadap Deepseek terasa menarik
- Ada alasan struktural dan mendasar mengapa Deepseek tidak bisa secara signifikan melampaui model lain
  - Perang dagang antara AS dan Tiongkok dapat membuat ketersediaan komputasi Deepseek menjadi kurang menguntungkan
  - Sensor di Tiongkok sampai tingkat tertentu membatasi pengumpulan data dan output Deepseek
  - Karena Deepseek bersifat open source, model lain dapat dengan mudah menirunya
- Secara rutin menggunakan Gemini, ChatGPT, Deepseek, dan Claudie, dan Deepseek tidak terasa secara khusus lebih unggul atau lebih buruk dibanding model lain
- Ingin tahu alasan orang berpikir Deepseek akan sepenuhnya mendominasi ranah LLM
Percaya bahwa Tiongkok harus menjadi kontributor seiring perkembangan ekonominya
- Selama 30 tahun terakhir, tidak benar-benar berpartisipasi dalam inovasi TI
- Memperlakukan hukum penskalaan dengan cara bergantung pada Hukum Moore sambil menunggu perangkat keras dan perangkat lunak yang lebih baik
Deepseek sudah menjadi nama yang menonjol di komunitas open source LLM sejak tahun lalu
- Biaya pemasarannya lebih rendah dibanding pemain LLM Tiongkok lainnya
Mengejutkan bahwa tidak ada penyebutan tentang penggabungan AI simbolik lama dengan versi modern ML
Tiongkok memiliki insentif kuat untuk melakukan riset murni guna memutus ketergantungan pada GPU
- Berharap tidak akan ada kejadian saling menyerang matematikawan demi sains
Salah satu alasan API murah adalah karena mereka secara eksplisit menyatakan bahwa data API digunakan untuk pelatihan
- OpenAI dan Claude mengatakan mereka tidak akan menggunakan data untuk pelatihan jika memakai API
Berharap persaingan antar perusahaan AI tetap berlangsung secara sehat
- Berharap mereka terus berbagi teknologi dan makalah agar semuanya menjadi lebih baik secara keseluruhan
Mengesankan bahwa DeepSeek mencapai hasil setara o1 dan Claude dengan sumber daya 10 kali lebih sedikit
- Algoritme dan pendekatan yang lebih baik diperlukan untuk tahap berikutnya dalam ML
Penggunaan (yang keliru) kata "catfish" yang menarik
- Berbeda dari cara pemahaman yang umum

DeepSeek - Raksasa Senyap yang Memimpin Persaingan AI di Tiongkok

Latar belakang dan strategi DeepSeek

Inovasi teknis utama

Filsafat riset dan budaya organisasi DeepSeek

Visi tentang AGI

Pandangan tentang open source dan inovasi

Kesimpulan

Bacaan terkait

2 komentar

Opini Hacker News