- DeepSeek adalah startup AI asal Tiongkok, dan model R1 yang baru-baru ini diumumkan melampaui model o1 milik OpenAI pada berbagai benchmark penalaran
- Meski tingkat pengenalannya masih rendah, DeepSeek telah menjadi laboratorium AI yang patut diperhatikan
Latar belakang dan strategi DeepSeek
- CEO Liang Wenfeng sebelumnya adalah pendiri High-Flyer, salah satu dari empat hedge fund terbesar di Tiongkok, dan DeepSeek mendapat dukungan penuh dari perusahaan tersebut
- Alih-alih berfokus pada aplikasi komersial, perusahaan ini mengadopsi strategi yang menitikberatkan pada pengembangan teknologi dasar dan berkomitmen merilis semua model sebagai open source
- Memiliki akses ke klaster komputasi High-Flyer dan menguasai lebih dari sekitar 50 ribu GPU Hopper
- Berfokus pada pengembangan AGI (kecerdasan umum buatan). Penelitiannya dipusatkan pada inovasi struktural dan algoritmik yang berpotensi menjadi game changer
Inovasi teknis utama
- Peningkatan arsitektur model
- MLA (Multi-head Latent Attention): mengurangi penggunaan memori hingga 5~13% dibanding sebelumnya
- DeepSeekMoE (Sparse Mixture of Experts): memangkas biaya komputasi secara signifikan
- Memicu perang harga
- Model DeepSeek V2 menawarkan biaya inferensi sebesar 1 RMB per 1 juta token, memicu perang harga besar-besaran terutama di kalangan perusahaan teknologi besar di Tiongkok
- Pengakuan internasional
- Makalah DeepSeek dinilai sebagai "salah satu makalah terbaik tahun ini" dan mendapat pujian di Silicon Valley maupun komunitas AI internasional
Filsafat riset dan budaya organisasi DeepSeek
- Idealisme teknis: DeepSeek mengejar idealisme teknis dan menempatkan "benar dan salah" di atas "untung dan rugi". Ini adalah suara yang langka di dunia teknologi Tiongkok
- Pentingnya inovasi: DeepSeek meyakini bahwa Tiongkok tidak boleh hanya berhenti sebagai pengikut, tetapi harus ikut serta dalam arus inovasi teknologi global
- Budaya organisasi otonom: Bukan manajemen top-down, melainkan suasana otonom dan kreatif. Para peneliti dapat berkolaborasi secara bebas sesuai ide mereka sendiri dan memanfaatkan sumber daya yang tersedia
- Rekrutmen talenta: Alih-alih standar tradisional, DeepSeek lebih mengutamakan rasa ingin tahu dan semangat, dan sebagian besar anggota tim terdiri dari lulusan universitas lokal serta peneliti muda
Visi tentang AGI
- Fokus riset: DeepSeek sedang mengeksplorasi kemungkinan mewujudkan AGI dengan berfokus pada matematika, pembuatan kode, multimodalitas, dan pemahaman bahasa alami
- Prospek masa depan:
- AGI diperkirakan dapat terwujud dalam 2 hingga 10 tahun ke depan, dan matematika serta kode dinilai sebagai arena ideal untuk menguji AGI
- Babak akhir model skala besar adalah ketika perusahaan-perusahaan terspesialisasi yang menyediakan model dasar dan layanan mencapai spesialisasi luas di setiap node dalam rantai pasok
Pandangan tentang open source dan inovasi
- Nilai open source: DeepSeek menilai keunggulan teknis bukan terletak pada closed source, melainkan pada pembangunan dan pengembangan ekosistem teknologi
- Visi terhadap ekosistem AI Tiongkok: Ingin berkontribusi agar Tiongkok melampaui inovasi aplikasi dan mencapai inovasi teknologi dari 0 ke 1
Kesimpulan
- DeepSeek menempuh jalur yang berbeda dari startup AI Tiongkok pada umumnya
- Perusahaan ini lebih fokus pada inovasi teknologi dan perwujudan AGI daripada aplikasi komersial, serta ingin ikut dalam arus inovasi teknologi global
- Pendekatan ini tampaknya akan memberi pengaruh penting pada arah perkembangan AI Tiongkok ke depan
2 komentar
Deepseek V3 menunjukkan kinerja yang kurang baik pada benchmark untuk menguji apakah terjadi overfitting
Opini Hacker News
Pembatasan GPU menciptakan lingkungan yang mendorong pengembang Tiongkok untuk berinovasi lebih jauh dan melakukan lebih banyak hal dengan sumber daya yang lebih sedikit
Pujian terhadap Deepseek terasa menarik
Percaya bahwa Tiongkok harus menjadi kontributor seiring perkembangan ekonominya
Deepseek sudah menjadi nama yang menonjol di komunitas open source LLM sejak tahun lalu
Mengejutkan bahwa tidak ada penyebutan tentang penggabungan AI simbolik lama dengan versi modern ML
Tiongkok memiliki insentif kuat untuk melakukan riset murni guna memutus ketergantungan pada GPU
Salah satu alasan API murah adalah karena mereka secara eksplisit menyatakan bahwa data API digunakan untuk pelatihan
Berharap persaingan antar perusahaan AI tetap berlangsung secara sehat
Mengesankan bahwa DeepSeek mencapai hasil setara o1 dan Claude dengan sumber daya 10 kali lebih sedikit
Penggunaan (yang keliru) kata "catfish" yang menarik