6 poin oleh GN⁺ 2025-01-01 | 2 komentar | Bagikan ke WhatsApp
  • DeepSeek adalah startup AI asal Tiongkok, dan model R1 yang baru-baru ini diumumkan melampaui model o1 milik OpenAI pada berbagai benchmark penalaran
  • Meski tingkat pengenalannya masih rendah, DeepSeek telah menjadi laboratorium AI yang patut diperhatikan

Latar belakang dan strategi DeepSeek

  • CEO Liang Wenfeng sebelumnya adalah pendiri High-Flyer, salah satu dari empat hedge fund terbesar di Tiongkok, dan DeepSeek mendapat dukungan penuh dari perusahaan tersebut
  • Alih-alih berfokus pada aplikasi komersial, perusahaan ini mengadopsi strategi yang menitikberatkan pada pengembangan teknologi dasar dan berkomitmen merilis semua model sebagai open source
  • Memiliki akses ke klaster komputasi High-Flyer dan menguasai lebih dari sekitar 50 ribu GPU Hopper
  • Berfokus pada pengembangan AGI (kecerdasan umum buatan). Penelitiannya dipusatkan pada inovasi struktural dan algoritmik yang berpotensi menjadi game changer

Inovasi teknis utama

  • Peningkatan arsitektur model
    • MLA (Multi-head Latent Attention): mengurangi penggunaan memori hingga 5~13% dibanding sebelumnya
    • DeepSeekMoE (Sparse Mixture of Experts): memangkas biaya komputasi secara signifikan
  • Memicu perang harga
    • Model DeepSeek V2 menawarkan biaya inferensi sebesar 1 RMB per 1 juta token, memicu perang harga besar-besaran terutama di kalangan perusahaan teknologi besar di Tiongkok
  • Pengakuan internasional
    • Makalah DeepSeek dinilai sebagai "salah satu makalah terbaik tahun ini" dan mendapat pujian di Silicon Valley maupun komunitas AI internasional

Filsafat riset dan budaya organisasi DeepSeek

  • Idealisme teknis: DeepSeek mengejar idealisme teknis dan menempatkan "benar dan salah" di atas "untung dan rugi". Ini adalah suara yang langka di dunia teknologi Tiongkok
  • Pentingnya inovasi: DeepSeek meyakini bahwa Tiongkok tidak boleh hanya berhenti sebagai pengikut, tetapi harus ikut serta dalam arus inovasi teknologi global
  • Budaya organisasi otonom: Bukan manajemen top-down, melainkan suasana otonom dan kreatif. Para peneliti dapat berkolaborasi secara bebas sesuai ide mereka sendiri dan memanfaatkan sumber daya yang tersedia
  • Rekrutmen talenta: Alih-alih standar tradisional, DeepSeek lebih mengutamakan rasa ingin tahu dan semangat, dan sebagian besar anggota tim terdiri dari lulusan universitas lokal serta peneliti muda

Visi tentang AGI

  • Fokus riset: DeepSeek sedang mengeksplorasi kemungkinan mewujudkan AGI dengan berfokus pada matematika, pembuatan kode, multimodalitas, dan pemahaman bahasa alami
  • Prospek masa depan:
    • AGI diperkirakan dapat terwujud dalam 2 hingga 10 tahun ke depan, dan matematika serta kode dinilai sebagai arena ideal untuk menguji AGI
    • Babak akhir model skala besar adalah ketika perusahaan-perusahaan terspesialisasi yang menyediakan model dasar dan layanan mencapai spesialisasi luas di setiap node dalam rantai pasok

Pandangan tentang open source dan inovasi

  • Nilai open source: DeepSeek menilai keunggulan teknis bukan terletak pada closed source, melainkan pada pembangunan dan pengembangan ekosistem teknologi
  • Visi terhadap ekosistem AI Tiongkok: Ingin berkontribusi agar Tiongkok melampaui inovasi aplikasi dan mencapai inovasi teknologi dari 0 ke 1

Kesimpulan

  • DeepSeek menempuh jalur yang berbeda dari startup AI Tiongkok pada umumnya
  • Perusahaan ini lebih fokus pada inovasi teknologi dan perwujudan AGI daripada aplikasi komersial, serta ingin ikut dalam arus inovasi teknologi global
  • Pendekatan ini tampaknya akan memberi pengaruh penting pada arah perkembangan AI Tiongkok ke depan

2 komentar

 
GN⁺ 2025-01-01
Opini Hacker News
  • Pembatasan GPU menciptakan lingkungan yang mendorong pengembang Tiongkok untuk berinovasi lebih jauh dan melakukan lebih banyak hal dengan sumber daya yang lebih sedikit

    • Memberikan pujian kepada tim Deepseek
  • Pujian terhadap Deepseek terasa menarik

    • Ada alasan struktural dan mendasar mengapa Deepseek tidak bisa secara signifikan melampaui model lain
      • Perang dagang antara AS dan Tiongkok dapat membuat ketersediaan komputasi Deepseek menjadi kurang menguntungkan
      • Sensor di Tiongkok sampai tingkat tertentu membatasi pengumpulan data dan output Deepseek
      • Karena Deepseek bersifat open source, model lain dapat dengan mudah menirunya
    • Secara rutin menggunakan Gemini, ChatGPT, Deepseek, dan Claudie, dan Deepseek tidak terasa secara khusus lebih unggul atau lebih buruk dibanding model lain
    • Ingin tahu alasan orang berpikir Deepseek akan sepenuhnya mendominasi ranah LLM
  • Percaya bahwa Tiongkok harus menjadi kontributor seiring perkembangan ekonominya

    • Selama 30 tahun terakhir, tidak benar-benar berpartisipasi dalam inovasi TI
    • Memperlakukan hukum penskalaan dengan cara bergantung pada Hukum Moore sambil menunggu perangkat keras dan perangkat lunak yang lebih baik
  • Deepseek sudah menjadi nama yang menonjol di komunitas open source LLM sejak tahun lalu

    • Biaya pemasarannya lebih rendah dibanding pemain LLM Tiongkok lainnya
  • Mengejutkan bahwa tidak ada penyebutan tentang penggabungan AI simbolik lama dengan versi modern ML

  • Tiongkok memiliki insentif kuat untuk melakukan riset murni guna memutus ketergantungan pada GPU

    • Berharap tidak akan ada kejadian saling menyerang matematikawan demi sains
  • Salah satu alasan API murah adalah karena mereka secara eksplisit menyatakan bahwa data API digunakan untuk pelatihan

    • OpenAI dan Claude mengatakan mereka tidak akan menggunakan data untuk pelatihan jika memakai API
  • Berharap persaingan antar perusahaan AI tetap berlangsung secara sehat

    • Berharap mereka terus berbagi teknologi dan makalah agar semuanya menjadi lebih baik secara keseluruhan
  • Mengesankan bahwa DeepSeek mencapai hasil setara o1 dan Claude dengan sumber daya 10 kali lebih sedikit

    • Algoritme dan pendekatan yang lebih baik diperlukan untuk tahap berikutnya dalam ML
  • Penggunaan (yang keliru) kata "catfish" yang menarik

    • Berbeda dari cara pemahaman yang umum