2 poin oleh GN⁺ 2025-10-07 | 1 komentar | Bagikan ke WhatsApp
  • Laporan evaluasi model AI DeepSeek yang dirilis NIST pada September 2025 adalah dokumen bermotif politik, bukan evaluasi teknis yang netral, dengan niat menekan AI open-source asal Tiongkok tanpa bukti adanya ancaman keamanan nyata
  • Laporan tersebut sama sekali gagal menunjukkan bukti backdoor, spyware, atau kebocoran data pada model DeepSeek, dan hanya menyoroti bahwa penyetelan keamanannya kurang matang sehingga mudah dijailbreak serta mencerminkan sudut pandang pemerintah Tiongkok
  • DeepSeek berkontribusi besar pada riset AI terbuka dengan merilis bobot model, arsitektur, dan metodologi pelatihan secara penuh di bawah lisensi Apache 2.0, tetapi pemerintah AS justru melabelinya sebagai "AI yang bermusuhan"
  • NIST secara sengaja mencampuradukkan eksekusi lokal dan penggunaan API, serta memakai metodologi yang bias seperti mengabaikan perbandingan dengan model open-source lain atau pengujian bias pada model AS
  • Laporan ini merupakan bagian dari kebijakan industri untuk menekan DeepSeek, yang telah membuktikan daya saing AI open-source, demi melindungi posisi monopoli perusahaan-perusahaan AI AS, dengan mengutamakan kepentingan komersial dan strategis di atas netralitas ilmiah

Hakikat laporan evaluasi DeepSeek dari NIST

  • Laporan DeepSeek NIST tertanggal 30 September 2025 adalah dokumen serangan politik, bukan evaluasi teknis yang netral
    • Tidak ada bukti sama sekali tentang backdoor, spyware, atau kebocoran data
    • Upaya pemerintah AS menggunakan ketakutan dan misinformasi untuk menghambat open science, open research, dan open-source
    • Menyerang kontribusi bagi umat manusia dengan politik dan kebohongan demi melindungi kekuasaan korporasi dan mempertahankan kontrol
  • Setelah laporan dirilis, kepanikan muncul secara online
    • Ada klaim bahwa bobot DeepSeek telah disusupi
    • Ada klaim bahwa Tiongkok melakukan spionase melalui model tersebut
    • Ada klaim bahwa mengunduhnya sendiri merupakan risiko keamanan
    • Semua klaim ini salah

Pencapaian nyata DeepSeek

  • Mengembangkan model AI yang kompetitif
    • Mencapai performa tingkat frontier dengan anggaran jauh lebih kecil dibanding OpenAI atau Anthropic
    • Tidak sempurna, tetapi hasilnya sangat mengesankan untuk anggaran yang dimiliki
  • Dirilis sepenuhnya di bawah lisensi Apache 2.0
    • Bobot model
    • Arsitektur
    • Metodologi pelatihan
    • Makalah riset
  • Membuat siapa pun bisa mereproduksi hasilnya dan menjalankan model skala frontier secara lokal
    • Memungkinkan orang membangun ulang semuanya dari nol
    • Salah satu kontribusi terbesar bagi riset AI terbuka dalam beberapa tahun terakhir
  • Respons pemerintah AS: memberi cap sebagai "AI yang bermusuhan" dan menyiratkan aktivitas spionase

Strategi penyesatan utama NIST

  • Pencampuradukan sengaja terhadap tiga skenario
    • Skenario A: saat memakai aplikasi/API DeepSeek, prompt dikirim ke server di Tiongkok (masalah nyata terkait kedaulatan data)
    • Skenario B: saat mengunduh bobot terbuka dan menjalankannya secara lokal, data tidak dikirim keluar dari perangkat
    • Skenario C: saat di-host oleh layanan pihak ketiga tepercaya seperti OpenRouter, Fireworks, atau Chutes, kontrol atas infrastruktur dan privasi ditentukan oleh penyedia hosting
  • NIST secara sengaja menggabungkan situasi-situasi yang sepenuhnya berbeda ini
    • Menghitung unduhan lokal sambil memberi peringatan tentang "risiko keamanan nasional"
    • Siapa pun dengan pengetahuan teknis dasar tahu bahwa ini menyesatkan
  • Kebingungan ini menjadi fondasi bagi framing menyesatkan lain di seluruh laporan

Apa yang sebenarnya ditemukan NIST

  • Jika bahasa sensasionalnya dihapus, yang tersisa adalah
    1. Model DeepSeek lebih mudah dijailbreak daripada model AS yang telah disetel untuk keamanan
    2. Kadang mencerminkan sudut pandang pemerintah Tiongkok
    3. Performa sedikit lebih rendah pada benchmark tertentu
    4. Diklaim memiliki biaya per token yang lebih tinggi (tanpa metodologi yang disediakan)
  • Hanya itu
    • Tidak ada bukti perilaku jahat
    • Tidak ada bukti kebocoran data
    • Tidak ada bukti bahwa model melakukan tindakan jahat selain "merespons prompt dengan cara yang tidak kami sukai"
  • Analisis atas temuan jailbreak
    • Karena DeepSeek berinvestasi lebih sedikit pada pelatihan keamanan (masalah sumber daya)
    • NIST tidak menguji model-model AS yang lebih lama untuk perbandingan
    • Sementara itu, gpt-oss-120b dari OpenAI juga sangat mudah dijailbreak
  • Analisis atas temuan "narasi Partai Komunis Tiongkok"
    • Tidak mengejutkan jika model yang dilatih dengan data Tiongkok mencerminkan perspektif Tiongkok
    • Model tersebut tunduk pada hukum sensor Tiongkok
    • Ini bukan kerentanan keamanan

Perbandingan yang tidak dilakukan NIST

  • Tidak membandingkan dengan model terbuka lain
    • Di mana Llama, Mistral, dan Falcon?
    • Jika dibandingkan, itu akan menunjukkan bahwa ini bukan masalah khusus DeepSeek, melainkan model terbuka secara umum memiliki lebih sedikit lapisan keamanan dibanding model tertutup
  • Tidak membandingkan dengan model AS generasi awal
    • Seberapa rentan GPT-3 pada 2020 terhadap jailbreak?
    • Perbandingan ini akan melemahkan narasi mereka, jadi tidak dilakukan
  • Tidak menguji bias AS pada model AS
    • Seolah hanya bias Tiongkok yang dianggap sebagai risiko keamanan
  • Menggunakan benchmark tertutup
    • "Benchmark tertutup yang dibangun CAISI" tidak bisa direproduksi atau diverifikasi
    • Ini bukan sains, melainkan riset advokasi

Apa yang sebenarnya dikatakan laporan itu

  • Jika membaca yang tersirat
    1. Model DeepSeek kurang dipoles - karena investasi pengembangannya lebih kecil, wajar jika masih ada bagian kasar
    2. Model Tiongkok cukup kompetitif hingga menimbulkan kekhawatiran - jika tidak mengancam pangsa pasar, laporan ini tidak akan pernah ada
    3. AS takut kehilangan dominasi AI - laporan ini secara eksplisit dipesan di bawah "AI Action Plan" Trump. Pernyataan Menteri Perdagangan memperjelas bahwa ini adalah kebijakan industri, bukan evaluasi netral

Ancaman yang sebenarnya (petunjuk: bukan terhadap Anda)

  • Yang benar-benar diancam DeepSeek: monopoli
    • "Kejahatan" sesungguhnya DeepSeek adalah menunjukkan bahwa open-source benar-benar bekerja
    • Membuktikan bahwa model kuat bisa dibangun tanpa modal ventura miliaran dolar atau API tertutup
  • Ini membuat perusahaan yang menjual akses AI dengan harga premium menjadi panik
    • Saat DeepSeek berkata, "ini bobotnya, jalankan sendiri," mereka menyerang parit ekonomi yang diandalkan perusahaan-perusahaan itu
  • Itulah alasan laporan NIST ini ada
    • Karena DeepSeek membuktikan bahwa keterbukaan bisa bersaing dengan sistem tertutup
    • Kelompok yang sudah mapan harus menghentikannya

Kemunafikan

  • Peringatan NIST vs kenyataan
    • NIST: memperingatkan bahwa model DeepSeek dapat merespons prompt berbahaya dalam lingkungan simulasi
    • Kenyataan: model-model AS benar-benar mengirim data nyata ke server eksternal
  • Kasus OpenAI
    • Ingat ketika percakapan ChatGPT dipakai untuk pelatihan?
    • OpenAI baru menambahkan opt-out setelah ada penolakan publik
  • Perbandingan
    • Menjalankan bobot DeepSeek secara lokal = nol pengiriman data
    • Menggunakan API OpenAI = pengiriman data terus-menerus ke server
    • Mana yang sebenarnya berisiko bagi privasi?
  • Laporan itu memperingatkan soal "adopsi AI asing" sambil mengabaikan fakta bahwa semua API cloud, baik dari AS maupun bukan, mengharuskan kepercayaan pada infrastruktur pihak lain
    • Bobot terbuka yang dijalankan lokal lebih dapat diaudit dan lebih aman daripada layanan cloud mana pun
  • Tetapi itu bukan pesan yang ingin disampaikan. Karena ini sejak awal tidak pernah soal keamanan. Ini soal kontrol narasi

Pengkhianatan terhadap open-source dan open science

  • Komunitas open-source membangun fondasi AI modern
    • Linux, Python, PyTorch, Transformers
    • Puluhan tahun pengembangan kolaboratif, dibagikan secara bebas
  • DeepSeek ikut dalam tradisi itu
    • Mengambil pengetahuan terbuka, membangun sesuatu yang mengesankan, lalu mengembalikannya lagi ke komunitas
  • Respons lembaga AS: menyebutnya sebagai ancaman
  • Bayangkan jika Tiongkok melakukan hal yang sama saat Meta merilis Llama
    • Jika mereka menerbitkan laporan pemerintah yang mengklaim bobot Llama adalah alat pengawasan karena "rentan terhadap jailbreak"
    • Kita akan menyebutnya proteksionisme. Paranoia teknologis. Serangan terhadap riset terbuka
  • Tapi saat kita yang melakukannya? "Keamanan nasional"
  • Riset terbuka seharusnya bersifat universal
    • Kita tidak bisa membela open science hanya saat itu menguntungkan

Uji yang bisa Anda lakukan sendiri

  • Jangan percaya saya, jangan percaya NIST, periksa sendiri
  • Unduh bobot DeepSeek
    • Gunakan huggingface transformers, vLLM, LM Studio, atau llama.cpp untuk menjalankannya secara lokal
    • Buka alat pemantauan jaringan
  • Amati
    • Tepat nol paket dikirim ke mana pun
    • Prompt diproses sepenuhnya di perangkat
    • "Ancaman keamanan" yang mengerikan itu hanya melakukan perkalian matriks tanpa terhubung ke apa pun
  • Tanyakan pada diri sendiri: mengapa pemerintah AS berbohong soal ini?
  • "Ancaman keamanan" itu tidak ada pada modelnya. Itu ada pada politik

Hal yang benar-benar perlu dikhawatirkan

  • Ada kekhawatiran yang memang sah
    • Menggunakan API DeepSeek: jika Anda mengirim data sensitif ke layanan hosting DeepSeek, data tersebut akan melewati infrastruktur Tiongkok. Ini adalah masalah nyata kedaulatan data, sama seperti saat menggunakan penyedia cloud asing mana pun
    • Kerentanan jailbreak: jika Anda membangun aplikasi produksi, uji kerentanan model apa pun dan terapkan pengaman di tingkat aplikasi. Jangan hanya bergantung pada guardrail model. Gunakan juga guard model saat inferensi, seperti LlamaGuard atau Qwen3Guard, untuk mengklasifikasikan dan memfilter baik prompt maupun respons
    • Bias dan sensor: semua model mencerminkan data pelatihannya. Sadari hal ini, model apa pun yang Anda gunakan
  • Ini adalah tantangan rekayasa
    • Bukan alasan untuk sepenuhnya menghindari model open-source (atau model Tiongkok)

Implikasi bagi masa depan AI

  • Ini bukan hanya soal DeepSeek
    • Ini soal apakah AI akan tetap terbuka dan dapat diaudit, atau dipagari oleh pemerintah dan korporasi
  • Pertanyaan-pertanyaannya
    • Apakah kita akan membiarkan "open-source" didefinisikan ulang menjadi "terbuka hanya jika buatan AS"?
    • Apakah kita akan menuntut bukti nyata untuk klaim keamanan, atau menerima insinuasi yang samar?
    • Apakah AI akan tetap menjadi proyek kemanusiaan bersama, atau berubah menjadi senjata geopolitik?
  • DeepSeek membuktikan ada jalan lain. Itulah sebabnya ia harus didiskreditkan

Pandangan penulis

  • Latar belakang penulis
    • Menjalankan model open-source secara lokal
    • Melatih model sendiri
    • Percaya pada alignment yang dapat dikomposisikan dan kebebasan pengguna
    • Berpandangan bahwa AI harus menjadi alat untuk pengguna, bukan untuk korporasi atau pemerintah
  • Penilaian terhadap laporan NIST
    • Bukan evaluasi teknis yang netral
    • Dokumen kebijakan yang dirancang untuk menghambat adopsi model AI Tiongkok demi melindungi kepentingan komersial dan strategis AS
  • Sikap terhadap dorongan industri oleh pemerintah AS
    • Tidak ada yang secara inheren salah jika pemerintah AS mendorong industrinya sendiri
    • Tetapi itu harus disebut apa adanya
    • Jangan bungkus proteksionisme sebagai riset keamanan
    • Jangan mengarang ancaman
    • Jangan berbohong kepada publik tentang apa yang sebenarnya ditunjukkan bukti
  • Kontribusi DeepSeek
    • Memberi kita hadiah yang berharga dan bernilai
    • Bobotnya hanyalah data safetensor
    • Tersimpan di drive dan bekerja sesuai perintah
    • Tidak menelepon pulang. Tidak memata-matai. Tidak membocorkan data
  • Kesimpulan
    • Jika Anda khawatir, berarti Anda belum memahami cara kerja inferensi lokal
    • Jika Anda percaya pada penggiringan ketakutan, berarti Anda telah berhasil dimanipulasi
    • Semua ini bukan soal keselamatan. Ini soal kekuasaan - siapa yang membangun, membagikan, dan memahami alat-alat yang membentuk masa depan

Kesimpulan

  • Kode dan risetnya bersifat open-source dan dapat diaudit. Sisanya adalah politik
  • Rekomendasi untuk pembaca
    • Baca langsung laporan NIST dan kodenya
    • Cari bukti nyata adanya kode jahat atau fungsi pengawasan
    • Anda tidak akan menemukannya. Karena memang tidak ada
  • Lalu mulailah bertanya
    • Mengapa kita diminta takut pada open-source saat ia bekerja terlalu baik?

1 komentar

 
GN⁺ 2025-10-07
Opini Hacker News
  • Sama sekali tidak terkejut bahwa lembaga-lembaga AS sudah sejak lama dimanfaatkan secara politis untuk isu lintas batas; saya juga selalu bersikap skeptis terhadap produk elektronik Tiongkok. Saya setuju laporan ini menyesatkan dan bernuansa xenofobia, tetapi jika Tiongkok sampai memiliki kendali yang cukup atas LLM, saya tetap curiga bahwa sekarang ataupun nanti mereka mungkin akan mencoba manipulasi halus dalam bentuk apa pun. Ini bukan hanya soal Tiongkok; AS atau kekuatan besar mana pun akan melakukan hal yang sama jika punya kuasa yang cukup. Pada akhirnya, yang penting adalah kita terus bersikap kritis terhadap model, melakukan benchmarking, dan secara konsisten memantau apakah model itu memenuhi kebutuhan kita, bukan kebutuhan penyedianya
    • Anda menyebut kemungkinan manipulasi halus oleh Tiongkok melalui LLM; saya penasaran seperti apa bentuk konkretnya
    • Pengaruh pemerintah atau politik tentu akan ikut campur sampai tingkat tertentu; persoalannya bukan ada atau tidak, melainkan di mana dan seberapa besar pengaruh itu bekerja. Sikap yang langsung menyimpulkan laporan ini sebagai “palsu” atau “bias” lalu menolaknya mentah-mentah tidak ada gunanya. Kita perlu menyaring dan menganalisis informasi di dunia yang kompleks ini
    • Menyebarkan informasi palsu tentang produk luar negeri bukanlah solusi; justru lebih baik menyadari bahwa orang menginginkan model open source, lalu merilis model domestik dengan kualitas terbaik agar digunakan secara luas
    • Kalau saya merapikan pikiran tentang demokrasi Amerika, kepemimpinan AS berusaha mempertahankan fleksibilitas semaksimal mungkin agar bisa memutuskan apa pun kapan saja. Karena ini demokrasi, mereka harus mempertahankan ilusi dukungan publik, dan pemerintah membentuk lingkungan di mana pandangan tertentu ditanamkan sehingga sebagian pikiran publik dikuasai, agar keputusan apa pun tetap mendapat tingkat dukungan tertentu. Jika kebijakan berubah atau pemimpin baru muncul, mereka bisa menyalahkan pendahulunya dan melakukan awal moral yang baru dengan narasi “dulu buruk, sekarang berubah”. Ini adalah sesuatu yang tidak mungkin di rezim otoriter. Misalnya, meski Putin menyadari kerugian perang, dia tidak bisa menghentikannya tanpa kehilangan legitimasi politik. Jika Rusia adalah demokrasi ala AS, mungkin mereka bisa cepat memilih pemimpin baru, menarik pasukan, memberi Putin hukuman formal, lalu bahkan membebaskan tanggung jawabnya di komunitas internasional
    • Lembaga-lembaga ini juga dimanfaatkan sebagai alat politik di dalam negeri
  • Saya merekomendasikan semua orang membaca laporan aslinya terlebih dahulu, lalu membaca analisis kali ini dan menilai sendiri. Penting untuk membaca sumber asli tanpa digiring ringkasan yang mengejar klik
  • Sebagai pihak yang meng-host LLM untuk peneliti dan staf di universitas Eropa, isu ini sangat terasa bagi saya secara pribadi. Tanpa model Tiongkok, banyak pekerjaan yang kami lakukan saat ini mungkin mustahil. Menurut saya, entah UE atau siapa pun seharusnya berterima kasih pada lembaga penelitian Tiongkok yang merilis model di bawah lisensi sebaik ini. Tanpa mereka, pilihan yang ada akan sangat buruk. Jika membutuhkan model AS yang kuat, Anda akan disarankan membangun pusat data NVIDIA senilai ratusan juta dolar AS, dan bahkan opsi UE pun tetap mewajibkan biaya lisensi meski di-host pada perangkat keras sendiri, dengan dalih keahlian mereka tetap terlindungi. Sebaliknya, DeepSeek bahkan membuka “sumber rahasia” mereka sehingga proyek open source seperti vLLM bisa meng-host model dengan jauh lebih efisien
  • Setelah benar-benar membaca laporannya, isi tulisan ini ternyata tidak sesuai
    • Yang menarik, bahkan komentar-komentar di postingan ini pun berbeda dari isi artikel yang sebenarnya. Penulisnya terus menggiring bahwa ini serangan terhadap open source, tetapi komentar-komentarnya justru tampak lebih tepat dalam menyinggung masalah yang mungkin timbul dari pengaruh Tiongkok
    • Tulisan blog ini sangat menyesatkan. Paragraf-paragraf awalnya menekankan bahwa laporan NIST “tidak menemukan malware, backdoor, atau jejak kebocoran data”, padahal itu bukan klaim yang sebenarnya dibuat NIST. Jika hanya membaca postingan blog ini, orang akan mengira NIST tanpa dasar menuduh adanya backdoor
    • Dalam kasus saya, saya merasa isinya justru cukup selaras dengan laporan aslinya
  • Meski model Tiongkok dijadikan sasaran kampanye hitam, saya tetap akan memakai model yang bagus dan murah untuk mendapatkan keunggulan kompetitif
    • Kampanye hitam itu pada akhirnya adalah langkah awal menuju kriminalisasi
    • Saya sama sekali tidak menemukan ungkapan kampanye hitam dalam artikel NIST (sumber asli). Definisi “kampanye hitam” menurut saya adalah propaganda yang mensetanisasi musuh; kalau definisinya berbeda, saya ingin ditunjukkan secara spesifik bagian mana dalam laporan itu, lihat https://www.thefreedictionary.com/demonization
    • Fenomena orang membela model tertutup yang performanya lebih buruk, harganya berkali-kali lipat lebih mahal, dan sensornya lebih ketat itu tidak normal. Perusahaan Tiongkok tampaknya tidak terobsesi pada benchmark seperti perusahaan Barat; dalam penggunaan nyata, model seperti Kimi, GLM, dan Deepseek terasa jauh lebih baik kualitasnya meski skor benchmark berbahasa Inggris lebih rendah. Khususnya Kimi menjawab pertanyaan perangkat keras jauh lebih rinci dan akurat dibanding Gemini dan Claude. Saya kira ini karena mereka lebih baik memanfaatkan pelatihan dengan data berbahasa Mandarin
  • Penulis, Eric Hartford, mengatakan bahwa “bahasa yang provokatif harus dihilangkan”, tetapi setelah melihat laporannya, saya tidak melihat bahasa seperti itu. Secara umum gaya bahasanya kering dan bahkan membosankan
    • Justru postingan blog itu yang penuh dengan bahasa provokatif tanpa dasar
    • Saya malah merasa artikel ini lebih dekat ke “propaganda hitam” yang ditujukan kepada NIST atau AS, dan bahasa yang provokatif juga lebih banyak muncul di artikelnya
  • Terima kasih telah berbagi wawasan yang bagus. Kalau ada yang pernah benar-benar memakai model Dolphin uncensored buatan penulis, saya penasaran dengan pengalamannya
    • Menurut saya, cara terbaik adalah membuat kerangka evaluasi sendiri lalu mencobanya langsung. Alternatif kedua adalah mencari contoh eksternal yang melakukan evaluasi serupa dengan Anda. Namun tanpa menetapkan standar sendiri, kita tidak bisa tahu apakah evaluasi orang lain cukup layak dipercaya. Khususnya di bidang ML atau AI, saya menilai kualitas diskusi di HN cukup rendah; para pesertanya terasa tergesa-gesa, sinis, dan terkotak-kotak, sehingga tidak benar-benar tampak mengejar kebenaran. Meski begitu, saya tetap ingin bertahan di sini dan berkontribusi dalam diskusi. Saya selalu berharap ada kejelasan, logika, dan pembahasan yang mendalam. Kadang rasanya seperti https://xkcd.com/386/
  • DeepSeek bahkan sudah memiliki makalah peer-review di jurnal Nature, dan artikel tersebut juga mengakui beberapa masalah yang ditunjukkan peneliti independen pada model terbuka. Dalam konteks itu, saya menganggap evaluasi NIST kali ini lebih mirip serangan politik. Seperti pada kasus CryptoAG atau kontroversi Huawei, di mana badan intelijen AS secara historis memanfaatkan keuntungan teknologi untuk tujuan pengawasan tetapi tidak muncul bukti besar tentang niat jahat yang nyata, praktik semacam ini menjadi dasar kekhawatiran. Pada akhirnya, sebaiknya ada beragam model terbuka seperti Kimi dan Qwen sehingga biaya dan performa menjadi lebih merata, dan persaingan antarnegara untuk menjadikan AI sebagai “parit geopolitik” pun mereda; itu akan positif bagi bidang ini secara keseluruhan
  • Pada saat Tiongkok sudah merilis model open source yang jauh lebih unggul setelah DeepSeek, laporan NIST ini tampaknya sudah tertinggal satu langkah
  • Saya mempertanyakan mengapa NIST menilai performa, biaya, dan tingkat adopsi. Mereka hanya membandingkan model-model AS yang baru dirilis (seri OpenAI GPT-5, Anthropic Opus 4, dll.) dengan DeepSeek lama (R1, R1-0528, V3.1), padahal DeepSeek 3.2 terbaru saat ini sangat bagus performanya. Sama seperti fakta mobil bisa melaju 0-60 mph dalam 3 detik tidak membuat penilaian pemerintah menjadi penting; saya harus mengendarainya sendiri untuk menilai. “Model keamanan tertinggi” DeepSeek memang disebut hanya memiliki tingkat penolakan 6% terhadap permintaan berbahaya, tetapi kenyataannya model GPT buatan AS sekarang juga bisa disalahgunakan tanpa batasan berarti. Menurut saya, laporan ini bukan sekadar omongan miring NIST soal keamanan, melainkan bahan propaganda AS semata