Purple Llama: Meta merilis alat kepercayaan dan keselamatan terbuka untuk AI generatif

(ai.meta.com)

1 poin oleh GN⁺ 2023-12-08 | 1 komentar | Bagikan ke WhatsApp

Seiring penggunaan model AI generatif terbuka yang berkembang pesat, Meta memperkenalkan Purple Llama sebagai proyek payung yang mengumpulkan alat dan evaluasi kepercayaan serta keselamatan agar pengembang dapat melakukan deployment secara bertanggung jawab
Rilis pertama berfokus pada CyberSec Eval untuk menilai risiko keamanan siber pada LLM dan Llama Guard, model pelindung input/output
CyberSec Eval memeriksa saran kode yang tidak aman dan kemampuan menangani permintaan berbahaya berdasarkan standar seperti CWE dan MITRE ATT&CK
Llama Guard adalah model pra-pelatihan terbuka untuk pengembang yang ingin memeriksa dan memfilter input dan output sesuai pedoman konten tiap aplikasi
Purple Llama tersedia dengan lisensi permisif, dan Meta ingin memperluas fondasi kepercayaan serta keselamatan terbuka bersama AI Alliance dan para mitra utama di ekosistem cloud, chip, dan AI

Masalah yang ingin diatasi Purple Llama

Purple Llama adalah proyek payung untuk alat dan evaluasi kepercayaan serta keselamatan yang membantu membangun model AI generatif terbuka secara bertanggung jawab
AI generatif telah memungkinkan AI percakapan, pembuatan gambar realistis, dan peringkasan dokumen skala besar hanya dengan prompt sederhana, dan model Llama telah diunduh lebih dari 100 juta kali hingga saat ini
Karena masalah keselamatan sulit diselesaikan oleh masing-masing pengembang secara terisolasi, Purple Llama bertujuan menyediakan fondasi bersama untuk pekerjaan kepercayaan dan keselamatan terbuka
Cakupan awal yang dirilis adalah pengaman keamanan siber dan perlindungan input/output, dengan lebih banyak alat direncanakan untuk ditambahkan di masa depan
Komponennya disediakan dengan lisensi permisif yang memungkinkan penggunaan riset maupun komersial

Rilis pertama: CyberSec Eval dan Llama Guard

Pada tahap pertama, dua komponen dirilis
- CyberSec Eval: kumpulan benchmark untuk mengevaluasi keselamatan keamanan siber LLM
- Llama Guard: pengklasifikasi keselamatan untuk pemfilteran input/output
Keamanan siber dan keselamatan prompt LLM saat ini menjadi area berprioritas tinggi dalam keselamatan AI generatif, dan juga dibahas sebagai best practice dalam Responsible Use Guide untuk Llama 2

CyberSec Eval: mengukur risiko keamanan siber LLM

CyberSec Eval diperkenalkan sebagai kumpulan evaluasi keselamatan keamanan siber LLM pertama yang dapat digunakan di seluruh industri
Benchmark ini dibangun berdasarkan pedoman dan standar industri seperti CWE dan MITRE ATT&CK, serta dikembangkan bersama para pakar bidang keamanan
Rilis awal berfokus pada penanganan sebagian risiko dalam White House commitments terkait pengembangan AI yang bertanggung jawab
- Metrik untuk mengukur risiko keamanan siber LLM
- Alat untuk mengevaluasi frekuensi saran kode yang tidak aman
- Alat evaluasi LLM untuk mempersulit pembuatan malware atau bantuan dalam melakukan serangan siber
Hasil awal menunjukkan adanya risiko keamanan siber yang signifikan dalam hal LLM merekomendasikan kode yang tidak aman atau merespons permintaan berbahaya
Informasi teknis lebih rinci tersedia di Cybersec Eval paper

Llama Guard: model perlindungan yang menyaring input dan output

Responsible Use Guide untuk Llama 2 merekomendasikan agar semua input dan output LLM diperiksa dan difilter sesuai pedoman konten yang cocok untuk aplikasi
Llama Guard adalah model pra-pelatihan yang dapat digunakan pengembang untuk melindungi dari output yang berpotensi berbahaya
Model ini menunjukkan performa yang kompetitif pada benchmark publik umum, dan dioptimalkan agar mudah di-deploy
Pembahasan metodologi dan performa dipublikasikan dalam Llama Guard paper
Model ini dilatih dengan campuran dataset publik agar dapat mendeteksi jenis risiko umum dan tipe konten pelanggaran yang relevan untuk berbagai use case pengembang
Tujuan akhirnya adalah memudahkan pengembang menyesuaikan model dengan use case yang relevan, sekaligus mempermudah adopsi best practice dan peningkatan ekosistem terbuka

Mengapa Purple

Untuk mengurangi risiko AI generatif, perlu memanfaatkan red team dari sudut pandang penyerang dan blue team dari sudut pandang pertahanan secara bersama-sama
Purple teaming adalah pendekatan kolaboratif yang menggabungkan peran red team dan blue team untuk menilai serta memitigasi potensi risiko
Nama Purple Llama mencerminkan arah untuk menerapkan pendekatan ini juga pada pekerjaan kepercayaan dan keselamatan AI generatif

Ekosistem terbuka dan kolaborasi

Riset eksploratif, open science, dan kolaborasi lintas pihak telah menjadi fondasi aktivitas AI Meta
Llama 2 diluncurkan pada bulan Juli bersama lebih dari 100 mitra, dan banyak di antaranya juga bekerja sama di bidang kepercayaan dan keselamatan terbuka
Mitra kolaborasi mencakup AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI, Together.AI, dan lainnya
Meta bekerja sama dengan mitra Papers With Code dan HELM untuk memasukkan evaluasi ini ke dalam benchmark
Meta juga berkolaborasi dengan MLCommons AI Safety Working Group

Rencana setelah publikasi

Meta berencana mengadakan workshop di NeurIPS 2023 dan membantu orang mulai menggunakan alat ini melalui sesi berbagi alat dan pendalaman teknis
Pedoman keselamatan dan best practice akan tetap menjadi topik yang terus dibahas di seluruh bidang ini
Materi terkait Llama 2 dapat dilihat di Llama website, yang juga menyediakan dokumen quick start dan FAQ
best practices and considerations untuk membangun produk berbasis LLM juga disediakan secara terpisah
Together.AI dan Anyscale akan menyediakan demo yang di-host di NeurIPS selama beberapa minggu ke depan

1 komentar

GN⁺ 2023-12-08

Pendapat Hacker News

Saya tidak paham mengapa inisiatif baru yang ingin membantu orang “menerapkan model dan pengalaman AI generatif secara bertanggung jawab” tidak benar-benar mengakui ancaman prompt injection
Di Responsible Use Guide setebal 27 halaman, saya hanya melihatnya sekali, itu pun salah dijelaskan sebagai “upaya untuk mengakali pembatasan konten”
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” terlihat menjanjikan, tetapi pada praktiknya hanya membahas risiko model pembuat kode menghasilkan kode rentan dan risiko penyerang memakai LLM untuk membuat serangan baru
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” juga hanya tertarik mendeteksi berbagai kategori konten berbahaya dalam bahasa Inggris. Meski begitu, syukurlah mereka tidak merilis model pendeteksi prompt injection, karena saya masih sangat skeptis terhadap pendekatan semacam itu
Saya yakin prompt injection adalah tantangan terbesar dalam menerapkan berbagai aplikasi yang dibangun di atas LLM secara bertanggung jawab. “Asisten AI pribadi” adalah contoh utamanya: risiko masalah muncul begitu LLM secara bersamaan punya akses ke data pribadi dan input yang tidak tepercaya, misalnya email yang harus diringkas: https://simonwillison.net/2023/May/2/prompt-injection-explai...
Saya paham sulit memasukkan kalimat “Jika Anda mengharapkan solusi untuk prompt injection, maaf, belum ada” ke dalam pengumuman keamanan AI, tetapi rasanya Meta AI saat ini menyapu ancaman keamanan terbesar bagi sistem LLM ke bawah karpet
- Dalam banyak aplikasi LLM nyata, prompt injection sering kali bukan kekhawatiran utama
  Yang paling umum diterapkan di lapangan adalah chatbot yang memakai retrieval-augmented generation (RAG), dan biasanya sangat terbatas. Tidak bisa mengakses internet, tidak bisa menjalankan tool, dan pada dasarnya hanya berfungsi sebagai antarmuka basis pengetahuan nonrahasia
  Prompt injection bisa disalahgunakan, tetapi dampaknya terbatas. Kebocoran prompt tidak terlalu menarik, dan mungkin ada masalah pengambilalihan sistem untuk memakai LLM secara gratis, tetapi itu mudah ditangani dengan teknik yang relatif sederhana seperti rate limiting
  Bagi banyak perusahaan, jauh lebih berisiko jika chatbot memberi jawaban berbahaya, salah, atau tidak pantas. Bayangkan chatbot e-commerce yang salah menjelaskan syarat pengembalian dana, atau bot edukasi yang menampilkan konten kekerasan kepada anak-anak; masalah hukum dan reputasinya jauh lebih besar
  Kejadian seorang geek sengaja memancing jawaban aneh dari LLM dengan prompt yang rumit umumnya bersifat sekunder dibanding masalah-masalah di atas
  Meski begitu, kritiknya valid. Salah satu alasan pemanfaatan LLM masih bertahan di level sebodoh ini justru karena prompt injection belum terpecahkan, dan risikonya terlalu besar untuk menerapkan sistem berbasis LLM yang lebih kuat. Jika masalah ini terpecahkan, banyak potensi yang saat ini belum termanfaatkan bisa terbuka
- Saya pernah menerapkan LLM untuk beberapa penggunaan komersial, dan setidaknya dalam kasus-kasus itu, desainnya harus benar-benar bodoh agar bisa benar-benar mengancam pengguna. Misalnya tidak mengisolasi sesi pengguna, membiarkan model menjalankan kode arbitrer, atau mengizinkannya melakukan tindakan berprivilege tanpa konfirmasi pengguna
  Selain itu, jika pengguna sendiri melakukan “prompt injection”, saya akan menyebutnya penggunaan tingkat lanjut saja. Layanan-layanan ini adalah alat untuk pelanggan, jadi jika pengguna ingin melakukan roleplay erotis alih-alih merangkum email masuk, itu pilihan pengguna
  Jika pengirim email mencoba membuatnya melakukan hal semacam itu tanpa persetujuan pengguna, paling-paling itu masalah organisasi, dan paling buruk pun itu masalah teknis yang terpisah. Itu bisa ditangani dengan pemfilteran email tradisional, dan bisa diimplementasikan tanpa menyalahkan LLM
  Masalah keamanan siber di sekitar LLM biasanya muncul ketika model-model ini diperlakukan seperti agen pakar mirip manusia yang tepercaya, bukan sebagai mesin prediksi informasi probabilistik
  Menghubungkan LLM ke API yang bisa langsung memanipulasi data pengguna berprivilege dan membagikan data itu lewat jaringan adalah bentuk ketidaktahuan keamanan yang menggelikan. Saya jadi teringat contoh Bard yang dibagikan di bawah
  Jika Anda tidak akan memberi sembarang orang di jalan akses ke suatu API, jangan berikan juga kepada LLM. Jika determinisme tidak bisa dipaksakan sampai taraf tertentu dengan pemrograman tradisional dan heuristik, LLM harus dibatasi ke API yang menampilkan isi permintaan kepada pengguna dan memblokirnya sampai ada konfirmasi
- Alasan orang berhati-hati mengusulkan cara mencegah prompt injection mungkin karena biasanya cara itu akan gagal dalam waktu singkat, sekaligus meruntuhkan reputasi profesional pengusulnya
  Sifat yang membuat LLM piawai dalam tugas berbasis bahasa adalah sifat yang sama dengan alasan social engineering terhadap manusia menjadi titik lemah keamanan
  Untuk mengatasinya, kita harus mengambil pendekatan ala OpenAI yang tampak terbuka tetapi sebenarnya tertutup dengan daftar rahasia “kata-kata buruk”, atau melatih LLM agar terlalu paranoid dan kalkulatif hingga menabrak masalah alignment jenis lain
  Secara pribadi, saya lebih memilih model yang di-align secara lemah yang berjalan di hardware milik saya sendiri, yaitu on-premises, bukan cloud. Bukan karena saya ingin model memberi resep membuat TNT atau membenarkan prasangka, melainkan karena saya menginginkan model yang bisa diajak memperdebatkan hipotesis
  Sikap menjilat yang ditunjukkan sebagian besar model chat komersial benar-benar mengganggu. Rasanya bukan seperti bersama partner sibernetik, melainkan seperti berada di hotel dengan pelayan yang berdandan terlalu rapi
- Apakah ada yang pernah menjelaskan dengan kata-kata apa sebenarnya “ketakutan” itu? Jika yang dikhawatirkan adalah pengguna bisa mengakses informasi yang dimasukkan ke LLM, maka hal yang benar-benar bisa terjadi memang hanya itu
  Saya sudah membaca puluhan ribu kata tentang “ketakutan” terhadap keamanan LLM, tetapi belum mendengar satu pun kekhawatiran yang valid. Kedengarannya mirip “ketakutan” bahwa pengguna Google, selain mendapatkan hasil pencarian, bisa mengklik tautan dan meninggalkan zona aman Google
- Sepenuhnya setuju. Meski belum ada solusi, metode mitigasi tetap harus disebarluaskan
  Ada perbedaan besar antara “secara teknis masih rentan terhadap prompt injection” dan “seseorang dengan mudah mencuri data pribadi lalu menghancurkan perusahaan”, dan orang-orang perlu tahu cara bergerak dari kategori kedua agar lebih mendekati kategori pertama
Saat membaca frasa “alat evaluasi yang membuat LLM sulit menghasilkan kode berbahaya atau membantu melakukan serangan siber”, sebagai peneliti keamanan saya merasa senang sekaligus kecewa
Riset keamanan siber adalah tujuan yang sah untuk menggunakan LLM, dan dalam prosesnya bisa termasuk membuat kode “berbahaya” untuk latihan atau untuk menunjukkan masalah kepada pihak yang bertanggung jawab
Di sisi lain, saya juga senang mengetahui bahwa selama semua LLM tidak membantu permintaan terkait keamanan siber, stabilitas pekerjaan saya terjamin
- Alat evaluasi bisa dengan mudah dibalik untuk membuat model fine-tuned yang unggul dalam pembuatan malware
  Sikap Meta terhadap LLM tampaknya mengarah pada memungkinkan pengembang model membuat model untuk berbagai penggunaan. Berbeda dengan bahasa yang berfokus pada keamanan di halaman ini, LLM dasar tidak disensor dengan cara apa pun, dan alat-alat Purple ini hanya memungkinkan fine-tuning dikendalikan agar lebih “aman” maupun kurang “aman”
- Masalah keamanan yang lebih menarik adalah versi LLM dari serangan cross-site scripting yang sering ditulis Simon Willison
  Jika ada alat LLM yang dapat memproses teks yang asalnya tidak jelas dan mengirim email ringkasan, artinya input bisa tercemar dan ia bisa mengirim email
  Seseorang bisa menyisipkan dalam teks sesuatu yang akan ditafsirkan LLM sebagai perintah untuk menimpa maksud pengguna, lalu membuatnya mengirim informasi rahasia kepada orang lain. Tidak ada mekanisme pertahanan yang setara dengan tanda kutip, dan hanya ada satu aliran token
- Semua yang ada di sini tampaknya opsional, dan merupakan alat yang ditempatkan di antara LLM dan pengguna
- Saya tidak mengerti mengapa alat evaluasi bukan keuntungan murni. Setiap model punya kegunaan berbeda
Saya kurang paham. Apa pun yang dilakukan para peneliti awal, pada akhirnya orang akan melatih atau menyesuaikan model dengan data yang tidak disensor
Untuk Llama, model tanpa sensor sudah mudah didapat, dan performanya juga jauh lebih baik daripada model tersensor dengan ukuran serupa
Namun, penyaringan output memang masuk akal
- Jika Anda memakai LLM untuk mengekstrak data dari PDF dan memasukkannya ke database, Anda bebas memakai model apa pun yang Anda inginkan
  Namun jika pemerintah AS menginginkan chatbot yang membantu pendaftaran Health Insurance Marketplace, mereka memerlukan guardrail dan jaminan, meskipun harus mengorbankan kualitas respons
- Mereka juga tahu hal ini. Ini bukan alat untuk mencegah AI seperti itu dibuat, melainkan alat perlindungan perusahaan agar AI yang mereka rilis secara publik tidak memicu reaksi pasar yang merugikan dan berujung pada hilangnya keuntungan
  Pada akhirnya selalu soal uang
- Perusahaan mungkin ingin menjual AI seperti ini kepada orang-orang, dan sebagian orang akan tersinggung. Jika AI mengatakan hal buruk kepada anak-anak, di AS mungkin akan menjadi masalah besar
  Topik lain adalah keamanan prompt injection. Misalnya, katakanlah Anda menginginkan asisten AI email yang membaca dan merapikan email serta menulis email dikte. Bagaimana Anda bisa 100% yakin bahwa karena prompt injection dari email berbahaya, asisten itu tidak akan meneruskan semua email Anda kepada orang jahat?
  Saya berharap ditemukan arsitektur AI baru yang lebih pintar, yang membuat komunitas open source bisa melatih model dengan lebih mudah tanpa sensor korporat
- Yang ada di sini bukanlah sesuatu yang mencegah pilihan untuk membuat model dengan fungsi tertentu, termasuk model tanpa sensor. Ada alat evaluasi model dan alat evaluasi konten, dan yang terakhir dimaksudkan untuk mengklasifikasikan input atau output, atau keduanya, bergantung pada skenario penggunaan LLM
  Jika model tanpa sensor secara umum lebih kapabel, maka makin dibutuhkan sarana selain sensor internal model untuk memastikan model yang diterapkan tidak menyampaikan jenis konten yang tidak diinginkan kepada pengguna akhir
  Tentu saja ada use case yang ingin dibiarkan sepenuhnya terbuka, tetapi dalam aplikasi enterprise komersial, pemerintahan, dan nirlaba, kasus seperti itu lebih merupakan pengecualian daripada standar. Bahkan jika tidak memakai model tersensor, klasifikasi input untuk menegakkan kebijakan penggunaan tetap berguna
- Bagian dari pekerjaan saya adalah melihat bagaimana teknologi akan berperilaku ketika sudah berada di tangan pengguna nyata
  Untuk iseng, saya perlu membagi 27 orang secara acak ke dalam 12 tim, dan karena rasanya orang-orang pasti melakukan hal semacam ini dengan berbagai chatbot, saya mencoba meminta beberapa model chat melakukannya alih-alih memakai spreadsheet. Daftar nama dipisahkan koma, dan hanya perlu dibagi ke dalam tim
  Model 1 mengatakan akan membagi daftar yang saya berikan secara “acak”, tetapi sebenarnya mengambilnya persis sesuai urutan input. Kebetulan daftar itu diurutkan alfabetis berdasarkan nama. Namanya benar dan secara teknis tidak salah, tetapi tidak sesuai harapan
  Model 2 membagi nama secara acak, tetapi di tengah jalan menciptakan 2 orang fiktif. Hasilnya tetap 27 orang, dan jika saya tidak memeriksanya, beberapa tim akan mendapat orang fiktif. Menakutkan kalau membayangkan dataset yang jauh lebih besar
  Model 3 memberikan respons yang valid, tetapi pendeteksi kebencian/pelecehan yang termasuk dalam alur output menandai nama saya dan beberapa nama lain sebagai konten yang berpotensi berbahaya
  Menarik melihat model-model itu berperilaku seperti ini, dan pendekatan ala “purple team” mungkin bisa menemukan masalah semacam ini. Terutama, saya ingin tahu mengapa nama saya dianggap sebagai konten yang berpotensi berbahaya oleh salah satu model
  Akhirnya saya menyelesaikannya dengan spreadsheet dan lanjut ;-)
Definisi kemenangan Microsoft tampaknya adalah menjadi host bagi produk dan layanan inferensi AI. Startup membuat produk AI yang berguna, lalu MSFT memungut pajak untuk membangun lebih banyak pusat data
Saya belum terlalu mendalami strategi Meta, tetapi kalau dipikir-pikir, pembukaan/kebocoran Llama pada awal tahun ini mengubah medan pertempuran. Para penggemar open source mengambilnya dan mengoptimalkannya, lalu para peneliti AI mendorongnya hingga ke tingkat yang sebelumnya dianggap mustahil atau tidak punya insentif untuk dicoba
Arus optimasi itu bisa dilihat sebagai upaya menghindari agar pesaing Meta tidak menjadi pemegang hak pajak akhir. Seperti menjalankan DOOM di kalkulator, seseorang akan melakukan hal yang sama pada inferensi LLM
Apakah yang Meta harapkan adalah komunitas open source bertarung melawan para pesaing FAANG sebagai semacam perang proksi?
Sepertinya komunitas open source tidak akan percaya pada Meta. Kalangan FOSS mengingat dendam untuk waktu lama, dan Meta adalah kebalikan dari ideal inti mereka. Meski begitu, mereka tetap akan memakai apa yang dirilis Meta
Saya tidak melihat jalur yang jelas tentang bagaimana strategi AI Meta menghasilkan uang, atau bagaimana itu menarik pengembang dan pelanggan ke Meta-verse
- Meta punya riwayat kontribusi FOSS yang sangat baik. Saya tidak menyukai produk konsumennya, tetapi kontribusi open source-nya besar dan banyak
- Kedengarannya seperti komoditisasi komplemen yang klasik. Meta mendapat manfaat dari kapabilitas AI, tetapi tidak perlu memegang monopoli teknologinya
  Karena mereka mendapat manfaat dari kemajuannya sendiri, mereka bisa bekerja sama dengan komunitas open source untuk mencapainya
  https://gwern.net/complement
- Saham teknologi diperdagangkan dengan rasio harga terhadap laba yang konyol dibanding perusahaan lain, karena investor membayangkan masa depan ketika pendapatan perusahaan terus naik
  Salah satu dari banyak tugas CEO adalah membuat investor terus tenggelam dalam fantasi itu. Tidak perlu ada pendapatan hari ini juga; cukup tunjukkan bahwa perusahaan berada di garis depan gelombang besar berikutnya
  Jadi strateginya kira-kira: merilis model → tidak seperti milik Google, orang-orang benar-benar bisa memakainya sehingga menjadi topik besar di dunia teknologi → investor melihat Facebook berada di garis depan tren terpanas saat ini → harga saham naik
  Pada saat yang sama, mereka mungkin mendapatkan model yang bagus untuk moderasi konten, bisa membantu merekrut pakar machine learning terbaik, dan bisa menugaskan 60% dari mereka untuk memaksimalkan pendapatan iklan
  Bagaimanapun FB memang sedang melatih model, dan kalau mereka tidak berencana menjadi penyedia layanan cloud yang menjual model itu, membukanya begitu saja tidak membuat biaya membengkak luar biasa
  Metaverse gagal membuat investor bersemangat dan sudah mati. Namun untung bagi Zuck, tepat pada waktunya muncul sesuatu yang jauh lebih baik: capaian machine learning mutakhir
- Perlu diingat bahwa Meta merilis chatbot peringkas makalah akademik, termasuk riset medis, sekitar 2 minggu sebelum ChatGPT
  Mereka menekankan bahwa itu eksperimen, tetapi para pengkritik menyerangnya terlalu keras, dan Meta mencabutnya dalam beberapa hari
  Mereka tampaknya menyadari bahwa menjadi pesaing langsung ChatGPT punya peluang sukses yang sangat kecil, tetapi melihat ada banyak bidang berdekatan yang layak dikejar. Apa pun pendapat orang tentang bisnisnya, akun saya sendiri juga sudah bertahun-tahun terbengkalai, tetapi masih banyak orang pintar dan termotivasi yang bekerja di sana
- Apakah tujuan dari upaya khusus ini harus selalu menghasilkan uang atau langsung memasukkan pengembang ke Meta-verse?
  Meta sudah menghasilkan banyak uang, dan tampaknya juga menjalankan beberapa proyek moonshot
  Seperti yang sudah disebut, kalangan FOSS mengingat dendam untuk waktu lama. Mungkinkah ini upaya untuk merebut kembali kelompok itu dan mengubah persepsi publik terhadap Meta?
  Kemungkinan bahwa Llama pada dasarnya adalah kampanye pembangunan ulang merek bukanlah nol
  Unsur perang proksi mungkin hanya bonus di atasnya
Ternyata bukan model baru, cuma omong kosong “keamanan” lagi
- Keamanan hanyalah kuda Troya terbaru yang dipakai big tech untuk mengendalikan bagaimana orang memakai komputer mereka sendiri
  Saya jelas percaya pada penggunaan AI yang bertanggung jawab, tetapi saya tidak percaya perusahaan-perusahaan seperti ini memikirkan kepentingan terbaik saya, dan saya juga tidak percaya mereka harus dibiarkan menentukan apa yang boleh saya lakukan dengan komputer saya
  Semacam ungkapan bahwa orang yang menukar kebebasan dengan keamanan tidak akan mendapatkan keduanya
- Terlepas dari apakah “keamanan” pada dasarnya omong kosong atau tidak, yang ini adalah keduanya. Llama Guard adalah model dengan fungsi mirip OpenAI moderation API, dan bobotnya bisa digunakan
  “Keamanan AI” sering kali, dan gerakan yang memopulerkan istilah itu sepenuhnya, mendekati omong kosong serta menjadi pengalih perhatian yang mengaburkan dampak sosial nyata dan saat ini yang dibuat AI
  Sebaliknya, alat yang relatif terbuka untuk memberi informasi kepada orang-orang yang membuat dan menerapkan LLM agar memahami kemampuan model serta input/output aktual di area sensitif, seharusnya disukai oleh orang-orang yang ingin model yang lebih terbuka dan tanpa sensor menjadi pusat pengembangan dibanding model sensor kotak hitam terpusat
  Alat seperti itu diperlukan agar institusi dapat menerapkan model semacam itu pada aplikasi penting di dunia nyata
- Keamanan yang dimaksud di sini bukan sekadar “jangan membicarakan topik yang bisa kontroversial”
  Keamanan di sini juga bisa berarti LLM beroperasi dalam batas yang dapat diterima untuk kasus penggunaan tertentu
  Misalnya, bayangkan ada LLM medis yang membantu pasien mencari fasilitas layanan kesehatan, menyediakan edukasi pasien, dan membantu rumah sakit menjalankan pekerjaan administrasi rutin
  Ketika pasien bertanya soal saran resep, Anda tentu tidak ingin bot menyarankan perubahan dosis tanpa tinjauan tenaga medis, atau merekomendasikan obat bebas yang berinteraksi dengan resep yang sudah ada
  Saat ini banyak LLM bisa memberikan jawaban yang terdengar meyakinkan tetapi tidak masuk akal, atau dapat diarahkan untuk mengembalikan jawaban yang ingin didengar pengguna. Dalam berbagai lingkungan, ini menjadi masalah keselamatan yang nyata
- Ini memang model baru. Hanya saja, itu “model omong kosong keamanan”
  Namun dataset-nya sendiri mungkin berguna. Saya berniat mencoba bagian codesec sebagai data pelatihan tambahan untuk LLM khusus kode. Sebab kalau menghasilkan kode, lebih baik membuatnya mempertimbangkan dampak keamanan potensial
Orang yang sudah lama melihat meme di internet pasti tahu ada meme bahwa ketika membahas laba-laba, tempat atau rumahnya harus dibakar
Setahun lalu di Facebook saya melihat video seorang anak perempuan kecil memegang laba-laba yang jauh lebih besar daripada tangannya, dan karena apa yang terjadi setelah itu, saya ingat persis teks komentarnya: “Nak, menjauhlah dari itu, kita harus membakar rumah!”
Saya memposting komentar itu tetapi tidak terlihat, lalu 1 detik kemudian Facebook memberi tahu bahwa komentar saya dilaporkan. Itu terlalu cepat untuk sebuah laporan, jadi saya pikir itu AI, dan saya mengajukan banding dengan harapan akan sampai ke manusia, tetapi ditolak cukup cepat, sekitar 15 menit kemudian
Saya hanya bisa berpikir ada seseorang yang membacanya, tetapi sepertinya mereka tidak menonton videonya dan tidak memahami bahwa itu lelucon
Jadi saya benar-benar berhenti memakai Facebook. Saat itu saya punya beberapa aplikasi dengan hak admin untuk pekerjaan, jadi risiko akun diblokir bukanlah percakapan yang menyenangkan untuk dibahas dengan atasan
Mungkin saya juga menghasilkan pendapatan untuk Facebook. Saya benar-benar mengklik iklan mereka yang sangat tertarget dan membeli barang. Tetapi sekarang, karena mesin AI ingin menghukum saya karena memposting komentar meme, saya sama sekali tidak memakainya
Sebagai tambahan, ingatlah istilah Trust and Safety. Itu ungkapan yang didaur ulang oleh semua perusahaan teknologi besar dan perusahaan media sosial, dan merupakan cara mereka secara sepihak menentukan apa yang diperbolehkan di banyak sekali situs web sekaligus
Tautan Trust and Safety: https://dtspartnership.org/
- Apakah kamu membayangkan Facebook mempekerjakan cukup banyak orang untuk menyelidiki sendiri setiap laporan selama 15 menit lalu mengambil keputusan?
  Itu hanya mungkin kalau hampir semua orang yang kamu kenal bekerja di Facebook
- Cukup jangan pakai Facebook
  Orang-orang mengeluh, dan tentu saja regulasi bisa dibuat, tetapi penegakannya sering sulit dan menangani konteks yang halus juga tidak mudah
  Platform seperti ini bukan satu-satunya cara untuk tetap berhubungan dan berkomunikasi
  Namun mereka harus mengadopsi cara moderasi yang membuat basis pengguna terus kembali dan terlibat, tidak menimbulkan masalah PR, serta terus menarik pengiklan atau menarik kelompok vokal yang bisa menimbulkan masalah
  Karena itulah muncul komite “etika” yang teatrikal dan slogan “bertanggung jawab” semacam ini
  Pada akhirnya, ini hanya bisnis
- “Kita harus membakar rumah” sulit dibiarkan tetap ada di platform terlepas dari konteksnya, dan bisa ditafsirkan dalam konteks lain
  Mengingat skalanya, proses pemberian flag itu sendiri bisa dimengerti. Tentu saja saya juga tidak akan memakai mereka, tetapi itu persoalan terpisah
- Pada saat yang sama, saya membaca artikel bahwa FB tidak mampu mengendalikan penyebaran kelompok pedofilia di layanannya, dan justru sistem rekomendasinya mempromosikan hal itu
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- Menariknya, sekitar sebulan lalu saya mengalami hal yang sangat mirip di Facebook
  Judul sebuah artikel ditulis seolah ada “satu orang” yang menyebabkan semua kemacetan, dan orang-orang bercanda di kolom komentar
  Saya juga bercanda, “Kita harus menemukan orang itu dan memberinya sedikit pelajaran”
  Hampir seketika muncul notifikasi “hasutan kekerasan”, dan saya mengajukan banding tetapi ditolak dalam 15 menit
  Jika manusia melihatnya setengah detik saja, mereka pasti memahami konteksnya, dan juga tahu bahwa orang itu sebenarnya tidak ada, jadi itu bukan hasutan kekerasan
Alurnya agak lucu, sepertinya Meta belajar cara membuat pengalaman login labirin ala Microsoft
Saya masuk ke ai.meta.com dan mencoba login dengan akun Facebook tepercaya saya
Setelah mengikuti instruksi, saya diberi tahu bahwa di gudang senjata digital saya ternyata belum ada akun Meta. Jadi saya membuat satu, dan tentu saja saya berpikir, “Ini apa?”
Namun twist-nya adalah layanan itu tidak tersedia di wilayah saya
Salut untuk Microsoft karena telah menaikkan standar UX setinggi ini. Warisan itu hidup di tempat yang tak terduga
- Saya mencobanya di Android, dan ditanya apakah ingin memakai FB, Instagram, atau email. Saya memilih Instagram, tetapi akhirnya tetap diarahkan ke Facebook
  Lalu Facebook mengatakan saya harus memakai login headset VR saya, sesuatu yang belum saya pakai sejak minggu pertama setelah membelinya. Saya setujui dulu
  Kemudian ia bertanya apakah ingin melanjutkan dengan menggabungkannya dengan Facebook atau tanpa menggabungkannya, jadi saya membatalkan
- Jika wilayahmu EU, salahkan regulator. Regulasi AI mereka dengan cepat makin memberatkan
- Hal yang paling saya ingat dari Microsoft adalah sekitar 1–2 tahun lalu ada batas 63 karakter untuk kata sandi login
  Tentu saja mereka tidak memberi tahu, dan mereka juga membiarkan saya mengatur kata sandi sepanjang itu tanpa keluhan apa pun
  Menurut saya, sepertinya mereka begitu saja memotongnya tanpa peringatan. Begitu saya atur di bawah 60 karakter, semuanya berjalan lancar
- Ini Hukum Conway
Kalau bisa mengakses modelnya, seberapa sulit untuk melatih ulang atau melakukan fine-tuning agar safety tuning atau “lobotomi” dihapus dari LLM ini?
- Ada juga Llama yang tidak aman
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Model seperti ini punya karakter yang agak berapi-api
  Masalah LLM yang dilobotomi juga disebut “masalah mayones pedas”
  Pada suatu bulan Juli, seorang developer bernama Teknium bertanya kepada chatbot AI cara membuat mayones. Bukan mayo biasa, melainkan resep yang “berbahaya karena pedasnya”. Namun chatbot itu menolak dengan sopan. Ia menjawab, “Sebagai asisten yang membantu dan jujur, tidak pantas bagi saya untuk menyediakan resep atau instruksi yang dapat membahayakan individu, jadi saya tidak dapat memenuhi permintaan ‘mayo yang berbahaya karena pedasnya’.” “Makanan pedas bisa lezat, tetapi juga bisa berbahaya jika tidak disiapkan atau dikonsumsi dengan benar”
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Jika bisa mengakses model secara langsung, tanpa fine-tuning pun kamu bisa mencapai sekitar setengah jalan dengan memasukkan awal jawaban seperti “Sure, ...” ke dalam prompt
  Bahkan Llama 2 Chat, model dengan safety tuning terkuat yang saya tahu, bisa mulai memberikan instruksi pembuatan bom nuklir jika diarahkan dengan cara tertentu yang mirip seperti di atas
Modelnya ada di https://huggingface.co/meta-llama/LlamaGuard-7b
Bisa dijalankan di Google Colab gratis: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
Apakah ada orang lain yang riwayat tombol kembali jadi rusak saat mengunjungi halaman ini? Setelah masuk, tidak bisa mengklik tombol kembali. Saya memakai Firefox / MacOS
- Sama juga di Firefox. Setelah mengklik tautannya, saya mencoba kembali ke HN, tetapi tombol kembali nonaktif
- Apakah mungkin membukanya di container (Facebook)?
- Di Safari mobile iOS berfungsi dengan baik
- Di Edge pada Windows, riwayatnya normal

Purple Llama: Meta merilis alat kepercayaan dan keselamatan terbuka untuk AI generatif

Masalah yang ingin diatasi Purple Llama

Rilis pertama: CyberSec Eval dan Llama Guard

CyberSec Eval: mengukur risiko keamanan siber LLM

Llama Guard: model perlindungan yang menyaring input dan output

Mengapa Purple

Ekosistem terbuka dan kolaborasi

Rencana setelah publikasi

Bacaan terkait

1 komentar

Pendapat Hacker News