1 poin oleh GN⁺ 2023-12-08 | 1 komentar | Bagikan ke WhatsApp

Pengumuman proyek Purple Llama

  • Purple Llama adalah proyek yang menyediakan alat dan evaluasi kepercayaan serta keamanan terbuka untuk membantu pengembang menerapkan model AI generatif secara bertanggung jawab.
  • CyberSec Eval adalah kumpulan tolok ukur evaluasi keamanan siber untuk LLM, sedangkan Llama Guard adalah pengklasifikasi keamanan untuk pemfilteran input/output yang mudah diterapkan.
  • Bekerja sama dengan AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI, dan lainnya, alat-alat ini akan disediakan bagi komunitas open source.

Inovasi baru dalam AI generatif

  • AI generatif adalah teknologi inovatif yang memungkinkan AI percakapan, pembuatan gambar realistis, peringkasan dokumen skala besar, dan lainnya.
  • Model Llama telah diunduh lebih dari 100 juta kali, dan inovasi seperti ini dipimpin oleh model terbuka.
  • Kolaborasi keamanan penting agar pengembang dapat membangun kepercayaan serta melakukan riset dan kontribusi AI yang bertanggung jawab.

Langkah pertama proyek Purple Llama

  • Keamanan siber dan keamanan prompt LLM saat ini merupakan bidang penting dalam keamanan AI generatif.
  • Tolok ukur evaluasi keamanan siber dibangun berdasarkan panduan dan standar industri seperti CWE dan MITRE ATT&CK, serta dikembangkan melalui kolaborasi dengan para pakar keamanan.
  • Llama Guard menyediakan model yang tersedia secara publik agar pengembang dapat melindungi diri dari keluaran yang berbahaya.

Pentingnya tim Purple

  • Tantangan AI generatif hanya dapat dikurangi dengan mengambil posisi serangan (red team) dan pertahanan (blue team) sekaligus.
  • Tim Purple adalah pendekatan kolaboratif yang mencakup tanggung jawab red team dan blue team, dan semangat yang sama diterapkan pada AI generatif.

Upaya menuju ekosistem terbuka

  • Meta menjadikan riset eksploratif, open science, dan kolaborasi lintas pihak sebagai fondasi upaya AI-nya, dan ada peluang penting untuk membangun ekosistem terbuka.
  • Mereka berencana mendorong kepercayaan dan keamanan terbuka bersama banyak mitra seperti AI Alliance, AMD, Anyscale, AWS, dan lainnya.

Arah ke depan

  • Mereka akan mengadakan workshop di NeurIPs 2023 untuk membagikan alat-alat ini dan memberikan analisis teknis yang mendalam.
  • Pedoman keamanan dan praktik terbaik memerlukan dialog berkelanjutan, dan mereka menantikan masukan dari komunitas.

Opini GN⁺

  • Hal terpenting dari artikel ini adalah bahwa Meta mengumumkan proyek Purple Llama untuk mendukung penggunaan teknologi AI generatif baru yang aman dan bertanggung jawab.
  • Proyek ini bertujuan membantu pengembang menerapkan AI generatif secara aman dengan mencakup alat evaluasi keamanan siber dan model pemfilteran input/output.
  • Upaya ini diharapkan berkontribusi pada percepatan perkembangan teknologi AI, membangun kepercayaan di komunitas pengembang, dan memperkuat ekosistem open source.

1 komentar

 
GN⁺ 2023-12-08
Komentar Hacker News
  • Sulit dipahami kurangnya kesadaran terhadap ancaman prompt injection dalam inisiatif baru “penerapan model dan pengalaman AI yang bertanggung jawab”.
    • Dalam panduan penggunaan bertanggung jawab sepanjang 27 halaman, hanya ditemukan satu penyebutan yang keliru menjelaskan prompt injection sebagai “upaya menghindari pembatasan konten”.
    • "CyberSecEval" tampaknya merupakan benchmark untuk menilai risiko keamanan siber dari model bahasa besar, tetapi hanya membahas risiko model pembuat kode menghasilkan kode yang tidak aman dan risiko penyerang menggunakan LLM untuk membuat serangan baru.
    • "Llama Guard" tampaknya hanya berfokus pada pendeteksian konten berbahaya dalam bahasa Inggris di berbagai kategori, dan terasa melegakan karena mereka tidak mencoba merilis model pendeteksi prompt injection.
    • Prompt injection adalah tantangan terbesar yang harus diatasi untuk menerapkan aplikasi berbasis LLM seperti asisten AI pribadi secara bertanggung jawab, karena ada risiko besar terjadi kesalahan ketika LLM memiliki akses sekaligus ke data pribadi dan input yang tidak tepercaya (seperti email yang harus diringkas).
  • Sebagai peneliti keamanan, menghasilkan kode “berbahaya” dengan menggunakan LLM adalah tujuan yang sah, baik untuk latihan maupun untuk menunjukkan masalah kepada pihak yang bertanggung jawab, jadi saya sekaligus senang dan kecewa dengan pengumuman bahwa LLM tidak akan membantu permintaan terkait keamanan siber.
  • Apa pun yang dilakukan para peneliti asli, orang-orang tetap akan melatih atau menyetel model dengan data yang tidak disensor, dan model yang tidak disensor sudah tersedia dengan mudah untuk Llama serta berkinerja lebih baik daripada model tersensor dengan ukuran serupa.
  • Definisi kemenangan Microsoft adalah menjadi host bagi produk/layanan inferensi AI, startup membuat produk AI yang berguna lalu MSFT memungut pajak dari mereka dan membangun lebih banyak pusat data.
    • Saya belum terlalu memikirkan strategi Meta, tetapi sekarang jadi ingin mencobanya.
    • Peluncuran/kebocoran Llama pada awal tahun ini mengubah medan pertempuran, dan para penggemar open source mengambilnya lalu memulai optimasi yang belum dicoba para peneliti AI.
    • Dorongan optimasi ini bisa dilihat sebagai cara menghindari pesaing Meta menjadi otoritas pajak pada akhirnya.
    • Saya bertanya-tanya apakah Meta berharap komunitas open source akan berperang proksi semacam ini melawan para pesaing FAANG-nya.
    • Rasanya kecil kemungkinan komunitas open source akan mempercayai Meta, dan kelompok FOSS tahu cara menyimpan dendam, sementara Meta dianggap bertentangan dengan ideologi inti mereka.
    • Saya tidak melihat jalur yang jelas tentang bagaimana strategi AI Meta akan menghasilkan uang bagi Meta dan bagaimana itu akan menggiring developer/pelanggan ke metaverse.
  • Ini bukan model baru, cuma omong kosong tentang “keamanan”.
  • Saya berhenti menggunakan Facebook setelah menulis komentar bercanda tentang laba-laba yang menyarankan membakar rumah, lalu komentar itu segera ditandai oleh AI, dan banding saya segera ditolak oleh manusia.
    • Saya sarankan untuk mengingat bahwa semua perusahaan teknologi/media sosial besar terus mendaur ulang istilah “trust and safety”.
  • Ada kejadian lucu yang membuat Meta tampak mengikuti cara Microsoft menciptakan pengalaman login yang rumit.
    • Saya mencoba masuk ke ai.meta.com, tetapi baru tahu bahwa saya memerlukan akun Meta.
    • Saya membuat akun, lalu mendapati bahwa layanan itu tidak tersedia di wilayah saya.
  • Jika saya bisa mengakses modelnya, saya penasaran seberapa sulit melatih ulang atau melakukan fine-tuning untuk menghapus “lobotomi” atau “keamanan” dari LLM ini.
  • Modelnya tersedia di Hugging Face dan bisa dijalankan gratis di Google Colab.
  • Saya sudah dua kali menggunakan ChatGPT, dan dua-duanya saya mendapat jawaban yang salah untuk pertanyaan dasar tentang tugas administrasi Linux.