3 poin oleh GN⁺ 2024-09-13 | 1 komentar | Bagikan ke WhatsApp
  • OpenAI mengumumkan OpenAI o1, model bahasa besar baru yang dilatih untuk melakukan penalaran kompleks dengan reinforcement learning
  • o1 dapat menghasilkan chain of thought internal yang panjang sebelum merespons pengguna
  • o1 mencapai persentil ke-89 pada soal pemrograman kompetitif (Codeforces), setara dengan salah satu dari 500 siswa teratas di AS pada American Invitational Mathematics Examination (AIME), dan melampaui tingkat akurasi doktor manusia pada benchmark soal fisika, biologi, dan kimia (GPQA)
  • Meski pekerjaan untuk membuatnya semudah model saat ini masih berlangsung, versi awal model ini, OpenAI o1-preview, langsung tersedia di ChatGPT dan bagi pengguna API tepercaya

Evaluasi

  • Dibanding GPT-4o, o1 menunjukkan performa yang jauh lebih baik pada sebagian besar tugas yang berfokus pada penalaran
    • Pada ujian AIME 2024, GPT-4o rata-rata hanya menyelesaikan 12% soal (1,8/15), sementara o1 mencapai rata-rata 74% (11,1/15) dengan satu sampel, 83% (12,5/15) dengan konsensus dari 64 sampel, dan 93% (13,9/15) dengan pemeringkatan ulang 1000 sampel menggunakan fungsi penilaian terlatih
    • Pada GPQA Diamond, o1 melampaui performa pakar manusia yang menguji pengetahuan khusus kimia, fisika, dan biologi, menjadikannya model pertama yang melakukannya pada benchmark ini
    • Dengan kemampuan pengenalan visual diaktifkan, o1 mencatat 78,2% pada MMMU dan menjadi model pertama yang mampu bersaing dengan pakar manusia
    • Menunjukkan performa lebih baik daripada GPT-4o pada 54 dari 57 subkategori MMLU

Chain of thought

  • Seperti manusia yang bisa berpikir lama sebelum menjawab pertanyaan sulit, o1 menggunakan chain of thought saat mencoba memecahkan masalah
  • Melalui reinforcement learning, o1 belajar cara menyempurnakan chain of thought dan meningkatkan strategi penggunaannya
    • Belajar mengenali dan memperbaiki kesalahan
    • Belajar memecah langkah yang rumit menjadi langkah yang lebih sederhana
    • Belajar mencoba pendekatan lain ketika pendekatan saat ini tidak berhasil

Coding

  • Model ini dilatih untuk semakin meningkatkan kemampuan pemrogramannya, dan model yang dihasilkan mencetak 213 poin pada International Olympiad in Informatics (IOI) 2024 serta berada di persentil ke-49
    • Model ini mengikuti IOI 2024 dengan kondisi yang sama seperti peserta manusia
    • Diberi waktu 10 jam untuk menyelesaikan 6 soal algoritma yang menantang, dan diperbolehkan 50 submission per soal
  • Jika diizinkan 10.000 submission, performa model meningkat secara signifikan
    • Bahkan tanpa strategi pemilihan saat waktu uji, model mencapai 362,14 poin dan melampaui ambang medali emas
  • Kemampuan coding model ini juga dibuktikan dengan mensimulasikan kontes pemrograman kompetitif yang diadakan di Codeforces
    • GPT-4o mencapai rating ELO 808, setara dengan persentil ke-11 di antara kompetitor manusia
    • Model ini jauh melampaui GPT-4o dan o1, mencapai rating ELO 1807 dan menunjukkan performa lebih baik daripada 93% kompetitor

Keamanan

  • Penalaran chain of thought membuka peluang baru untuk alignment dan keamanan
    • Ditemukan bahwa mengintegrasikan kebijakan tentang perilaku model ke dalam chain of thought model merupakan cara yang efektif untuk mengajarkan nilai dan prinsip manusia secara kuat
    • Ditemukan bukti bahwa kemampuan penalaran secara langsung membantu ketahanan model dengan mengajarkan aturan keselamatan dan cara bernalar sesuai konteks
  • Diyakini bahwa penggunaan chain of thought memberikan kemajuan signifikan dalam keamanan dan alignment karena pemikiran model yang sah dapat diamati, dan penalaran model tentang aturan keselamatan lebih tangguh terhadap skenario out-of-distribution
  • Sebelum peluncuran, dilakukan pengujian keamanan dan red teaming untuk menyoroti peningkatan
    • Penalaran chain of thought terbukti berkontribusi pada peningkatan kemampuan di semua evaluasi

Kesimpulan

  • o1 secara signifikan memajukan state of the art dalam penalaran AI
  • Ada rencana untuk merilis versi yang lebih baik dari model ini secara bertahap
  • Diharapkan o1 dan model-model penerusnya akan membuka banyak use case baru AI di bidang sains, coding, matematika, dan bidang terkait
  • Menantikan pengguna dan pengembang API menemukan bagaimana o1 dapat meningkatkan pekerjaan sehari-hari mereka

Opini GN⁺

  • OpenAI o1 adalah model dengan kemampuan pemecahan masalah kompleks dan penalaran yang sangat kuat, menunjukkan performa yang melampaui level manusia. Khususnya di bidang matematika, sains, dan pemrograman, model ini memiliki kemampuan setingkat pakar sehingga kemungkinan besar akan sangat membantu riset dan aplikasi di bidang terkait
  • Yang mengesankan adalah penggunaan pendekatan Chain of Thought yang memungkinkan proses berpikir model diamati dan dipahami. Ini akan sangat membantu dalam memahami dan mengendalikan perilaku model. Namun, keputusan untuk tidak menampilkan proses berpikir yang dihasilkan apa adanya kepada pengguna tetap berpotensi menimbulkan kontroversi
  • Integrasi aturan kebijakan ke dalam proses berpikir untuk memperkuat keamanan model juga merupakan hal yang patut diperhatikan. Namun, tampaknya ini masih belum sempurna, sehingga pemantauan dan perbaikan berkelanjutan tetap diperlukan
  • o1 adalah model yang sangat kuat, tetapi bukan tanpa cela. Keterbatasan umum model AI seperti bias atau isu etika masih tetap ada. Seiring kemajuan teknologi, upaya berkelanjutan untuk mengatasi keterbatasan ini juga akan tetap diperlukan

1 komentar

 
GN⁺ 2024-09-13
Opini Hacker News
  • Opini pertama

    • Ringkasan informasi praktis yang didapat dari dokumen
      • Untuk mengaksesnya, harus berada di tingkat level 5, telah membayar total $1,000, dan sudah lewat lebih dari 30 hari sejak pembayaran sukses pertama
      • Harganya $15 per 1 juta token input, $60 per 1 juta token output
      • Jendela konteksnya 128k token, output maksimum 32,768 token
      • Ada juga versi mini dengan token output maksimum dua kali lipat, dengan harga $3 per 1 juta token input dan $12 per 1 juta token output
      • Versi khusus coding yang disebut dalam posting blog tidak tersedia
      • Tidak jelas apakah hidden chain of thought reasoning ditagihkan sebagai token output berbayar
  • Opini kedua

    • Skeptis karena dua grafik akurasi pertama tidak memiliki label yang spesifik
      • Tidak diketahui berapa lama hasil uji akurasi 80% itu memakan waktu
      • Tidak jelas apakah grafik di awal artikel terhubung dengan penyelesaian masalah 10 jam di bagian coding
      • Datanya banyak, tetapi data pada dua grafik pertama tidak transparan sehingga sulit dipercaya
  • Opini ketiga

    • Contoh "keamanan" terasa tidak masuk akal
      • OpenAI mengatakan tidak bisa menerima jika LLM memberikan instruksi terperinci tentang sintesis strychnine, tetapi pada saat yang sama memublikasikan instruksi "tidak aman" yang dihasilkan sebelumnya
      • Obsesi berlebihan terhadap keamanan terkait LLM yang membagikan pengetahuan
  • Opini keempat

    • Kinerja model ditentukan oleh chain of thought, tetapi tidak diberikan kepada pengguna karena alasan seperti keunggulan kompetitif
      • Sejak peluncuran GPT4, fine-tuning model non-OpenAI berdasarkan output GPT4 menjadi hal yang umum
      • Alasan OpenAI tidak memberikan respons chain of thought adalah agar hasilnya lebih sulit direproduksi
  • Opini kelima

    • Menggunakan model GPT-4 untuk membantu melakukan reverse engineering protokol Bluetooth biner dari kipas dapur
      • Model o1-preview dan o1-mini memahami pola dan melakukan decoding
      • Model GPT4o memberikan hasil yang sama seperti sebelumnya
      • Kemajuan yang mengejutkan
  • Opini keenam

    • Banyak komentar yang tampaknya tidak memahami perbedaan antara chain-of-thought prompting dan pembelajaran strategi chain of thought melalui reinforcement learning
      • Melalui reinforcement learning, o1 mengasah chain of thought dan meningkatkan strateginya
  • Opini ketujuh

    • Menarik membaca Chain of Thought pada contoh Cipher
      • Menuliskan logika secara perlahan lalu bernalar di atasnya meningkatkan kemampuan berpikir logis
  • Opini kedelapan

    • o1 bekerja dengan baik untuk memahami masalah subtitle acara TV Belanda
      • Saat ditanya mengapa umlaut u di subtitle ditampilkan sebagai 1/4, model tersebut menjelaskan masalah encoding dengan tepat
  • Opini kesembilan

    • Mendapat hasil yang mengecewakan saat mencoba memecahkan ciphertext ROT
      • Banyak langkah yang salah atau tidak diikuti
      • Sulit menemukan pola yang membuat engine chain of thought terasa berguna
  • Opini kesepuluh

    • Pencapaian teknisnya besar, tetapi LLM masih rentan terhadap halusinasi sehingga menimbulkan kekhawatiran tentang kegunaan alat ini
      • Ada risiko pengguna non-ahli bergantung pada jawaban yang salah
      • Misalnya, saat mengevaluasi algoritme optimasi urutan join database, model memberikan informasi yang keliru