Catatan tentang o1 OpenAI, model chain-of-thought

(simonwillison.net)

6 poin oleh GN⁺ 2024-09-14 | 2 komentar | Bagikan ke WhatsApp

OpenAI merilis model pratinjau baru, o1-preview dan o1-mini (mini bukan pratinjau), dengan nama kode sebelumnya 'strawberry'

Dilatih dengan pendekatan Chain-of-Thought

OpenAI menjelaskan bahwa model-model ini dirancang untuk "berpikir" lebih lama sebelum memberikan respons
Model-model baru ini dapat dilihat sebagai perluasan terspesialisasi dari pola prompting "berpikir langkah demi langkah"
Dalam tulisan OpenAI "Learning to Reason with LLMs", dijelaskan bahwa model-model baru belajar meningkatkan rantai pemikiran dan menyempurnakan strategi melalui reinforcement learning
Ini berarti model dapat menangani prompt kompleks dengan lebih baik yang memerlukan backtracking dan "pemikiran" melampaui prediksi token berikutnya

Detail tingkat rendah dalam dokumentasi API

Untuk input gambar, function calling, dan aplikasi yang memerlukan waktu respons yang konsisten cepat, model GPT-4o dan GPT-4o mini akan tetap menjadi pilihan yang tepat
Jika Anda mengembangkan aplikasi yang membutuhkan penalaran mendalam dan dapat menerima waktu respons yang lebih lama, model o1 bisa menjadi pilihan yang sangat baik
Akses API untuk model baru o1-preview dan o1-mini saat ini dibatasi untuk akun tier 5
Tidak ada dukungan system prompt - model menggunakan Chat Completions API yang ada, tetapi Anda hanya dapat mengirim pesan user dan assistant
Juga tidak ada dukungan streaming, penggunaan tool, pemanggilan batch, maupun input gambar
Pemrosesan permintaan dapat memakan waktu dari beberapa detik hingga beberapa menit, tergantung jumlah penalaran yang dibutuhkan untuk menyelesaikan masalah

Token penalaran tersembunyi

Diperkenalkan "token penalaran" yang tidak terlihat dalam respons API, tetapi tetap ditagihkan dan dihitung sebagai token output
Untuk prompt yang cocok bagi model baru ini, OpenAI menyarankan mengalokasikan anggaran sekitar 25.000 token semacam ini
Batas token output meningkat besar menjadi 32.768 untuk o1-preview dan 65.536 untuk o1-mini
Tip terakhir dari dokumentasi API: saat menyediakan konteks tambahan dalam retrieval-augmented generation (RAG), sertakan hanya informasi yang paling relevan agar model tidak membuat respons menjadi terlalu rumit

Token penalaran tersembunyi

Token penalaran tidak terlihat di API - ditagihkan, tetapi kita tidak bisa melihat sebenarnya apa isinya
OpenAI menjelaskan dua alasan utama untuk ini:
1. Keamanan dan kepatuhan kebijakan - untuk menghindari kasus di mana langkah perantara dapat memuat informasi yang melanggar kebijakan
2. Keunggulan kompetitif - untuk mencegah model lain belajar dari pekerjaan penalaran yang telah diinvestasikan OpenAI
Ada ketidakpuasan terhadap keputusan kebijakan ini - interpretabilitas dan transparansi itu penting, sehingga menyembunyikan detail utama evaluasi prompt terasa seperti langkah mundur

Contoh

OpenAI memberikan contoh awal seperti pembuatan skrip Bash, menyelesaikan teka-teki silang, dan menghitung pH larutan kimia
Contoh-contoh ini menunjukkan bahwa versi model di UI ChatGPT menampilkan detail tentang rantai pemikiran, tetapi tidak menampilkan token penalaran mentah
OpenAI memiliki dua cookbook baru yang menunjukkan cara menggunakan penalaran untuk validasi data dan pembuatan routine
Di Twitter ditanyakan apakah ada contoh prompt yang gagal di GPT-4o tetapi berhasil di o1-preview
- "How many words are in your response to this prompt?" "There are seven words in this sentence."
- Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
Peneliti OpenAI Jason Wei menyebutkan bahwa hasil pada AIME dan GPQA sangat baik, tetapi itu belum tentu diterjemahkan menjadi sesuatu yang bisa langsung dirasakan pengguna

Hal baru dari semua ini

Komunitas akan membutuhkan waktu untuk merumuskan best practice tentang kapan dan di mana model-model ini sebaiknya diterapkan
Saya memperkirakan akan tetap lebih sering menggunakan GPT-4o (dan Claude 3.5 Sonnet), tetapi sangat menarik melihat bagaimana jenis model baru ini secara kolektif dapat memperluas model mental kita tentang jenis tugas apa yang bisa diselesaikan dengan LLM
Diperkirakan laboratorium AI lain juga akan mulai mereplikasi sebagian hasil ini dengan versi mereka sendiri dari model yang dilatih khusus untuk menerapkan penalaran Chain-of-Thought bergaya ini

Opini GN⁺

Model yang dilatih dengan pendekatan chain-of-thought dapat membantu mengatasi keterbatasan model yang ada saat menyelesaikan masalah kompleks. Peningkatan performa terutama diharapkan pada tugas yang memerlukan penalaran langkah demi langkah dan backtracking
Namun, menyembunyikan token penalaran dari API menimbulkan kekhawatiran dari sisi interpretabilitas dan transparansi model. Dari sudut pandang pengguna, akan menjadi lebih sulit untuk memahami dan memverifikasi proses penalaran model
Untuk saat ini, belum jelas tugas seperti apa yang paling cocok untuk model-model ini, serta apa saja kelebihan dan kekurangannya dibanding model yang ada. Tampaknya diperlukan proses di komunitas untuk menemukan berbagai use case dan best practice
Perusahaan AI lain seperti model Claude dari Anthropic atau model dari Cohere juga berpotensi mengadopsi pendekatan pelatihan chain-of-thought serupa. Persaingan di pasar model penalaran diperkirakan akan makin ketat
Secara keseluruhan, pengumuman OpenAI kali ini bermakna karena menghadirkan pendekatan baru untuk meningkatkan kemampuan penalaran LLM. Namun, masih ada beberapa hal yang menimbulkan kekhawatiran seperti token penalaran tersembunyi, sehingga perbaikan dan penyempurnaan ke depan tampaknya diperlukan

2 komentar

naneg93 2024-09-14

Ada salah ketik :)

"Chai-of-Thought dilatih dengan metode" → "Chain-of-Thought dilatih dengan metode"

GN⁺ 2024-09-14

Komentar Hacker News

Masalah pada model o1-preview
- Berhalusinasi tentang library dan fungsi yang tidak ada
- Memberikan informasi yang salah tentang fakta-fakta yang tidak banyak muncul di web
- Tidak ada cara untuk menilai apakah informasi yang dihasilkan model itu faktual atau tidak
Kutipan dari peneliti OpenAI Jason Wei
- Menunjukkan performa yang kuat di AIME dan GPQA, tetapi tidak terasa bagi pengguna
- Mempertanyakan pendapat bahwa kita harus mencari prompt yang lebih sulit
Percobaan refaktorisasi kode Rust
- o1-mini tidak mampu memberikan kode tanpa error
- o1-preview memberikan kode yang bisa dikompilasi dan lolos sebagian besar pengujian
- Mencoba menghapus enum dari library Rust dan mengubahnya agar hanya menggunakan tipe data U8
Dua elemen utama
- LLM yang dilatih untuk membaca dan menghasilkan prompt chain-of-thought yang baik
- Kode runtime yang melakukan re-prompt pada model secara berulang
- OpenAI tidak menjelaskan perbedaan ini dengan jelas
Sulitnya evaluasi prompt yang kompleks
- Proses evaluasi prompt disembunyikan sehingga sulit untuk di-debug
- Bagi pengguna, yang penting hanya hasilnya dan prosesnya tidak penting
Masalah kualitas dan biaya o1
- Tidak ada peningkatan kualitas yang besar, tetapi ada dampak negatif yang besar pada biaya dan latensi
Perbandingan GPT-4o dan o1-preview
- GPT-4o tidak mampu memberikan strategi tic-tac-toe yang optimal
- o1-preview memberikan strategi yang optimal, tetapi gagal pada grid nonstandar
Kesulitan menyelesaikan soal matematika dasar
- Mencoba menyelesaikan soal menjumlahkan tiga angka lalu membaginya untuk mendapatkan hasil yang sama
- Model saat ini masih sulit menyelesaikan bahkan soal sekolah dasar
Pengujian pertanyaan hukum
- GPT-4o langsung memberikan jawaban yang benar
- o1-preview memberikan jawaban yang salah dan memerlukan beberapa pertanyaan lanjutan
Masalah pemrosesan konten Markdown
- Saat konten Markdown menyertakan ekspresi logika simbolik dan contoh pembuktian, itu dianggap sebagai pelanggaran ketentuan layanan

Catatan tentang o1 OpenAI, model chain-of-thought

Dilatih dengan pendekatan Chain-of-Thought

Detail tingkat rendah dalam dokumentasi API

Token penalaran tersembunyi

Token penalaran tersembunyi

Contoh

Hal baru dari semua ini

Opini GN⁺

Bacaan terkait

2 komentar

Komentar Hacker News