Catatan tentang o1 OpenAI, model chain-of-thought
(simonwillison.net)- OpenAI merilis model pratinjau baru, o1-preview dan o1-mini (mini bukan pratinjau), dengan nama kode sebelumnya 'strawberry'
Dilatih dengan pendekatan Chain-of-Thought
- OpenAI menjelaskan bahwa model-model ini dirancang untuk "berpikir" lebih lama sebelum memberikan respons
- Model-model baru ini dapat dilihat sebagai perluasan terspesialisasi dari pola prompting "berpikir langkah demi langkah"
- Dalam tulisan OpenAI "Learning to Reason with LLMs", dijelaskan bahwa model-model baru belajar meningkatkan rantai pemikiran dan menyempurnakan strategi melalui reinforcement learning
- Ini berarti model dapat menangani prompt kompleks dengan lebih baik yang memerlukan backtracking dan "pemikiran" melampaui prediksi token berikutnya
Detail tingkat rendah dalam dokumentasi API
- Untuk input gambar, function calling, dan aplikasi yang memerlukan waktu respons yang konsisten cepat, model GPT-4o dan GPT-4o mini akan tetap menjadi pilihan yang tepat
- Jika Anda mengembangkan aplikasi yang membutuhkan penalaran mendalam dan dapat menerima waktu respons yang lebih lama, model o1 bisa menjadi pilihan yang sangat baik
- Akses API untuk model baru
o1-previewdano1-minisaat ini dibatasi untuk akun tier 5 - Tidak ada dukungan system prompt - model menggunakan Chat Completions API yang ada, tetapi Anda hanya dapat mengirim pesan
userdanassistant - Juga tidak ada dukungan streaming, penggunaan tool, pemanggilan batch, maupun input gambar
- Pemrosesan permintaan dapat memakan waktu dari beberapa detik hingga beberapa menit, tergantung jumlah penalaran yang dibutuhkan untuk menyelesaikan masalah
Token penalaran tersembunyi
- Diperkenalkan "token penalaran" yang tidak terlihat dalam respons API, tetapi tetap ditagihkan dan dihitung sebagai token output
- Untuk prompt yang cocok bagi model baru ini, OpenAI menyarankan mengalokasikan anggaran sekitar 25.000 token semacam ini
- Batas token output meningkat besar menjadi 32.768 untuk
o1-previewdan 65.536 untuko1-mini - Tip terakhir dari dokumentasi API: saat menyediakan konteks tambahan dalam retrieval-augmented generation (RAG), sertakan hanya informasi yang paling relevan agar model tidak membuat respons menjadi terlalu rumit
Token penalaran tersembunyi
- Token penalaran tidak terlihat di API - ditagihkan, tetapi kita tidak bisa melihat sebenarnya apa isinya
- OpenAI menjelaskan dua alasan utama untuk ini:
- Keamanan dan kepatuhan kebijakan - untuk menghindari kasus di mana langkah perantara dapat memuat informasi yang melanggar kebijakan
- Keunggulan kompetitif - untuk mencegah model lain belajar dari pekerjaan penalaran yang telah diinvestasikan OpenAI
- Ada ketidakpuasan terhadap keputusan kebijakan ini - interpretabilitas dan transparansi itu penting, sehingga menyembunyikan detail utama evaluasi prompt terasa seperti langkah mundur
Contoh
- OpenAI memberikan contoh awal seperti pembuatan skrip Bash, menyelesaikan teka-teki silang, dan menghitung pH larutan kimia
- Contoh-contoh ini menunjukkan bahwa versi model di UI ChatGPT menampilkan detail tentang rantai pemikiran, tetapi tidak menampilkan token penalaran mentah
- OpenAI memiliki dua cookbook baru yang menunjukkan cara menggunakan penalaran untuk validasi data dan pembuatan routine
- Di Twitter ditanyakan apakah ada contoh prompt yang gagal di GPT-4o tetapi berhasil di
o1-preview-
"How many words are in your response to this prompt?" "There are seven words in this sentence."
-
Explain this joke: “Two cows are standing in a field, one cow asks the other: “what do you think about the mad cow disease that’s going around?”. The other one says: “who cares, I’m a helicopter!”
-
- Peneliti OpenAI Jason Wei menyebutkan bahwa hasil pada AIME dan GPQA sangat baik, tetapi itu belum tentu diterjemahkan menjadi sesuatu yang bisa langsung dirasakan pengguna
Hal baru dari semua ini
- Komunitas akan membutuhkan waktu untuk merumuskan best practice tentang kapan dan di mana model-model ini sebaiknya diterapkan
- Saya memperkirakan akan tetap lebih sering menggunakan GPT-4o (dan Claude 3.5 Sonnet), tetapi sangat menarik melihat bagaimana jenis model baru ini secara kolektif dapat memperluas model mental kita tentang jenis tugas apa yang bisa diselesaikan dengan LLM
- Diperkirakan laboratorium AI lain juga akan mulai mereplikasi sebagian hasil ini dengan versi mereka sendiri dari model yang dilatih khusus untuk menerapkan penalaran Chain-of-Thought bergaya ini
Opini GN⁺
- Model yang dilatih dengan pendekatan chain-of-thought dapat membantu mengatasi keterbatasan model yang ada saat menyelesaikan masalah kompleks. Peningkatan performa terutama diharapkan pada tugas yang memerlukan penalaran langkah demi langkah dan backtracking
- Namun, menyembunyikan token penalaran dari API menimbulkan kekhawatiran dari sisi interpretabilitas dan transparansi model. Dari sudut pandang pengguna, akan menjadi lebih sulit untuk memahami dan memverifikasi proses penalaran model
- Untuk saat ini, belum jelas tugas seperti apa yang paling cocok untuk model-model ini, serta apa saja kelebihan dan kekurangannya dibanding model yang ada. Tampaknya diperlukan proses di komunitas untuk menemukan berbagai use case dan best practice
- Perusahaan AI lain seperti model Claude dari Anthropic atau model dari Cohere juga berpotensi mengadopsi pendekatan pelatihan chain-of-thought serupa. Persaingan di pasar model penalaran diperkirakan akan makin ketat
- Secara keseluruhan, pengumuman OpenAI kali ini bermakna karena menghadirkan pendekatan baru untuk meningkatkan kemampuan penalaran LLM. Namun, masih ada beberapa hal yang menimbulkan kekhawatiran seperti token penalaran tersembunyi, sehingga perbaikan dan penyempurnaan ke depan tampaknya diperlukan
2 komentar
Ada salah ketik :)
"Chai-of-Thought dilatih dengan metode" → "Chain-of-Thought dilatih dengan metode"
Komentar Hacker News
Masalah pada model o1-preview
Kutipan dari peneliti OpenAI Jason Wei
Percobaan refaktorisasi kode Rust
Dua elemen utama
Sulitnya evaluasi prompt yang kompleks
Masalah kualitas dan biaya o1
Perbandingan GPT-4o dan o1-preview
Kesulitan menyelesaikan soal matematika dasar
Pengujian pertanyaan hukum
Masalah pemrosesan konten Markdown