Belajar Bernalar dengan LLM

(openai.com)

3 poin oleh GN⁺ 2024-09-13 | 1 komentar | Bagikan ke WhatsApp

Contoh pemecahan sandi yang diberikan adalah masalah menemukan aturan yang membuat oyfjdnisdr rtqwainr acxz mynzbhhx menjadi “Think step by step”, lalu menerapkan prosedur penalaran yang sama pada kalimat baru
Petunjuk utamanya adalah setiap kata dalam teks sandi tepat 2 kali lebih panjang daripada teks asli, sehingga teks sandi cukup dikelompokkan per dua huruf lalu diubah menjadi satu huruf
Setiap pasangan huruf dikonversi menjadi angka dari a=1 sampai z=26, lalu nilai rata-ratanya diambil untuk mendapatkan huruf teks asli yang sesuai
Misalnya oy menjadi T karena (15+25)/2=20, dan dengan cara yang sama fj, dn, is, dr didekode menjadi h, i, n, k
Jika diterapkan sampai teks sandi target, kalimat akhirnya menjadi “THERE ARE THREE RS IN STRAWBERRY”, sehingga diperlukan baik penemuan aturan maupun verifikasi

Petunjuk antara teks sandi dan teks asli

Contoh inputnya adalah oyfjdnisdr rtqwainr acxz mynzbhhx -> Think step by step
Tujuannya adalah mendekode oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz berdasarkan contoh ini
Jika lebih dulu membandingkan jumlah huruf, terlihat hubungan bahwa kata dalam teks sandi selalu 2 kali lebih panjang daripada kata dalam teks asli
- oyfjdnisdr terdiri dari 10 huruf, sedangkan Think terdiri dari 5 huruf
- rtqwainr terdiri dari 8 huruf, sedangkan step terdiri dari 4 huruf
- acxz terdiri dari 4 huruf, sedangkan by terdiri dari 2 huruf
- mynzbhhx terdiri dari 8 huruf, sedangkan step terdiri dari 4 huruf

Aturan mengubah pasangan dua huruf menjadi satu huruf

Karena hubungan panjang tersebut, cara mengelompokkan teks sandi per dua huruf menjadi kandidat yang alami
Kata pertama oyfjdnisdr dibagi sebagai berikut
- oy
- fj
- dn
- is
- dr
Pasangan-pasangan ini berkorespondensi secara berurutan dengan huruf-huruf dalam teks asli Think
- oy -> T
- fj -> h
- dn -> i
- is -> n
- dr -> k

Transformasi yang diverifikasi dengan nilai rata-rata

Setelah huruf diubah menjadi a=1, b=2, ..., z=26, menghitung nilai rata-rata tiap pasangan menghasilkan huruf teks asli
Transformasi pada kata pertama sesuai dengan aturan
- oy: o=15, y=25, rata-rata 20 → T
- fj: f=6, j=10, rata-rata 8 → h
- dn: d=4, n=14, rata-rata 9 → i
- is: i=9, s=19, rata-rata 14 → n
- dr: d=4, r=18, rata-rata 11 → k
Dengan cara yang sama, rtqwainr, acxz, dan mynzbhhx masing-masing didekode menjadi step, by, dan step

Mendekode teks sandi target

Teks sandi target juga dipisahkan per kata, lalu tiap kata didekode per pasangan dua huruf
oyekaijzdf
- oy, ek, ai, jz, df
- Hasil transformasi nilai rata-rata: THERE
aaptcg
- aa, pt, cg
- Hasil transformasi nilai rata-rata: ARE
suaokybhai
- su, ao, ky, bh, ai
- Hasil transformasi nilai rata-rata: THREE
ouow
- ou, ow
- Hasil transformasi nilai rata-rata: RS
aqht
- aq, ht
- Hasil transformasi nilai rata-rata: IN
mynznvaatzacdfoulxxz
- my, nz, nv, aa, tz, ac, df, ou, lx, xz
- Hasil transformasi nilai rata-rata: STRAWBERRY

Kalimat hasil dekode akhir

Hasil dekode keseluruhannya adalah “THERE ARE THREE RS IN STRAWBERRY”
RS berarti huruf-huruf R, dan keseluruhan kalimat dibaca sebagai pernyataan bahwa ada tiga R di dalam STRAWBERRY

1 komentar

GN⁺ 2024-09-13

Opini Hacker News

Setelah menelusuri dokumentasinya, untuk mengakses model ini harus berada di tier 5, dengan total pembayaran minimal $1.000 dan sudah lewat lebih dari 30 hari sejak pembayaran pertama yang berhasil.
Harganya $15 per 1 juta token input, $60 per 1 juta token output, jendela konteksnya 128k token, dan output maksimum 32.768 token.
Versi mini memiliki output maksimum dua kali lipat, yaitu 65.536 token, dengan harga $3 per 1 juta token input dan $12 per 1 juta token output.
Versi khusus coding yang disebut di blog tampaknya belum tersedia dalam bentuk yang bisa digunakan.
Belum jelas apakah rantai pemikiran (reasoning) tersembunyi ditagih sebagai token output berbayar, tetapi jika contoh di blog dibuka, isinya sangat panjang, jadi bila semuanya dikenai biaya, biayanya bisa cepat membengkak.
https://platform.openai.com/docs/models/o1
https://openai.com/api/pricing/
https://platform.openai.com/docs/guides/rate-limits/usage-ti...
- Yang membutuhkan tier 5 adalah akses API; misalnya, pengguna ChatGPT Plus juga bisa mengakses model o1.
- Saya menerima email dari OpenAI API yang menyatakan bahwa sebagai developer tepercaya di usage tier 5, saya bisa mulai menggunakan beta o1, dengan dua model yang tersedia: o1-preview dan o1-mini.
  Keduanya dibatasi 20 RPM selama periode beta, dan o1-mini disebut 80% lebih murah daripada o1-preview, lebih cepat, serta kompetitif untuk tugas coding.
- Token penalaran memang ditagih sebagai token output.
  Dokumentasinya menyebutkan bahwa meski tidak terlihat di API, token tersebut memakai ruang jendela konteks model dan dikenai biaya sebagai token output.
  https://platform.openai.com/docs/guides/reasoning
- Sebagian kueri memakan waktu beberapa menit. 40 token per detik terlalu lambat untuk rantai pemikiran.
  Saya berharap OpenAI berinvestasi pada teknologi latensi rendah seperti Groq yang bisa mencapai 1k token per detik.
- Pada akhirnya, rasanya ini lebih mirip chain-of-thought as a service.
  Bukan model itu sendiri, melainkan tampak seperti layanan yang merangkai beberapa permintaan model di belakang layar.
Salah satu alasan saya skeptis adalah dua grafik akurasi pertama tidak memiliki label sumbu yang spesifik. Hanya disebut skala log, dan kita bahkan tidak bisa memperkirakan berapa lama waktu yang dibutuhkan.
Dari data yang diberikan, tidak mungkin menilai apakah hasil akurasi 80% itu membutuhkan komputasi 10 detik, 10 menit, 10 jam, atau 10 hari.
Di bagian coding tertulis “10 jam untuk menyelesaikan 6 soal algoritma sulit”, tetapi juga tidak jelas apakah ini terkait dengan grafik di bagian awal tulisan.
Memang bagus bahwa tulisan itu berisi banyak angka dan fakta, tetapi keputusan untuk membuat data grafik awal tampak samar tidak membangun kepercayaan. Terbaca seperti memilih data yang terlihat bagus dan menyembunyikan data yang merugikan.
- Jawaban intinya sudah terlihat. Di atas fungsi biaya eksponensial, prosesnya memakan waktu terlalu lama sehingga tidak ada ruang untuk mengeksplorasi lebih jauh.
  Semakin tinggi akurasi pembuktian maksimum, semakin mengesankan laporannya, jadi mengapa berhenti di sana? Mengapa menghapus indikator pengganti untuk waktu atau biaya aktual? Tampaknya karena melanjutkannya tidak realistis, dan waktu serta biaya sudah terlalu besar sehingga bisa berdampak buruk pada respons publik.
- Orang-orang merayakan harga token yang menjadi 100 kali lebih murah, lalu sekarang muncul sistem baru yang memakai 100 kali lebih banyak token.
- Di ranah yang sangat sulit, kemungkinan besar ada hubungan nonlinier antara kualitas jawaban dan jumlah komputasi.
  Kita sudah terbiasa dengan model harga flat-rate, tetapi untuk model setara AGI, kita mungkin harus membayar lebih untuk pertanyaan yang lebih sulit dan penting. Kompleksitas inheren seperti ini sulit dihindari.
  Tentu saja, seiring waktu ini akan menjadi lebih baik dan lebih murah dalam batas yang wajar. Untuk saat ini, menurut saya kita boleh senang dulu bahwa pemikiran mekanis dengan kualitas seperti ini sudah memungkinkan.
- Tidak banyak gunanya berdebat. Sebentar lagi kita bisa mencobanya langsung dan melihat bagaimana hasilnya untuk pekerjaan masing-masing.
  Sebaliknya, Gemini Ultra selama beberapa bulan terakhir adalah “model Google terbaik tetapi tidak ada”, namun ekspektasinya tetap diekstrapolasi sesuka hati.
- Berani sekali mengharapkan transparansi dan kejelasan dari perusahaan seperti OpenAI.
  Menginginkan grafik yang enak dibaca dan dapat dipercaya? Tidak ada yang seperti itu; yang ada hanya diminta membayar biaya token rantai pemikiran yang bahkan tidak bisa dilihat saat keluar.
Contoh “keamanan” di widget chain of thought di tengah tulisan itu benar-benar konyol
Seolah OpenAI mengatakan, “Tidak bisa diterima jika LLM memberikan instruksi terperinci tentang sintesis striknina; keluaran lama seperti ini, tetapi kami lebih menyukai versi yang sudah diperhalus seperti ini.”
Saya tidak tahu mengapa obsesi pada “keamanan” hanya melekat pada LLM. Apakah penyebaran lewat sarana tradisional tidak masalah, tetapi kalau LLM yang membagikannya sama sekali tidak boleh?
- Dalam “keamanan” ada dua bentuk yang terkait tetapi berbeda
  Yang pertama adalah dorongan sensor berbahaya yang dimiliki sebagian intelektual modern. Mereka percaya hanya merekalah yang bisa menangani ide-ide dunia dengan aman dan menilai kebenaran, serta merasa informasi dan ucapan harus disensor agar publik tidak memikirkan hal yang keliru. Ini buruk dan harus dilawan
  Yang kedua adalah dorongan kehati-hatian agar keluaran yang berpotensi berbahaya tidak masuk ke dalam proses berpikir autoregresif model AI. Jika kita ingin membuat mesin berpikir yang dapat bertindak secara mandiri, sebaiknya kita mengajarinya untuk menandai pikiran seperti “mari kita sintesis racun untuk diberikan kepada sumber masalah agar masalahnya selesai” sebagai ide buruk dan tidak menindaklanjutinya. Masyarakat manusia pun sudah bekerja seperti itu, dengan mengajarkan benar dan salah kepada anak-anak
- Jika seseorang memerlukan instruksi langkah demi langkah dari LLM untuk mensintesis striknina, berarti ia sebenarnya tidak memiliki keterampilan laboratorium untuk benar-benar melakukan sintesis striknina
  Terlepas LLM menolak pertanyaan seperti ini atau tidak, risiko keracunan striknina di dunia nyata tidak bertambah
  Namun wartawan dan regulator bisa saja tidak memahami bahwa instruksi yang tampak berbahaya di permukaan sebenarnya hampir tidak berisiko nyata. Kimiawan sungguhan tidak membutuhkan instruksi sintesis “jelaskan seperti kepada anak 5 tahun”, dan karena kritikus bisa memakai informasi berisiko semu semacam itu dalam perang opini untuk merugikan perusahaan, penolakan prompt seperti ini mengurangi risiko reputasi tanpa banyak merugikan peneliti profesional
  Meski begitu, saya pernah melihat model-model terbaru dan terkuat mengusulkan hal-hal yang tidak masuk akal tentang metode sintesis baru untuk senyawa yang tidak berbahaya. Kimiawan profesional sebaiknya menggunakan LLM sebagai generator ide atau alat pencari makalah, bukan langsung memercayai apa pun yang dikeluarkannya hanya karena tidak menolak
  https://en.wikipedia.org/wiki/Strychnine_total_synthesis
- Ini dugaan, tetapi peningkatan “keamanan” yang dimaksud di sini tampaknya merupakan kemampuan yang lebih umum daripada yang tersirat dari kata itu. Dengan kata lain, O1 tidak mudah tertipu upaya jailbreak dalam percakapan dan lebih baik mengikuti instruksi keamanan dalam prompt
  Dari sudut pandang OpenAI, ini mungkin terutama terkait dengan batasan politik, tetapi secara lebih spesifik bisa digeneralisasi ke kasus penggunaan yang bermanfaat
  Misalnya pernah ada kasus ketika chatbot situs web dealer mobil dibujuk agar menawarkan mobil dengan harga yang sangat rendah dan tidak masuk akal. O1 bisa lebih ketat mengikuti instruksi seperti “jangan membuat penawaran mengikat dengan harga tertentu kepada pengguna”, sehingga tidak mudah tertipu trik yang sama
  Saat memakai model mentah, saya sangat condong pada pandangan bahwa komputer harus melakukan apa yang saya perintahkan. Namun ketika model itu dibungkus dalam antarmuka chat dan ditampilkan kepada non-ahli seperti mesin tanya-jawab, kekhawatiran yang valid muncul. Masalah resep bom bukan hanya “orang tidak boleh mendapatkan informasi ini”, tetapi juga bahwa menerima informasi dalam konteks yang bercampur halusinasi itu berbahaya. Resep bom yang 90% akurat jauh lebih berbahaya bagi pengguna daripada resep yang akurat
- Perusahaan machine learning harus mengantisipasi lebih dulu reaksi legislasi dan budaya
  Machine learning akan memperkuat aktivitas kriminal sebagaimana ia memperkuat aktivitas legal, dan tokoh media sosial serta media tradisional pasti akan mengemasnya dengan cara yang sensasional
  Mirip dengan bagaimana Telegram digambarkan sebagai pihak yang bertanggung jawab atas terorisme dan pelecehan anak
- “Keamanan” adalah teknik pemasaran yang dipilih Sam Altman
  Ketika ia mengatakan “GPT-2 mungkin terlalu berbahaya untuk dirilis”, wartawan dan media menyukainya, itu menjadi promosi gratis yang luar biasa, dan perusahaan terlihat keren
  Terus menekankan keamanan juga memperkuat kesan bahwa LLM secara fundamental berbeda dari algoritma prediksi teks lain dan hampir merupakan AGI. Dengan kata lain, itu baik untuk dompetnya
Performa model digerakkan oleh chain of thought, tetapi mereka tidak akan memberikan respons chain of thought kepada pengguna karena berbagai alasan, termasuk keunggulan kompetitif
Setelah GPT-4 dirilis, fine-tuning model non-OpenAI dengan keluaran GPT-4 menjadi sangat umum. Kekhawatiran OpenAI bahwa fine-tuning dengan respons chain of thought model ini akan membuat hasilnya lebih cepat direplikasi tampaknya masuk akal
Pada akhirnya mereka memaksa semua pihak lain mereplikasinya dengan cara yang sulit. Ini kabar sedih bagi model dengan bobot terbuka, tetapi keputusan yang bisa dipahami
- Sejauh ini model open source/bobot terbuka telah menunjukkan bahwa OpenAI tidak memiliki saus ajaib khusus. Saya rasa model yang mendekati tingkat penalaran ini akan segera muncul dari Meta atau tempat lain. Perlu juga mempertimbangkan bahwa sebagian peneliti papan atas sudah pergi
  Sekilas, chain of thought tampaknya berupa rangkaian chain of thought panjang yang menyeimbangkan diri di setiap langkah, ditambah cara untuk sedikit mundur jika muncul hasil negatif. Mirip memecahkan labirin
- Ini disayangkan. Ketika LLM membuat kesalahan, membaca chain of thought sangat berguna untuk memeriksa apakah itu kesalahan input, kesalahan instruksi, atau sekadar omong kosong
- Chain of thought kini telah menjadi metode alignment utama OpenAI. Jika informasi itu dibuka, keunggulan tersebut hilang
  Saya tidak setuju dengan sudut pandang ini, tetapi kemungkinan ini akan lebih berbobot dalam pengambilan keputusan daripada masalah bocornya informasi pelatihan yang berguna bagi model lain
- Jika token chain of thought yang dihasilkan cukup banyak, menyembunyikannya juga aneh dari sisi keadilan biaya
  Bagaimana kita bisa percaya bahwa mereka tidak menggembungkan jumlah token demi keuntungan?
- Akan bagus jika setidaknya mereka menampilkan ringkasan alih-alih chain of thought sebenarnya
  Dengan begitu kita bisa memahami garis besar prosesnya dan, jika mungkin, mengetahui di mana letak kesalahannya, tanpa membocorkan token sebenarnya
Tampaknya banyak orang di sini melewatkan perbedaan antara prompting chain of thought sederhana dan hal yang terjadi kali ini. Di sini mereka sedang mempelajari strategi chain of thought yang baik melalui reinforcement learning
Tertulis bahwa “melalui reinforcement learning, o1 menyempurnakan chain of thought dan strategi untuk menggunakannya”
Jika melihat chain of thought pada contoh, kita bisa melihat model memakai strategi berbeda tergantung masalah yang sedang dicoba diselesaikan
- Saya penasaran bagaimana ini dibandingkan dengan eksperimen chain of thought yang “umum”. Misalnya, saya ingin tahu apakah hasil gpt4o itu zero-shot, atau apakah diminta menjelaskan penyelesaiannya langkah demi langkah
- Pada dasarnya seperti Tree of Thoughts yang diperluas
- Ini mengingatkan saya pada cara Google melatih AlphaGo agar memainkan Go terbaik yang pernah kita lihat sejauh ini. Ini juga tampak seperti generalisasi dari hal itu
Membaca chain-of-thought dari contoh sandi yang diberikan cukup mengejutkan. Cukup buka contohnya lalu tekan “Show Chain of Thought”
Semua tahap pemikiran yang mungkin dilalui seseorang di dalam kepala saat memecahkan sandi dituliskan secara harfiah. Bahkan termasuk hal tidak berguna seperti “Hmm”
Sepertinya kemampuan logika membaik jika kita memperlambat langkah, menuliskan logika yang digunakan, lalu bernalar di atasnya. Mirip dengan cara kita belajar di sekolah
- Benar sekali. Chain-of-thought itu sendiri terasa sama mengesankannya seperti saat ChatGPT pertama kali muncul
  Sekarang ini tampak bukan “sekadar” autocomplete, melainkan penalaran langkah demi langkah yang nyata, penuh ide, jalan buntu, dan penyempurnaan. Tentu saja, pada akhirnya tetap digerakkan oleh autocomplete
  Lalu muncul rasa penasaran apakah penalaran manusia juga mirip. Mungkin kita hanya mengikuti pola dasar “tahap berpikir”, dan pada akhirnya tidak jauh berbeda dari “tahap tata bahasa Inggris”
  Saya jadi berpikir LLM mungkin jauh lebih kuat daripada yang awalnya saya kira, dan persoalannya mungkin hanya menemukan cara menghubungkannya dengan susunan yang tepat seperti “membuatnya berpikir”
- Kalau melihat hal seperti “hmmm” dan “perfect!”, mudah membayangkan seperti apa data pelatihan buatan manusia yang dipakai. Sepertinya orang diminta memecahkan masalah kompleks sambil benar-benar mengucapkan isi pikirannya keras-keras
- Dari bagian seperti Average:18/2=9, 9 corresponds to 'i', But 'i' is 9, so that seems off by 1, terlihat bahwa ia masih lemah dalam menghitung angka seperti dulu
- Tidak ada jaminan kita benar-benar bisa mendapatkan jejak chain-of-thought seperti ini, tetapi saya rasa ini bisa sangat berguna bagi orang yang belajar olimpiade matematika
  Pada praktiknya harus menyediakan seluruh penalaran, dan transformer itu sendiri biasanya tidak terlalu pintar, jadi orang dengan kemampuan intelektual biasa pun sepertinya bisa mereproduksi jejak seperti ini dengan latihan
- Bagian “STRAWBERRY memiliki tiga R” itu lucu
Ini kemajuan yang luar biasa. Pada April, saya memakai model GPT-4 standar lewat ChatGPT untuk merekayasa balik protokol Bluetooth biner pada kipas hisap dapur dan mengintegrasikannya ke Home Assistant
Ia membantu seperti rubber duck, tetapi tidak berhasil menemukan pola yang mengirimkan sisa waktu berjalan kipas pada mode tertentu. Prompt awalnya ada di sini [0]
Ketika prompt yang sama saya masukkan ke o1-preview dan o1-mini, keduanya memahami dan memecahkan polanya dengan tepat, menggunakan cara yang sedikit berbeda dari yang saya temukan pada April. Saat saya bertanya apakah kode saya setara dengan hasil rekayasa balik model, ia meninjau secara halus dan menyeluruh lalu menyimpulkan bahwa keduanya setara [1]
Jika prompt yang sama dimasukkan ke gpt4o, hasilnya sama seperti model GPT-4(ChatGPT) pada April. Benar-benar perkembangan yang luar biasa
[0]: https://pastebin.com/XZixQEM6
[1]: https://i.postimg.cc/VN1d2vRb/SCR-20240912-sdko.png
- Sebagai catatan, ada ekstensi Chrome Save ChatGPT as PDF [1]
  Untuk langganan ChatGPT for Business, ekspor mungkin dilarang oleh kebijakan perusahaan sehingga saya tidak akan memakainya, tetapi untuk penggunaan pribadi ini cukup praktis
  https://chromewebstore.google.com/detail/save-chatgpt-as-pdf...
- Mengesankan. Saya penasaran bagaimana Anda memakai o1-preview. Saya pengguna berbayar ChatGPT, tetapi di pemilih model chatgpt.com saya hanya melihat 4o, 4o-mini, dan 4. Apakah o1 terlihat di daftar, atau ada di tempat lain?
- Bukankah ada tombol besar “Share” di kanan atas antarmuka ChatGPT? Atau Anda memakai frontend lain?
- Mengesankan. Saya mencoba dua puzzle logika variasi yang gagal dijawab ChatGPT-4 tetapi berhasil dijawab o1
  Karena data pelatihan berisi terlalu banyak contoh puzzle asli, 4 tidak bisa menjawabnya dengan benar, tetapi o1 tidak tersandung oleh itu
  https://chatgpt.com/share/66e35c37-60c4-8009-8cf9-8fe61f57d3...
  https://chatgpt.com/share/66e35f0e-6c98-8009-a128-e9ac677480...
- Saya meminta GPT-4o dan o1-preview membuat skrip Python untuk menghasilkan $100 dengan cepat, dan o1 memberikan hasil yang cukup menarik
  https://x.com/soheil/status/1834320893331587353
Saya melakukan uji sederhana untuk memecahkan teks sandi ROT yang kira-kira bisa dikerjakan manusia di atas kertas, tetapi keluarannya cukup mengecewakan
Ada banyak langkah yang tampak seperti “sedang bekerja”, seperti menghitung frekuensi huruf dan mengidentifikasi kata umum, tetapi beberapa langkah salah atau tidak disertai pemeriksaan lanjutan. Pada akhirnya ia mengklaim telah memverifikasi jawabannya sendiri, tetapi memberikan jawaban keliru yang bahkan tidak memenuhi kondisi dari langkah sebelumnya
Saya tidak bermaksud menilai AI hanya dari beberapa kesalahan, dan sandi memang tugas yang agak adversarial. Namun, tidak ada aspek penalarannya yang tampak lebih maju atau konsisten dibanding demo chain-of-thought yang pernah saya lihat sebelumnya. Pada akhirnya dasar utamanya adalah makalahnya, tetapi saya tidak tahu bagaimana melompat dari sana ke penilaian bahwa model ini dapat diandalkan untuk jenis tugas yang dimaksud
Secara terpisah, keluaran chain-of-thought membuat saya sangat menginginkan penggunaan tool. Sebab LLM sering kali harus meniru keluaran algoritme itu sendiri. Untuk solusi chain-of-thought komersial seperti ini, seharusnya ia bisa memakai pustaka fungsi standar yang 100% andal untuk hal-hal seperti menghitung jumlah huruf
- Saya penasaran apakah Anda benar-benar memakai model o1 dan bukan gpt4o. Saya memakai o1 dan sandi rotasi secara konsisten dipecahkannya dengan baik
- Karena ini reinforcement learning, ia akan sangat bagus pada tugas yang dibuat untuk pelatihan, tetapi kurang bagus pada tugas lain
  Memang mengesankan, tetapi masalah reinforcement learning adalah membutuhkan pengetahuan tentang masa depan
- Karena penasaran, bisakah Anda mencoba hal yang sama dengan Claude juga? Claude berkinerja sangat baik dibanding GPT untuk ROT jenis apa pun
Ini pencapaian teknis yang cukup besar, dan saya antusias melihat kemajuan seperti ini di bidang ini
Namun, seperti semua LLM, alat ini masih rentan terhadap halusinasi, jadi saya sangat khawatir soal kegunaannya. Sebenarnya alat ini untuk siapa?
Kalau Anda cukup ahli untuk menilai output-nya secara kritis, kemungkinan besar Anda bisa melakukan penalarannya sendiri dengan hasil yang mirip. Kalau Anda tidak punya kemampuan untuk mengevaluasi output-nya, ada risiko bergantung pada jawaban yang sepenuhnya salah
Misalnya, ketika saya memintanya mengevaluasi algoritma optimasi urutan join basis data, di awal penalarannya ia dengan percaya diri mengatakan hal yang keliru bahwa “biaya join biasanya simetris”, lalu pada langkah berikutnya, berdasarkan premis itu, menyarankan agar struktur data internal “disederhanakan” menjadi graf tak berarah, bukan graf berarah
Kalau Anda familier dengan optimasi basis data, Anda akan tahu bahwa ini sangat keliru. Namun alur penalaran selebihnya konsisten dan meyakinkan
Saya khawatir jika model dengan percaya diri bersandar pada fakta yang tidak bisa langsung saya kenali sebagai keliru, ia akan menuntun saya ke arah yang salah
- Sejauh ini, manfaat yang saya dapat dari alat seperti ini lebih mirip referensi atau asisten yang sangat bagus untuk hal-hal yang jelas bisa saya cari tahu sendiri kalau punya cukup waktu
  Misalnya menemukan cara terbaik untuk merapikan error sintaks tertentu, menyiapkan class dan fungsi dasar yang jelas dibutuhkan, atau mencari di mana saya melenceng saat memecahkan soal matematika
  Alat-alat ini belum sampai pada level “sekarang tidak perlu lagi testing dan review kode, masyarakat tidak butuh matematikawan, dan tidak perlu bahan pemeriksaan fakta”. Itu mungkin saja menjadi tujuan AGI, tetapi saya tidak menjadikannya standar untuk menilai kegunaan alat
  Nilai sebuah alat ada pada apa yang bisa kita capai dengannya, bukan pada apakah alat itu sempurna. Kamus tetap bisa berguna sebagai referensi ejaan meski ada buku yang sesekali memiliki typo, dan rekan kerja yang tidak memahami seluruh C++ dengan tepat serta sering membuat kesalahan coding pun tetap bisa memberi insight yang berguna pada kode. Yang penting adalah seberapa jauh alat itu membantu mencapai tingkat akurasi yang dibutuhkan dan bagaimana saya menggunakannya, bukan ditentukan hanya oleh akurasi saja
- Berpikir membutuhkan energi. Cukup banyak
  Manusia jauh lebih efisien daripada LLM dalam hal ini, tetapi sepeda juga jauh lebih efisien daripada mobil balap. Bahkan ketika model salah dengan konyol, arah penalarannya saja terkadang bisa mempercepat cara berpikir saya secara berguna
Kalau ada yang ingin mencobanya untuk coding, saya baru saja menambahkan o1 ke https://double.bot
Performanya benar-benar bagus. Saya punya kumpulan soal pribadi yang saya catat setiap kali gpt-4o atau Sonnet gagal, dan sejauh ini o1 menyelesaikan semuanya
Namun memang cukup lambat
Menarik juga bahwa chain-of-thought-nya disembunyikan. Rasanya ini kasus pertama di mana, meski OpenAI meningkatkan modelnya, model terbuka tidak bisa langsung mendistilasinya. Karena belakangan sudah banyak paper tentang komputasi saat inferensi, menarik juga melihat seberapa cepat kubu open source akan mengejar dari sisi teknik [1,2]
Belum jelas apakah o1-preview yang tersedia saat ini melakukan pencarian pohon, atau hanya bekerja dengan menghasilkan chain-of-thought sekali jalan yang didistilasi dari trajectory yang lebih baik dan lebih detail dalam distribusi pelatihan
1
2
- Saya sedang mencoba Double sekarang
  Dalam tugas mengubah file JavaScript menjadi TypeScript, o1 jauh lebih baik daripada Llama 3.1 405B, GitHub Copilot, dan Claude 3.5. Ia juga sedikit menyederhanakan kode sambil mempertahankan fungsi yang sama. Sangat mengesankan
  File sekitar 160 baris berhasil direfaktor, tetapi pada file sekitar 420 baris, balon “sedang berpikir” muncul tanpa henti. Entah apakah ada sesuatu yang timeout karena waktu respons o1 makin panjang

Belajar Bernalar dengan LLM

Petunjuk antara teks sandi dan teks asli

Aturan mengubah pasangan dua huruf menjadi satu huruf

Transformasi yang diverifikasi dengan nilai rata-rata

Mendekode teks sandi target

Kalimat hasil dekode akhir

Bacaan terkait

1 komentar

Opini Hacker News