Analisis Terence Tao tentang O1

(mathstodon.xyz)

2 poin oleh GN⁺ 2024-09-15 | 1 komentar | Bagikan ke WhatsApp

Matematikawan Terence Tao menguji model baru keluarga GPT dari OpenAI, o1, pada tugas-tugas matematika riset, dan menilai bahwa model ini lebih mumpuni daripada model sebelumnya tetapi masih belum cukup untuk masalah riset mutakhir
Pada kueri matematika yang ambigu, model menemukan teorema terkait, Cramer’s theorem, dan memberikan jawaban yang memuaskan; ini jelas lebih baik daripada jawaban halusinatif dari GPT sebelumnya
Pada masalah analisis kompleks yang sulit, model hanya mencapai solusi yang benar ketika diberi banyak petunjuk dan arahan, menunjukkan bahwa pembuatan ide inti masih lemah
Eksperimen formalisasi Lean menunjukkan bahwa pemecahan masalahnya sendiri cukup masuk akal, tetapi informasi tentang Lean dan Mathlib sudah usang sehingga masih ada masalah kesalahan kode dan keandalan pemanggilan library
Tao menilai AI dapat sangat meningkatkan produktivitas riset matematika ketika terlebih dahulu mengisi subtugas yang membosankan dan dapat diverifikasi, serta digabungkan dengan asisten pembuktian formal

Evaluasi menyeluruh terhadap GPT-o1

Model baru keluarga GPT dari OpenAI, GPT-o1, melakukan tahap penalaran awal sebelum menjalankan LLM
Yang diakses Tao adalah versi prototipe, dan dalam jawaban berikutnya ia menjelaskan bahwa ia terutama bereksperimen dengan model yang kini disebut preview version
Secara keseluruhan, model ini lebih mumpuni daripada iterasi sebelumnya, tetapi masih kesulitan pada tugas matematika riset paling maju

Eksperimen 1: Kueri matematika ambigu dan Cramer’s theorem

Eksperimen pertama adalah pengulangan eksperimen yang pernah dilakukan sebelumnya
Kuerinya adalah pertanyaan matematika yang dirumuskan secara ambigu, yang hanya bisa diselesaikan dengan menemukan teorema yang sesuai dalam literatur, yaitu Cramer’s theorem
GPT sebelumnya menyebut sebagian konsep terkait, tetapi detailnya berupa jawaban tak bermakna yang hampir seperti halusinasi
Model baru mengidentifikasi Cramer’s theorem, dan menurut Tao memberikan jawaban yang sepenuhnya memuaskan

Eksperimen 2: Masalah analisis kompleks yang sulit

Eksperimen kedua adalah memberikan kepada model baru sebuah masalah analisis kompleks yang sulit yang sebelumnya pernah ia minta GPT-4 bantu tuliskan pembuktiannya
Hasilnya lebih baik daripada model sebelumnya, tetapi belum memenuhi harapan
- Dengan banyak petunjuk dan arahan, model dapat mencapai solusi yang benar dan ditulis dengan baik
- Model tidak mampu menghasilkan sendiri ide konseptual kunci
- Kesalahan yang tidak sepele juga terjadi
Tao melihat pengalaman ini mirip dengan membimbing “simulasi statis mahasiswa pascasarjana biasa yang tidak sepenuhnya tidak kompeten”
Karena model sebelumnya lebih dekat dengan “simulasi statis mahasiswa pascasarjana yang benar-benar tidak kompeten”, model kali ini dinilai sebagai peningkatan
Ia menilai bahwa dengan satu atau dua peningkatan performa lagi dan integrasi dengan alat seperti paket aljabar komputer dan asisten pembuktian, model ini dapat mencapai level “simulasi statis mahasiswa pascasarjana yang kompeten”
Pada level tersebut, model dapat menjadi cukup berguna bahkan untuk tugas tingkat riset

Eksperimen 3: Tugas formalisasi Lean

Eksperimen ketiga adalah meminta model baru memulai pekerjaan di Lean untuk menurunkan satu bentuk teorema bilangan prima dari bentuk teorema bilangan prima lainnya
Yang diminta bukan pembuktiannya sendiri, melainkan membagi masalah menjadi lemma-lemma bantu dan memformalkan pernyataannya
Hasilnya menjanjikan
- Model memahami tugas dengan baik
- Model membuat pemecahan awal masalah yang masuk akal
Keterbatasannya juga jelas
- Data pelatihan kekurangan informasi terbaru tentang Lean dan library matematika
- Kode memuat beberapa kesalahan
Tao menilai bahwa jika model dengan kemampuan seperti ini di-fine-tune secara khusus untuk Lean dan Mathlib serta diintegrasikan ke IDE, model tersebut bisa sangat berguna dalam proyek formalisasi

Eksperimen pencarian semantik dan pembuatan strategi kreatif

Pada 2010, Tao pernah tidak menemukan istilah yang tepat untuk “multiplicative integral”, lalu bertanya di MathOverflow dan memperoleh jawaban yang memuaskan dari pakar manusia
Ketika pertanyaan yang sama diajukan ke o1, model mengembalikan jawaban yang sempurna
Namun, karena ada kemungkinan posting MathOverflow tersebut termasuk dalam data pelatihan model, ini mungkin bukan evaluasi akurat atas kemampuan pencarian semantik
Meski begitu, untuk sebagian kueri pencarian semantik, model menunjukkan kualitas jawaban yang setara dengan situs tanya jawab
Dalam eksperimen lain, Tao memberikan bagian awal dari posting blog terbarunya dan meminta model mencari unsur yang hilang untuk mengubah kemajuan parsial yang ada pada masalah Erdos menjadi solusi lengkap
Hasilnya agak mengecewakan
- Model mengusulkan strategi yang sama dengan strategi riset terbaru yang sudah dituliskan ulang di posting blog tersebut
- Model tidak menawarkan variasi kreatif dari strategi itu
Tao menilai bahwa alat LLM memiliki sedikit kemampuan untuk menghasilkan strategi kreatif secara acak, tetapi aspek ini masih lemah

Koreksi atas analogi mahasiswa pascasarjana

Tao mengoreksi bahwa, saat menilai kemampuan alat AI, ia telah memberi kesan keliru dan berpotensi merugikan bahwa mahasiswa pascasarjana manusia dapat diklasifikasikan berdasarkan tingkat “kemampuan” yang statis dan satu dimensi
Kemampuan berkontribusi pada proyek riset yang sudah ada hanyalah salah satu dari banyak aspek studi pascasarjana, dan menurutnya merupakan bagian yang relatif kecil
Mahasiswa yang unggul dalam kreativitas, kemandirian, rasa ingin tahu, kemampuan menjelaskan, intuisi, keahlian, etos kerja, kemampuan organisasi, keterampilan sosial, dan sebagainya dapat menjadi matematikawan yang lebih sukses dan berpengaruh daripada mahasiswa yang mahir pada tugas teknis yang diberikan
Mahasiswa manusia belajar dan tumbuh selama studi, dan area yang awalnya sulit dapat dikuasai beberapa tahun kemudian
Sebaliknya, alat AI modern dapat sedikit mencerminkan umpan balik dalam responsnya, tetapi model individual tidak benar-benar melakukan pertumbuhan jangka panjang, sehingga lebih tepat dinilai dengan metrik performa statis
Tao meminta maaf karena kerangka untuk menilai mahasiswa manusia dengan pola pikir tetap tidaklah tepat

Kegunaan sebagai alat bantu riset dan rasio biaya

Tolok ukur Tao adalah sejauh mana alat dapat membantu subtugas dalam proyek riset matematika kompleks yang dipimpin matematikawan ahli
Mahasiswa pascasarjana yang kompeten dapat memberi kontribusi yang lebih bernilai daripada upaya bersih yang dibutuhkan untuk menyesuaikan dan mengawasinya dalam proyek
Alat terbaru masih membutuhkan upaya untuk memberi prompt yang tepat dan memverifikasi hasil yang lebih besar daripada manfaat keluaran yang diperoleh
- Tao menggambarkan rasio saat ini kira-kira 2x~5x
Ia melihat tidak ada alasan untuk menyingkirkan kemungkinan rasio ini turun ke di bawah 1x dalam beberapa tahun
Jika rasio turun di bawah 1x, hal itu dapat memicu adopsi alat yang lebih luas di bidang tersebut
Untuk beberapa subtugas tertentu, ia menilai rasionya sudah di bawah 1
- Pencarian semantik
  - Konversi format data
  - Pembuatan kode komputasi numerik untuk membantu eksplorasi riset matematika

Kekurangan pada Lean dan Mathlib

Dalam eksperimen Tao, hal yang paling kurang agar alat ini berguna sebagai alat formalisasi adalah cara untuk meng-ground keluaran pada Lean dan Mathlib terbaru
Lean dan Mathlib terus berevolusi setiap bulan
Model tampaknya dilatih pada beberapa versi Lean dan Mathlib yang sudah berusia lebih dari satu tahun, dan versi-versi ini tampaknya tidak 100% kompatibel satu sama lain
Akibatnya, sintaks dan pemanggilan library yang dibuat model sulit dipercaya
Namun, bagi orang yang mengetahui kondisi Lean dan Mathlib saat ini, hasilnya sudah cukup dekat sehingga sebagian besar kesalahan kecil dapat diperbaiki secara manual

Otomasi yang dapat diverifikasi dan asisten pembuktian formal

Kasus penggunaan utama yang ada dalam benak Tao adalah mempercepat penyelesaian masalah yang pada prinsipnya dapat diselesaikan matematikawan dengan banyak pekerjaan manual
Caranya adalah AI terlebih dahulu mengisi langkah-langkah yang membosankan, lalu pakar manusia meninjau keluarannya
Dalam kasus ini, meskipun AI tidak menunjukkan pemikiran yang benar-benar orisinal, produktivitas dapat meningkat secara signifikan
Ia menilai proyek riset dengan skala lebih besar daripada yang saat ini mungkin juga dapat dilakukan
Jika alat semacam ini diintegrasikan dengan asisten pembuktian formal, konsistensi tugas yang harus menyediakan pembuktian atas pernyataan matematika dapat dievaluasi otomatis dengan tingkat kepercayaan tinggi
Tao menilai tugas semacam ini mencakup bagian yang signifikan dari tugas tingkat riset

Prospek ekosistem alat AI untuk riset matematika

Tao berharap akan muncul ekosistem alat AI yang menangani beragam tugas riset
Ini mencakup pekerjaan seperti pencarian literatur, formalisasi pembuktian, dan penyelesaian submasalah singkat
Saat ini, LLM proprietary serbaguna yang sangat besar mendapat perhatian paling banyak, tetapi suatu saat biaya marginal data dan komputasi yang diperlukan untuk peningkatan tambahan atau fine-tuning aplikasi tertentu bisa menjadi terlalu mahal
Model dan dataset yang lebih ringan dan open-source, yang dikembangkan komunitas riset sesuai kebutuhan khusus, juga dapat memainkan peran penting
Model serbaguna dapat berperan sebagai antarmuka yang ramah pengguna untuk mengoordinasikan alat-alat yang lebih sempit

1 komentar

GN⁺ 2024-09-15

Komentar Hacker News

Jika GPT makin banyak di-tuning untuk asisten pembuktian Lean seperti halnya Python, sepertinya kegunaannya dalam matematika tingkat riset akan meningkat
Saya bekerja di bidang yang berkaitan dengan OR, dan ChatGPT 4o sudah cukup menyerap literatur OR sehingga bisa menghasilkan formulasi mixed-integer programming (MIP) yang cukup berguna untuk berbagai “bentuk masalah”
Misalnya, jika diberi masalah logika seperti “masukkan i item ke n bucket berdasarkan skor, tetapi ingin mengisi tiap bucket secara berurutan”, ia benar-benar mengeluarkan formulasi matematika yang bisa dipakai, dan biasanya hanya perlu sedikit perbaikan
Ia juga memperingatkan tentang formulasi lemah yang logikanya bisa rusak, sehingga sangat berguna untuk menghindari jebakan
Tentu saja, kalau tidak memahami optimisasi MIP, sulit memakainya dengan baik untuk tujuan seperti ini, dan masalahnya harus dipecah kecil-kecil agar GPT bisa bernalar langkah demi langkah, tetapi bagi orang yang bisa melakukannya, biaya 20 dolar per bulan sangat sepadan
Ketika orang di HN mengeluh bahwa LLM berbayar/berkualitas, yakni Sonnet 3.5 dan GPT-4o, tidak berguna, umumnya tampak karena mereka tidak tahu cara memakai LLM dengan memanfaatkan kekuatannya, berharap sihir sekali tembak karena hype berlebihan, atau memang bidang mereka tidak cocok
Bagi orang yang bisa memanfaatkan kekuatan LLM dan memverifikasi kesalahannya, ini menjadi leverage yang cukup besar dalam pekerjaan
- Saya sepenuhnya setuju soal kegunaannya
  HN dan internet secara umum sudah menjadi lautan obrolan dan sikap refleks merendahkan LLM sebagai “tidak berguna”, tetapi di dunia nyata saya sudah beberapa minggu tidak menulis satu baris kode pun secara langsung
  Saya mendeskripsikan apa yang saya inginkan dalam paragraf, dipandu di sekitar jebakan, dan mendapatkan kode yang berjalan dengan loop iterasi sederhana
  Ini sepenuhnya adalah keterampilan yang dipelajari, dan modelnya—terutama alat-alat di sekitarnya—sudah mencapai baseline yang dibutuhkan
  Kalau mau tekun belajar dan memahami cara bekerja dengannya, dunia menjadi jauh lebih produktif
  Edit: https://aider.chat/ + Sonnet 3.5 berbayar
- Saya juga bekerja di area yang berdekatan dengan OR, tetapi jauh kurang beruntung dalam mendapatkan formulasi MIP dari 4o
  Ia memberi jawaban yang tampak meyakinkan dan penjelasan matematika yang sulit dipahami, tetapi persamaannya tidak bekerja dan penalarannya tidak saling terhubung
  Rasanya seperti mengikuti kelas matematika dengan pembuktian yang aneh sampai saya bertanya-tanya apakah saya bodoh, lalu ternyata profesornya adalah pasien demensia yang kabur dan sejak awal memang hanya meracau
  Kemarin pun saya meminta o1 memeriksa apakah ada lintasan sederhana dari s ke t yang melewati v dengan max flow, dan algoritme yang tampak sangat meyakinkan itu pada dasarnya rusak
  Solusi saya mengambil sebagian teknik dari upaya gagal itu, tetapi meski diberi beberapa petunjuk, ia tidak bisa menemukan jawaban yang bekerja, terus saja mencoba mencari aliran s→t, dan tidak menyadari bahwa v→{s,t} adalah intinya
  Memverifikasi penalaran itu juga terlalu melelahkan secara mental
  Jawaban yang salah secara halus lebih sulit dideteksi dan diberi penalti daripada jawaban yang jelas-jelas salah, sampai-sampai saya curiga RLHF mungkin memilih ke arah yang membuat penalaran menjadi kabur
- Karena sekarang saya mengajar mata kuliah MIP, saya menanyakan beberapa soal yang saya berikan kepada mahasiswa ke 4o
  Ia bisa memberi blok dasar seperti cara memodelkan x!=y atau masalah knapsack, tetapi begitu saya mengajukan pertanyaan yang sedikit saja menarik dan bukan hafalan buku teks, rasanya tidak ada model yang benar
  Saya penasaran bagaimana Anda mendapatkan jawaban yang lebih baik
  Mungkin karena begitu melihat jawabannya salah, saya langsung membuangnya dan menulis sendiri
  Nyatanya, barusan saya meminta memformulasikan dan menjelaskan x!=y ketika x,y adalah variabel integer dalam rentang {1..9}; constraint-nya benar, tetapi penjelasannya salah
- Saya juga bekerja di OR, dan pengalaman saya dalam optimisasi MILP justru sepenuhnya berlawanan
  Hasil riset juga mirip: sebuah paper survei besar awal tahun ini menyatakan bahwa LLM umumnya benar untuk soal buku teks, tetapi makin kompleks dan baru masalahnya, makin tidak berguna
  Hasilnya paling banter klise, dan ketika masuk ke pekerjaan detail, justru menjadi jebakan licik yang menyesatkan
  Coba tanyakan kepada LLM apa fungsi constraint tertentu, atau lebih buruk lagi, minta ia menjelaskan model matematika dari syntactic sugar CPLEX yang proprietary; ia akan berhalusinasi soal matematika, sintaks, dan penjelasannya sekaligus
- Balasan bagus untuk celaan refleks terhadap LLM adalah, “bukankah itu justru hal yang akan dikatakan burung beo stokastik?”
  Sebagian orang HN adalah tipe yang akan mengabaikan anjing yang bisa bicara karena ia menulis kode C tetapi ada error buffer overflow
Bayangkan kembali ke tahun 2019 lalu membaca tulisan bahwa pengalaman berinteraksi dengan sesuatu seperti Alexa “kira-kira mirip dengan memberi saran kepada mahasiswa pascasarjana yang biasa-biasa saja tetapi tidak sepenuhnya inkompeten”
Untuk selisih 5 tahun, itu tingkat kemajuan yang menakjubkan
- Profesi pertama yang tampaknya akan banyak dikurangi oleh AI adalah pemrograman
  Terutama individual contributor yang hebat tetapi bekerja jarak jauh tampak berisiko, dan forum ini jelas punya konflik kepentingan
- Poin pentingnya sepertinya adalah bahwa kebanyakan orang bahkan tidak mencapai tingkat kecerdasan “mahasiswa pascasarjana yang biasa-biasa saja tetapi tidak sepenuhnya inkompeten”
  Mahasiswa pascasarjana sains yang biasa-biasa saja, terutama tipe yang tidak berhenti dan berhasil lulus, adalah orang yang sangat mengesankan dibandingkan sebagian besar dari kita
  Bagi “kita”, bisa memakai kecerdasan setingkat itu sebagai asisten sepanjang hari adalah peningkatan hidup yang luar biasa, selama biaya token masih bisa ditanggung
- Bayangkan juga kembali ke tahun 1950 lalu membaca bahwa masa depan adalah chat dengan bot dan mengerjakan PR matematika
- Jadi menurut saya era AI bukan hype, melainkan sangat nyata
  Jensen mengatakan AI telah mencapai era iPhone
  Dalam 5–10 tahun ke depan, AGI atau ASI—apa pun definisi orang—tidak akan datang, tetapi saya sering lebih suka menyebut AI sebagai kecerdasan pembantu atau kecerdasan augmentatif
  Nilai yang diberikannya akan cukup untuk mendorong penjualan komputer dan smartphone saat ini setidaknya selama 5–10 tahun, atau 3–4 siklus penggantian
- Terry adalah jenius yang bisa mengekstrak nilai seperti itu dari LLM
  Orang rata-rata belum bisa melakukannya
  Mereka juga kurang pandai memberi prompt ke model, dan sejak awal masalah hidup mereka memang bukan berbasis teks
Model o1 benar-benar mengejutkan
Dalam proyek kemiripan vektor cepat, saya mendapatkan peningkatan kecepatan yang signifikan pada kode Rust yang sudah sangat dioptimalkan, dan itu dikonfirmasi lewat benchmark yang teliti serta verifikasi akurasi
Bukan hanya itu, ia juga membantu membayangkan ulang dan mengonseptualisasikan ukuran ketergantungan statistik baru berbasis divergensi Jensen-Shannon, dan hasilnya bekerja sangat baik
Ia juga membuat implementasi supercepat untuk normalized mutual information, bagian yang semula ingin saya masukkan ke library tetapi belum menemukan cara yang cukup cepat untuk vektor besar seperti 15.000 dimensi ke atas
Memang ia tidak memberi kode Rust sempurna yang langsung bisa dikompilasi sejak awal, tetapi setelah saya menempelkan peringatan compiler dari VS Code, ia mencoba sekali lagi dan memperbaiki semua bug
Sebaliknya, GPT-4o sering perlu puluhan kali percobaan untuk memperbaiki error tipe Rust, error lifetime/borrow, dan sebagainya, sementara Claude 3.5 Sonnet anehnya benar-benar bodoh soal Rust
Bukan hanya optimasi performa dan kode yang relatif bebas bug, tetapi juga gabungan dari pemecahan masalah kreatif, pengetahuan matematika dan algoritma inti yang luas, sintesis hasil riset terbaru, serta kemampuan memahami apa yang ingin saya capai dan benar-benar mewujudkannya; rasanya sungguh seperti game changer
Diff perubahan file kode ada di sini: https://github.com/Dicklesworthstone/fast_vector_similarity/...
- Sebagian besar alasan membayar 500 ribu dolar per tahun untuk mempekerjakan orang adalah agar mereka bisa bekerja dengan sistem lama berukuran besar yang belum dipahami LLM
  Meski begitu, mengoptimalkan library kecil dan mengimplementasikan fungsi cepat adalah peningkatan besar dalam kotak perkakas programmer mana pun
- Sekarang ada angka nominal uang yang bisa dikaitkan dan dijadikan rujukan
Pengalaman saya dengan o1 sangat berbeda, dan menurut standar saya bahkan belum bisa disebut setara “mahasiswa S1 yang bagus”
Misalnya, saya mengajukan pertanyaan yang cukup sederhana di sini, tetapi ia benar-benar kebingungan
https://moorier.com/math-chat-1.png
https://moorier.com/math-chat-2.png
https://moorier.com/math-chat-3.png
Seluruh percakapannya seharusnya ada di sini: https://chatgpt.com/share/66e5d2dd-0b08-8011-89c8-f6895f3217...
- Ini memang anekdotal, tetapi bagi saya O1 lebih buruk daripada 4o dan Claude 3.5 Sonnet
  Lebih parah lagi, ia lebih lambat dan lebih banyak bicara
- Kalau memikirkan pelatihan LLM untuk geometri, banyak informasi dalam materi sumber kemungkinan ada pada diagram yang menyertai teks
  Karena model ini bukan multimodal, bisa jadi ia sama sekali tidak dilatih dari diagram terlampir
  Akan menarik jika orang memeriksa kumpulan soal geometri dan kumpulan soal analisis lalu membandingkan perbedaannya
- Saya tidak tahu mengapa mereka membuatnya berbicara seperti agen layanan pelanggan
  Pengalaman ideal di sini adalah jawaban yang singkat dan ringkas, bukan jawaban bertele-tele dan penuh basa-basi merendah
- Saya penasaran apakah sudah diketahui apa kesalahannya dalam perhitungan volume truncated icosidodecahedron
Hal yang baru bagi saya adalah bahwa “pengalamannya mirip memberi saran kepada mahasiswa pascasarjana yang biasa-biasa saja tetapi tidak sepenuhnya tidak kompeten” ternyata berlaku di begitu banyak bidang
Saya mendapatkan nilai besar dari memakai LLM untuk merapikan dan memahami sesuatu
Di area yang sangat saya kuasai, ia membantu dengan menangani banyak sekali pekerjaan kecil
Seperti yang ditunjukkan Terence dalam eksperimen ketiganya, jika masalah dipecah-pecah, ia cukup solid dalam mengisi bagian-bagian kecil yang kosong
Namun tetap perlu pemahaman konseptual, dan juga sedikit keterampilan prompt
Saat masuk ke bidang yang tidak dikenal, prompt perlu dibangun secara bertahap
Jika jawabannya sudah diketahui, lebih baik mulai dari hal kecil dan spesifik lalu memperluas ke luar; ketika bergerak dari luar ke dalam pun, sebaiknya mulai dengan sesuatu yang spesifik dan terfokus
Saya pernah memakainya untuk menembus lapisan konseptual topik yang sangat kompleks dan sama sekali tidak saya ketahui, lalu memverifikasi konsepnya dengan pakar YouTube, makalah riset, dan sumber tepercaya; ini alat yang luar biasa
- Pengalaman saya juga sama
  Saya memperlakukan LLM seperti magang atau junior yang melakukan kerja lapangan yang tidak sanggup saya lakukan sendiri
  Kita harus mengawasi, membantu, dan memeriksa kesalahannya, tetapi pada akhirnya mendapat hasil yang berguna
  Dari sisi sikap, orang yang pernah mengawasi magang atau membimbing junior sepertinya akan lebih mudah menggali nilai dari LLM, terutama model berbayar
  Sebaliknya, seperti saya pada awal karier, kontributor individu senior penyendiri yang tidak tahu cara menarik nilai dari orang lain mungkin kurang bisa memanfaatkannya dengan baik
Pernyataan bahwa “AI harus bisa melakukan lompatan matematis kreatif seperti Terence Tao” tampaknya merupakan standar yang cukup tinggi untuk AI
Ini mirip situasi dalam wawancara pemrograman ketika pewawancara menjelaskan masalah yang butuh berbulan-bulan untuk dipecahkan timnya, lalu kecewa jika kandidat tidak bisa menuliskan solusinya di whiteboard dalam 40 menit tanpa Google
- Berdasarkan pengalaman bekerja dengan orang-orang seperti Terence Tao, saya sama sekali tidak mencapai level itu, tetapi mereka mencari kreativitas dalam bentuk apa pun
  Apa pun diterima, tidak harus “setara level mereka”
  Setelah membaca apa yang ia tulis dan membandingkannya dengan pengalaman saya, deskripsi seperti itu menurut saya tidak akurat
  Dalam ceramahnya di IMO awal tahun ini juga ada hal serupa: ia terkesan oleh sebagian interaksi, tetapi tetap merasa ada semacam percikan kreatif yang masih kurang
- Tidak perlu menyimpulkan standar setinggi itu
  Yang benar-benar ia katakan cukup spesifik: “hasilnya di sini agak mengecewakan... pada dasarnya model mengusulkan strategi yang sudah diidentifikasi dalam pekerjaan terbaru tentang masalah tersebut, dan juga strategi yang sudah saya tulis ulang dalam posting blog saya, tetapi tidak memberikan variasi kreatif dari strategi itu”
  Poin utamanya adalah posting blog itu sendiri merupakan bagian dari input ChatGPT
  Selain itu, ia juga dengan jelas mengatakan bahwa ia membayangkan masa depan ketika ini akan menjadi lebih berguna, tetapi saat ini ia hanya memakai AI/ChatGPT untuk merapikan format referensi dan menulis kode sederhana bergaya “Hello World”
  Di internet ada berbagai klaim bahwa ia selalu memakai ChatGPT dalam risetnya, tetapi bagian di luar penggunaan untuk coding tampaknya tidak benar
  Meski begitu, “bisa membantu riset Terence Tao” memang standar yang tinggi
- Ini bukan hanya pengamatan tentang Terence Tao
  Jika mencoba membuat program yang lebih kompleks daripada kode tutorial dengan ChatGPT, atau menulis posting blog dasar, hasilnya kurang kreatif dan desain kodenya juga buruk
- Pikiran pertama saya juga persis seperti ini
  Jika seseorang yang bisa dianggap memiliki IQ tertinggi di antara orang yang masih hidup saat ini merasa terkesan tetapi tidak sepenuhnya puas karena komputer belum mampu menghasilkan penalaran matematika setingkat Nobel, itu sendiri adalah indikator yang sangat besar
  Lalu bagaimana seharusnya mahasiswa doktoral matematika tahun pertama menilainya
  Dalam tulisan sebelumnya, Tao tampaknya menyinggung hal ini secara tidak langsung dengan pada dasarnya mengatakan bahwa “o1 hampir seperti mahasiswa pascasarjana”
Menarik bahwa manusia juga bisa mendapat manfaat dari penalaran bergaya rantai pemikiran
Sebenarnya, saya rasa kemampuan setiap siswa matematika akan meningkat besar jika mereka diminta terlebih dahulu mengingat semua definisi dan informasi terkait sebelum menggunakannya
Dalam kenyataannya, bahkan guru dan matematikawan pun tidak melakukannya, karena mengingat kembali membutuhkan usaha dan kita enggan mengeluarkan usaha lebih banyak daripada yang diperlukan untuk memecahkan masalah
Jika proses mengingat gagal, kita harus mencari informasinya dan itu membutuhkan lebih banyak usaha, sehingga dalam praktiknya muncul dorongan kuat untuk sekadar “mengandalkan intuisi”
AI tidak punya hambatan emosional terhadap pemborosan usaha, sehingga menjadi penalar yang lebih baik daripada kemampuan bawaannya
- Menunjukkan langkah penyelesaian dalam ujian mirip dengan semacam penalaran “rantai pemikiran”, tetapi sedikit berbeda
  Keduanya membuat proses dipecah langkah demi langkah sehingga logika tetap terjaga dan langkah penting tidak terlewat
  Namun, menunjukkan langkah penyelesaian lebih dekat pada pembuktian prosedur yang benar, sedangkan penalaran “rantai pemikiran” membuat kita mengingat definisi dan konsep terkait seiring proses berjalan sehingga memastikan pemahaman yang lebih dalam
  Keduanya bertujuan menghindari sekadar mengandalkan intuisi, tetapi “rantai pemikiran” menggali lebih dalam aspek mengingat kembali yang mudah dihindari manusia
- Sudut pandang ini sangat bagus
  Meski sudah melihat begitu banyak bukti bahwa rantai pemikiran membantu LLM, saya tidak terpikir untuk lebih banyak memakainya pada diri sendiri
  Tentu saja saya sudah melakukannya sampai batas tertentu, tetapi biasanya sama sekali tidak sebanyak LLM
  Mungkin itulah sebabnya menulis sering dipuji sebagai cara berpikir yang sangat baik
  Menulis memungkinkan rantai pemikiran yang lebih panjang dengan usaha lebih sedikit
- Saya pikir semua orang melakukan ini ketika memecahkan masalah matematika yang buntu
  Yang saya maksud bukan matematika sekolah, melainkan matematika tingkat universitas
  Saat mengajar pun saya selalu meminta orang kembali ke definisi
  Saya tidak terlalu hebat dalam riset matematika dan berhenti setelah menjalani doktoral dan postdoc, tetapi menurut pengalaman saya, riset adalah memikirkan masalah secara mendalam, berusaha menangkap apa yang terjadi dan memecahnya dengan cara apa pun, sekaligus menelusuri semua hal yang diketahui terkait masalah itu dan mencari masalah serupa untuk melihat apakah ada ide yang bisa dicuri
Saya sangat menantikan untuk segera kembali belajar matematika sebagai hobi rasa ingin tahu yang mandiri
Kali ini saya bisa belajar dengan bersandar pada LLM, jadi rasanya akan sangat menyenangkan
Kebetulan, seperti Terence Tao, saya juga sudah mengajukan pertanyaan tentang analisis kompleks kepada LLM sambil membaca buku teks agar lebih memahami
Kemampuannya menafsirkan pertanyaan matematika yang terbuka, serta dengan cepat menemukan koneksi konseptual yang membantu, relevan, dan jauh letaknya, sungguh mengagumkan
Profesor Tao, peraih Fields Medal, tentu memandang LLM matematika saat ini sebagai kira-kira “mahasiswa pascasarjana yang tidak sepenuhnya tidak kompeten”, tetapi pada tingkat kemampuan saya saat ini, itu berarti sesuatu yang harus saya pandang ke atas
Contoh yang mengesankan enam bulan lalu: saya bertanya definisi apa yang bisa dilonggarkan agar analisis kompleks dapat dilakukan juga pada manifold tak-terorientasi seperti botol Klein, sebuah masalah yang sudah lama saya pikirkan, dan LLM langsung memahami bahwa persamaan Cauchy-Riemann akan menjadi tidak konsisten secara global
Dalam arti tertentu, konvensi tanda arbitrer pada CR mendefinisikan orientasi di atas manifold, dan membalik orientasi manifold sama seperti menukar i dengan -i
Saya kini memahami ini karena LLM menyarankan cara melihatnya seperti itu
Tentu saja ini bukan pemikiran orisinal LLM; kemungkinan ini adalah matematika yang tertulis di suatu buku ajar pascasarjana yang sangat terspesialisasi
Tetapi bagi saya itu tidak penting
Pertanyaan seperti ini, ketika saya hampir tidak tahu harus mulai dari mana, benar-benar mustahil dijawab tanpa LLM atau pakar bidang setingkat doktor
Tidak ada alat lain yang membuat pencarian tingkat makna seperti ini dapat diakses, dan saya sedang berpikir hati-hati tentang cara terbaik memanfaatkan alat yang sangat kuat tetapi asing ini
- Rasanya seperti memakai semacam mesin pencari penuh berbasis makna untuk hampir semua buku teks di Bumi, seperti punya kekuatan super
  Akan lebih bagus lagi jika bisa menunjukkan rujukan buku teks persis tempat jawaban itu ditemukan
- Bagaimana cara tahu apakah jawaban itu benar atau tidak?
- Saya juga bertanya-tanya bagaimana mengukur kinerja seperti ini
  Benchmark bisa diakali atau masuk ke data pelatihan, dan tidak mungkin ada sinyal yang cukup di chatbot arena untuk jenis kueri seperti ini
  Sepertinya dalam beberapa bulan saja pengguna rata-rata tidak akan bisa membedakan perbedaan kinerja di antara model-model utama
Saya sepenuhnya setuju dengan Terence Tao
Ini kemajuan nyata
Saya selalu percaya bahwa jika ada data yang tepat agar LLM bisa belajar meniru penalaran, performanya dapat ditingkatkan
Namun ini tetap pencocokan pola, dan saya curiga pendekatan ini mungkin tidak terlalu efektif untuk menghasilkan generalisasi yang sejati
Jadi ketika o1 dirilis untuk umum, besar kemungkinan kita akan melihat halusinasi dan penalaran keliru yang terus muncul pada masalah yang cukup baru atau kompleks, yang melampaui “program penalaran” atau “pola penalaran” yang dipelajari model pada tahap reinforcement learning
https://www.lycee.ai/blog/openai-o1-release-agi-reasoning
Bagi saya, model o1 kadang bagus, kadang buruk
Di satu sisi, setiap hari saya mencobanya, ia berhasil menyelesaikan permainan NYT Connections[0][1], sementara model lain termasuk Claude Sonnet 3.5 tidak bisa
Di sisi lain, seperti GPT-4o, ia melewatkan detail penting dan berhalusinasi
Sering kali saya harus menuntunnya dan memperbaikinya agar sampai ke jawaban yang benar, sampai terkadang saya merasa mungkin lebih mudah kalau saya kerjakan sendiri saja
Kali ini lebih buruk karena harus menunggu 20–60 detik untuk mendapat jawaban
Mungkin saja area tempat o1 unggul adalah hal-hal yang sebenarnya tidak begitu saya butuhkan
Saya berada di bidang software engineering, bukan STEM tradisional, dan o1 belum jauh lebih baik sampai bisa membenarkan latensinya
Area yang belum saya eksplorasi adalah menggunakannya untuk rencana implementasi atau rencana perubahan arsitektur
Sepertinya ia akan lebih baik untuk itu, tetapi saya perlu memberinya masalah yang tepat
[0] https://www.nytimes.com/games/connections
[1] https://chatgpt.com/share/66e40d64-6f70-8004-9fe5-83dd3653a5...

Analisis Terence Tao tentang O1

Evaluasi menyeluruh terhadap GPT-o1

Eksperimen 1: Kueri matematika ambigu dan Cramer’s theorem

Eksperimen 2: Masalah analisis kompleks yang sulit

Eksperimen 3: Tugas formalisasi Lean

Eksperimen pencarian semantik dan pembuatan strategi kreatif

Koreksi atas analogi mahasiswa pascasarjana

Kegunaan sebagai alat bantu riset dan rasio biaya

Pencarian semantik

Kekurangan pada Lean dan Mathlib

Otomasi yang dapat diverifikasi dan asisten pembuktian formal

Prospek ekosistem alat AI untuk riset matematika

Bacaan terkait

1 komentar

Komentar Hacker News