- Tim Gowers memperoleh hasil riset tingkat doktoral dalam kombinatorika dengan ChatGPT 5.5 Pro dalam waktu sekitar 1 jam, dan menilai masukan matematis dari dirinya sendiri pada dasarnya nyaris tidak ada
- Dalam masalah teori bilangan aditif dari Mel Nathanson, ChatGPT 5.5 Pro menyajikan konstruksi batas atas kuadratik yang tak bisa tidak merupakan yang terbaik untuk diameter himpunan dengan ukuran sumset yang diberikan hanya dalam 17 menit 5 detik
- Setelah itu, ia juga menyelesaikan masalah sumset terbatas dengan cara yang sama, dan bahkan menghasilkan argumen yang memperbaiki batas eksponensial sebelumnya dari Isaac Rajagopal menjadi ketergantungan polinomial, sehingga bagi Rajagopal hasilnya tampak hampir pasti benar
- Gagasan intinya adalah mengganti komponen barisan geometri dalam konstruksi Rajagopal dengan konstruksi berbasis h-dissociated set, sehingga pola ukuran sumset yang diperlukan dapat direproduksi di dalam rentang berukuran polinomial
- Hasil buatan AI tampak berada pada tingkat yang layak dipublikasikan, tetapi alih-alih dimuat di jurnal atau didaftarkan ke arXiv, mungkin dibutuhkan repositori terpisah tempat matematikawan manusia mengesahkan keakuratannya; standar pelatihan bagi peneliti pemula juga bisa bergeser ke arah membuktikan hal-hal yang tidak bisa dilakukan LLM sendirian, dengan berkolaborasi dengan LLM
LLM mengubah cara menyelesaikan masalah kombinatorika
- Model bahasa besar kini tampaknya sudah berada pada tahap mampu menyelesaikan masalah tingkat riset, dan juga diketahui telah menyelesaikan sejumlah masalah yang dipasang di situs masalah Erdős milik Thomas Bloom
- Pada tahap awal, capaian LLM sering berupa menemukan jawaban yang sudah ada di literatur atau menarik kesimpulan yang mudah mengikuti hasil yang telah diketahui, tetapi kini semakin besar kemungkinan LLM menemukan argumen sederhana yang terlewat oleh manusia
- Dalam matematika manusia pun, porsi besar pekerjaan terdiri dari menggabungkan pengetahuan dan teknik pembuktian yang sudah ada, sehingga hiburan diri bahwa LLM “hanya menggabungkan pengetahuan lama” sangat terbatas nilainya
- Dalam kombinatorika, makalah yang memperkenalkan parameter kombinatorial baru secara alami melahirkan banyak masalah; dulu ini merupakan sumber masalah terbuka yang baik bagi peneliti pemula, tetapi kini standar barunya adalah apakah masalah itu cukup sulit sehingga tidak bisa diselesaikan LLM
Masalah Nathanson dan capaian pertama
- Gowers meminta ChatGPT 5.5 Pro mencoba masalah-masalah dalam makalah Mel Nathanson, Diversity, Equity and Inclusion for Problems in Additive Number Theory
- Nathanson diperkenalkan sebagai sosok yang sejak dini menaruh minat pada masalah dan teorema yang kemudian menjadi populer, dan karena itu menulis buku teks yang tepat waktu serta berpengaruh
- Objek utamanya adalah sumset himpunan bilangan bulat, sumset hasil penjumlahan berulang, dan ukuran-ukuran sumset yang mungkin untuk banyaknya elemen tertentu
- Untuk banyaknya elemen yang diberikan, ukuran sumset yang mungkin tidak selalu mencakup semua nilai antara minimum dan maksimum, dan deskripsi lengkapnya pun masih belum ada
- Nathanson memberi batas atas untuk diameter (diameter) yang dibutuhkan saat membangun himpunan dengan banyaknya elemen dan ukuran sumset tertentu, lalu menanyakan apakah batas atas itu bisa diperbaiki
- Setelah 17 menit 5 detik berpikir, ChatGPT 5.5 Pro menyajikan konstruksi yang memberikan batas atas kuadratik yang memang tak bisa lebih baik lagi
- Ketika Gowers memintanya menuliskan ulang dalam berkas LaTeX bergaya preprint matematika umum, ChatGPT menyajikan bentuk tersebut 2 menit 23 detik kemudian, dan Gowers menghabiskan waktu untuk memeriksa apakah argumennya benar
Sidon set dan perluasan ke sumset terbatas
- Baik argumen Nathanson maupun argumen ChatGPT sama-sama bertumpu pada gagasan menggunakan Sidon set dan barisan aritmetika bersama-sama untuk membangun himpunan berukuran tertentu dengan sumset berukuran tertentu
- Di sini, Sidon set dipakai dalam arti yang disederhanakan, yakni himpunan yang ukuran sumset-nya maksimum
- Untuk penyesuaian rinci, satu titik tambahan bisa diletakkan di dekat barisan aritmetika, dan dengan mengatur beberapa parameter, himpunan berukuran yang diinginkan dapat diperoleh
- Nathanson menyajikan argumen induktif pada Theorem 5 dari makalah ini, tetapi jika diuraikan, strukturnya pada dasarnya tampak seperti menggunakan Sidon set yang terdiri dari pangkat dua
- Perbaikan dari ChatGPT datang dari penggunaan Sidon set yang lebih efisien, dan fakta bahwa Sidon set dengan diameter kuadratik dapat ditemukan sudah dikenal dengan baik
- Gowers lalu juga mencoba masalah terkait yang melihat ukuran restricted sumset alih-alih ukuran sumset, dan ChatGPT menghasilkan hasil dengan cara yang sama tanpa kesulitan berarti
- Dokumen yang merangkum kedua hasil itu ke dalam satu catatan tanpa duplikasi dipublikasikan di sini
Masalah derajat umum dan perbaikan atas makalah Rajagopal
- Gowers juga bertanya apa yang bisa dilakukan ChatGPT untuk kasus yang lebih umum
- Semula ia jauh kurang optimistis, karena pembuktian sebelumnya secara esensial bergantung pada hasil Erdős dan Szemerédi, yakni pada fakta bahwa ukuran-ukuran yang harus dibangun diketahui secara tepat
- Dalam makalah Nathanson muncul makalah dari mahasiswa MIT Isaac Rajagopal, dan Rajagopal membuktikan ketergantungan eksponensial untuk setiap derajat tetap
- Bagi Rajagopal, kesulitan yang sebenarnya bukanlah bahwa “himpunan ukuran yang mungkin tidak diketahui”
- Argumennya memberikan deskripsi lengkap untuk kasus yang cukup besar
- Untuk menunjukkan ketergantungan polinomial pada derajat tetap, cukup dengan mengasumsikan hanya kasus yang cukup besar
- Kesulitan yang sebenarnya adalah bahwa konstruksi untuk membangun himpunan dengan ukuran sumset tertentu jauh lebih rumit, dan ketika derajat membesar, derajat polinomial juga ikut membesar sehingga dibutuhkan lebih banyak parameter
- Tugas ChatGPT bukan menyelesaikan masalah dari nol, melainkan mengencangkan argumen Rajagopal
- Prosesnya sebagai berikut
- Setelah 16 menit 41 detik, ia menyajikan argumen yang memperbaiki batas sebelumnya dari fungsi eksponensial menjadi bentuk berpangkat yang lebih kecil untuk sembarang konstanta positif
- Menyusunnya dalam bentuk preprint membutuhkan tambahan 47 menit 39 detik
- Gowers mengirimkannya kepada Nathanson, Nathanson meneruskannya kepada Rajagopal, dan bagi Rajagopal hasil itu tampak benar
- Baik ChatGPT maupun Rajagopal sama-sama menebak sebagian apa yang akan diperlukan untuk mendorongnya lebih jauh ke batas polinomial, dan Gowers meminta ChatGPT mencobanya
- Setelah 13 menit 33 detik, ChatGPT menjawab bahwa ia optimistis argumen semacam itu mungkin ada, tetapi ada beberapa proposisi teknis yang perlu diperiksa
- Saat diminta memeriksanya, 9 menit 12 detik kemudian ia menyelesaikan pemeriksaan, dan sekali lagi diminta menuliskannya dalam bentuk preprint
- Setelah 31 menit 40 detik, preprint itu siap, dan dokumennya dipublikasikan di sini
- Rajagopal menganggapnya hampir pasti benar, dan itu dipahami bukan hanya pada level baris demi baris, tetapi juga pada level gagasan
Di mana menempatkan hasil matematika buatan AI
- Seandainya ini hasil buatan manusia, tingkatnya akan layak dipublikasikan, sehingga tampaknya tidak tepat menyebutnya sebagai AI slop
- Sebaliknya, memuatnya di jurnal tampaknya tidak terlalu bermakna
- Hasilnya bisa dipublikasikan secara gratis
- Tidak ada siapa pun yang membutuhkan “kredit”
- Namun Rajagopal, yang membangun kerangka yang bisa dipakai ChatGPT, memang pantas mendapat banyak kredit
- Dipahami bahwa arXiv memiliki kebijakan untuk tidak menerima konten yang ditulis AI, dan ini dinilai masuk akal
- Mungkin diperlukan repositori terpisah untuk hasil buatan AI
- Prosedur kurasi yang hanya memuat hasil yang keakuratannya telah disahkan oleh matematikawan manusia mungkin diinginkan
- Akan lebih baik lagi jika hasilnya telah diformalkan dengan proof assistant
- Bisa juga dijadikan kriteria apakah hasil itu menjawab pertanyaan yang diajukan dalam makalah yang ditulis manusia
- Akan menjadi masalah jika prosedur kurasi menciptakan beban kerja yang sangat besar, dan ada risiko yang jelas bila pekerjaan itu kembali diserahkan kepada AI
- Untuk sementara, hasil tersebut dapat diakses lewat tautan publik, dan karena kemampuan penelusuran literatur LLM telah meningkat, orang yang mencoba mencari apakah masalah Nathanson sudah terpecahkan mungkin dapat menemukannya
Penilaian Isaac Rajagopal dan latar belakang teknis
-
Kontribusi utama ChatGPT
- ChatGPT, hanya dengan beberapa prompt, memperbaiki batas atas tertentu dari ketergantungan eksponensial menjadi ketergantungan polinomial
- Perbaikan pertama adalah modifikasi yang relatif rutin atas pekerjaan Rajagopal, tetapi perbaikan polinomialnya sangat mengesankan
- Ide yang diajukan ChatGPT orisinal dan cerdik, jenis ide yang akan dibanggakan Rajagopal jika ia menemukannya sendiri setelah berpikir 1–2 minggu
- ChatGPT menemukan dan membuktikan ide itu dalam waktu kurang dari 1 jam dengan menggunakan metode yang mirip dengan pembuktian Rajagopal sendiri
-
Latar belakang masalah
- Masalah batas atas ini berkaitan erat dengan masalah yang ditangani Rajagopal dalam program Duluth REU (Research Experience for Undergrads)
- Objek utamanya adalah himpunan ukuran union-sumset berulang yang mungkin terjadi, serta rentang minimum untuk merealisasikan semuanya dengan himpunan bilangan bulat berjumlah elemen tertentu
- Musim panas lalu, Rajagopal secara eksplisit mengarakterisasi himpunan nilai yang mungkin untuk kasus yang cukup besar
- Ia membangun himpunan-himpunan yang merealisasikan semua ukuran yang tidak bisa ia singkirkan sebagai mustahil, dan dari sana batas atas tersebut dapat diperoleh dengan mengoptimalkan konstruksi itu
-
Pengganti untuk konstruksi berukuran eksponensial
- Konstruksi asli Rajagopal bekerja dengan menggabungkan beberapa himpunan komponen kecil yang mudah dianalisis
- Sebagian komponen berbentuk barisan geometri terhadap parameter bernilai banyak, dan elemennya tumbuh secara eksponensial terhadap parameter itu
- Melalui Tim, Rajagopal bertanya kepada ChatGPT apakah ada himpunan yang memiliki ukuran union-sumset mirip dengan barisan geometri tersebut, tetapi dengan ukuran elemen yang dibatasi secara polinomial
- ChatGPT membangun himpunan yang berperilaku seolah-olah “menjejalkan setengah dari sebuah barisan geometri ke dalam interval polinomial”
- Ini tampak sebagai konstruksi yang bertentangan dengan intuisi
Himpunan Bₕ, himpunan dissociated, dan ide konstruksi ChatGPT
-
Peran himpunan Bₕ
- Untuk orde tertentu, himpunan yang tidak memiliki relasi penjumlahan selain solusi trivial ketika satu sisi hanya merupakan pengurutan ulang dari sisi lain disebut himpunan Bₕ
- Pada himpunan Bₕ berukuran tetap, cara memilih elemen dengan pengulangan berkorespondensi tepat dengan elemen-elemen union-sumset berulang
- Dengan perhitungan “stars and bars”, ini menjadi ukuran union-sumset berulang maksimum yang mungkin untuk himpunan dengan ukuran yang sama
- Dalam sudut pandang ini, himpunan Sidon adalah himpunan B₂
-
Sifat yang direproduksi oleh barisan geometri
- Himpunan barisan geometri tertentu adalah himpunan Bₕ, tetapi bukan himpunan B orde lebih tinggi
- Relasi yang mengganggu muncul sebagai relasi penjumlahan dengan bentuk tertentu
- Pada satu himpunan, ukuran sumset menjadi fungsi linear dari parameter, dan pada himpunan lain menjadi fungsi kuadratik
- ChatGPT menemukan himpunan-himpunan baru yang memenuhi keempat sifat ini, tetapi semua elemennya berukuran polinomial terhadap parameter
-
Penggunaan himpunan h-dissociated
- Konstruksi ChatGPT menggunakan himpunan h-dissociated
- Himpunan h-dissociated adalah himpunan yang hanya mengizinkan solusi trivial pada relasi penjumlahan hingga orde terbatas tertentu
- Dapat dibangun himpunan h-dissociated dengan ukuran kira-kira sebesar parameter dan diameter polinomial
- Konstruksi seperti ini dapat ditelusuri kembali ke konstruksi Singer (1938) dan Bose–Chowla (1963) yang menggunakan medan hingga, dan dijelaskan dalam Appendix 1
-
Intuisi “hanya memuat setengah jumlah relasi”
- Dua himpunan buatan ChatGPT, dibandingkan dengan padanan barisan geometrinya, hanya memuat sekitar setengah dari relasi penjumlahan tertentu
- Pada saat yang sama, berkat sifat h-dissociated, hampir tidak ada relasi orde rendah lain
- Hasilnya, pola ukuran union-sumset yang dibutuhkan dapat direproduksi sambil tetap berada dalam interval polinomial
- Bagi Rajagopal, ide ChatGPT untuk mengendalikan relasi hingga orde tertentu dengan himpunan h-dissociated tampak sangat cerdik dan sepenuhnya orisinal
Korespondensi antara pembuktian ChatGPT dan pembuktian Rajagopal
- Pembuktian ChatGPT sangat mirip dengan bentuk pembuktian asli Rajagopal yang mengganti komponen barisan geometri dengan komponen baru buatan ChatGPT
- Konstruksi akhirnya menggabungkan himpunan-himpunan baru untuk beberapa nilai orde, lalu menggabungkannya dengan himpunan lain yang berupa sumset dari barisan aritmetika dan satu titik
- Secara intuitif, himpunan-himpunan baru menghasilkan sumset besar, sementara barisan aritmetika menghasilkan sumset kecil, sehingga dengan menggabungkannya tampak mungkin untuk memperoleh semua sumset berukuran menengah
- Pembuktian sebenarnya cukup rumit, dan mengisi Section 4 dari makalah Rajagopal serta seluruh preprint ChatGPT
- Sebagai perbandingan, mudah dilihat bahwa batas bawah positif tersebut setidaknya berada pada tingkat pangkat orde tertentu, tetapi nilainya yang sebenarnya belum diketahui
- Rajagopal menyatakan bahwa ia terkejut karena masalah yang dimasukkan Tim ke ChatGPT 5.5 Pro secara kebetulan berujung pada makalah arXiv miliknya sendiri
Implikasi bagi riset matematika dan pelatihan doktoral
- Hasil yang ditemukan ChatGPT dalam waktu 2 jam dinilai setara dengan satu bab yang cukup layak dalam disertasi doktoral kombinatorika
- Karena sangat bergantung pada ide Isaac, ini bukan hasil yang sepenuhnya mengejutkan, tetapi tetap merupakan perluasan nontrivial dari ide tersebut
- Agar mahasiswa doktoral dapat menemukan perluasan yang sama, mereka kemungkinan perlu waktu yang cukup lama untuk mencerna makalah Rajagopal, menemukan bagian yang mungkin belum optimal, dan membiasakan diri dengan berbagai teknik aljabar yang digunakan
- Pelatihan riset dengan cara memberi masalah terbuka yang relatif “ramah” kepada mahasiswa doktoral pemula bisa menjadi lebih sulit
- Jika LLM dapat menyelesaikan “masalah ramah”, maka batas bawah untuk berkontribusi pada matematika bergeser dari “hasil yang belum pernah dibuktikan siapa pun dan dianggap menarik oleh seseorang” menjadi “hasil yang tidak bisa dibuktikan oleh LLM”
- Karena pemula pun dapat memakai LLM, tugas sebenarnya mungkin adalah membuktikan sesuatu dengan berkolaborasi dengan LLM, bukan sesuatu yang tidak bisa dikerjakan LLM sendirian
- Gowers baru-baru ini melakukan beberapa kolaborasi dengan LLM, dan menilai bahwa meskipun belum menghasilkan ide yang mengubah permainan, kontribusinya tetap berguna
Perbedaan antarbidang dan perubahan ke depan
- Belum pasti seberapa jauh perubahan ini dapat digeneralisasi ke bidang matematika lain
- Kombinatorika cenderung sangat berorientasi pada masalah
- Bidang ini sering berangkat dari pertanyaan lalu bernalar mundur, atau walau bernalar maju tetap sangat menyadari pertanyaan itu
- Di bidang lain, penalaran maju yang berangkat dari rentang ide lalu melihat ke mana arahnya mungkin lebih penting
- Pada bidang seperti itu, dibutuhkan kemampuan membedakan pengamatan yang menarik dan yang tidak menarik, dan belum jelas seberapa baik LLM dalam hal ini
- Kecepatan perkembangan saat ini begitu tinggi sehingga penilaian terhadap LLM sekarang kemungkinan besar akan usang dalam beberapa bulan
- Cara riset matematika dilakukan, khususnya cara peneliti baru diperkenalkan ke bidang ini, sangat mungkin akan terganggu secara besar
- Seseorang yang memulai program doktoral tahun ajaran depan, paling cepat baru selesai pada 2029, dan pada saat itu makna riset matematika bisa saja sudah berubah sedemikian rupa hingga nyaris tak dapat dikenali dibanding sekarang
Perubahan alasan melakukan matematika
- Ia mengatakan sering menerima email yang menanyakan apakah masih bermakna menjadikan riset matematika sebagai jalur karier
- Bergulat dengan masalah matematika tetap memiliki nilai besar, tetapi masa ketika nama seseorang bisa selamanya melekat pada teorema atau definisi tertentu mungkin sudah mendekati akhir
- Jika tujuan melakukan matematika adalah semacam keabadian, kita perlu memahami bahwa itu mungkin tidak akan bertahan lama lagi
- Sebagai eksperimen pikiran, jika seorang matematikawan melakukan percakapan panjang dengan LLM dan berperan sebagai pemandu yang berguna, tetapi seluruh pekerjaan teknis dan ide inti untuk memecahkan masalah besar dilakukan oleh LLM, maka patut dipertanyakan apakah itu layak dianggap sebagai pencapaian besar matematikawan tersebut
- Menyelesaikan masalah yang jawabannya sudah diketahui pun tetap bisa memuaskan, tetapi itu tidak cukup sebagai alasan untuk menghabiskan beberapa tahun hidup
- Alasan yang lebih baik adalah bahwa dengan memecahkan masalah sulit, seseorang memperoleh wawasan tentang proses pemecahan masalah itu sendiri dalam bidang keahliannya
- Orang yang pernah benar-benar memecahkan masalah sulit kemungkinan juga akan lebih unggul dalam memecahkan masalah dengan bantuan AI
- Ini mirip dengan programmer yang baik akan lebih mahir dalam vibe coding daripada orang yang tidak demikian
- Ini juga mirip dengan orang yang memahami aritmetika dasar dengan baik akan lebih pandai menggunakan kalkulator, terutama saat menyadari ada jawaban yang aneh
- Matematika adalah keterampilan yang sangat dapat ditransfer, dan ini juga berlaku untuk matematika tingkat riset
- Mungkin riset matematika tidak lagi memberi imbalan seperti yang didapat generasi sebelumnya, tetapi sangat mungkin tetap menjadi persiapan yang sangat baik untuk dunia yang akan datang
Isi teknis lampiran
-
Lampiran 1: Konstruksi himpunan h-dissociated
- Tujuannya adalah membuat himpunan h-dissociated dengan diameter yang kira-kira berada pada tingkat polinomial
- Konstruksi ini merupakan modifikasi yang sangat kecil dari konstruksi Bose–Chowla (1963), dan Rajagopal menyatakan bahwa ia mempelajarinya dari makalah ini
- Lemma 3.1 dalam preprint ChatGPT menggunakan konstruksi lain yang kurang efisien dengan memakai moment curve
- Konstruksi tersebut menggunakan bilangan prima, medan hingga, generator dari perluasan medan hingga, dan cara mencocokkan setiap elemen dengan representasi pangkat tertentu
- Relasi penjumlahan hingga derajat terbatas dapat dipandang sebagai relasi pangkat dari generator
- Karena derajat perluasan dan sifat generator, konstruksi itu tidak memenuhi polinomial tak nol berderajat rendah, sehingga polinomial di kedua sisi harus identik
- Karena itu, relasi penjumlahan yang dimaksud hanya relasi trivial, dan himpunan tersebut menjadi h-dissociated
- Jika perlu, beberapa elemen dapat dihapus untuk mengurangi ukurannya ke ukuran yang diinginkan
-
Lampiran 2: Struktur rinci konstruksi ChatGPT
- Memilih konstanta-konstanta tetap, lalu menggunakan dua himpunan yang dibuat oleh ChatGPT
- Konstruksi himpunan yang mencapai ukuran yang diinginkan menggabungkan empat jenis komponen
- Satu jenis yang memilih dua parameter
- Dua jenis yang memilih dua parameter untuk setiap nilai derajat
- Himpunan yang menyesuaikan agar jumlah total elemen tepat
- Salah satu alasan konstruksi ini rumit adalah karena perlu membuat cukup banyak himpunan yang berbeda
- Untuk itu, parameter di satu wilayah dan parameter di wilayah lain diubah bersama-sama
- Jika salah satu parameter dihapus dan sisanya dibiarkan tetap, maka tidak mungkin membuat himpunan sebanyak yang diperlukan
- Konstruksi Nathanson untuk derajat 2 memiliki struktur yang lebih sederhana, menggabungkan himpunan Sidon, barisan aritmetika, dan satu nilai tambahan, lalu mengubah ukuran barisan aritmetika dan nilai tambahan itu dalam rentang tertentu untuk membuat himpunan yang dibutuhkan
- Dengan konstruksi pada Lampiran 1, untuk setiap derajat dapat diperoleh himpunan h-dissociated dengan diameter polinomial
- Saat menggabungkan beberapa komponen, digunakan struktur berbentuk kisi dengan vektor basis
- Konstruksi ini menjamin identitas perkalian fungsi pembangkit, mirip dengan Lemma 4.9 milik Rajagopal
- Sesuai Lemma 2.3 standar dalam preprint ChatGPT, konstruksi tersebut dapat dipindahkan melalui isomorfisme Freiman pada derajat tertentu menjadi subhimpunan dari interval bilangan bulat
- Seluruh konstruksi bekerja untuk kasus yang cukup besar
-
Lampiran 3: Korespondensi antara makalah Rajagopal dan preprint ChatGPT
- Section 4.2 dalam makalah Rajagopal menggunakan konstruksi yang lebih sederhana untuk membuat himpunan yang mencapai nilai-nilai tertentu
- Himpunan-himpunan ini merupakan subhimpunan dari interval yang hanya memiliki elemen berukuran polinomial, dan fakta ini diamati dalam Section 5 preprint ChatGPT
- Section 4.3 dalam makalah Rajagopal menjalankan konstruksi inti yang menggabungkan beberapa komponen, dan ini berkorespondensi dengan Sections 2, 3, 4, dan 6 dalam preprint ChatGPT
- Section 4.3.1 dalam makalah Rajagopal memberikan gambaran umum atas bagian tersebut yang memiliki banyak elemen bergerak
- Section 4.3.2 dalam makalah Rajagopal menjelaskan cara penggabungan komponen, dan Rajagopal menyebutnya disjoint union
- Fungsi pembangkit diperkenalkan sebagai alat pembukuan untuk melacak ukuran gabungan himpunan, dan ini berkorespondensi dengan Section 2 dan Section 4 dalam preprint ChatGPT
- Section 4.3.3 dalam makalah Rajagopal menghitung fungsi pembangkit untuk setiap himpunan komponen, termasuk Lemma 4.15 dan Lemma 4.17
- Ini berkorespondensi dengan Section 3 dan Section 6.1 dalam preprint ChatGPT, dan dalam preprint ChatGPT satu fungsi pembangkit dihitung di Lemma 3.3, sedangkan fungsi pembangkit lainnya dihitung di Lemma 3.4
- Setelah fungsi pembangkit dihitung, sisa pembuktiannya hampir sama dalam makalah Rajagopal dan preprint ChatGPT
- Section 4.3.4 dalam makalah Rajagopal menunjukkan bahwa ketika himpunan-himpunan yang dibangun divariasikan, nilai ukuran gabungannya mengambil semua nilai yang mungkin
- Intinya adalah bahwa himpunan nilai yang mungkin membentuk satu interval, dan mencakup semua bilangan yang lebih kecil dari serta sama dengan suatu nilai acuan tertentu
1 komentar
Opini Hacker News
Cocok dengan pengalaman saya setelah mencoba 5.5 Pro sebentar. Untuk pertama kalinya, terasa seperti LLM yang bisa didorong untuk benar-benar menyelesaikan masalah yang membosankan tapi jelas.
Masih sering salah dan perlu diarahkan dengan sangat ketat, tetapi tidak seperti model lain, kemampuannya mengikuti penalarannya sendiri lalu memperbaiki diri cukup baik.
Kekurangannya adalah biaya. Ia menghabiskan token seperti orang gila dan harga per token juga mahal, dan kalau memakai alur sub-agen agar bisa menyelesaikan masalah besar dengan akurasi tinggi, biayanya makin naik.
Pada masalah berskala besar, batas konteks juga bisa membuatnya jauh lebih lambat. Untuk tiap bagian ia harus mencari kembali konteksnya, dan demi akurasi Anda perlu menghapus konteks sebelum lanjut ke bagian kecil berikutnya atau menyalakan lebih banyak agen.
Untuk hal seperti pembuktian matematika, ketika konteks tambahan yang diperlukan untuk memahami masalah dan buktinya kecil dan masalahnya “penting”, mungkin ini masih masuk akal, tetapi untuk memeriksa kebenaran kode dalam codebase besar atau memverifikasi asumsi yang halus, ada batas yang jelas.
Jadi kecuali Anda termasuk orang beruntung yang bisa memakai 5.5 Pro tanpa batas, sepertinya masih perlu waktu sebelum kemampuan mengesankan model seperti ini meresap ke keseharian para programmer.
Tulisan ini panjang dan mencampur bagian matematika teknis dengan bagian filosofis, tetapi bagian yang paling berkesan adalah bahwa pelatihan mahasiswa doktoral tahun-tahun awal menjadi lebih sulit.
Dulu mereka bisa mulai dengan diberi masalah penelitian yang relatif ringan, tetapi jika LLM bisa menyelesaikan “masalah ringan” seperti itu, pilihan itu tidak ada lagi.
Batas bawah untuk berkontribusi pada matematika bukan lagi “sesuatu yang belum dibuktikan siapa pun dan menarik”, melainkan “sesuatu yang tidak bisa dibuktikan LLM”.
Namun, pelatihan tetap harus dimulai dari dasar. Semua orang belajar dari penjumlahan bilangan bulat kecil, dan kalkulator sudah lama bisa melakukannya tanpa salah.
Seperti bagian lain dalam tulisan ini, dengan menyelesaikan masalah sulit secara langsung, kita memperoleh wawasan tentang proses pemecahan masalah itu sendiri, dan orang yang sudah pernah menyelesaikan masalah sulit kemungkinan lebih mampu memanfaatkan AI dengan baik.
Coding adalah pekerjaan membuat barang yang akan dipakai orang untuk menghasilkan uang, jadi dengan AI Anda bisa mengirim lebih cepat dan tetap dipekerjakan, tetapi saya tidak yakin matematika bisa dipandang dengan cara yang sama.
Jika LLM yang melakukan semua ide utama dan pekerjaan teknis, sementara matematikawan hanya memberi arahan yang berguna, saya ragu itu akan dianggap sebagai pencapaian besar matematikawan itu.
Di perusahaan pun, ketika orang menyerahkan pekerjaan ke LLM, hasilnya tidak selalu buruk dan kadang bisa diterima, tetapi itu bukan pekerjaan orang tersebut.
Karena itu, penulisnya tidak jadi lebih tahu atau lebih paham daripada orang lain, dan juga tidak memiliki atau bisa menjelaskannya. Ia secara harfiah hanya titik transit, jadi nilainya hilang.
Jika LLM menghabisi “riset yang mudah”, proses itu menjadi lebih sulit.
Anak singa belajar berburu nanti dengan bertarung dan bermain dengan anak singa lain, tetapi kalau tiba-tiba ada TikTok dan mereka berhenti bermain, perburuan pertamanya akan jadi jauh lebih sulit.
Benar juga bahwa AI bisa membantu mengirim lebih cepat dan menghasilkan uang, tetapi itu berbeda dari persoalan menjadi coder yang baik. Jika Anda tidak menjadi coder yang baik, Anda akan tetap menjadi vibe coder yang buruk.
Bagian menarik dari Baez adalah pertanyaan dari mana nilai pemikiran dan ide mendalam itu berasal.
Jika nilainya terutama datang dari kelangkaan, yakni dari kenyataan bahwa ide tertentu sulit dimiliki, maka nilainya bisa jatuh tajam ketika produksi ide menjadi otomatis.
Tetapi jika nilainya datang dari kegunaan ide itu, yakni manfaat yang dibawanya, maka ceritanya berbeda. Membuat lebih banyak ide yang lebih baik justru bisa lebih bagus.
Para matematikawan mungkin harus beradaptasi dari ekonomi kelangkaan ke ekonomi kelimpahan.
https://gowers.wordpress.com/2026/05/08/a-recent-experience-...
Kedua, pembangun teori murni, dengan Conway sebagai contoh, yang lebih tertarik pada teori dan ide daripada teorema, dan ingin memperluas wilayah matematika.
Ketiga, matematikawan terapan, yang memandang matematika sebagai sarana menuju tujuan, dan ingin menyelesaikan masalah di luar matematika dengan matematika.
Kelompok pertama, yakni pemecah masalah, tampaknya paling langsung terancam oleh AI. Namun sejauh ini AI masih lebih kuat dalam memecahkan masalah daripada menemukan konjektur baru.
Kelompok kedua, yakni pembangun teori, terancam di masa yang lebih jauh. Sampai sekarang kemampuan AI untuk menghasilkan ide matematika yang baru dan menarik masih terbatas, dan tidak ada yang tahu bagaimana melatih hal seperti itu.
Kelompok ketiga bisa memperoleh manfaat paling besar dari AI. Jika AI bisa menjawab pertanyaan matematika, mereka bisa mengurangi waktu untuk matematika dan lebih fokus pada masalah eksternal yang memang ingin mereka selesaikan dengan matematika.
Sementara Wiles dan Perelman menjauh dari dunia online dan menyelesaikan masalah yang nyata.
Sebagai profesor fisika, saya sering memakai Gemini untuk memeriksa makalah, dan itu alat yang kuat.
Ia menemukan kesalahan administratif seperti hilangnya satuan imajiner dalam rumus kompleks yang tidak saya temukan selama berhari-hari, dan juga sering menunjukkan hubungan antara konsep dan ide yang saya lewatkan.
Tetapi ia juga sering membuat kesalahan konseptual, dan saya bisa menyadarinya karena saya paham topiknya. Misalnya, ia berulang kali mencampuradukkan eksponen bivector dan eksponen pseudoskalar dalam aljabar Clifford 3 dimensi.
Saya percaya ChatGPT 5.5 Pro bisa menghasilkan makalah yang layak terbit, tetapi dari yang saya lihat sejauh ini pada Gemini, lebih baik memandang LLM sebagai mahasiswa yang sangat efisien yang bisa membaca makalah dan buku seketika, tetapi tetap memerlukan banyak bimbingan.
Lagi pula, tidak ada alasan kemajuan LLM yang 3~4 tahun lalu bahkan belum bisa mengerjakan matematika SMA secara konsisten akan segera berhenti.
Benchmark CritPt terdiri dari soal fisika tingkat riset yang belum dipublikasikan, jadi layak diikuti.
https://critpt.com/
Bahkan model terdepan pun masih jauh dari menyelesaikannya, tetapi kemajuannya cepat. o3 high adalah 1.5 tahun lalu 1.4%, GPT 5.4 xhigh 23.4%, GPT-5.5 xhigh 27.1%, dan GPT-5.5 Pro xhigh 30.6%.
https://artificialanalysis.ai/evaluations/critpt
Saya sendiri terus mengulang kesalahan yang sama.
Salah satu alasan mengapa mengelola memori LLM secara manual lewat prompt dan instruksi kustom terasa menjengkelkan adalah karena hal itu.
Saya belum benar-benar memakai fitur memori jangka panjang, tetapi rasanya akan lebih sulit dipercaya daripada prompt. Dalam 1~2 tahun terlalu banyak hal berubah sehingga “memori” itu kemungkinan harus dibuat ulang berkali-kali.
Jika Anda tidak punya ekspektasi, Anda harus menerima semuanya mentah-mentah, dan pada saat itu Anda berada di bawah belas kasihan mesin.
Anda membawa dasar-dasar yang kuat untuk melakukan sanity check terhadap agen yang terburu-buru, dan berusaha menanamkan dasar itu ke orang lain agar mereka juga bisa melakukan hal yang sama.
Pada akhirnya, itu terasa seperti satu-satunya cara agar semuanya bisa berjalan. Kecuali suatu hari perusahaan beralih ke model lokal yang lebih kecil dan lebih terjangkau.
Peluangnya benar dan peluangnya mendorong Anda meloncat dari tebing itu setengah-setengah, tetapi seluruh perjalanannya selalu dibungkus seperti hotel bintang lima yang indah.
Jika Anda menemukan kesalahan dan memberi tahu LLM, biasanya hasilnya malah jadi lebih buruk. LLM ingin menyenangkan Anda, jadi ia meminta maaf dan mengubah arah.
Kalau sudah sampai situ, biasanya saya simpan atau batalkan sesi lalu mulai lagi dari awal, atau sengaja mengubah arahnya dengan tegas.
Bagi saya Gemini adalah LLM yang paling sulit diprediksi, dan secara keseluruhan GPT paling cocok.
Baru-baru ini Gemini memberi dua jawaban berbeda untuk pertanyaan yang sama. Itu tes yang sengaja saya lakukan dengan membuka chat baru dan menempelkan prompt yang sama.
Dalam ranah coding, fitur penalaran tidak terlalu membantu. Penjelasan LLM sangat tingkat tinggi dan secara formal tampak benar.
Karena LLM, saya malah lebih sering googling. Pada akhirnya, yang terjadi adalah seseorang membuat sesuatu yang tetap harus saya verifikasi sendiri sebelum menekan tombol, dan apakah tombol berkilau itu akan bekerja atau membawa saya ke neraka baru akan ketahuan beberapa saat kemudian.
Jika seorang matematikawan melakukan percakapan panjang dengan LLM dan memberi arahan yang berguna, tetapi LLM yang mengerjakan semua pekerjaan teknis dan ide utama, apakah itu akan dianggap sebagai pencapaian besar matematikawan itu adalah pilihan budaya.
Dalam budaya matematika saat ini, wajar jika itu terasa asing, tetapi di bidang lain atau bagi banyak orang, mungkin sudah dianggap bahwa manusia itu tetap punya pencapaian besar.
Selama kolaborasi manusia-AI menghasilkan hasil terbaik, masih ada kontribusi manusia yang bermakna, dan seorang ahli mendalam sekaligus pelatih LLM yang terampil bisa memberi kontribusi besar.
Perubahan yang sesungguhnya datang ketika AI murni mengalahkan baik manusia maupun kolaborasi manusia-AI.
Dalam matematika pun, manusia bisa menuntun LLM ke jalur yang benar dan mengarahkannya ke masalah tertentu atau yang lain, jadi sampai tingkat tertentu itu layak dipuji.
Tim yang membuat mobil, orang yang merawat kuda, atau tim yang membuat AI mungkin layak mendapat pujian lebih besar, tetapi biasanya kita lebih tertarik pada satu orang yang paling terlihat.
Jika sebuah gambar membuat orang tertawa, orang yang memasukkan prompt mungkin tidak bisa mengambil sebagian besar kredit atas kerja produksinya, tetapi bisa mendapat kredit atas ide awal dan selera dalam memilih hasil tertentu dari beberapa draf.
Jika seorang matematikawan mendapatkan hasil menakjubkan yang “dilakukan” oleh LLM, saya pikir ia bisa mendapat sebagian kredit karena memberi prompt dan arahan.
Tetapi pertanyaannya adalah, meski orang pertama itu mungkin bisa disebut komedian dan bukan seniman, apakah matematikawan itu masih matematikawan atau sudah menjadi sesuatu yang lain.
Cukup beri imbalan setara seperti yang diberikan kepada matematikawan lain. Tentu saja nanti akan ada banyak matematikawan miliarder, jadi imbalannya mungkin besar.
Kalimat “Jika tujuan melakukan matematika adalah untuk mendapatkan semacam keabadian, mungkin itu tidak akan mungkin lagi untuk waktu lama” terasa agak sedih.
Pembuka film itu penuh dengan mahasiswa yang mondar-mandir di kampus MIT serta janji dan status yang dibawa pendidikan tinggi.
Saat saya sadar betapa banyak hal yang akan diserahkan ke AI, saya merasakan kesedihan yang mirip.
[0] - https://youtu.be/0lsUsWdkk0Y?si=TJl7f_b1RcWcDqF8&t=278
Pikiran berikutnya adalah “lalu saya pandai dalam apa?”, dan di dalamnya setidaknya ada “di bidang apa saya bisa menjadi kelas dunia?” atau “di bidang apa saya bisa sangat bagus?”
Saya tidak pernah menganggap menemukan suatu hasil lalu menamainya dan membuatnya bertahan lebih lama dari diri saya sendiri cukup untuk memperoleh keabadian matematis, tetapi kalau saya memang berpikir begitu, kabar buruk ini mungkin akan terasa seperti pukulan serupa.
Namun di batas tertentu saya tidak setuju dengan premisnya. Entah berapa banyak proof assistant atau komputasi klaster yang dipakai, tim atau orang yang membuktikan hipotesis Riemann akan tetap terkenal. Setidaknya di dunia matematika.
Mungkin banyak yang membidik aplikasi praktis tidak langsung yang bergerak dari matematika→fisika→rekayasa, atau sekadar melakukannya karena keindahan matematika dan kenikmatan intelektual.
AI mungkin bisa mengambil bagian aplikasi praktis itu juga, tetapi sisi-sisi lainnya masih bisa dinikmati.
Sebagai mahasiswa pascasarjana, tulisan ini membuat saya sedih. Saya selalu percaya pekerjaan saya akan berbicara melampaui diri saya sendiri, melampaui waktu terbatas yang diberikan dalam pengalaman kosmis ini.
Rasa keabadian itu adalah bonus kecil tak berwujud yang saya harapkan saat terjun ke sekolah pascasarjana, tetapi karena AI saya merasa diri saya kurang bernilai.
Pekerjaan itu layak dilakukan karena Anda bisa melakukannya. Lakukan karena Anda mencintainya, dan karena Anda mencintai misteri.
Semoga Anda bisa menikmati setiap saat ketika Anda masih bisa melakukannya. Berbahagialah atas keberuntungan besar karena bisa melakukan pekerjaan seperti itu, tidak seperti orang-orang yang tersiksa oleh pekerjaan yang tidak memberi kepuasan.
Kadang memang membosankan, tetapi kadang juga sangat memuaskan dengan cara yang nyaris tak bisa dipercaya.
Namun jangan bekerja demi kemungkinan kemuliaan abadi. Hal seperti itu sudah tidak ada lagi.
Tidak ada tantangan yang lebih besar dari itu.
Sebagai asisten profesor ilmu komputer teoretis di Eropa Timur, saya selalu sedikit iri melihat nama-nama besar di dunia matematika bisa dengan mudah mengakses model penalaran jangka panjang yang mahal.
Dengan anggaran akademik saat ini, membayar Pro benar-benar tidak realistis di sini. Anggarannya dibatasi menurut jenis penggunaan, dan hampir tidak ada pos yang cocok untuk pembayaran perangkat lunak.
Praktisnya, saya harus mengajukan hibah riset baru, berharap aturannya mengizinkan pengeluaran perangkat lunak besar, dan berharap tidak bertemu reviewer anti-AI. Proses seperti itu minimal memakan satu tahun.
Belum lagi Microsoft belakangan memperketat penggunaan pribadi dan akademik Copilot, sehingga akses Claude Opus juga tertutup.
ChatGPT 5.5 Plus tampaknya tidak cukup untuk menggali topik riset baru secara mendalam, dan saya sudah mencobanya sendiri.
Menyiapkan layanan itu memakan waktu 2 tahun dan hanya menyediakan gpt-oss-120b, jadi semua orang tetap memakai layanan lain.
Tetap saja, sekarang ada admin yang bisa menaburkan kata “AI” di berbagai sudut situs universitas dan punya alasan untuk menolak permintaan langganan AI dengan alasan “kan sudah ada AI”.
Ada contoh tentang orang miskin dan orang kaya membeli sepatu bot. Sepatu bot orang miskin cepat aus sehingga harus terus diganti, tetapi sepatu bot orang kaya kualitasnya lebih baik dan bisa dipakai bertahun-tahun.
Lama-lama orang miskin justru menghabiskan lebih banyak uang untuk sepatu bot.
Kalau hemat memakainya, biasanya jatuhnya cukup murah.
Bahkan jika universitas tidak membayar, rasanya saya sendiri ingin memakainya demi tujuan saya.
Bukan untuk menyalahkan, saya cuma penasaran apakah itu memang biaya yang benar-benar tak terjangkau bagi sebagian besar peneliti di wilayah itu.
Kira-kira 10 tahun lalu, di pertemuan gabungan AMS-MAA di Seattle, saya melihat Tim Gowers memberi ceramah dan memprediksi bahwa 100 tahun lagi manusia tidak akan lagi melakukan matematika riset. Saya penasaran apakah sekarang ia akan menyesuaikan jadwal prediksinya.
Waktu itu saya mengira alat kunci yang masih hilang adalah pencarian bahasa alami yang bekerja seperti MathOverflow: Anda menjelaskan masalah atau ide sebagaimana Anda memahaminya, lalu alat itu menemukan literatur terkait yang berada di luar pengalaman atau kosakata Anda.
Menjadi matematikawan hebat tidak berarti selalu benar. Faktanya, matematikawan sering punya teori yang cukup aneh.
Mayoritas besar mahasiswa yang masuk pendidikan tinggi musim gugur ini, bahkan jika mereka meneliti, baru akan bisa memberi kontribusi besar pada sains 4~5 tahun dari sekarang. Jika dilihat sampai masa doktoralnya benar-benar berjalan, realistisnya 6~7 tahun.
Jika melihat tingkat model 5~7 tahun lalu, saat itu ancaman eksistensial bagi PhD bahkan belum masuk radar. Orang-orang yang sekarang menyelesaikan doktoral adalah generasi pertama yang bisa benar-benar memanfaatkan alat ini.
Sekarang akan jadi masalah kalau mahasiswa yang ingin menjadi peneliti merasa kalah lalu menyerah, atau justru sepenuhnya bersandar pada model AI untuk menyuruhnya bekerja.
Hal yang sama berlaku untuk pendanaan posisi doktoral. Jika dukungan bergeser dari “melatih peneliti” menjadi “mencapai hasil”, uang yang tadinya dipakai untuk mahasiswa doktoral bisa mengalir ke sumber daya komputasi.
Secara sinis, bagi sebagian peneliti, membelanjakan uang ke komputasi bisa menghasilkan jauh lebih banyak paper daripada melatih seorang mahasiswa selama beberapa tahun.
Ini zaman yang menarik, tetapi ketidakpastiannya terlalu besar. Saya kasihan pada para mahasiswa yang harus memutuskan apa yang akan dilakukan sekarang.
Terutama di bidang yang lebih lunak, disertasi doktoral dan rekam publikasi yang bagus bahkan sekarang bisa dibeli.
Kalau Anda bukan di akademia melainkan di industri, promosi jabatan pun bisa dibeli. Jika perusahaan memberi semua karyawan anggaran AI, Anda bisa diam-diam menggandakan anggaran itu dengan uang sendiri sampai dipromosikan, lalu setelah promosi berhenti dan menikmati gaji yang lebih besar.
Terlihat jelas mereka kini bisa melakukan riset yang sebelumnya tidak bisa mereka lakukan.
Juga terlihat bahwa penggunaan AI sampai taraf tertentu melemahkan kemampuan mereka menulis kode sendiri, tetapi saya melihatnya mirip seperti menulis model machine learning dengan scikit-learn atau Pytorch.
Detail tingkat bawah diabstraksikan dan tanpa AI mereka mungkin tidak bisa berbuat banyak, tetapi riset itu tetap terjadi karena orang tersebut, dan tidak akan terjadi hanya dengan AI saja.
Uang itu lebih mirip pos anggaran tambahan yang muncul belakangan, dan bukan sasaran yang begitu menarik untuk disedot bagi prosedur lain yang mahal.