- Erdős #281 adalah masalah yang mengasumsikan situasi di mana, bagaimanapun seseorang memilih tak hingga banyak kongruensi, hampir tidak ada bilangan bulat yang tersisa yang tidak termasuk dalam salah satu kongruensi tersebut
- Jika situasi ini benar, pertanyaannya adalah apakah sebenarnya tanpa harus memakai seluruh kongruensi yang tak hingga itu, hanya dengan beberapa yang pertama saja hampir semua bilangan bulat sudah bisa tersaring
- Neel Somani menggunakan GPT-5.2 Pro untuk mengajukan sebuah pembuktian atas pertanyaan ini, dan sejumlah matematikawan meninjau serta melengkapi bagian-bagian kunci dari logikanya
- Alih-alih menghitung setiap bilangan bulat secara langsung, pendekatan ini menangani masalah dengan menempatkan seluruh bilangan bulat sebagai satu ruang dan memanfaatkan sifat kerapatan serta limit
- Kemudian terungkap bahwa kesimpulan yang sama juga bisa diturunkan dari kombinasi teorema-teorema yang telah dikenal sebelumnya, dan diskusi pun berlanjut tentang mengapa kaitan ini lama tidak terlihat
Erdős Problem #281 — inti utama diskusi
- Erdős #281 adalah masalah yang berangkat dari keadaan ketika tak hingga banyak kongruensi diberikan, dan bagaimanapun kongruensi-kongruensi itu dipilih, pada akhirnya hampir semua bilangan bulat masuk ke salah satunya
- Asumsinya adalah kita sudah mengetahui sifat bahwa jika semua kongruensi diterapkan, hampir tidak ada bilangan bulat yang tersisa yang tidak termasuk dalam kongruensi mana pun
- Jika sifat ini berlaku, muncullah pertanyaan apakah sebenarnya tanpa harus memakai tak hingga banyak kongruensi sampai akhir, hanya dengan beberapa yang pertama saja efek yang hampir sama sudah muncul
- Struktur pertanyaannya adalah apakah hasil yang berlaku pada tahap tak hingga juga otomatis terjamin pada tahap hingga
- Ada kesulitan dalam menyatakan bahwa sejumlah kongruensi hingga saja sudah cukup, di bawah syarat bahwa pemilihan kelas residu terburuk selalu diizinkan
Pendekatan pembuktian oleh Neel Somani dan GPT-5.2 Pro
- Pendekatan yang memandang seluruh bilangan bulat sebagai satu ruang dan menangani masalah melalui konsep kerapatan, alih-alih memeriksa bilangan bulat satu per satu
- Cara dengan menetapkan himpunan bilangan bulat yang menghindari k kongruensi pertama sebagai satu objek
- Memanfaatkan struktur bahwa ketika k membesar, himpunan ini makin menyusut dan menuju hasil pada tahap tak hingga
- Mengembangkan logika bahwa dari asumsi hampir tidak ada bilangan bulat yang menghindari semua kongruensi yang tak hingga, pada tahap hingga pun himpunan itu pasti dapat dibuat cukup kecil
- Menyusun alur keseluruhan dengan memakai limit, rata-rata, dan sifat translasi
Proses peninjauan dan perkembangan diskusi
- Peninjauan terfokus pada keabsahan urutan pengambilan limit dan proses menangani rata-rata dalam pembuktian yang diajukan
- Muncul catatan bahwa beberapa langkah memerlukan penjelasan tambahan dan penyempurnaan
- Sejumlah matematikawan secara terbuka memeriksa logikanya dan memperjelas makna tiap tahap
- Hasilnya, struktur inti argumen tetap dipertahankan sambil dirapikan menjadi bentuk yang lebih jelas
Keterkaitan dengan teorema klasik
- Dipastikan bahwa kesimpulan yang sama juga dapat diperoleh dengan menggabungkan teorema-teorema yang telah dikenal sebelumnya
- Gabungan antara hasil yang menangani konvergensi kerapatan pada kondisi tak hingga dan teorema yang menjelaskan kasus terburuk pada kondisi hingga
- Melalui kaitan ini terlihat struktur bahwa sifat pada tahap tak hingga juga tercermin kuat pada tahap hingga
- Diskusi pun meluas mengenai mengapa kaitan seperti ini lama tidak dirumuskan dengan jelas
Mengapa kasus ini mendapat perhatian
- Contoh ketika masalah yang diajukan sejak lama kembali mendapat sorotan setelah adanya usulan pembuktian berbasis AI
- Bukan berarti AI sendirian menyajikan jawaban akhir yang lengkap, melainkan memicu diskusi dari sudut pandang baru
- Hal ini menegaskan bahwa tingkat kesulitan dapat sangat berubah tergantung pada bahasa dan kerangka berpikir yang dipakai untuk merumuskan masalah
1 komentar
Komentar Hacker News
Jadi pembuktian yang dibuat LLM dipindahkan ke bagian 2 wiki milik Terence Tao
Diskusi terkait ada di postingan forum erdosproblems
Yang lebih aneh, pembuktian itu ada di makalah Erdős sendiri, tetapi ia tetap meninggalkannya sebagai masalah terbuka
Fakta bahwa solusinya sudah ada tetapi tidak ada yang tahu terjadi karena orang memang tidak terlalu peduli
Hanya mencari literatur lama lalu menyebutnya sebagai ‘kemajuan baru’ bisa jadi merupakan kemajuan semu
Banyak bagian matematika murni pada akhirnya terasa seperti permainan teka-teki intelektual
Menurut penjelasan wiki dari Tao,
masalah Erdos sangat bervariasi tingkat kesulitannya, dan sebagian diklasifikasikan sebagai masalah mudah yang cocok diselesaikan AI
Masalah yang mudah pun berada pada tingkat “bahkan matematikawan terbaik pun tidak bisa langsung menyelesaikannya”, sehingga cocok sebagai tolok ukur kinerja AI
Seiring AI berkembang, tampaknya ia akan naik tangga kesulitan menuju masalah yang semakin sulit
dan bahkan tidak tahu bahwa pembuktian itu ada di makalah Erdos sendiri
Namun Fediverse dan Twitter justru ramai menyebutnya sebagai terobosan LLM
ia terkesan karena LLM berhasil menghindari kesalahan dalam pertukaran limit atau penanganan kuantifier
Model generasi sebelumnya kemungkinan akan keliru di bagian seperti ini,
dan ia mengatakan hasil tersebut dimasukkan ke bagian 1 wiki
hasil yang sama sudah pernah dibuktikan
Tao berkomentar, “Pembuktian baru berbeda dari yang lama, tetapi saya pindahkan ke bagian 2”
Model terbaru berbicara dengan percaya diri tentang “kode yang 100% sempurna”, tetapi pada kenyataannya crash
Saat mencoba pembayaran z.ai juga muncul error sehingga bahkan tidak bisa membeli
LLM adalah teknologi yang menakjubkan, tetapi pada saat yang sama juga terlalu dibesar-besarkan
Diperlukan verifikasi empiris seperti log atau hasil eksekusi
Model hanya menghasilkan teks, dan aplikasilah yang harus memverifikasinya
Namun menghasilkan teks yang sempurna saat ini adalah sesuatu yang mustahil
Karena saya sering melihat LLM dengan percaya diri memberikan jawaban yang salah
Kebijakan memori dan pembatasan akses model OpenAI juga merupakan topik yang menarik
Kasus kali ini adalah ChatGPT 5.2 memberikan jawaban dalam 1 jam,
tetapi tidak jelas apakah itu bisa direplikasi, mengapa solusi seperti itu muncul, dan apa sebenarnya yang dibuktikan
Verifikasi dari Tao memberi kepercayaan, tetapi pada akhirnya tetap muncul pertanyaan: “Apakah model ini dilatih agar lebih cocok untuk matematika murni?”
Lihat juga kasus sebelumnya dan tautan sesi ChatGPT
Tautan terkait
lalu diverifikasi dengan sistem pembuktian formal seperti Lean
Tao mula-mula memeriksa ketepatan pembuktiannya, lalu memeriksa kebaruannya lewat penelusuran literatur
Saat ini hampir tidak ada pembuktian yang sepenuhnya baru, tetapi pendekatan baru mulai bermunculan
Kasus ini juga awalnya tampak seperti pembuktian baru, tetapi pada akhirnya merupakan hasil yang sudah diketahui Erdos
Ketika kedua pembuktian itu dimasukkan ke Opus, katanya terkonfirmasi ekuivalen
sambil menekankan bahwa jika verifikasi detailnya kurang, seluruh pembuktian bisa runtuh
Sebagai contoh, himpunan (U_k) disebut untuk menunjukkan kemungkinan kontracontoh
Lihat diskusi terkait di komentar ini
Akurasi matematikanya lebih rendah dibanding ChatGPT atau Gemini Pro
Muncul pertanyaan apakah beberapa matematikawan profesional sebenarnya memakai AI tetapi tidak mengungkapkannya
Seperti perlombaan doping dalam olahraga, semua orang akan memakainya agar tidak tertinggal
Lagi pula penggunaan AI juga bukan pelanggaran aturan
tetapi LLM belum menghasilkan kemajuan yang benar-benar substantif
Secara pribadi saya rasa satu baris ucapan terima kasih sudah tepat
Sebagai postdok matematika, setelah mencoba GPT 5.2 saya merasa model ini lebih jarang berbohong dan jujur saat gagal
Sebaliknya, Gemini 3 cenderung mengarang teorema fiktif ketika salah
atau benar-benar merupakan hasil riset yang orisinal
masalah Erdos memiliki rentang kesulitan yang lebar, dan ada kelompok masalah berkesulitan rendah yang mudah diselesaikan AI
Jika suatu masalah masuk daftar Erdos, setidaknya ada kemungkinan seseorang pernah mencoba sekali