- GPT-5.4 Pro memecahkan masalah tipe Ramsey terkait hipergraf melalui kolaborasi dengan Kevin Barreto dan Liam Price
- Pengusul masalah, Will Brian, memverifikasi kebenaran solusinya, dan seluruh rekaman percakapan beserta dokumen penjelasan akhir AI telah dipublikasikan
- Solusi tersebut menghilangkan inefisiensi pada konstruksi batas bawah yang ada dan menyajikan struktur simetris pada batas atas, sehingga mencapai konsistensi yang jarang ditemui dalam teori Ramsey
- Setelah itu, dalam framework FrontierMath: Open Problems, beberapa model lain juga memecahkan masalah yang sama, membuktikan validitasnya sebagai alat verifikasi kemampuan penalaran matematis AI
- Pencapaian ini dinilai sebagai contoh bahwa AI dapat berkontribusi secara nyata pada penyelesaian masalah matematika yang belum terpecahkan
Penyelesaian masalah tipe Ramsey pada hipergraf
- GPT-5.4 Pro memecahkan masalah tipe Ramsey yang sulit terkait hipergraf melalui kolaborasi dengan Kevin Barreto dan Liam Price
- Pengusul masalah, Will Brian, memverifikasi kebenaran solusi tersebut
- Seluruh rekaman percakapan selama proses penyelesaian dan dokumen penjelasan akhir dari GPT-5.4 Pro telah dipublikasikan
- Brian menilai bahwa solusi ini menghilangkan inefisiensi konstruksi batas bawah yang ada dan menunjukkan kompleksitas serta struktur simetris dari konstruksi batas atas
- Hasilnya menunjukkan kecocokan yang konsisten antara batas bawah dan batas atas, sehingga mencapai tingkat konsistensi yang langka dalam masalah teori Ramsey
- Ia berencana merangkum hasil ini dalam sebuah makalah, dan kemungkinan juga akan memasukkan riset lanjutan yang berasal dari ide AI
- Setelah itu, Epoch AI menyelesaikan framework pengujian FrontierMath: Open Problems dan menerapkan masalah yang sama ke beberapa model
- Model Opus 4.6 (max), Gemini 3.1 Pro, dan GPT-5.4 (xhigh) juga berhasil memecahkan masalah tersebut
- Ini menunjukkan bahwa lingkungan FrontierMath efektif untuk mengevaluasi kemampuan penalaran matematis model AI
Definisi masalah
- Masalah ini berfokus pada peningkatan batas bawah dari barisan (H(n)), yang muncul dalam studi konvergensi simultan himpunan deret tak hingga
- Bahwa hipergraf ((V, \mathcal H)) memuat sebuah partisi (partition) berukuran (n) berarti terdapat
(D \subseteq V), (\mathcal P \subseteq \mathcal H) sehingga (|D| = n), dan
setiap elemen di (D) termasuk tepat dalam satu elemen dari (\mathcal P)
- (H(n)) didefinisikan sebagai jumlah maksimum simpul (k) dari hipergraf yang tidak memiliki simpul terisolasi dan tidak memuat partisi yang lebih besar dari ukuran (n)
- Batas bawah (H(n)) yang telah diketahui diyakini sangat mungkin belum optimal, dan diperkirakan dapat ditingkatkan melalui konstruksi hipergraf baru
- Tujuannya adalah menemukan algoritme yang memenuhi (H(n) \ge c \cdot k_n) (dengan (c > 1))
- (k_n) didefinisikan oleh relasi rekursif (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})
Tahapan penyusunan masalah
-
Tahap Warm-up
- Membangun hipergraf untuk nilai (n) yang solusinya sudah diketahui
- Syarat: (|V| ≥ 64), (|H| ≤ 20), tidak ada partisi berukuran lebih dari 20
-
Tahap Single Challenge
- Tugas mencari hipergraf dengan syarat yang sama untuk nilai (n) yang belum memiliki solusi diketahui
- Syarat: (|V| ≥ 66), (|H| ≤ 20), tidak ada partisi berukuran lebih dari 20
-
Tahap Full Problem
- Meminta algoritme umum yang bekerja untuk semua (n)
- Untuk input (n), harus menghasilkan hipergraf yang memenuhi (H(n) ≥ c \cdot k_n)
- Untuk (n ≤ 100), algoritme harus dapat dijalankan dalam 10 menit di laptop biasa
Penilaian para matematikawan
- Jumlah matematikawan yang akrab dengan masalah ini diperkirakan hanya sekitar 10 orang, termasuk banyak peneliti di bidang terkait
- Matematikawan yang benar-benar mencoba menyelesaikannya diperkirakan sekitar 5–10 orang
- Perkiraan waktu yang dibutuhkan seorang ahli untuk menyelesaikannya adalah 1–3 bulan
- Jika berhasil diselesaikan, hasilnya dinilai layak dipublikasikan di jurnal akademik spesialis
- Karena kekayaan struktur masalahnya, solusinya sangat mungkin mengarah pada riset matematika baru
- Dalam syarat yang dinyatakan, probabilitas masalah ini dapat diselesaikan dinilai 95–99%
1 komentar
Komentar Hacker News
Mengejutkan melihat banyak orang begitu yakin bahwa “LLM tidak bisa punya kreativitas sejati”
Hanya berkata “mustahil karena tidak ada di data pelatihan” itu tidak cukup. Sudah ada banyak contoh tandingan
Kalau begitu, perlu ada dasar kenapa sebagian tugas baru dianggap mungkin, dan sebagian lain dianggap mustahil
Jika kita mengakui bahwa ‘kebaruan’ ada di atas suatu spektrum, saya penasaran di mana garisnya ditarik, dan bukti seperti apa yang akan membuat pandangan itu berubah
Tapi ada juga bantahannya. Setelah melihat model yang meraih emas Olimpiade Matematika, saya meninggalkan klaim pertama
Dan dengan tambahan RL serta memori, tampaknya batas kedua juga bisa diatasi
Mungkin saja LLM besar bisa menginternalisasi informasi seperti manusia
Contoh terkait: tulisan blog METR
Manusia mendefinisikan “kebaruan sejati” terlalu megah — misalnya rumus superkonduktor atau penemuan obat baru
Padahal, cara baru mengikat tali sepatu juga secara ‘formal’ adalah sesuatu yang baru
LLM bisa menyelesaikan tak terhitung banyaknya masalah kecil seperti ini, tetapi itu mungkin bukan inovasi bermakna yang membuat manusia takjub
Ia menolak dengan tepat dengan alasan overhead performa lalu mengusulkan pendekatan yang sama sekali berbeda
Memang bukan masalah yang sangat baru, tetapi itu cukup kreatif sebagai solusi, dan saya terkesan
Gambar proyek
Itu bukan sekadar hafalan, melainkan operasi yang digeneralisasi dan diinternalisasi sebagai rangkaian internal di jaringan saraf
Saya dulu berpikir saya akan percaya kalau AI bisa menyelesaikan masalah sulit sendiri, dan kalau hasil kali ini memang nyata, rasanya sekarang saya sudah jadi orang percaya
Saya ingin melihat lebih banyak contoh, tetapi dunia benar-benar sedang berubah menjadi sesuatu yang baru dan menarik
Tetapi di area dengan definisi kabur seperti kualitas kode, halusinasi justru meningkat
Karena tidak ada fungsi nilai yang dipelajari sendiri seperti AlphaGo, RL saja punya keterbatasan
AI terus-menerus menghasilkan konten yang ‘cukup oke’, tetapi rasa takjub yang sesungguhnya menghilang
Hal-hal baik yang dulu dipertukarkan manusia berkurang, dan yang buruk justru terasa diperkuat
Kebanyakan manusia juga tidak bisa menyelesaikan masalah seperti itu, sementara AI sudah unggul dalam pekerjaan pengetahuan umum
Kalau standarnya seperti itu, definisinya sudah lebih dekat ke AGI atau ASI
Perlu verifikasi ahli tentang sebenarnya soal seperti apa yang berhasil diselesaikan
Rasanya asumsi dasar bahwa manusia itu istimewa masih terlalu kuat
Orang kurang mempertimbangkan bahwa penjelasan “sekadar berhasil setelah banyak percobaan” juga bisa berlaku untuk manusia
Bahkan di komunitas yang menekankan cara berpikir ilmiah, eksepsionalisme manusia tertanam sangat dalam
AI tidak menetapkan tujuan sendiri atau mengenali pencapaiannya
Setelah biaya yang sangat besar, mungkin yang didapat hanya kemajuan matematika kecil
Saya seorang fungsionalis, tetapi saya tidak menganggap apa yang ‘tampak seperti kecerdasan’ pada LLM sebagai kecerdasan yang nyata
Seluruh percakapan dengan GPT‑5.4 Pro dan laporan hasilnya sudah dipublikasikan
Transkrip lengkap / Ringkasan hasil
Menarik juga bagaimana pengguna memperbarui penggunaan token di tengah jalan sambil memperluas konteks
Karena Opus 4.6 menghabiskan sekitar 250 ribu token, saya jadi membayangkan jumlah token sebagai indikator tingkat kesulitan masalah
Jadi refactor React yang saya kerjakan hari ini berarti kira-kira setengah sesulit masalah matematika terbuka itu, yang lucu juga
Ada masalah yang mungkin hanya pernah dicoba oleh 5–10 orang di seluruh dunia
Seperti software yang tak selesai karena kurang motivasi, masalah matematika juga bisa tetap tak terpecahkan hanya karena terlalu sedikit yang mencoba
Tetap saja, AI yang menyelesaikan masalah seperti ini adalah sesuatu yang nyaris ajaib
Semakin besar konteks, biaya pun naik, dan penyedia layanan bisa saja menaikkan harga satuan
Kemampuan AI ditentukan oleh fungsi biaya yang dilatih padanya
Pada akhirnya, kecerdasan adalah proses meminimalkan fungsi biaya yang kompleks
Di bidang seperti matematika dan coding yang bisa diverifikasi secara otomatis, pendekatan seperti RLVR akan berkembang cepat
Tetapi di area dengan imbalan sosial atau ketidakpastian tinggi, kemajuannya bisa lebih lambat
Misalnya, pengenalan bilangan kompleks bisa dilihat sebagai hasil dari optimasi representasi
Para pakar domain sedang mengajarkan cara mereka menyelesaikan masalah kepada LLM
Pada akhirnya, LLM akan meniru pola pikir mereka sambil memecahkan masalah
Saya rasa ada banyak masalah yang bisa diselesaikan dengan cara resampling bukti yang sudah ada
Pencarian berulang yang akan membuat manusia gila bisa dilakukan mesin dengan sangat gigih
Ini mungkin bukan lompatan besar, tetapi ia bisa berperan dalam mengubah dugaan menjadi teorema
Kasus yang benar-benar membuka cara pandang baru itu langka
Bisa jadi cuma pemborosan token
Halaman Open Problems milik Epoch memiliki 15 masalah beserta klasifikasi tingkat kesulitannya
Yang berhasil diselesaikan kali ini ada di tahap ‘moderately interesting’, termasuk kelompok yang paling mudah
Meski begitu, tetap mengesankan bahwa masalah tersebut sudah dipublikasikan sebelum berhasil diselesaikan
Saya penasaran seberapa cepat 3 masalah lain di tingkat yang sama akan ikut terpecahkan
Judulnya agak menyesatkan
Judul aslinya adalah “A Ramsey-style Problem on Hypergraphs”, dan yang menyelesaikannya bukan hanya GPT‑5.4 melainkan beberapa model mutakhir
Meski begitu, ini tetap pencapaian yang keren