GPT-5.4 Pro memecahkan tantangan matematika tipe Ramsey pada hipergraf

(epoch.ai)

2 poin oleh GN⁺ 27 hari lalu | 1 komentar | Bagikan ke WhatsApp

GPT-5.4 Pro memecahkan masalah tipe Ramsey terkait hipergraf melalui kolaborasi dengan Kevin Barreto dan Liam Price
Pengusul masalah, Will Brian, memverifikasi kebenaran solusinya, dan seluruh rekaman percakapan beserta dokumen penjelasan akhir AI telah dipublikasikan
Solusi tersebut menghilangkan inefisiensi pada konstruksi batas bawah yang ada dan menyajikan struktur simetris pada batas atas, sehingga mencapai konsistensi yang jarang ditemui dalam teori Ramsey
Setelah itu, dalam framework FrontierMath: Open Problems, beberapa model lain juga memecahkan masalah yang sama, membuktikan validitasnya sebagai alat verifikasi kemampuan penalaran matematis AI
Pencapaian ini dinilai sebagai contoh bahwa AI dapat berkontribusi secara nyata pada penyelesaian masalah matematika yang belum terpecahkan

Penyelesaian masalah tipe Ramsey pada hipergraf

GPT-5.4 Pro memecahkan masalah tipe Ramsey yang sulit terkait hipergraf melalui kolaborasi dengan Kevin Barreto dan Liam Price
- Pengusul masalah, Will Brian, memverifikasi kebenaran solusi tersebut
- Seluruh rekaman percakapan selama proses penyelesaian dan dokumen penjelasan akhir dari GPT-5.4 Pro telah dipublikasikan
Brian menilai bahwa solusi ini menghilangkan inefisiensi konstruksi batas bawah yang ada dan menunjukkan kompleksitas serta struktur simetris dari konstruksi batas atas
- Hasilnya menunjukkan kecocokan yang konsisten antara batas bawah dan batas atas, sehingga mencapai tingkat konsistensi yang langka dalam masalah teori Ramsey
- Ia berencana merangkum hasil ini dalam sebuah makalah, dan kemungkinan juga akan memasukkan riset lanjutan yang berasal dari ide AI
Setelah itu, Epoch AI menyelesaikan framework pengujian FrontierMath: Open Problems dan menerapkan masalah yang sama ke beberapa model
- Model Opus 4.6 (max), Gemini 3.1 Pro, dan GPT-5.4 (xhigh) juga berhasil memecahkan masalah tersebut
- Ini menunjukkan bahwa lingkungan FrontierMath efektif untuk mengevaluasi kemampuan penalaran matematis model AI

Definisi masalah

Masalah ini berfokus pada peningkatan batas bawah dari barisan (H(n)), yang muncul dalam studi konvergensi simultan himpunan deret tak hingga
- Bahwa hipergraf ((V, \mathcal H)) memuat sebuah partisi (partition) berukuran (n) berarti terdapat (D \subseteq V), (\mathcal P \subseteq \mathcal H) sehingga (|D| = n), dan setiap elemen di (D) termasuk tepat dalam satu elemen dari (\mathcal P)
- (H(n)) didefinisikan sebagai jumlah maksimum simpul (k) dari hipergraf yang tidak memiliki simpul terisolasi dan tidak memuat partisi yang lebih besar dari ukuran (n)
Batas bawah (H(n)) yang telah diketahui diyakini sangat mungkin belum optimal, dan diperkirakan dapat ditingkatkan melalui konstruksi hipergraf baru
- Tujuannya adalah menemukan algoritme yang memenuhi (H(n) \ge c \cdot k_n) (dengan (c > 1))
- (k_n) didefinisikan oleh relasi rekursif (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

Tahapan penyusunan masalah

Tahap Warm-up
- Membangun hipergraf untuk nilai (n) yang solusinya sudah diketahui
- Syarat: (|V| ≥ 64), (|H| ≤ 20), tidak ada partisi berukuran lebih dari 20
Tahap Single Challenge
- Tugas mencari hipergraf dengan syarat yang sama untuk nilai (n) yang belum memiliki solusi diketahui
- Syarat: (|V| ≥ 66), (|H| ≤ 20), tidak ada partisi berukuran lebih dari 20
Tahap Full Problem
- Meminta algoritme umum yang bekerja untuk semua (n)
- Untuk input (n), harus menghasilkan hipergraf yang memenuhi (H(n) ≥ c \cdot k_n)
- Untuk (n ≤ 100), algoritme harus dapat dijalankan dalam 10 menit di laptop biasa

Penilaian para matematikawan

Jumlah matematikawan yang akrab dengan masalah ini diperkirakan hanya sekitar 10 orang, termasuk banyak peneliti di bidang terkait
Matematikawan yang benar-benar mencoba menyelesaikannya diperkirakan sekitar 5–10 orang
Perkiraan waktu yang dibutuhkan seorang ahli untuk menyelesaikannya adalah 1–3 bulan
Jika berhasil diselesaikan, hasilnya dinilai layak dipublikasikan di jurnal akademik spesialis
Karena kekayaan struktur masalahnya, solusinya sangat mungkin mengarah pada riset matematika baru
Dalam syarat yang dinyatakan, probabilitas masalah ini dapat diselesaikan dinilai 95–99%

1 komentar

GN⁺ 27 hari lalu

Komentar Hacker News

Mengejutkan melihat banyak orang begitu yakin bahwa “LLM tidak bisa punya kreativitas sejati”
Hanya berkata “mustahil karena tidak ada di data pelatihan” itu tidak cukup. Sudah ada banyak contoh tandingan
Kalau begitu, perlu ada dasar kenapa sebagian tugas baru dianggap mungkin, dan sebagian lain dianggap mustahil
Jika kita mengakui bahwa ‘kebaruan’ ada di atas suatu spektrum, saya penasaran di mana garisnya ditarik, dan bukti seperti apa yang akan membuat pandangan itu berubah
- Kalau menjawab pertanyaan saya sendiri, memang ada argumen logis tentang batas fundamental LLM
  1. Karena belajar dari data manusia, ia meniru keterbatasan manusia
  2. Ia tidak belajar dari pengalaman
    Tapi ada juga bantahannya. Setelah melihat model yang meraih emas Olimpiade Matematika, saya meninggalkan klaim pertama
    Dan dengan tambahan RL serta memori, tampaknya batas kedua juga bisa diatasi
    Mungkin saja LLM besar bisa menginternalisasi informasi seperti manusia
    Contoh terkait: tulisan blog METR
- Pada dasarnya LLM bisa menghasilkan apa saja. Hanya saja ia tidak memahami apa yang dibuatnya
  Manusia mendefinisikan “kebaruan sejati” terlalu megah — misalnya rumus superkonduktor atau penemuan obat baru
  Padahal, cara baru mengikat tali sepatu juga secara ‘formal’ adalah sesuatu yang baru
  LLM bisa menyelesaikan tak terhitung banyaknya masalah kecil seperti ini, tetapi itu mungkin bukan inovasi bermakna yang membuat manusia takjub
- Saya sedang membuat utilitas di macOS untuk ‘melihat tembus’ jendela aplikasi, dan Claude Code menyarankan agar tidak memakai ScreenCaptureKit
  Ia menolak dengan tepat dengan alasan overhead performa lalu mengusulkan pendekatan yang sama sekali berbeda
  Memang bukan masalah yang sangat baru, tetapi itu cukup kreatif sebagai solusi, dan saya terkesan
  Gambar proyek
- Alasan LLM bisa menyelesaikan soal perkalian baru adalah karena selama pelatihan ia melihat begitu banyak contoh perkalian dan mempelajari strategi abstrak terkompresi
  Itu bukan sekadar hafalan, melainkan operasi yang digeneralisasi dan diinternalisasi sebagai rangkaian internal di jaringan saraf
- Sebagian besar penemuan adalah hasil interpolasi dari tiga ide yang sudah ada. Sistem seperti ini sangat bagus dalam hal itu
Saya dulu berpikir saya akan percaya kalau AI bisa menyelesaikan masalah sulit sendiri, dan kalau hasil kali ini memang nyata, rasanya sekarang saya sudah jadi orang percaya
Saya ingin melihat lebih banyak contoh, tetapi dunia benar-benar sedang berubah menjadi sesuatu yang baru dan menarik
- Soal kompetisi matematika dan coding mudah dipelajari karena aturannya jelas dan verifikasinya mudah
  Tetapi di area dengan definisi kabur seperti kualitas kode, halusinasi justru meningkat
  Karena tidak ada fungsi nilai yang dipelajari sendiri seperti AlphaGo, RL saja punya keterbatasan
- Daripada “dunia baru yang menarik”, rasanya mulai sekarang kita akan masuk ke era daur ulang tanpa akhir
  AI terus-menerus menghasilkan konten yang ‘cukup oke’, tetapi rasa takjub yang sesungguhnya menghilang
  Hal-hal baik yang dulu dipertukarkan manusia berkurang, dan yang buruk justru terasa diperkuat
- LLM hanyalah remixer. Ia cuma memprediksi kombinasi karakter yang pernah ada, bukan menciptakan pola yang benar-benar baru dengan sendirinya
- Saya penasaran kenapa ‘menyelesaikan masalah sulit’ dijadikan tolok ukur AI
  Kebanyakan manusia juga tidak bisa menyelesaikan masalah seperti itu, sementara AI sudah unggul dalam pekerjaan pengetahuan umum
  Kalau standarnya seperti itu, definisinya sudah lebih dekat ke AGI atau ASI
- Beberapa VC terkenal bilang DeepSeek itu “model superjenius” karena menyelesaikan soal elektromagnetisme tingkat pengantar, tapi terasa berlebihan
  Perlu verifikasi ahli tentang sebenarnya soal seperti apa yang berhasil diselesaikan
Rasanya asumsi dasar bahwa manusia itu istimewa masih terlalu kuat
Orang kurang mempertimbangkan bahwa penjelasan “sekadar berhasil setelah banyak percobaan” juga bisa berlaku untuk manusia
Bahkan di komunitas yang menekankan cara berpikir ilmiah, eksepsionalisme manusia tertanam sangat dalam
- Manusia punya kemampuan bernalar dengan daya 20 watt tanpa pengalaman. Itu jelas istimewa
- Pencapaian kali ini pun pada akhirnya bermakna karena manusialah yang membuat masalahnya dan memverifikasinya bersama AI
  AI tidak menetapkan tujuan sendiri atau mengenali pencapaiannya
  Setelah biaya yang sangat besar, mungkin yang didapat hanya kemajuan matematika kecil
- Bahwa manusia itu istimewa bukan cuma keyakinan, tetapi fakta empiris yang dibahas neurosains dan ilmu kognitif
  Saya seorang fungsionalis, tetapi saya tidak menganggap apa yang ‘tampak seperti kecerdasan’ pada LLM sebagai kecerdasan yang nyata
- Untuk memahami keunikan manusia, mungkin bisa melihat teori Orchestrated Objective Reduction
- Maksudnya bukan manusia itu istimewa, melainkan model statistik hampir tidak bisa berpikir di luar kerangka
Seluruh percakapan dengan GPT‑5.4 Pro dan laporan hasilnya sudah dipublikasikan
Transkrip lengkap / Ringkasan hasil
- Saya penasaran isi sebenarnya dari berkas solution template yang disediakan
  Menarik juga bagaimana pengguna memperbarui penggunaan token di tengah jalan sambil memperluas konteks
Karena Opus 4.6 menghabiskan sekitar 250 ribu token, saya jadi membayangkan jumlah token sebagai indikator tingkat kesulitan masalah
Jadi refactor React yang saya kerjakan hari ini berarti kira-kira setengah sesulit masalah matematika terbuka itu, yang lucu juga
- Terdengar seperti lelucon, tetapi matematika pada dasarnya adalah bidang yang sangat tertutup, jadi mungkin memang begitu
  Ada masalah yang mungkin hanya pernah dicoba oleh 5–10 orang di seluruh dunia
  Seperti software yang tak selesai karena kurang motivasi, masalah matematika juga bisa tetap tak terpecahkan hanya karena terlalu sedikit yang mencoba
  Tetap saja, AI yang menyelesaikan masalah seperti ini adalah sesuatu yang nyaris ajaib
- Manajemen konteks itu penting. Pemborosan token berujung pada penurunan performa
  Semakin besar konteks, biaya pun naik, dan penyedia layanan bisa saja menaikkan harga satuan
- Dari perbandingan output Opus 4.6 dan GPT‑5.4 Pro, yang pertama lebih menarik karena menunjukkan lebih banyak upaya verifikasi dan alur pemikiran yang beragam
- Dalam matematika, satu variabel bisa berarti satu token, tetapi software memakai jauh lebih banyak token karena keterbacaan
- Jumlah token bukan indikator kompleksitas. Masalah yang berpusat pada data menghabiskan jauh lebih banyak token daripada masalah berpikir yang sederhana
Kemampuan AI ditentukan oleh fungsi biaya yang dilatih padanya
Pada akhirnya, kecerdasan adalah proses meminimalkan fungsi biaya yang kompleks
Di bidang seperti matematika dan coding yang bisa diverifikasi secara otomatis, pendekatan seperti RLVR akan berkembang cepat
Tetapi di area dengan imbalan sosial atau ketidakpastian tinggi, kemajuannya bisa lebih lambat
- Ada juga bantahan bahwa “ada masalah yang tidak bisa dinyatakan sebagai fungsi biaya”
  Misalnya, pengenalan bilangan kompleks bisa dilihat sebagai hasil dari optimasi representasi
Para pakar domain sedang mengajarkan cara mereka menyelesaikan masalah kepada LLM
Pada akhirnya, LLM akan meniru pola pikir mereka sambil memecahkan masalah
Saya rasa ada banyak masalah yang bisa diselesaikan dengan cara resampling bukti yang sudah ada
Pencarian berulang yang akan membuat manusia gila bisa dilakukan mesin dengan sangat gigih
Ini mungkin bukan lompatan besar, tetapi ia bisa berperan dalam mengubah dugaan menjadi teorema
- Pertanyaannya apakah bukti itu bermakna. Sebagian besar kemungkinan hanya pengulangan dalam paradigma yang ada
  Kasus yang benar-benar membuka cara pandang baru itu langka
  Bisa jadi cuma pemborosan token
- Saya pikir semua penemuan adalah hasil sintesis kombinatorial. Hampir tidak ada yang lahir dari kehampaan total
- Kalau begitu, saya penasaran bagaimana kita harus merancang benchmark untuk menilai ‘kebaruan sejati’
Halaman Open Problems milik Epoch memiliki 15 masalah beserta klasifikasi tingkat kesulitannya
Yang berhasil diselesaikan kali ini ada di tahap ‘moderately interesting’, termasuk kelompok yang paling mudah
Meski begitu, tetap mengesankan bahwa masalah tersebut sudah dipublikasikan sebelum berhasil diselesaikan
Saya penasaran seberapa cepat 3 masalah lain di tingkat yang sama akan ikut terpecahkan
- Bagi saya, LLM yang bisa menyelesaikan masalah terbuka apa pun sudah merupakan peristiwa setara fiksi ilmiah
Judulnya agak menyesatkan
Judul aslinya adalah “A Ramsey-style Problem on Hypergraphs”, dan yang menyelesaikannya bukan hanya GPT‑5.4 melainkan beberapa model mutakhir
Meski begitu, ini tetap pencapaian yang keren

GPT-5.4 Pro memecahkan tantangan matematika tipe Ramsey pada hipergraf

Penyelesaian masalah tipe Ramsey pada hipergraf

Definisi masalah

Tahapan penyusunan masalah

Tahap Warm-up

Tahap Single Challenge

Tahap Full Problem

Penilaian para matematikawan

Bacaan terkait

1 komentar

Komentar Hacker News