2 poin oleh GN⁺ 27 hari lalu | 1 komentar | Bagikan ke WhatsApp
  • GPT-5.4 Pro memecahkan masalah tipe Ramsey terkait hipergraf melalui kolaborasi dengan Kevin Barreto dan Liam Price
  • Pengusul masalah, Will Brian, memverifikasi kebenaran solusinya, dan seluruh rekaman percakapan beserta dokumen penjelasan akhir AI telah dipublikasikan
  • Solusi tersebut menghilangkan inefisiensi pada konstruksi batas bawah yang ada dan menyajikan struktur simetris pada batas atas, sehingga mencapai konsistensi yang jarang ditemui dalam teori Ramsey
  • Setelah itu, dalam framework FrontierMath: Open Problems, beberapa model lain juga memecahkan masalah yang sama, membuktikan validitasnya sebagai alat verifikasi kemampuan penalaran matematis AI
  • Pencapaian ini dinilai sebagai contoh bahwa AI dapat berkontribusi secara nyata pada penyelesaian masalah matematika yang belum terpecahkan

Penyelesaian masalah tipe Ramsey pada hipergraf

  • GPT-5.4 Pro memecahkan masalah tipe Ramsey yang sulit terkait hipergraf melalui kolaborasi dengan Kevin Barreto dan Liam Price
    • Pengusul masalah, Will Brian, memverifikasi kebenaran solusi tersebut
    • Seluruh rekaman percakapan selama proses penyelesaian dan dokumen penjelasan akhir dari GPT-5.4 Pro telah dipublikasikan
  • Brian menilai bahwa solusi ini menghilangkan inefisiensi konstruksi batas bawah yang ada dan menunjukkan kompleksitas serta struktur simetris dari konstruksi batas atas
    • Hasilnya menunjukkan kecocokan yang konsisten antara batas bawah dan batas atas, sehingga mencapai tingkat konsistensi yang langka dalam masalah teori Ramsey
    • Ia berencana merangkum hasil ini dalam sebuah makalah, dan kemungkinan juga akan memasukkan riset lanjutan yang berasal dari ide AI
  • Setelah itu, Epoch AI menyelesaikan framework pengujian FrontierMath: Open Problems dan menerapkan masalah yang sama ke beberapa model
    • Model Opus 4.6 (max), Gemini 3.1 Pro, dan GPT-5.4 (xhigh) juga berhasil memecahkan masalah tersebut
    • Ini menunjukkan bahwa lingkungan FrontierMath efektif untuk mengevaluasi kemampuan penalaran matematis model AI

Definisi masalah

  • Masalah ini berfokus pada peningkatan batas bawah dari barisan (H(n)), yang muncul dalam studi konvergensi simultan himpunan deret tak hingga
    • Bahwa hipergraf ((V, \mathcal H)) memuat sebuah partisi (partition) berukuran (n) berarti terdapat (D \subseteq V), (\mathcal P \subseteq \mathcal H) sehingga (|D| = n), dan setiap elemen di (D) termasuk tepat dalam satu elemen dari (\mathcal P)
    • (H(n)) didefinisikan sebagai jumlah maksimum simpul (k) dari hipergraf yang tidak memiliki simpul terisolasi dan tidak memuat partisi yang lebih besar dari ukuran (n)
  • Batas bawah (H(n)) yang telah diketahui diyakini sangat mungkin belum optimal, dan diperkirakan dapat ditingkatkan melalui konstruksi hipergraf baru
    • Tujuannya adalah menemukan algoritme yang memenuhi (H(n) \ge c \cdot k_n) (dengan (c > 1))
    • (k_n) didefinisikan oleh relasi rekursif (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

Tahapan penyusunan masalah

  • Tahap Warm-up

    • Membangun hipergraf untuk nilai (n) yang solusinya sudah diketahui
    • Syarat: (|V| ≥ 64), (|H| ≤ 20), tidak ada partisi berukuran lebih dari 20
  • Tahap Single Challenge

    • Tugas mencari hipergraf dengan syarat yang sama untuk nilai (n) yang belum memiliki solusi diketahui
    • Syarat: (|V| ≥ 66), (|H| ≤ 20), tidak ada partisi berukuran lebih dari 20
  • Tahap Full Problem

    • Meminta algoritme umum yang bekerja untuk semua (n)
    • Untuk input (n), harus menghasilkan hipergraf yang memenuhi (H(n) ≥ c \cdot k_n)
    • Untuk (n ≤ 100), algoritme harus dapat dijalankan dalam 10 menit di laptop biasa

Penilaian para matematikawan

  • Jumlah matematikawan yang akrab dengan masalah ini diperkirakan hanya sekitar 10 orang, termasuk banyak peneliti di bidang terkait
  • Matematikawan yang benar-benar mencoba menyelesaikannya diperkirakan sekitar 5–10 orang
  • Perkiraan waktu yang dibutuhkan seorang ahli untuk menyelesaikannya adalah 1–3 bulan
  • Jika berhasil diselesaikan, hasilnya dinilai layak dipublikasikan di jurnal akademik spesialis
  • Karena kekayaan struktur masalahnya, solusinya sangat mungkin mengarah pada riset matematika baru
  • Dalam syarat yang dinyatakan, probabilitas masalah ini dapat diselesaikan dinilai 95–99%

1 komentar

 
GN⁺ 27 hari lalu
Komentar Hacker News
  • Mengejutkan melihat banyak orang begitu yakin bahwa “LLM tidak bisa punya kreativitas sejati
    Hanya berkata “mustahil karena tidak ada di data pelatihan” itu tidak cukup. Sudah ada banyak contoh tandingan
    Kalau begitu, perlu ada dasar kenapa sebagian tugas baru dianggap mungkin, dan sebagian lain dianggap mustahil
    Jika kita mengakui bahwa ‘kebaruan’ ada di atas suatu spektrum, saya penasaran di mana garisnya ditarik, dan bukti seperti apa yang akan membuat pandangan itu berubah

    • Kalau menjawab pertanyaan saya sendiri, memang ada argumen logis tentang batas fundamental LLM
      1. Karena belajar dari data manusia, ia meniru keterbatasan manusia
      2. Ia tidak belajar dari pengalaman
        Tapi ada juga bantahannya. Setelah melihat model yang meraih emas Olimpiade Matematika, saya meninggalkan klaim pertama
        Dan dengan tambahan RL serta memori, tampaknya batas kedua juga bisa diatasi
        Mungkin saja LLM besar bisa menginternalisasi informasi seperti manusia
        Contoh terkait: tulisan blog METR
    • Pada dasarnya LLM bisa menghasilkan apa saja. Hanya saja ia tidak memahami apa yang dibuatnya
      Manusia mendefinisikan “kebaruan sejati” terlalu megah — misalnya rumus superkonduktor atau penemuan obat baru
      Padahal, cara baru mengikat tali sepatu juga secara ‘formal’ adalah sesuatu yang baru
      LLM bisa menyelesaikan tak terhitung banyaknya masalah kecil seperti ini, tetapi itu mungkin bukan inovasi bermakna yang membuat manusia takjub
    • Saya sedang membuat utilitas di macOS untuk ‘melihat tembus’ jendela aplikasi, dan Claude Code menyarankan agar tidak memakai ScreenCaptureKit
      Ia menolak dengan tepat dengan alasan overhead performa lalu mengusulkan pendekatan yang sama sekali berbeda
      Memang bukan masalah yang sangat baru, tetapi itu cukup kreatif sebagai solusi, dan saya terkesan
      Gambar proyek
    • Alasan LLM bisa menyelesaikan soal perkalian baru adalah karena selama pelatihan ia melihat begitu banyak contoh perkalian dan mempelajari strategi abstrak terkompresi
      Itu bukan sekadar hafalan, melainkan operasi yang digeneralisasi dan diinternalisasi sebagai rangkaian internal di jaringan saraf
    • Sebagian besar penemuan adalah hasil interpolasi dari tiga ide yang sudah ada. Sistem seperti ini sangat bagus dalam hal itu
  • Saya dulu berpikir saya akan percaya kalau AI bisa menyelesaikan masalah sulit sendiri, dan kalau hasil kali ini memang nyata, rasanya sekarang saya sudah jadi orang percaya
    Saya ingin melihat lebih banyak contoh, tetapi dunia benar-benar sedang berubah menjadi sesuatu yang baru dan menarik

    • Soal kompetisi matematika dan coding mudah dipelajari karena aturannya jelas dan verifikasinya mudah
      Tetapi di area dengan definisi kabur seperti kualitas kode, halusinasi justru meningkat
      Karena tidak ada fungsi nilai yang dipelajari sendiri seperti AlphaGo, RL saja punya keterbatasan
    • Daripada “dunia baru yang menarik”, rasanya mulai sekarang kita akan masuk ke era daur ulang tanpa akhir
      AI terus-menerus menghasilkan konten yang ‘cukup oke’, tetapi rasa takjub yang sesungguhnya menghilang
      Hal-hal baik yang dulu dipertukarkan manusia berkurang, dan yang buruk justru terasa diperkuat
    • LLM hanyalah remixer. Ia cuma memprediksi kombinasi karakter yang pernah ada, bukan menciptakan pola yang benar-benar baru dengan sendirinya
    • Saya penasaran kenapa ‘menyelesaikan masalah sulit’ dijadikan tolok ukur AI
      Kebanyakan manusia juga tidak bisa menyelesaikan masalah seperti itu, sementara AI sudah unggul dalam pekerjaan pengetahuan umum
      Kalau standarnya seperti itu, definisinya sudah lebih dekat ke AGI atau ASI
    • Beberapa VC terkenal bilang DeepSeek itu “model superjenius” karena menyelesaikan soal elektromagnetisme tingkat pengantar, tapi terasa berlebihan
      Perlu verifikasi ahli tentang sebenarnya soal seperti apa yang berhasil diselesaikan
  • Rasanya asumsi dasar bahwa manusia itu istimewa masih terlalu kuat
    Orang kurang mempertimbangkan bahwa penjelasan “sekadar berhasil setelah banyak percobaan” juga bisa berlaku untuk manusia
    Bahkan di komunitas yang menekankan cara berpikir ilmiah, eksepsionalisme manusia tertanam sangat dalam

    • Manusia punya kemampuan bernalar dengan daya 20 watt tanpa pengalaman. Itu jelas istimewa
    • Pencapaian kali ini pun pada akhirnya bermakna karena manusialah yang membuat masalahnya dan memverifikasinya bersama AI
      AI tidak menetapkan tujuan sendiri atau mengenali pencapaiannya
      Setelah biaya yang sangat besar, mungkin yang didapat hanya kemajuan matematika kecil
    • Bahwa manusia itu istimewa bukan cuma keyakinan, tetapi fakta empiris yang dibahas neurosains dan ilmu kognitif
      Saya seorang fungsionalis, tetapi saya tidak menganggap apa yang ‘tampak seperti kecerdasan’ pada LLM sebagai kecerdasan yang nyata
    • Untuk memahami keunikan manusia, mungkin bisa melihat teori Orchestrated Objective Reduction
    • Maksudnya bukan manusia itu istimewa, melainkan model statistik hampir tidak bisa berpikir di luar kerangka
  • Seluruh percakapan dengan GPT‑5.4 Pro dan laporan hasilnya sudah dipublikasikan
    Transkrip lengkap / Ringkasan hasil

    • Saya penasaran isi sebenarnya dari berkas solution template yang disediakan
      Menarik juga bagaimana pengguna memperbarui penggunaan token di tengah jalan sambil memperluas konteks
  • Karena Opus 4.6 menghabiskan sekitar 250 ribu token, saya jadi membayangkan jumlah token sebagai indikator tingkat kesulitan masalah
    Jadi refactor React yang saya kerjakan hari ini berarti kira-kira setengah sesulit masalah matematika terbuka itu, yang lucu juga

    • Terdengar seperti lelucon, tetapi matematika pada dasarnya adalah bidang yang sangat tertutup, jadi mungkin memang begitu
      Ada masalah yang mungkin hanya pernah dicoba oleh 5–10 orang di seluruh dunia
      Seperti software yang tak selesai karena kurang motivasi, masalah matematika juga bisa tetap tak terpecahkan hanya karena terlalu sedikit yang mencoba
      Tetap saja, AI yang menyelesaikan masalah seperti ini adalah sesuatu yang nyaris ajaib
    • Manajemen konteks itu penting. Pemborosan token berujung pada penurunan performa
      Semakin besar konteks, biaya pun naik, dan penyedia layanan bisa saja menaikkan harga satuan
    • Dari perbandingan output Opus 4.6 dan GPT‑5.4 Pro, yang pertama lebih menarik karena menunjukkan lebih banyak upaya verifikasi dan alur pemikiran yang beragam
    • Dalam matematika, satu variabel bisa berarti satu token, tetapi software memakai jauh lebih banyak token karena keterbacaan
    • Jumlah token bukan indikator kompleksitas. Masalah yang berpusat pada data menghabiskan jauh lebih banyak token daripada masalah berpikir yang sederhana
  • Kemampuan AI ditentukan oleh fungsi biaya yang dilatih padanya
    Pada akhirnya, kecerdasan adalah proses meminimalkan fungsi biaya yang kompleks
    Di bidang seperti matematika dan coding yang bisa diverifikasi secara otomatis, pendekatan seperti RLVR akan berkembang cepat
    Tetapi di area dengan imbalan sosial atau ketidakpastian tinggi, kemajuannya bisa lebih lambat

    • Ada juga bantahan bahwa “ada masalah yang tidak bisa dinyatakan sebagai fungsi biaya”
      Misalnya, pengenalan bilangan kompleks bisa dilihat sebagai hasil dari optimasi representasi
  • Para pakar domain sedang mengajarkan cara mereka menyelesaikan masalah kepada LLM
    Pada akhirnya, LLM akan meniru pola pikir mereka sambil memecahkan masalah

  • Saya rasa ada banyak masalah yang bisa diselesaikan dengan cara resampling bukti yang sudah ada
    Pencarian berulang yang akan membuat manusia gila bisa dilakukan mesin dengan sangat gigih
    Ini mungkin bukan lompatan besar, tetapi ia bisa berperan dalam mengubah dugaan menjadi teorema

    • Pertanyaannya apakah bukti itu bermakna. Sebagian besar kemungkinan hanya pengulangan dalam paradigma yang ada
      Kasus yang benar-benar membuka cara pandang baru itu langka
      Bisa jadi cuma pemborosan token
    • Saya pikir semua penemuan adalah hasil sintesis kombinatorial. Hampir tidak ada yang lahir dari kehampaan total
    • Kalau begitu, saya penasaran bagaimana kita harus merancang benchmark untuk menilai ‘kebaruan sejati’
  • Halaman Open Problems milik Epoch memiliki 15 masalah beserta klasifikasi tingkat kesulitannya
    Yang berhasil diselesaikan kali ini ada di tahap ‘moderately interesting’, termasuk kelompok yang paling mudah
    Meski begitu, tetap mengesankan bahwa masalah tersebut sudah dipublikasikan sebelum berhasil diselesaikan
    Saya penasaran seberapa cepat 3 masalah lain di tingkat yang sama akan ikut terpecahkan

    • Bagi saya, LLM yang bisa menyelesaikan masalah terbuka apa pun sudah merupakan peristiwa setara fiksi ilmiah
  • Judulnya agak menyesatkan
    Judul aslinya adalah “A Ramsey-style Problem on Hypergraphs”, dan yang menyelesaikannya bukan hanya GPT‑5.4 melainkan beberapa model mutakhir
    Meski begitu, ini tetap pencapaian yang keren