2 poin oleh GN⁺ 2024-09-15 | 1 komentar | Bagikan ke WhatsApp

Pengenalan mathstodon.xyz

  • mathstodon.xyz adalah bagian dari jejaring sosial terdesentralisasi berbasis Mastodon, berupa sebuah instance untuk pengguna yang terkait dengan matematika.
  • Mendukung rendering LaTeX di antarmuka web.
  • Admin: Christian Lawson-Perfect (@christianp)
  • Statistik server: 3 ribu pengguna aktif

Eksperimen GPT-o1 oleh Terence Tao

  • GPT-o1: versi GPT baru dari OpenAI yang melakukan tahap penalaran awal sebelum eksekusi LLM.
  • Eksperimen 1: dalam jawaban atas pertanyaan matematika yang ambigu, model ini secara tepat mengidentifikasi Cramer's theorem dan memberikan jawaban yang memuaskan.
    • Pada versi sebelumnya, konsep terkait memang disebutkan tetapi detailnya keliru.
  • Eksperimen 2: saat ditantang dengan masalah analisis yang kompleks, model ini berhasil menurunkan solusi yang benar dengan banyak petunjuk dan pengarahan, tetapi tidak dapat menghasilkan sendiri ide konseptual utama dan membuat beberapa kesalahan.
    • Ada peningkatan dibanding model sebelumnya, tetapi masih belum memadai.
    • Dengan beberapa peningkatan lagi ke depan, ada kemungkinan model ini berguna untuk pekerjaan tingkat riset.
  • Eksperimen 3: dalam tugas memformalkan hasil di Lean, model ini memahami masalah dengan baik dan melakukan dekomposisi awal dengan baik, tetapi karena kurangnya informasi Lean terbaru, ada beberapa kesalahan dalam kodenya.
    • Bisa sangat berguna dalam IDE terintegrasi yang menggabungkan model khusus untuk Lean dan Mathlib.

Diskusi tambahan

  • Perkembangan alat AI: diharapkan akan muncul ekosistem alat AI yang mampu menangani berbagai pekerjaan riset.
    • Saat ini LLM besar serbaguna mendapat sorotan, tetapi model open source ringan yang disesuaikan untuk aplikasi tertentu juga diperkirakan akan memainkan peran penting.
  • Perbandingan AI dengan mahasiswa pascasarjana: pembahasan tentang apakah alat AI dapat memberi kontribusi setingkat mahasiswa pascasarjana.
    • Saat ini masih membutuhkan lebih banyak upaya daripada mahasiswa pascasarjana, tetapi dalam beberapa tahun ke depan rasio itu mungkin turun menjadi 1 atau kurang.

# Ringkasan GN⁺

  • Terence Tao menguji model GPT-o1 baru dari OpenAI untuk mengevaluasi kemampuan pemecahan masalah matematisnya.
  • GPT-o1 menunjukkan peningkatan dibanding versi sebelumnya, tetapi masih memiliki beberapa keterbatasan.
  • Dengan beberapa peningkatan lagi ke depan, ada kemungkinan model ini berguna untuk pekerjaan tingkat riset.
  • Diharapkan akan muncul ekosistem di mana berbagai alat AI dapat mendukung pekerjaan riset.
  • Saat ini LLM besar serbaguna mendapat sorotan, tetapi model open source ringan yang disesuaikan untuk aplikasi tertentu juga diperkirakan akan memainkan peran penting.

1 komentar

 
GN⁺ 2024-09-15
Komentar Hacker News
  • Ada harapan bahwa jika GPT disetel untuk Lean (alat bantu pembuktian) seperti untuk Python, model ini akan menjadi lebih berguna untuk matematika tingkat riset

    • Di bidang yang terkait dengan riset operasi (OR), ChatGPT 4o telah cukup mempelajari literatur OR sehingga dapat memberikan formulasi mixed integer programming (MIP) yang berguna
    • Jika diberi masalah logika, model ini menghasilkan rumus matematika yang berguna dan hanya memerlukan sedikit revisi
    • Model ini juga memperingatkan tentang formulasi yang lemah saat logikanya bisa gagal, sehingga membantu menghindari masalah
    • GPT menyelesaikan masalah yang dulu bisa membuat orang pusing sepanjang akhir pekan, sehingga sangat menghemat waktu
    • Bagi orang yang memahami optimisasi MIP dan bisa memecah masalah menjadi bagian-bagian kecil, langganan ChatGPT $20 per bulan sangat sepadan
    • Banyak orang tidak bisa memanfaatkan LLM dengan baik atau punya ekspektasi berlebihan, sehingga merasa kecewa
    • Orang yang mengetahui kekuatan LLM dan bisa memeriksa kesalahannya mendapat banyak bantuan dalam pekerjaan
  • Bayangkan kembali ke tahun 2019 lalu membaca tulisan bahwa pengalaman berinteraksi dengan Alexa itu "mirip seperti memberi arahan kepada mahasiswa pascasarjana yang biasa saja tetapi tidak sepenuhnya tidak kompeten"

    • Dalam 5 tahun, perbedaannya sangat besar
  • Model o1 sangat mengejutkan

    • Dalam proyek optimisasi kode Rust, model ini memberikan peningkatan kecepatan yang besar dan memverifikasi ketepatannya
    • Model ini merancang dan mengimplementasikan ukuran ketergantungan statistik baru berbasis divergensi Jensen-Shannon
    • Model ini dengan cepat mengimplementasikan normalized mutual information, yang sebelumnya sulit dicari implementasi cepatnya saat menangani vektor besar (misalnya lebih dari 15.000 dimensi)
    • Awalnya model ini tidak memberikan kode Rust yang sempurna, tetapi dalam satu percobaan semua bug berhasil diperbaiki
    • GPT-4o memerlukan beberapa kali percobaan untuk memperbaiki kesalahan tipe Rust
    • Claude3.5 sonnet sangat tidak kompeten untuk Rust
    • Model ini sangat membantu pada tugas yang sangat menantang
    • Model ini memahami tujuan dan mewujudkannya dengan menggabungkan optimisasi kinerja, kode yang relatif minim bug, pemecahan masalah yang kreatif, serta pengetahuan matematika dan algoritmik yang luas
  • Pengalaman dengan model O1 sangat beragam

    • Model ini bingung bahkan pada pertanyaan sederhana
  • Hal baru dari LLM adalah bahwa pada berbagai topik, model ini "mirip seperti memberi arahan kepada mahasiswa pascasarjana yang biasa saja tetapi tidak sepenuhnya tidak kompeten"

    • Sangat membantu untuk menangani tugas-tugas kecil di bidang yang sudah sangat dikuasai
    • Jika masalah dipecah menjadi bagian-bagian kecil, model ini menghasilkan pekerjaan yang solid
    • Pemahaman konseptual diperlukan, dan keterampilan prompting itu penting
    • Orang menggunakan LLM untuk memahami topik kompleks lalu memverifikasi konsepnya lewat validasi ahli
  • Manusia juga bisa mendapat manfaat dari jenis penalaran "chain of thought"

    • Jika semua siswa yang belajar matematika dapat mengingat definisi dan informasi terkait, kemampuan mereka akan meningkat besar
    • AI bisa bernalar lebih baik karena tidak memiliki hambatan emosional
  • Setuju dengan pendapat Terence Tao

    • LLM dapat meningkatkan kinerja lewat pattern matching, tetapi mungkin tidak efektif untuk menciptakan generalisasi yang sejati
    • Pada masalah baru atau kompleks, halusinasi dan penalaran yang salah masih bisa terjadi
  • Ada antusiasme untuk kembali mempelajari matematika sebagai hobi mandiri

    • LLM sangat membantu dalam menyelesaikan pertanyaan analisis yang kompleks
    • Ada kekaguman pada kemampuan LLM untuk cepat menemukan keterkaitan konseptual
    • Ketika ditanya apakah analisis kompleks dimungkinkan pada manifold tak berorientasi dengan melonggarkan definisi tertentu, LLM langsung menyadari bahwa persamaan Cauchy-Riemann tidak konsisten secara global
    • Tanpa LLM, pertanyaan ini mungkin tidak akan bisa dijawab
  • Pendapat Terence Tao terasa mengejutkan

  • Daniel Litt terkesan dengan o1-preview, tetapi sejauh ini belum beruntung dalam memecahkan masalah matematika yang menarik

    • Pada tugas sederhana model ini lebih dapat diandalkan, dan pada tugas non-matematis bisa menghemat waktu