5 poin oleh GN⁺ 2025-01-30 | 1 komentar | Bagikan ke WhatsApp
  • ARC Prize Foundation bertujuan untuk mendefinisikan, mengukur, dan mendorong ide-ide baru tentang AGI (Artificial General Intelligence)
  • AGI masih belum tercapai, dan perluasan pra-pelatihan LLM (large language model) murni bukanlah solusinya
  • Selama 2023–24, sekitar US$20 miliar diinvestasikan ke startup LLM, sementara hanya sekitar US$200 juta yang diinvestasikan ke startup AGI

Analisis R1-Zero dan R1 dari DeepSeek

  • R1-Zero dan R1 yang diumumkan oleh DeepSeek menarik perhatian besar karena menunjukkan hasil yang mendekati tingkat sistem o1 milik OpenAI
  • Baik R1-Zero maupun R1 mencatat skor ARC-AGI-1 sekitar 15~20%
  • Ini jauh lebih tinggi dibanding GPT-4o yang mencatat 5%
  • Arus utama industri AI belakangan ini berfokus pada perluasan sederhana LLM (large language model), tetapi ini dipandang bukan sebagai solusi langsung untuk mewujudkan AGI
  • Melalui benchmark ARC-AGI-1, ARC Prize Foundation mendorong penelitian sistem AI yang mampu beradaptasi meski tidak dilatih pada masalah baru sebelumnya

R1-Zero lebih penting daripada R1

  • Hasil riset DeepSeek melahirkan R1-Zero dan R1
  • R1-Zero, R1, dan o1(low compute) dari OpenAI sama-sama mencatat skor serupa, yakni 15~20% di ARC-AGI-1
  • Sistem o3 yang dipublikasikan OpenAI pada akhir 2024 meningkatkan skor ARC-AGI-1 hingga 88%, menunjukkan kemampuan menyelesaikan masalah baru secara adaptif
  • Namun, karena banyak aspek o3 yang masih tertutup, para peneliti kesulitan memahami detail teknisnya
  • R1-Zero dianggap memiliki nilai masa depan yang lebih besar daripada R1 karena tidak melalui pelabelan langsung oleh manusia (SFT)

R1-Zero menghapus bottleneck manusia

  • Model penalaran sebelumnya dilatih dengan menggabungkan pelabelan manusia (SFT) atau reward mesin (RL) terhadap proses pemecahan masalah (Chain-of-Thought, selanjutnya CoT)

  • R1-Zero mempelajari CoT tanpa SFT, yaitu hanya dengan reinforcement learning (RL) tanpa label dari pakar manusia

  • Di ARC-AGI-1, R1-Zero mencatat 14% dan R1 15%, sehingga performanya hampir sama

  • Di benchmark lain seperti MATH AIME 2024, hasil R1-Zero dan R1 juga tampak serupa

  • Ada kekhawatiran tentang campuran bahasa dan masalah keterbacaan, tetapi dalam pengujian nyata model ini tetap bekerja baik di domain matematika dan coding tanpa incoherence yang besar

  • Implikasi utama yang diperoleh dari sini adalah sebagai berikut

    • Bahkan tanpa pelabelan manusia, penalaran yang akurat dan dapat dipahami tetap dimungkinkan di domain tertentu
    • R1-Zero dapat membangun representasi token khusus domainnya sendiri (DSL) hanya dengan reinforcement learning
    • SFT mungkin masih diperlukan untuk memperluas cakupan penalaran
  • Pada akhirnya, R1-Zero menunjukkan potensi skalabilitas dengan “tanpa bottleneck manusia”, yaitu kemampuan menghasilkan data pelatihan sendiri tanpa ketergantungan pada manusia

  • Berikut adalah ringkasan skor berbagai sistem di ARC-AGI-1 beserta rata-rata jumlah token dan biaya inferensinya

    • r1-zero: 14%, tanpa SFT, tanpa sequential reasoning search, rata-rata 11K token, biaya sekitar $0.11
    • r1: 15.8%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 6K token, biaya sekitar $0.06
    • o1(low): 20.5%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 7K token, biaya sekitar $0.43
    • o1(med): 31%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 13K token, biaya sekitar $0.79
    • o1(high): 35%, menggunakan SFT, tanpa sequential reasoning search, rata-rata 22K token, biaya sekitar $1.31
    • o3(low): 75.7%, menggunakan SFT, menggunakan search dan sampling, rata-rata 335K token, biaya sekitar $20
    • o3(high): 87.5%, menggunakan SFT, menggunakan search dan sampling, rata-rata 57M token, biaya sekitar $3,400

Biaya untuk keandalan

  • Perubahan besar dalam pasar AI saat ini adalah bahwa “dengan mengeluarkan biaya lebih besar, akurasi dan keandalan dapat ditingkatkan”
  • Selain itu, bobot biaya juga sedang bergeser dari biaya pelatihan ke biaya inferensi
  • Dengan memasukkan lebih banyak sumber daya komputasi pada tahap inferensi, hasil yang lebih akurat dan stabil bisa diperoleh
  • Sebagian besar perusahaan belum dapat mengadopsi otomatisasi skala besar karena masalah keandalan sistem AI
  • Ada prospek bahwa kemajuan di bidang ARC-AGI akan meningkatkan keandalan agen AI, dan Anthropic, OpenAI, Apple, serta lainnya juga tengah menyiapkan layanan berbasis agen
  • Pengguna kemungkinan akan bersedia membayar lebih untuk mendapatkan tingkat akurasi yang mereka butuhkan
  • Karena itu, permintaan inferensi AI diperkirakan akan meningkat jauh lebih besar, yang pada akhirnya akan mendorong kenaikan permintaan sumber daya komputasi

Inferensi adalah pembelajaran

  • Sebelumnya, pelatihan dilakukan dengan mengumpulkan data skala besar atau menghasilkan data sintetis dari LLM yang sudah ada
  • Kini, dalam proses inferensi, pengguna maupun sistem dapat benar-benar menghasilkan data baru yang valid
  • Ini menandai pergeseran ekonomi baru bahwa “inferensi sekaligus menjadi pembelajaran”
  • Model AI dengan banyak pengguna akan mengumpulkan lebih banyak data inferensi, dan itu sendiri akan mengarah pada peningkatan model
  • Jika proses SFT (pelabelan manusia) pun menjadi tidak diperlukan, maka pembelajaran yang efisien bisa dimungkinkan hanya dengan sistem yang berulang kali melakukan pencarian, sintesis, dan verifikasi dengan biaya besar

Kesimpulan

  • Seiring meningkatnya permintaan inferensi pada sistem AI, tampaknya revaluasi pasar akan terus berlangsung
  • Dengan munculnya sistem R1 open source yang menggabungkan metode CoT dan teknik search, lebih banyak peneliti dan pengembang diperkirakan dapat menguji batasan dan mempercepat inovasi
  • Dipublikasikannya R1-Zero dan R1 akan menjadi kontribusi besar bagi perkembangan AI global
  • Karena beberapa tim menyatakan niat untuk memanfaatkan sistem seperti R1 dengan target ARC Prize 2025, hasil ke depan sangat layak dinantikan
  • R1 yang dipublikasikan DeepSeek dinilai positif karena berkontribusi pada kemajuan ilmiah dengan memberikan petunjuk penting menuju AGI

1 komentar

 
GN⁺ 2025-01-30
Komentar Hacker News
  • Pengembang sistem AI berpotensi memicu perubahan ekonomi melalui pembuatan data baru. Pelanggan dapat menanggung biaya pembuatan data untuk meningkatkan kualitas model

    • Namun, ada pandangan skeptis tentang apakah data tersebut benar-benar berkualitas tinggi
    • Model SOTA saat ini masih berada di tingkat GPT4, dan ada kemungkinan akan berkembang lebih jauh dalam 2-3 tahun ke depan
    • Menggunakan model penalaran untuk menghasilkan data lalu melatih model non-penalaran dengan data tersebut adalah ide yang menjanjikan
    • Namun, masih belum diketahui seberapa baik penalaran dapat ditanamkan ke dalam bobot model
    • Ada pendapat bahwa OpenAI seharusnya sudah melatih model baru menggunakan data pelatihan o3
  • Mungkin perbaikan pada model dasar tidak diperlukan, dan model umum saja bisa sudah cukup

    • Yang penting adalah menurunkan harga model penalaran dan meningkatkan kualitasnya
  • Sistem o3 menunjukkan implementasi praktis pertama dari komputer yang beradaptasi dengan masalah baru

    • Namun, OpenAI mengumumkan bahwa o3 dilatih dengan 75% set pelatihan publik, dan kontribusi performa dari data ARC-AGI masih belum diuji
  • Ada klaim tentang penghapusan bottleneck manusia, tetapi di sebagian besar bidang selain matematika dan ilmu komputer, sulit mendefinisikan reward yang bisa diverifikasi

  • Dua perubahan utama sedang terjadi dalam ekonomi AI

    • Dengan membayar lebih, seseorang bisa mendapatkan akurasi dan keandalan yang lebih tinggi
    • Biaya pelatihan sedang bergeser menjadi biaya inferensi
    • Ini akan meningkatkan permintaan inferensi dan menaikkan permintaan komputasi
  • o3 mencatat 75% pada AGI-1, sementara R1 dan o1 hanya mencapai 25%

  • Perpindahan banyak komputasi ke inferensi berdampak besar pada investasi AI saat ini

    • Ini adalah kabar buruk bagi NVDA, dan solusi yang berpusat pada inferensi memiliki keekonomian yang lebih baik
  • Mike dari Baseten menyatakan bangga bisa mendukung pekerjaan ini

  • R1-Zero menunjukkan rezim penskalaan potensial tanpa bottleneck manusia

    • Namun, ada pertanyaan apakah pendekatan RL tetap membutuhkan banyak data manusia
  • R1 menunjukkan hasil yang sangat baik dalam hal performa dibanding biaya

    • Menggunakan R1 sebagai generator data untuk masalah yang kompleks dianggap menjanjikan
  • Masa depan LLM diperkirakan ada pada aplikasi individual yang disesuaikan

    • Jika Anda memberi tahu agen AI aplikasi dan kebutuhan yang diinginkan, ia akan membangun semuanya dari backend hingga frontend
    • Ia akan menguji perangkat lunak, memperbaiki kesalahan, dan menerapkannya ke production
    • Saat ini LLM memang belum sempurna, tetapi sistem dan alur kerja yang secara otomatis menjalankan kode, mengompilasi, dan memberi umpan balik error ke LLM sudah ada