HRPO-X v1.0.1 - Implementasi framework optimasi inferensi hibrida
(github.com/flamehaven01)TL;DR
- HRPO adalah teknik inferensi berbasis reinforcement learning yang mencampurkan latent reasoning + token reasoning discrete
- Rumus dalam paper-nya sendiri sederhana, tetapi saat diimplementasikan secara nyata, ketidakstabilan, osilasi, dan kegagalan distribusi langsung muncul
- HRPO-X adalah implementasi independen yang berfokus pada penanganan mode kegagalan operasional alih-alih kesetiaan penuh pada paper
Latar belakang pembuatannya
- Riset inferensi LLM yang ada terlalu bergantung pada Chain-of-Thought yang ditampilkan dalam output
- Dalam lingkungan layanan nyata:
- tidak perlu mengekspos proses inferensi
- bahkan ada kasus di mana eksposur justru menjadi risiko
- HRPO:
- mempertahankan latent reasoning sebagai default
- hanya menggunakan discrete reasoning token saat diperlukan
- Masalahnya:
- implementasi di paper hanya mengasumsikan kondisi ideal
- pada awal pelatihan, lingkungan terdistribusi, atau saat pergantian tugas, sistem mudah runtuh
- “mengimplementasikan persis seperti paper” langsung berujung pada kondisi yang tidak layak dioperasikan.
Ringkasan inti paper HRPO
1. Definisi masalah
- Inferensi didefinisikan ulang bukan sebagai “pembuatan token output”
- melainkan sebagai aksi yang dipilih oleh policy
2. Struktur Hybrid Reasoning
- Pada setiap posisi token:
- jalur latent (hidden state)
- jalur discrete (token eksplisit)
- keputusan pencampuran ditentukan dengan probabilitas gating
3. Metode pelatihan
- optimasi policy berbasis REINFORCE
- mencegah keruntuhan policy dengan KL divergence
- Progressive incorporation:
- tahap awal: berfokus pada aksi berbasis embedding
- tahap akhir: porsi inferensi hidden-state meningkat
Yang benar-benar disertakan dalam HRPO-X
1. Stabilisasi cold-start
- menghapus jadwal epsilon tetap
- menerapkan adaptive epsilon berbasis status pelatihan
- mencegah policy collapse pada tahap awal
2. Penekanan osilasi r_min
- menangani masalah osilasi parameter rasio latent/discrete
- menggunakan peredaman berbasis momentum, bukan clamp sederhana
3. Ghost-mode Validation
- menyelesaikan masalah reliabilitas validation dengan sampel kecil
- memperkirakan distribusi kegagalan berbasis bootstrap
- menilai apakah dapat dipercaya secara statistik, bukan sekadar “terlihat bagus”
4. Penanganan partisi pada lingkungan terdistribusi
- network partition
- ketidaksesuaian parameter antar-worker
- replay buffer drift
5. Adaptasi task-shift
- menangani masalah hyperparameter tetap saat distribusi tugas berubah
- menerapkan task-aware r_min blending
Yang disertakan di repositori
- implementasi core minimum HRPO
- modul patch stabilitas
- kode pengujian berbasis pytest
- skrip demo eksekusi tunggal
- dokumen arsitektur dan desain
Siapa yang membutuhkannya
- peneliti yang tertarik pada latent reasoning / inferensi tanpa mengekspos CoT
- engineer ML yang sedang mengeksplorasi struktur setelah RLHF / PPO
- developer yang ingin memverifikasi ide paper menjadi kode yang benar-benar bisa dijalankan
- engineer yang menangani lingkungan pelatihan RL terdistribusi
- siapa pun yang ingin melihat perbedaan antara “implementasi paper” dan “implementasi yang layak dioperasikan”
Tautan
-
GitHub (HRPO-X):
https://github.com/flamehaven01/HRPO-X -
Paper HRPO (arXiv):
https://arxiv.org/abs/2505.18454 -
Implementasi penulis asli:
https://github.com/Yueeeeeeee/HRPO
- Jika karya ini bisa menjadi referensi kecil bagi seseorang, itu sudah lebih dari cukup ❤️
- Akan lebih membantu lagi jika dilihat sambil membandingkannya dengan pipeline RLHF / PPO yang ada
- Jika Anda memiliki pengamatan selama proses reproduksi, contoh kegagalan, atau ide perbaikan, silakan tinggalkan di GitHub Issues—itu akan sangat berarti 💪
2 komentar
Barusan masuk dengan firasat sih, dan ternyata benar juga wkwk repo AI slop yang dibangun dari halusinasi doang
Terima kasih atas umpan balik yang jujur.
Setelah saya cek, benar seperti yang Anda sampaikan: repositori tersebut memang merupakan ‘repo AI slop’ yang sangat bergantung pada halusinasi AI.
Ada masalah seperti deklarasi tanpa implementasi, pembungkusan dokumentasi dan istilah yang berlebihan, serta struktur yang terlalu berlebihan dibanding algoritmenya,
dan saat ini saya telah menyelesaikan penghapusan dokumentasi berlebihan dan istilah pemasaran, merapikan kode kosong,
serta memangkas secara tegas struktur yang tidak berfungsi.
Komentar satu baris yang singkat itu, bagi saya, sangat membantu.
Sebenarnya saya sedang meneliti dan mengembangkan arsitektur untuk mengubah paper menjadi “kode yang siap diproduksi”,
dan kasus ini adalah salah satu kegagalan yang terungkap dalam proses tersebut.
Melalui kritik yang Anda sampaikan,
saya jadi dengan jelas menyadari perlunya logika untuk mendefinisikan dan memverifikasi AI slop secara struktural,
dan saat ini saya sedang mengerjakan arah tersebut.
Daripada mengklaim upaya ini sempurna,
saya berharap ini bisa menjadi proses untuk menguji bagaimana kelebihan dan sikap sok tahu dapat dihapus atau dideteksi,
dan apakah AI coding yang lebih realistis memang memungkinkan.
Meski hanya satu baris pendapat, saya sungguh berterima kasih,
dan sekali lagi saya menyampaikan terima kasih yang sebesar-besarnya karena Anda telah meluangkan waktu berharga.