HRPO-X v1.0.1 - Implementasi framework optimasi inferensi hibrida

flamehaven01 · 2026-01-08T00:22:24+09:00

TL;DR HRPO adalah teknik inferensi berbasis reinforcement learning yang mencampurkan latent reasoning + token reasoning discrete Rumus dalam paper-nya sendiri sederhana, tetapi saat diimplementasikan secara nyata, ketidakstabilan, osilasi, dan kegagalan distribusi langsung muncul HRPO-X adalah implementasi independen yang berfokus pada penanganan mode kegagalan operasional alih-alih kesetiaan penuh pada paper Latar belakang pembuatannya Riset inferensi LLM yang ada terlalu bergantung pada Chain-of-Thought yang ditampilkan dalam output Dalam lingkungan layanan nyata: tidak perlu mengekspos proses inferensi bahkan ada kasus di mana eksposur justru menjadi risiko HRPO: mempertahankan latent reasoning sebagai default hanya menggunakan discrete reasoning token saat diperlukan Masalahnya: implementasi di paper hanya mengasumsikan kondisi ideal pada awal pelatihan, lingkungan terdistribusi, atau saat pergantian tugas, sistem mudah runtuh “mengimplementasikan persis seperti paper” langsung berujung pada kondisi yang tidak layak dioperasikan. Ringkasan inti paper HRPO 1. Definisi masalah Inferensi didefinisikan ulang bukan sebagai “pembuatan token output” melainkan sebagai aksi yang dipilih oleh policy 2. Struktur Hybrid Reasoning Pada setiap posisi token: jalur latent (hidden state) jalur discrete (token eksplisit) keputusan pencampuran ditentukan dengan probabilitas gating 3. Metode pelatihan optimasi policy berbasis REINFORCE mencegah keruntuhan policy dengan KL divergence Progressive incorporation: tahap awal: berfokus pada aksi berbasis embedding tahap akhir: porsi inferensi hidden-state meningkat Yang benar-benar disertakan dalam HRPO-X 1. Stabilisasi cold-start menghapus jadwal epsilon tetap menerapkan adaptive epsilon berbasis status pelatihan mencegah policy collapse pada tahap awal 2. Penekanan osilasi r_min menangani masalah osilasi parameter rasio latent/discrete menggunakan peredaman berbasis momentum, bukan clamp sederhana 3. Ghost-mode Validation menyelesaikan masalah reliabilitas validation dengan sampel kecil memperkirakan distribusi kegagalan berbasis bootstrap menilai apakah dapat dipercaya secara statistik, bukan sekadar “terlihat bagus” 4. Penanganan partisi pada lingkungan terdistribusi network partition ketidaksesuaian parameter antar-worker replay buffer drift 5. Adaptasi task-shift menangani masalah hyperparameter tetap saat distribusi tugas berubah menerapkan task-aware r_min blending Yang disertakan di repositori implementasi core minimum HRPO modul patch stabilitas kode pengujian berbasis pytest skrip demo eksekusi tunggal dokumen arsitektur dan desain Siapa yang membutuhkannya peneliti yang tertarik pada latent reasoning / inferensi tanpa mengekspos CoT engineer ML yang sedang mengeksplorasi struktur setelah RLHF / PPO developer yang ingin memverifikasi ide paper menjadi kode yang benar-benar bisa dijalankan engineer yang menangani lingkungan pelatihan RL terdistribusi siapa pun yang ingin melihat perbedaan antara “implementasi paper” dan “implementasi yang layak dioperasikan” Tautan GitHub (HRPO-X): https://github.com/flamehaven01/HRPO-X Paper HRPO (arXiv): https://arxiv.org/abs/2505.18454 Implementasi penulis asli: https://github.com/Yueeeeeeee/HRPO Jika karya ini bisa menjadi referensi kecil bagi seseorang, itu sudah lebih dari cukup ❤️ Akan lebih membantu lagi jika dilihat sambil membandingkannya dengan pipeline RLHF / PPO yang ada Jika Anda memiliki pengamatan selama proses reproduksi, contoh kegagalan, atau ide perbaikan, silakan tinggalkan di GitHub Issues—itu akan sangat berarti 💪

TL;DR

HRPO adalah teknik inferensi berbasis reinforcement learning yang mencampurkan latent reasoning + token reasoning discrete
Rumus dalam paper-nya sendiri sederhana, tetapi saat diimplementasikan secara nyata, ketidakstabilan, osilasi, dan kegagalan distribusi langsung muncul
HRPO-X adalah implementasi independen yang berfokus pada penanganan mode kegagalan operasional alih-alih kesetiaan penuh pada paper

Latar belakang pembuatannya

Riset inferensi LLM yang ada terlalu bergantung pada Chain-of-Thought yang ditampilkan dalam output
Dalam lingkungan layanan nyata:
- tidak perlu mengekspos proses inferensi
- bahkan ada kasus di mana eksposur justru menjadi risiko
HRPO:
- mempertahankan latent reasoning sebagai default
- hanya menggunakan discrete reasoning token saat diperlukan
Masalahnya:
- implementasi di paper hanya mengasumsikan kondisi ideal
- pada awal pelatihan, lingkungan terdistribusi, atau saat pergantian tugas, sistem mudah runtuh
- “mengimplementasikan persis seperti paper” langsung berujung pada kondisi yang tidak layak dioperasikan.

Ringkasan inti paper HRPO

1. Definisi masalah

Inferensi didefinisikan ulang bukan sebagai “pembuatan token output”
melainkan sebagai aksi yang dipilih oleh policy

2. Struktur Hybrid Reasoning

Pada setiap posisi token:
- jalur latent (hidden state)
- jalur discrete (token eksplisit)
keputusan pencampuran ditentukan dengan probabilitas gating

3. Metode pelatihan

optimasi policy berbasis REINFORCE
mencegah keruntuhan policy dengan KL divergence
Progressive incorporation:
- tahap awal: berfokus pada aksi berbasis embedding
- tahap akhir: porsi inferensi hidden-state meningkat

Yang benar-benar disertakan dalam HRPO-X

1. Stabilisasi cold-start

menghapus jadwal epsilon tetap
menerapkan adaptive epsilon berbasis status pelatihan
mencegah policy collapse pada tahap awal

2. Penekanan osilasi r_min

menangani masalah osilasi parameter rasio latent/discrete
menggunakan peredaman berbasis momentum, bukan clamp sederhana

3. Ghost-mode Validation

menyelesaikan masalah reliabilitas validation dengan sampel kecil
memperkirakan distribusi kegagalan berbasis bootstrap
menilai apakah dapat dipercaya secara statistik, bukan sekadar “terlihat bagus”

4. Penanganan partisi pada lingkungan terdistribusi

network partition
ketidaksesuaian parameter antar-worker
replay buffer drift

5. Adaptasi task-shift

menangani masalah hyperparameter tetap saat distribusi tugas berubah
menerapkan task-aware r_min blending

Yang disertakan di repositori

implementasi core minimum HRPO
modul patch stabilitas
kode pengujian berbasis pytest
skrip demo eksekusi tunggal
dokumen arsitektur dan desain

Siapa yang membutuhkannya

peneliti yang tertarik pada latent reasoning / inferensi tanpa mengekspos CoT
engineer ML yang sedang mengeksplorasi struktur setelah RLHF / PPO
developer yang ingin memverifikasi ide paper menjadi kode yang benar-benar bisa dijalankan
engineer yang menangani lingkungan pelatihan RL terdistribusi
siapa pun yang ingin melihat perbedaan antara “implementasi paper” dan “implementasi yang layak dioperasikan”

Tautan

GitHub (HRPO-X):
https://github.com/flamehaven01/HRPO-X
Paper HRPO (arXiv):
https://arxiv.org/abs/2505.18454
Implementasi penulis asli:
https://github.com/Yueeeeeeee/HRPO

Jika karya ini bisa menjadi referensi kecil bagi seseorang, itu sudah lebih dari cukup ❤️
Akan lebih membantu lagi jika dilihat sambil membandingkannya dengan pipeline RLHF / PPO yang ada
Jika Anda memiliki pengamatan selama proses reproduksi, contoh kegagalan, atau ide perbaikan, silakan tinggalkan di GitHub Issues—itu akan sangat berarti 💪