"au:"Xiong-hui Chen"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Xiong-hui Chen"" — arXiv2 Search

Showing 1–2 of 2 results

/ Date/ Name

Mar 24, 2026Off-Policy Value-Based Reinforcement Learning for Large Language Models Nov 25, 2025Soft Adaptive Policy Optimization