"au:"Tian Xu"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Tian Xu"" — arXiv2 Search

Showing 1–2 of 2 results

/ Date/ Name

Mar 24, 2026Off-Policy Value-Based Reinforcement Learning for Large Language Models Aug 29, 2024Preserving Diversity in Supervised Fine-Tuning of Large Language Models