"au:"Tengyang Xie"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Tengyang Xie"" — arXiv2 Search

Showing 1–20 of 33 results

/ Date/ Name

Feb 5, 2021Finite Sample Analysis of Minimax Offline Reinforcement Learning: Completeness, Fast Rates and First-Order Efficiency Jun 13, 2021Bellman-consistent Pessimism for Offline Reinforcement Learning Nov 8, 2022ARMOR: A Model-based Framework for Improving Arbitrary Baseline Policies with Offline Data Apr 4, 2024Direct Nash Optimization: Teaching Language Models to Self-Improve with General Preferences Apr 22, 2024Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data May 26, 2025Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits May 21, 2025Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning Mar 16, 2026POLCA: Stochastic Generative Optimization with LLM Nov 2, 2020A Variant of the Wang-Foster-Kakade Lower Bound for the Discounted Setting Jun 9, 2021Policy Finetuning: Bridging Sample-Efficient Offline and Online Reinforcement Learning Feb 5, 2022Adversarially Trained Actor Critic for Offline Reinforcement Learning May 31, 2024Exploratory Preference Optimization: Harnessing Implicit Q*-Approximation for Sample-Efficient RLHF Jun 18, 2024Interpretable Preferences via Multi-Objective Reward Modeling and Mixture-of-Experts Jul 18, 2024Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization Jun 16, 2022Interaction-Grounded Learning with Action-inclusive Feedback Jun 8, 2019Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling Mar 9, 2020Q* Approximation Schemes for Batch Reinforcement Learning: A Theoretical Comparison Jun 9, 2021Interaction-Grounded Learning Feb 20, 2024CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples Feb 14, 2025Do We Need to Verify Step by Step? Rethinking Process Supervision from a Theoretical Perspective