"au:"Wenxiang Chen"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Wenxiang Chen"" — arXiv2 Search

Showing 1–11 of 11 results

/ Date/ Name

Mar 6, 2025Better Process Supervision with Bi-directional Rewarding Signals Oct 21, 2025BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping Jun 3, 2025Q-Ponder: A Unified Training Pipeline for Reasoning-based Visual Quality Assessment Jun 28, 2022Chiral Assemblies of Pinwheel Superlattices on Substrates Nov 11, 2025AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress Feb 8, 2024Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning Jun 6, 2024AgentGym: Evolving Large Language Model-based Agents across Diverse Environments Sep 14, 2023The Rise and Potential of Large Language Model Based Agents: A Survey Apr 17, 2026AgentV-RL: Scaling Reward Modeling with Agentic Verifier Dec 19, 2025Seed-Prover 1.5: Mastering Undergraduate-Level Theorem Proving via Learning from Experience Sep 10, 2025AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning