"au:"Zihan Xu"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Zihan Xu"" — arXiv2 Search

Showing 1–3 of 3 results

/ Date/ Name

Nov 4, 2025LTD-Bench: Evaluating Large Language Models by Letting Them Draw Oct 21, 2025CUARewardBench: A Benchmark for Evaluating Reward Models on Computer-using Agent Jun 2, 2025Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models