"au:"Zaiyuan Wang"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Zaiyuan Wang"" — arXiv2 Search

Showing 1–4 of 4 results

/ Date/ Name

Mar 27, 2026Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation Sep 4, 2025Inverse IFEval: Can LLMs Unlearn Stubborn Training Conventions to Follow Real Instructions?Apr 10, 2025Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning Jan 5, 2025ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use