"au:"Runji Lin"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Runji Lin"" — arXiv2 Search

Showing 1–18 of 18 results

/ Date/ Name

Nov 15, 2022Contextual Transformer for Offline Meta Reinforcement Learning Jun 24, 2023Large Sequence Models for Sequential Decision-Making: A Survey Aug 14, 2023#InsTag: Instruction Tagging for Analyzing Supervised Fine-tuning of Large Language Models Dec 19, 2023Large Language Models Play StarCraft II: Benchmarks and A Chain of Summarization Approach Sep 18, 2024Qwen2.5-Math Technical Report: Toward Mathematical Expert Model via Self-Improvement Sep 11, 2024Online Decision MetaMorphFormer: A Casual Transformer-Based Reinforcement Learning Framework of Universal Embodied Intelligence Dec 9, 2024ProcessBench: Identifying Process Errors in Mathematical Reasoning Jun 20, 2024LLM Critics Help Catch Bugs in Mathematics: Towards a Better Mathematical Verifier with Natural Language Feedback May 18, 2025MARGE: Improving Math Reasoning for LLMs with Guided Exploration Jan 13, 2025The Lessons of Developing Process Reward Models in Mathematical Reasoning Sep 28, 2023Qwen Technical Report May 30, 2022Multi-Agent Reinforcement Learning is a Sequence Modeling Problem Jul 13, 2022Scalable Model-based Policy Optimization for Decentralized Networked Systems Dec 19, 2024Qwen2.5 Technical Report Jul 15, 2024Qwen2 Technical Report Nov 15, 2023Routing to the Expert: Efficient Reward-guided Ensemble of Large Language Models May 28, 2024Online Merging Optimizers for Boosting Rewards and Mitigating Tax in Alignment May 15, 2025WorldPM: Scaling Human Preference Modeling