"au:"Shaohui Peng"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Shaohui Peng"" — arXiv2 Search

Showing 1–20 of 26 results

/ Date/ Name

Mar 9, 2023Conceptual Reinforcement Learning for Language-Conditioned Tasks Oct 13, 2022Causality-driven Hierarchical Structure Discovery for Reinforcement Learning Jun 14, 2025QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm Mar 19, 2026DA-Mamba: Learning Domain-Aware State Space Model for Global-Local Alignment in Domain Adaptive Object Detection Jul 26, 2021Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment Jun 12, 2023Online Prototype Alignment for Few-shot Policy Transfer Nov 2, 2023Efficient Symbolic Policy Learning with Differentiable Symbolic Expression Dec 9, 2024World-Consistent Data Generation for Vision-and-Language Navigation Nov 26, 2025Efficient Diffusion Planning with Temporal Diffusion Nov 25, 2025QiMeng-Kernel: Macro-Thinking Micro-Coding Paradigm for LLM-Based High-Performance GPU Kernel Generation Nov 8, 2023Emergent Communication for Rules Reasoning Nov 2, 2023Contrastive Modules with Temporal Attention for Multi-Task Reinforcement Learning May 29, 2023ANPL: Towards Natural Programming with Interactive Decomposition Jan 12, 2026Segmental Advantage Estimation: Enhancing PPO for Long-Context LLM Training Sep 4, 2021Eden: A Unified Environment Framework for Booming Reinforcement Learning Algorithms Oct 13, 2022Object-Category Aware Reinforcement Learning Sep 4, 2023Self-driven Grounding: Large Language Model Agents with Automatical Language-aligned Skill Learning Nov 7, 2023Context Shift Reduction for Offline Meta-Reinforcement Learning Jun 5, 2024Prompt-based Visual Alignment for Zero-shot Policy Transfer Aug 16, 2024Ex3: Automatic Novel Writing by Extracting, Excelsior and Expanding