"au:"Li Shen"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Li Shen"" — arXiv2 Search

Showing 1–9 of 9 results

/ Date/ Name

Apr 20, 2026Universally Empowering Zeroth-Order Optimization via Adaptive Layer-wise Sampling Feb 16, 2025AdaGC: Improving Training Stability for Large Language Model Pretraining Nov 25, 2024Exploring the Generalization Capabilities of AID-based Bi-level Optimization Oct 23, 2023Rethinking SIGN Training: Provable Nonconvex Acceleration without First- and Second-Order Gradient Lipschitz May 28, 2022Efficient-Adam: Communication-Efficient Distributed Adam Apr 16, 2022Bridging Cross-Lingual Gaps During Leveraging the Multilingual Sequence-to-Sequence Pretraining for Text Generation and Understanding Jan 14, 2021Towards Practical Adam: Non-Convexity, Convergence Theory, and Mini-Batch Acceleration Apr 29, 2020Quantized Adam with Error Feedback Aug 10, 2018A Unified Analysis of AdaGrad with Weighted Aggregation and Momentum Acceleration