"au:"Tianzhu Ye"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Tianzhu Ye"" — arXiv2 Search

Showing 1–15 of 15 results

/ Date/ Name

Apr 9, 2023Slide-Transformer: Hierarchical Vision Transformer with Local Self-Attention Oct 17, 2022Contrastive Language-Image Pre-Training with Knowledge Graphs Apr 21, 2023Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers Feb 12, 2026On-Policy Context Distillation for Language Models Oct 7, 2024Differential Transformer Nov 13, 2025Black-Box On-Policy Distillation of Large Language Models Mar 17, 2026Online Experiential Learning for Language Models Dec 6, 2023FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability Dec 14, 2023Agent Attention: On the Integration of Softmax and Linear Attention Jun 10, 2025SeerAttention-R: Sparse Attention Adaptation for Long Reasoning Jun 4, 2025Rectified Sparse Attention Nov 18, 2025Step by Step Network Apr 1, 2026Universal YOCO for Efficient Depth Scaling Nov 2, 2025Linear Differential Vision Transformer: Learning Visual Contrasts via Pairwise Differentials Jun 9, 2025Reinforcement Pre-Training