"au:"Kan Zhu"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Kan Zhu"" — arXiv2 Search

Showing 1–12 of 12 results

/ Date/ Name

Feb 10, 2024Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models Jun 16, 2024Quest: Query-Aware Sparsity for Efficient Long-Context LLM Inference Feb 17, 2025Tactic: Adaptive Sparse Attention with Clustering and Distribution Fitting for Long-Context LLMs Aug 22, 2024NanoFlow: Towards Optimal Large Language Model Serving Throughput Oct 29, 2023Atom: Low-bit Quantization for Efficient and Accurate LLM Serving Jul 17, 2025PolyServe: Efficient Multi-SLO Serving at Scale Nov 25, 2024BlendServe: Optimizing Offline Inference for Auto-regressive Large Models with Resource-aware Batching Jan 1, 2016Practical Algorithms for Learning Near-Isometric Linear Embeddings Feb 28, 2025TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval Dec 1, 2025Accelerating Large-Scale Reasoning Model Inference with Sparse Self-Speculative Decoding Dec 24, 2025NVIDIA Nemotron 3: Efficient and Open Intelligence Dec 23, 2025Nemotron 3 Nano: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning