"au:"Rohan Anil"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Rohan Anil"" — arXiv2 Search

Showing 1–20 of 34 results

/ Date/ Name

Aug 3, 2021Large-Scale Differentially Private BERT Nov 30, 2018TF-Ranking: Scalable TensorFlow Library for Learning-to-Rank Feb 26, 2020Disentangling Adaptive Gradient Methods from Learning Rates Jan 30, 2019Memory-Efficient Adaptive Optimization Feb 20, 2020Scalable Second Order Optimization for Deep Learning Sep 12, 2022On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models Jun 8, 2019Robust Bi-Tempered Logistic Loss Based on Bregman Divergences Apr 9, 2018Large scale distributed neural network training through online distillation Jun 9, 2021Knowledge distillation: A good teacher is patient and consistent Jun 11, 2021LocoProp: Enhancing BackProp via Local Loss Optimization Feb 12, 2021A Large Batch Optimizer Reality Check: Traditional, Generic Optimizers Suffice Across Batch Sizes Oct 4, 2023Heterogeneous Federated Learning Using Knowledge Codistillation Nov 16, 2023A Computationally Efficient Sparsified Online Newton Method Mar 14, 2024Learning from straggler clients in federated learning Mar 13, 2024Gemma: Open Models Based on Gemini Research and Technology Jul 13, 2022N-Grammer: Augmenting Transformers with latent n-grams Jun 12, 2023Benchmarking Neural Network Training Algorithms Jul 7, 2025Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities Oct 26, 2020Stochastic Optimization with Laggard Data Pipelines Feb 7, 2023Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions