"au:"Noam Shazeer"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Noam Shazeer"" — arXiv2 Search

Showing 1–20 of 38 results

/ Date/ Name

Jun 12, 2017Attention Is All You Need Nov 6, 2019Fast Transformer Decoding: One Write-Head is All You Need Feb 12, 2020GLU Variants Improve Transformer Jan 23, 2017Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer Mar 5, 2020Talking-Heads Attention Nov 5, 2018Mesh-TensorFlow: Deep Learning for Supercomputers Apr 11, 2018Adafactor: Adaptive Learning Rates with Sublinear Memory Cost Jun 4, 2010Variational Program Inference Mar 31, 2022Scaling Up Models and Data with $\texttt{t5x}$ and $\texttt{seqio}$Oct 31, 2018Weakly Supervised Grammatical Error Correction using Iterative Decoding Nov 7, 2018Blockwise Parallel Decoding for Deep Autoregressive Models Sep 17, 2021Primer: Searching for Efficient Transformers for Language Modeling Feb 15, 2018Image Transformer Jan 14, 2020Faster Transformer Decoding: N-gram Masked Self-Attention Jun 9, 2015Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks Apr 5, 2022PaLM: Scaling Language Modeling with Pathways Sep 6, 2019High Resolution Medical Image Analysis with Spatial Partitioning Feb 6, 2016Swivel: Improving Embeddings by Noticing What's Missing Feb 10, 2020How Much Knowledge Can You Pack Into the Parameters of a Language Model?Sep 12, 2018Music Transformer