"au:"Dan Busbridge"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Dan Busbridge"" — arXiv2 Search

Showing 1–20 of 31 results

/ Date/ Name

Oct 4, 2019Neural Language Priors Feb 9, 2025Scaling Laws for Forgetting during Finetuning with Pretraining Data Injection Jan 21, 2025Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models Jul 15, 2022Position Prediction as an Effective Pretraining Strategy Jul 12, 2025Scaling Laws for Optimal Data Mixtures Jul 27, 2020Neural Temporal Point Processes For Modelling Electronic Health Records May 9, 2018Decoding Decoders: Finding Optimal Representation Spaces for Unsupervised Similarity Tasks Jun 28, 2023DUET: 2D Structured and Approximately Equivariant Representations Sep 6, 2024Theory, Analysis, and Best Practices for Sigmoid Self-Attention Mar 8, 2024Poly-View Contrastive Learning Jul 25, 2023How to Scale Your EMA Dec 9, 2025Revisiting the Scaling Properties of Downstream Metrics in Large Language Model Training Dec 26, 2025Completed Hyperparameter Transfer across Modules, Width, Depth, Batch and Duration Apr 27, 2026Scaling Properties of Continuous Diffusion Spoken Language Models Mar 11, 2023Stabilizing Transformer Training by Preventing Attention Entropy Collapse Mar 28, 2020Learning medical triage from clinicians using Deep Q-Learning Apr 11, 2019Relational Graph Attention Networks Oct 1, 2021Do Self-Supervised and Supervised Methods Learn Similar Visual Representations?Feb 12, 2025Distillation Scaling Laws Jun 4, 2025How PARTs assemble into wholes: Learning the relative composition of images