"au:"Niklas Muennighoff"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Niklas Muennighoff"" — arXiv2 Search

Showing 41–60 of 65 results

/ Date/ Name

Jun 4, 2025OpenThoughts: Data Recipes for Reasoning Models Apr 29, 2025ReasonIR: Training Retrievers for Reasoning Tasks Feb 9, 2024Aya Dataset: An Open-Access Collection for Multilingual Instruction Tuning Dec 19, 2022BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting Feb 26, 2024A Survey on Data Selection for Language Models Mar 13, 2024Language models scale reliably with over-training and on downstream tasks Apr 6, 2025Retro-Search: Exploring Untaken Paths for Deeper and Efficient Reasoning Sep 25, 2024Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models Jul 9, 2025FlexOlmo: Open Language Models for Flexible Data Use Apr 8, 2024Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence Sep 14, 2023C-Pack: Packed Resources For General Chinese Embeddings Jul 18, 2024Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies Apr 14, 2025MIEB: Massive Image Embedding Benchmark Jul 16, 2024BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval Dec 19, 2024Bridging the Data Provenance Gap Across Text, Speech and Video May 8, 2025Crosslingual Reasoning through Test-Time Scaling Feb 19, 2025MMTEB: Massive Multilingual Text Embedding Benchmark Mar 30, 2024Aurora-M: Open Source Continual Pre-training for Multilingual Language and Code Nov 3, 2023FinGPT: Large Generative Models for a Small Language Jun 2, 2025Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability

← Previous Next →