cs.SD — arXiv2

Dec 29, 2025MiMo-Audio: Audio Language Models are Few-Shot Learners

Dec 12, 2025Processing through encoding: Quantum circuit approaches for point-wise multiplication and convolution

Dec 7, 2025Multi-Accent Mandarin Dry-Vocal Singing Dataset: Benchmark for Singing Accent Recognition

Dec 7, 2025Singing Timbre Popularity Assessment Based on Multimodal Large Foundation Model

Nov 12, 2025Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation

Nov 9, 2025We Can Hear You with mmWave Radar! An End-to-End Eavesdropping System

Sep 15, 2025Fun-ASR Technical Report

Sep 9, 2025VStyle: A Benchmark for Voice Style Adaptation with Spoken Instructions

Sep 5, 2025Layer-wise Analysis for Quality of Multilingual Synthesized Speech

Aug 5, 2025When Good Sounds Go Adversarial: Jailbreaking Audio-Language Models with Benign Inputs

Aug 1, 2025AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

Jul 23, 2025Seed LiveInterpret 2.0: End-to-end Simultaneous Speech-to-speech Translation with Your Voice

Jul 17, 2025Voxtral

Jun 24, 2025Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation

Jun 1, 2025CoVoMix2: Advancing Zero-Shot Dialogue Generation with Fully Non-Autoregressive Flow Matching

May 23, 2025Source Separation of Small Classical Ensembles: Challenges and Opportunities

May 20, 2025FMSD-TTS: Few-shot Multi-Speaker Multi-Dialect Text-to-Speech Synthesis for Ü-Tsang, Amdo and Kham Speech Dataset Generation

May 19, 2025MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

Apr 1, 2025A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

Mar 17, 2025Robust Audio-Visual Segmentation via Audio-Guided Visual Convergent Alignment