cs.SD — arXiv2

Apr 24, 2026UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

Apr 23, 2026Do LLM Decoders Listen Fairly? Benchmarking How Language Model Priors Shape Bias in Speech Recognition

Apr 22, 2026Materialistic RIR: Material Conditioned Realistic RIR Generation

Apr 22, 2026SpeechParaling-Bench: A Comprehensive Benchmark for Paralinguistic-Aware Speech Generation

Apr 22, 2026ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

Apr 22, 2026From Image to Music Language: A Two-Stage Structure Decoding Approach for Complex Polyphonic OMR

Apr 21, 2026HalluAudio: A Comprehensive Benchmark for Hallucination Detection in Large Audio-Language Models

Apr 17, 2026Benign Fine-Tuning Breaks Safety Alignment in Audio LLMs

Apr 13, 2026ActorMind: Emulating Human Actor Reasoning for Speech Role-Playing

Apr 13, 2026Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Apr 6, 2026Joint Fullband-Subband Modeling for High-Resolution SingFake Detection

Mar 30, 2026MOSS-VoiceGenerator: Create Realistic Voices with Natural Language Descriptions

Mar 20, 2026MOSS-TTSD: Text to Spoken Dialogue Generation

Mar 18, 2026MOSS-TTS Technical Report

Jan 29, 2026Qwen3-ASR Technical Report

Jan 26, 2026VIBEVOICE-ASR Technical Report

Jan 22, 2026Qwen3-TTS Technical Report

Jan 14, 2026Towards Realistic Synthetic Data for Automatic Drum Transcription

Jan 12, 2026Elastic overtones: an equal temperament 12 tone music system with "perfect" fifths

Jan 7, 2026Apollo: Unified Multi-Task Audio-Video Joint Generation