eess.AS — arXiv2

Apr 24, 2026TTS-PRISM: A Perceptual Reasoning and Interpretable Speech Model for Fine-Grained Diagnosis

Apr 24, 2026UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

Apr 23, 2026Dilated CNNs for Periodic Signal Processing: A Low-Complexity Approach

Apr 22, 2026ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

Apr 21, 2026Tonnetz Theory, Classical Harmony, and the Combinatorial Geometry of Abstract Musical Resources

Apr 21, 2026Self-Noise Reduction for Capacitive Sensors via Photoelectric DC Servo: Application to Condenser Microphones

Apr 20, 2026Incremental learning for audio classification with Hebbian Deep Neural Networks

Apr 19, 2026HCFD: A Benchmark for Audio Deepfake Detection in Healthcare

Apr 13, 2026Audio Flamingo Next: Next-Generation Open Audio-Language Models for Speech, Sound, and Music

Apr 6, 2026Joint Fullband-Subband Modeling for High-Resolution SingFake Detection

Jan 29, 2026Qwen3-ASR Technical Report

Jan 26, 2026VIBEVOICE-ASR Technical Report

Jan 22, 2026Qwen3-TTS Technical Report

Jan 12, 2026Elastic overtones: an equal temperament 12 tone music system with "perfect" fifths

Dec 29, 2025MiMo-Audio: Audio Language Models are Few-Shot Learners

Dec 5, 2025Noise Suppression for Time Difference of Arrival: Performance Evaluation of a Generalized Cross-Correlation Method Using Mean Signal and Inverse Filter

Nov 13, 2025Time-Layer Adaptive Alignment for Speaker Similarity in Flow-Matching Based Zero-Shot TTS

Nov 12, 2025Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation

Sep 22, 2025Qwen3-Omni Technical Report

Sep 17, 2025Assessing Data Replication in Symbolic Music via Adapted Structural Similarity Index Measure