cs.SD — arXiv2

May 8, 2022Silence is Sweeter Than Speech: Self-Supervised Model Using Silence to Store Speaker Information

May 6, 2022Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition

Apr 26, 2022Reformulating Speaker Diarization as Community Detection With Emphasis On Topological Structure

Apr 25, 2022Parallel Synthesis for Autoregressive Speech Generation

Apr 25, 2022Graph Convolutional Network Based Semi-Supervised Learning on Multi-Speaker Meeting Data

Apr 22, 2022Speaking-Rate-Controllable HiFi-GAN Using Feature Interpolation

Apr 8, 2022Transducer-based language embedding for spoken language identification

Apr 1, 2022Universal Adaptor: Converting Mel-Spectrograms Between Different Configurations for Speech Synthesis

Mar 31, 2022PADA: Pruning Assisted Domain Adaptation for Self-Supervised Speech Representations

Mar 30, 2022Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Mar 29, 2022Integrating Lattice-Free MMI into End-to-End Speech Recognition

Mar 28, 2022On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition

Mar 25, 2022DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning

Mar 25, 2022Automatic Song Translation for Tonal Languages

Mar 13, 2022CMKD: CNN/Transformer-Based Cross-Model Knowledge Distillation for Audio Classification

Feb 15, 2022General-purpose, long-context autoregressive modeling with Perceiver AR

Feb 8, 2022Summary On The ICASSP 2022 Multi-Channel Multi-Party Meeting Transcription Grand Challenge

Jan 6, 2022Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model

Nov 29, 2021Mixed Precision DNN Qunatization for Overlapped Speech Separation and Recognition

Nov 28, 2021Speaker Embedding-aware Neural Diarization for Flexible Number of Speakers with Textual Information