cs.SD — arXiv2

Nov 22, 2022COVID-Net Assistant: A Deep Learning-Driven Virtual Assistant for COVID-19 Symptom Prediction and Recommendation

Nov 18, 2022Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis

Nov 15, 2022Hybrid Transformers for Music Source Separation

Nov 14, 2022SNIPER Training: Single-Shot Sparse Training for Text-to-Speech

Nov 11, 2022Speech-to-Speech Translation For A Real-world Unwritten Language

Nov 8, 2022SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations

Nov 8, 2022Pushing the limits of self-supervised speaker verification using regularized distillation framework

Nov 2, 2022data2vec-aqc: Search for the right Teaching Assistant in the Teacher-Student training setup

Nov 1, 2022SDMuse: Stochastic Differential Music Editing and Generation via Hybrid Representation

Oct 27, 2022Multimodal Transformer Distillation for Audio-Visual Synchronization

Oct 18, 2022Simple and Effective Unsupervised Speech Translation

Oct 3, 2022Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection

Aug 28, 2022Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer Tasks

Aug 16, 2022Uconv-Conformer: High Reduction of Input Sequence Length for End-to-End Speech Recognition

Jul 29, 2022Pronunciation-aware unique character encoding for RNN Transducer-based Mandarin speech recognition

Jul 20, 2022Diffsound: Discrete Diffusion Model for Text-to-sound Generation

Jun 7, 2022LegoNN: Building Modular Encoder-Decoder Models

Jun 3, 2022Constraining Gaussian processes for physics-informed acoustic emission mapping

May 30, 2022StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis

May 16, 2022PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker Verification