cs.SD — arXiv2

Apr 5, 2019LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech

Dec 4, 2018Learning to match transient sound events using attentional similarity for few-shot sound recognition

Nov 28, 2018A Study of the Complexity and Accuracy of Direction of Arrival Estimation Methods Based on GCC-PHAT for a Pair of Close Microphones

Nov 2, 2018Beyond Equal-Length Snippets: How Long is Sufficient to Recognize an Audio Scene?

Nov 2, 2018Unifying Isolated and Overlapping Audio Event Detection with Multi-Label Multi-Task Convolutional Recurrent Neural Networks

Oct 30, 2018Almost-unsupervised Speech Recognition with Close-to-zero Resource Based on Phonetic Structures Learned from Very Small Unpaired Speech and Text Data

Aug 16, 2018Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model based on BLSTM

Jul 21, 2018Phonetic-and-Semantic Embedding of Spoken Words with Applications in Spoken Content Retrieval

Jul 9, 2018On Training Recurrent Networks with Truncated Backpropagation Through Time in Speech Recognition

May 3, 2018Deep Denoising for Hearing Aid Applications

Apr 15, 2018Transcribing Lyrics From Commercial Song Audio: The First Step Towards Singing Content Processing

Mar 24, 2018Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron

Feb 21, 2018Sequence-based Multi-lingual Low Resource Speech Recognition

Nov 1, 2017Uncovering Latent Style Factors for Expressive Speech Synthesis

Oct 31, 2017SVSGAN: Singing Voice Separation via Generative Adversarial Network

Sep 12, 2017End-to-End Waveform Utterance Enhancement for Direct Evaluation Metrics Optimization by Fully Convolutional Neural Networks

Aug 23, 2017Object-Based Audio Rendering

Jun 23, 2017Personalized Acoustic Modeling by Weakly Supervised Multi-Task Deep Learning using Acoustic Tokens Discovered from Unlabeled Data

Apr 27, 2017Complex spectrogram enhancement by convolutional neural network with multi-metrics learning

Mar 29, 2017Tacotron: Towards End-to-End Speech Synthesis