cs.SD — arXiv2

Jun 13, 2024Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time

Jun 12, 2024LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation

Jun 9, 2024Zero-Shot End-To-End Spoken Question Answering In Medical Domain

Jun 7, 2024Neural Codec-based Adversarial Sample Detection for Speaker Verification

May 23, 2024Visual Echoes: A Simple Unified Transformer for Audio-Visual Generation

Mar 31, 2024WavLLM: Towards Robust and Adaptive Speech Large Language Model

Mar 18, 2024QEAN: Quaternion-Enhanced Attention Network for Visual Dance Generation

Feb 20, 2024EMO-SUPERB: An In-depth Look at Speech Emotion Recognition

Feb 15, 2024MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

Jan 29, 2024Continuous Target Speech Extraction: Enhancing Personalized Diarization and Extraction on Complex Recordings

Dec 30, 2023Boosting Large Language Model for Speech Synthesis: An Empirical Study

Dec 20, 2023FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous Self-Supervised Learning

Dec 20, 2023Stable Distillation: Regularizing Continued Pre-training for Low-Resource Automatic Speech Recognition

Dec 16, 2023SECap: Speech Emotion Captioning with Large Language Model

Dec 8, 2023Seamless: Multilingual Expressive and Streaming Speech Translation

Nov 24, 2023Overview Of The 2023 Icassp Sp Clarity Challenge: Speech Enhancement For Hearing Aids

Nov 21, 2023Adapting pretrained speech model for Mandarin lyrics transcription and alignment

Oct 28, 2023Audio-Visual Instance Segmentation

Oct 12, 2023CompA: Addressing the Gap in Compositional Reasoning in Audio-Language Models

Sep 29, 2023Low-Resource Self-Supervised Learning with SSL-Enhanced TTS