"au:"Kyu J. Han"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Kyu J. Han"" — arXiv2 Search

Showing 1–18 of 18 results

/ Date/ Name

Apr 10, 2024PEAVS: Perceptual Evaluation of Audio-Visual Synchrony Grounded in Viewers' Opinion Scores Jun 17, 2021Multi-mode Transformer Transducer with Stochastic Future Context Dec 29, 2017The CAPIO 2017 Conversational Speech Recognition System May 14, 2024SpeechGuard: Exploring the Adversarial Robustness of Multimodal Large Language Models Apr 25, 2026Robust Audio-Text Retrieval via Cross-Modal Attention and Hybrid Loss Apr 13, 2020Speaker Diarization with Lexical Information Oct 1, 2019State-of-the-Art Speech Recognition Using Multi-Stream Self-Attention With Dilated 1D Convolutions Nov 19, 2021SLUE: New Benchmark Tasks for Spoken Language Understanding Evaluation on Natural Speech Jan 24, 2021A Review of Speaker Diarization: Recent Advances with Deep Learning Dec 14, 2021On the Use of External Data for Spoken Named Entity Recognition Sep 30, 2022E-Branchformer: Branchformer with Enhanced merging for speech recognition Feb 12, 2025Faithful, Unfaithful or Ambiguous? Multi-Agent Debate with Initial Stance for Summary Evaluation May 14, 2024SpeechVerse: A Large-scale Generalizable Audio Language Model May 21, 2020Multistream CNN for Robust Acoustic Modeling Jun 11, 2021Leveraging Pre-trained Language Model for Speech Sentiment Analysis Dec 24, 2024Zero-resource Speech Translation and Recognition with LLMs Mar 5, 2020Auto-Tuning Spectral Clustering for Speaker Diarization Using Normalized Maximum Eigengap May 21, 2020ASAPP-ASR: Multistream CNN and Self-Attentive SRU for SOTA Speech Recognition