"au:"Yapeng Tian"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Yapeng Tian"" — arXiv2 Search

Showing 1–20 of 96 results

/ Date/ Name

Dec 7, 2018TDAN: Temporally Deformable Alignment Network for Video Super-Resolution Dec 21, 2019Deep Audio Prior Apr 5, 2021Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation Jul 21, 2020Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing Dec 7, 2018An Attempt towards Interpretable Audio-Visual Video Captioning Apr 5, 2021Can audio-visual integration strengthen robustness under multimodal attacks?Mar 23, 2018Audio-Visual Event Localization in Unconstrained Videos Nov 10, 2021Space-Time Memory Network for Sounding Object Localization in Videos Feb 4, 2023AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis Aug 26, 2023DiffI2I: Efficient Diffusion Model for Image-to-Image Translation May 31, 2023Unveiling Cross Modality Bias in Visual Question Answering: A Causal View with Possible Worlds VQA Mar 29, 2023Audio-Visual Grouping Network for Sound Localization from Mixtures May 3, 2023AV-SAM: Segment Anything Model Meets Audio-Visual Localization and Segmentation Mar 22, 2024Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition Jul 5, 2023Dual Arbitrary Scale Super-Resolution for Multi-Contrast MRI Nov 7, 2024SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering Nov 5, 2024Continual Audio-Visual Sound Separation Feb 1, 2025Do Audio-Visual Segmentation Models Truly Segment Sounding Objects?Jul 15, 2025AROMA: Mixed-Initiative AI Assistance for Non-Visual Cooking by Grounding Multi-modal Information Between Reality and Videos Feb 11, 2025PRVQL: Progressive Knowledge-guided Refinement for Robust Egocentric Visual Query Localization