cs.MM — arXiv2

Oct 7, 2022C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval

Oct 3, 2022Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection

Sep 18, 2022Overcoming Language Priors in Visual Question Answering via Distinguishing Superficially Similar Instances

Sep 2, 2022Geometry Aligned Variational Transformer for Image-conditioned Layout Generation

Jul 11, 2022Patch-level instance-group discrimination with pretext-invariant learning for colitis scoring

May 9, 2022SwinIQA: Learned Swin Distance for Compressed Image Quality Assessment

May 4, 2022Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion

Mar 30, 2022Span Classification with Structured Information for Disfluency Detection in Spoken Utterances

Mar 4, 2022Voice-Face Homogeneity Tells Deepfake

Jan 16, 2022Audio-Driven Talking Face Video Generation with Dynamic Convolution Kernels

Dec 3, 2021Malakai: Music That Adapts to the Shape of Emotions

Oct 27, 2021LSTM-RPA: A Simple but Effective Long Sequence Prediction Algorithm for Music Popularity Prediction

Oct 13, 2021Singer separation for karaoke content generation

Sep 20, 2021TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage Method

Jul 27, 2021The CORSMAL benchmark for the prediction of the properties of containers

Jul 6, 2021Self-Adversarial Training incorporating Forgery Attention for Image Forgery Localization

Jul 1, 2021Deep Orthogonal Fusion: Multimodal Prognostic Biomarker Discovery Integrating Radiology, Pathology, Genomic, and Clinical Data

Mar 10, 2021Cross-modal Image Retrieval with Deep Mutual Information Maximization

Dec 16, 2020UAV-Assisted Image Acquisition: 3D UAV Trajectory Design and Camera Control

Dec 20, 2019From Patches to Pictures (PaQ-2-PiQ): Mapping the Perceptual Space of Picture Quality