cs.MM — arXiv2

Feb 15, 2024MuChin: A Chinese Colloquial Description Benchmark for Evaluating Language Models in the Field of Music

Feb 6, 2024Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue

Dec 26, 2023Understanding Before Recommendation: Semantic Aspect-Aware Review Exploitation via Large Language Models

Dec 15, 2023MORE: A Multimodal Object-Entity Relation Extraction Dataset with a Benchmark Evaluation

Oct 28, 2023Audio-Visual Instance Segmentation

Oct 16, 2023Evading Detection Actively: Toward Anti-Forensics against Forgery Localization

Sep 19, 2023MelodyGLM: Multi-task Pre-training for Symbolic Melody Generation

Aug 24, 2023Spherical Vision Transformer for 360-degree Video Saliency Prediction

Jul 27, 2023Sample Less, Learn More: Efficient Action Recognition via Frame Feature Restoration

Jun 27, 2023You Can Mask More For Extremely Low-Bitrate Image Compression

Jun 15, 2023The 2023 Video Similarity Dataset and Challenge

May 12, 2023MM-Fi: Multi-Modal Non-Intrusive 4D Human Dataset for Versatile Wireless Sensing

May 4, 2023Noise-Resistant Multimodal Transformer for Emotion Recognition

Apr 28, 2023LLaMA-Adapter V2: Parameter-Efficient Visual Instruction Model

Apr 23, 2023Experts prefer text but videos help novices: an analysis of the utility of multi-media content

Apr 10, 2023ITportrait: Image-Text Coupled 3D Portrait Domain Adaptation

Mar 14, 2023CAT: Causal Audio Transformer for Audio Classification

Jan 10, 2023From Plate to Prevention: A Dietary Nutrient-aided Platform for Health Promotion in Singapore

Nov 18, 2022Speaker Overlap-aware Neural Diarization for Multi-party Meeting Analysis

Nov 1, 2022SDMuse: Stochastic Differential Music Editing and Generation via Hybrid Representation