cs.MM — arXiv2

Apr 23, 2026StyleID: A Perception-Aware Dataset and Metric for Stylization-Agnostic Facial Identity Recognition

Apr 23, 2026UAU-Net: Uncertainty-aware Representation Learning and Evidential Classification for Facial Action Unit Detection

Apr 22, 2026ONOTE: Benchmarking Omnimodal Notation Processing for Expert-level Music Intelligence

Apr 22, 2026AttentionBender: Manipulating Cross-Attention in Video Diffusion Transformers as a Creative Probe

Apr 22, 2026Building a Precise Video Language with Human-AI Oversight

Apr 21, 2026AutoAWG: Adverse Weather Generation with Adaptive Multi-Controls for Automotive Videos

Apr 20, 2026XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments

Apr 17, 2026MOMENTA: Mixture-of-Experts Over Multimodal Embeddings with Neural Temporal Aggregation for Misinformation Detection

Apr 9, 2026MSCT: Differential Cross-Modal Attention for Deepfake Detection

Apr 8, 2026LungCURE: Benchmarking Multimodal Real-World Clinical Reasoning for Precision Lung Cancer Diagnosis and Treatment

Feb 23, 2026A Very Big Video Reasoning Suite

Feb 7, 2026Learning Brain Representation with Hierarchical Visual Embeddings

Jan 15, 2026Handling Missing Modalities in Multimodal Survival Prediction for Non-Small Cell Lung Cancer

Jan 7, 2026Apollo: Unified Multi-Task Audio-Video Joint Generation

Dec 23, 2025SemCovert: Secure and Covert Video Transmission via Deep Semantic-Level Hiding

Aug 1, 2025AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation

Jul 27, 2025T$^\text{3}$SVFND: Towards an Evolving Fake News Detector for Emergencies with Test-time Training on Short Video Platforms

May 19, 2025MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix

Apr 24, 2025Machine Learning-Based Prediction of Quality Shifts on Video Streaming Over 5G

Apr 1, 2025A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives