"au:"Di Zhang"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Di Zhang"" — arXiv2 Search

Showing 1–7 of 7 results

/ Date/ Name

Nov 6, 2025NVIDIA Nemotron Nano V2 VL Aug 1, 2025AudioGen-Omni: A Unified Multimodal Diffusion Transformer for Video-Synchronized Audio, Speech, and Song Generation Jun 24, 2025Kling-Foley: Multimodal Diffusion Transformer for High-Quality Video-to-Audio Generation Mar 11, 2025A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects Dec 12, 2024Owl-1: Omni World Model for Consistent Long Video Generation Oct 10, 2024Koala-36M: A Large-scale Video Dataset Improving Consistency between Fine-grained Conditions and Video Content Apr 15, 2024UNIAA: A Unified Multi-modal Image Aesthetic Assessment Baseline and Benchmark