"au:"Zhidong Deng"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Zhidong Deng"" — arXiv2 Search

Showing 1–20 of 25 results

/ Date/ Name

Sep 20, 2018Recent progress in semantic image segmentation Aug 4, 2023Improving Scene Graph Generation with Superpixel-Based Interaction Learning Aug 8, 20233D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment May 19, 2024Unifying 3D Vision-Language Understanding via Promptable Queries Aug 26, 2024Video-CCAM: Enhancing Video-Language Understanding with Causal Cross-Attention Masks for Short and Long Videos Apr 1, 2023TalkCLIP: Talking Head Generation with Text-Guided Expressive Speaking Styles Apr 5, 2024Context-Aware Aerial Object Detection: Leveraging Inter-Object and Background Relationships Jul 31, 2018SegStereo: Exploiting Semantic Information for Disparity Estimation Mar 8, 2022DuMLP-Pin: A Dual-MLP-dot-product Permutation-invariant Network for Set Feature Extraction Nov 27, 2018Fast Object Detection in Compressed Video Aug 29, 2024LLaVA-SG: Leveraging Scene Graphs as Visual Semantic Expression in Vision-Language Models May 27, 2025Exploring Timeline Control for Facial Motion Generation Feb 22, 2021Phase Space Reconstruction Network for Lane Intrusion Action Recognition May 15, 2023Cross-Modality Time-Variant Relation Learning for Generating Dynamic Scene Graphs Dec 15, 2023DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models Feb 5, 2026FUTURE-VLA: Forecasting Unified Trajectories Under Real-time Execution Jan 3, 2023StyleTalk: One-shot Talking Head Generation with Controllable Speaking Styles Feb 19, 2021A Deep Graph Wavelet Convolutional Neural Network for Semi-supervised Node Classification Sep 14, 2024StyleTalk++: A Unified Framework for Controlling the Speaking Styles of Talking Heads Jul 5, 2025Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation