"au:"Haoji Zhang"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Haoji Zhang"" — arXiv2 Search

Showing 1–16 of 16 results

/ Date/ Name

Dec 2, 2024Ponder & Press: Advancing Visual GUI Agent towards General Computer Control Jun 30, 2024Hierarchical Memory for Long Video QA Jun 12, 2024Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams Jun 30, 2025Flash-VStream: Efficient Real-Time Understanding for Long Video Streams Nov 24, 2024Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation Aug 6, 2025Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning Dec 15, 2024Uni-AdaFocus: Spatial-temporal Dynamic Computation for Video Recognition Dec 6, 2025VG-Refiner: Towards Tool-Refined Referring Grounded Reasoning via Agentic Reinforcement Learning May 20, 2025UniVG-R1: Reasoning Guided Universal Visual Grounding with Reinforcement Learning Nov 3, 2025SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment Feb 6, 2026ChatUMM: Robust Context Tracking for Conversational Interleaved Generation Dec 23, 2025DDAVS: Disentangled Audio Semantics and Delayed Bidirectional Alignment for Audio-Visual Segmentation Jan 29, 2026Adaptive Confidence Gating in Multi-Agent Collaboration for Efficient and Optimized Code Generation Nov 24, 2025Vidi2.5: Large Multimodal Models for Video Understanding and Creation Nov 26, 2025Thinking With Bounding Boxes: Enhancing Spatio-Temporal Video Grounding via Reinforcement Fine-Tuning Apr 20, 2023PREIM3D: 3D Consistent Precise Image Attribute Editing from a Single Image