"au:"Guanzhou Chen"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Guanzhou Chen"" — arXiv2 Search

Showing 1–18 of 18 results

/ Date/ Name

Mar 21, 2026ScaleEdit-12M: Scaling Open-Source Image Editing Data Generation via Multi-Agent Framework Mar 10, 2026InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing Dec 27, 2023Segment Change Model (SCM) for Unsupervised Change detection in VHR Remote Sensing Images: a Case Study of Buildings Feb 3, 2023Describe, Explain, Plan and Select: Interactive Planning with Large Language Models Enables Open-World Multi-Task Agents Jun 12, 2024OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text Apr 21, 2024LMFNet: An Efficient Multimodal Fusion Approach for Semantic Segmentation in High-Resolution Remote Sensing Aug 27, 2025Sat2Flow: A Structure-Aware Diffusion Framework for Human Flow Generation from Satellite Imagery Jun 28, 2024Enhancing Terrestrial Net Primary Productivity Estimation with EXP-CASA: A Novel Light Use Efficiency Model Approach Aug 25, 2025InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency Jan 24, 2026STARS: Shared-specific Translation and Alignment for missing-modality Remote Sensing Semantic Segmentation Oct 13, 2025Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning Mar 26, 2026Intern-S1-Pro: Scientific Multimodal Foundation Model at Trillion Scale Oct 14, 2025MetaCaptioner: Towards Generalist Visual Captioning with Open-source Suites Jan 3, 2024S3Net: Innovating Stereo Matching and Semantic Segmentation with a Single-Branch Semantic Stereo Network in Satellite Epipolar Imagery Jun 11, 2025MSSDF: Modality-Shared Self-supervised Distillation for High-Resolution Multi-modal Remote Sensing Image Learning Feb 27, 2026AIDABench: AI Data Analytics Benchmark Sep 6, 2024BFA-YOLO: A balanced multiscale object detection network for building façade attachments detection May 30, 2025Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces