"au:"Yiran Qin"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Yiran Qin"" — arXiv2 Search

Showing 1–20 of 31 results

/ Date/ Name

Dec 12, 2023MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception Mar 20, 2025RoboFactory: Exploring Embodied Agent Collaboration with Compositional Constraints Sep 13, 2023SupFusion: Supervised LiDAR-Camera Fusion for 3D Object Detection Oct 23, 2024WorldSimBench: Towards Video Generation Models as World Simulators Feb 19, 2025NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants Mar 18, 2024MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control Feb 7, 2024Toward Accurate Camera-based 3D Object Detection via Cascade Depth Estimation and Calibration Mar 21, 2025Position: Interactive Generative Video as Next-Generation Game Engine Jan 14, 2025GameFactory: Creating New Games with Generative Interactive Videos Mar 9, 2026Reading $\neq$ Seeing: Diagnosing and Closing the Typography Gap in Vision-Language Models Jan 28, 2026TouchGuide: Inference-Time Steering of Visuomotor Policies via Touch Guidance Jan 22, 2025T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation Oct 9, 2025BEAR: Benchmarking and Enhancing Multimodal Language Models for Atomic Embodied Capabilities Apr 13, 2026ComSim: Building Scalable Real-World Robot Data Generation via Compositional Simulation Nov 3, 2025LiveSearchBench: An Automatically Constructed Benchmark for Retrieval and Reasoning over Dynamic Knowledge Nov 2, 2025GauDP: Reinventing Multi-Agent Collaboration through Gaussian-Image Synergy in Diffusion Policies Mar 4, 2025ReSo: A Reward-driven Self-organizing LLM-based Multi-Agent System for Reasoning Tasks Apr 7, 2026CoEnv: Driving Embodied Multi-Agent Collaboration via Compositional Environment Aug 21, 2024Story3D-Agent: Exploring 3D Storytelling Visualization with Large Language Models Jan 20, 2026Toward Efficient Agents: Memory, Tool learning, and Planning