"au:"Songtao Jiang"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Songtao Jiang"" — arXiv2 Search

Showing 1–16 of 16 results

/ Date/ Name

Apr 6, 2024Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models Oct 9, 2025Hulu-Med: A Transparent Generalist Model towards Holistic Medical Vision-Language Understanding Aug 26, 2025Knowing or Guessing? Robust Medical Visual Question Answering via Joint Consistency and Contrastive Learning Jun 15, 2025CAPO: Reinforcing Consistent Reasoning in Medical Decision-Making Jun 1, 2025Fast or Slow? Integrating Fast Intuition and Deliberate Thinking for Enhancing Visual Question Answering Apr 16, 2024Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models Apr 20, 2025OmniV-Med: Scaling Medical Vision-Language Model for Universal Visual Understanding Jun 1, 2025HSCR: Hierarchical Self-Contrastive Rewarding for Aligning Medical Vision Language Models Oct 20, 2024Modality-Fair Preference Optimization for Trustworthy MLLM Alignment Mar 18, 2026Learning Transferable Temporal Primitives for Video Reasoning via Synthetic Videos Mar 11, 2026CodePercept: Code-Grounded Visual STEM Perception for MLLMs Dec 2, 2025Beyond N-grams: A Hierarchical Reward Learning Framework for Clinically-Aware Medical Report Generation Mar 4, 2026From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning Aug 14, 2025Med-GLIP: Advancing Medical Language-Image Pre-training with Large-scale Grounded Dataset Apr 21, 2026How Far Are Video Models from True Multimodal Reasoning?Jan 8, 2025Unlocking Multimodal Mathematical Reasoning via Process Reward Model