"au:"Chia-Wen Kuo"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Chia-Wen Kuo"" — arXiv2 Search

Showing 1–15 of 15 results

/ Date/ Name

May 25, 2023HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning May 9, 2022Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning Nov 16, 2018Data-Efficient Graph Embedding Learning for PCB Component Detection Nov 20, 2022Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation Jul 16, 2020FeatMatch: Feature-Based Augmentation for Semi-Supervised Learning Jun 12, 2019Manifold Graph with Learned Prototypes for Semi-Supervised Image Classification Feb 18, 2021Unbiased Teacher for Semi-Supervised Object Detection May 9, 2024CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts Jun 15, 2024Beyond Raw Videos: Understanding Edited Videos with Large Multimodal Model May 17, 2023CLIP-GCD: Simple Language Guided Generalized Category Discovery Nov 24, 2025Vidi2.5: Large Multimodal Models for Video Understanding and Creation Feb 4, 2025D-Attn: Decomposed Attention for Large Vision-and-Language Models Mar 21, 2020Who2com: Collaborative Perception via Learnable Handshake Communication Apr 22, 2025Vidi: Large Multimodal Models for Video Understanding and Editing Mar 18, 2025Where do Large Vision-Language Models Look at when Answering Questions?