"au:"Hongtao Xie"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Hongtao Xie"" — arXiv2 Search

Showing 1–20 of 20 results

/ Date/ Name

Mar 23, 2026Seeing is Improving: Visual Feedback for Iterative Text Layout Refinement Apr 9, 2025PosterMaker: Towards High-Quality Product Poster Generation with Accurate Text Rendering Mar 20, 2025Hybrid-Level Instruction Injection for Video Token Compression in Multi-modal Large Language Models Jun 21, 2024Pistis-RAG: Enhancing Retrieval-Augmented Generation with Human Feedback Jun 17, 2024Hallucination Mitigation Prompts Long-term Video Understanding May 9, 2024Self-Supervised Pre-training with Symmetric Superimposition Modeling for Scene Text Recognition May 7, 2024Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing Oct 12, 2023Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval Oct 8, 2023Symmetrical Linguistic Feature Distillation with CLIP for Scene Text Recognition Jul 6, 2023MomentDiff: Generative Video Moment Retrieval from Random to Real May 9, 2023TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition May 9, 2023Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition Oct 12, 2022Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets Sep 2, 2022Geometry Aligned Variational Transformer for Image-conditioned Layout Generation Sep 1, 2022REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer Aug 22, 2021From Two to One: A New Scene Text Recognizer with Visual Language Modeling Network Jun 13, 2021Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning Apr 1, 2020Graph Structured Network for Image-Text Matching Mar 30, 2020Multi-Objective Matrix Normalization for Fine-grained Visual Recognition Aug 23, 2019ACE-Net: Biomedical Image Segmentation with Augmented Contracting and Expansive Paths