"au:"Lei Ji"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Lei Ji"" — arXiv2 Search

Showing 1–20 of 38 results

/ Date/ Name

Apr 8, 2022From PHY to QoE: A Parameterized Framework Design Feb 15, 2020UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation Nov 24, 2021NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Mar 29, 2023TaskMatrix.AI: Completing Tasks by Connecting Foundation Models with Millions of APIs Jan 21, 2024Exploring Diffusion Time-steps for Unsupervised Representation Learning Dec 20, 2023ASSISTGUI: Task-Oriented Desktop Graphical User Interface Automation May 2, 2020A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos Jun 17, 2025PeRL: Permutation-Enhanced Reinforcement Learning for Interleaved Vision-Language Reasoning Sep 16, 2020Tag and Correct: Question aware Open Information Extraction with Two-stage Decoding Apr 18, 2021CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Aug 5, 2021Hybrid Reasoning Network for Video-based Commonsense Captioning Jun 14, 2023AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Nov 11, 2024Explore the Reasoning Capability of LLMs in the Chess Testbed Feb 7, 2026Pull Requests as a Training Signal for Repo-Level Code Editing May 24, 2018R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering Dec 22, 2023Voila-A: Aligning Vision-Language Models with User's Gaze Attention Jul 10, 2023KU-DMIS-MSRA at RadSum23: Pre-trained Vision-Language Model for Radiology Report Summarization Oct 28, 2023EHRXQA: A Multi-Modal Question Answering Dataset for Electronic Health Records with Chest X-ray Images Sep 22, 2022CONE: An Efficient COarse-to-fiNE Alignment Framework for Long Video Temporal Grounding Dec 19, 2022MIST: Multi-modal Iterative Spatial-Temporal Transformer for Long-form Video Question Answering