"au:"Chiori Hori"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Chiori Hori"" — arXiv2 Search

Showing 1–20 of 25 results

/ Date/ Name

Jan 11, 2017Attention-Based Multimodal Fusion for Video Description Jun 27, 2023Style-transfer based Speech and Audio-visual Scene Understanding for Robot Action Sequence Acquisition from Videos Oct 13, 2021Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual Transformers with Joint Student-Teacher Learning Jun 21, 2018End-to-End Audio Visual Scene-Aware Dialog using Multimodal Attention-Based Video Features Sep 23, 2020Multi-Pass Transformer for Machine Translation Aug 4, 2021Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers Jun 22, 2017End-to-end Conversation Modeling Track in DSTC6 Oct 16, 2023Generation or Replication: Auscultating Audio Latent Diffusion Models Sep 29, 2025SpinBench: Perspective and Rotation as a Lens on Spatial Reasoning in VLMs Oct 30, 2023Scenario-Aware Audio-Visual TF-GridNet for Target Speech Extraction Nov 14, 2019The Eighth Dialog System Technology Challenge Jul 8, 2020Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Apr 19, 2021Advanced Long-context End-to-end Speech Recognition Using Context-expanded Transformers Jan 11, 2019Dialog System Technology Challenge 7 Jan 3, 2020Multi-Layer Content Interaction Through Quaternion Product For Visual Question Answering Feb 18, 2022(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering Jan 25, 2019Audio-Visual Scene-Aware Dialog Feb 27, 2024NIIRF: Neural IIR Filter Field for HRTF Upsampling and Personalization Nov 21, 2025Robot Confirmation Generation and Action Planning Using Long-context Q-Former Integrated with Multimodal LLM Jun 18, 2025Factorized RVQ-GAN For Disentangled Speech Tokenization