"au:"Hanyang Zhao"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Hanyang Zhao"" — arXiv2 Search

Showing 1–15 of 15 results

/ Date/ Name

Feb 12, 2024Score-based Diffusion Models via Stochastic Differential Equations -- a Technical Tutorial Oct 5, 2024RainbowPO: A Unified Framework for Combining Improvements in Preference Optimization Mar 13, 2025RPO: Fine-Tuning Visual Generative Models via Rich Vision-Language Preferences May 30, 2023Policy Optimization for Continuous Reinforcement Learning Jan 23, 2024Contractive Diffusion Probabilistic Models Oct 2, 2025DiFFPO: Training Diffusion LLMs to Reason Fast and Furious via Reinforcement Learning Feb 3, 2025Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning Sep 12, 2024Scores as Actions: a framework of fine-tuning diffusion models by continuous-time reinforcement learning May 23, 2024MallowsPO: Fine-Tune Your LLM with Preference Dispersions May 19, 2025R3: Robust Rubric-Agnostic Reward Models Oct 12, 2025Understanding Sampler Stochasticity in Training Diffusion Models for RLHF Oct 16, 2024WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines Jun 2, 2025Datasheets Aren't Enough: DataRubrics for Automated Quality Metrics and Accountability Nov 1, 2025SOCRATES: Simulation Optimization with Correlated Replicas and Adaptive Trajectory Evaluations Sep 17, 2024Preference Tuning with Human Feedback on Language, Speech, and Vision Tasks: A Survey