"au:"Jiazheng Zhang"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Jiazheng Zhang"" — arXiv2 Search

Showing 1–19 of 19 results

/ Date/ Name

Aug 7, 2025Understanding and Mitigating Errors of LLM-Generated RTL Code Aug 16, 2022Dismantling Complex Networks by a Neural Model Trained from Tiny Networks Jan 29, 2023Encoding Node Diffusion Competence and Role Significance for Network Dismantling Apr 17, 2026AgentV-RL: Scaling Reward Modeling with Agentic Verifier May 8, 2024Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents Mar 6, 2025Better Process Supervision with Bi-directional Rewarding Signals Dec 17, 2024DocFusion: A Unified Framework for Document Parsing Tasks Aug 5, 2025VRPO: Rethinking Value Modeling for Robust RL Training under Noisy Supervision Feb 13, 2026SciAgentGym: Benchmarking Multi-Step Scientific Tool-use in LLM Agents Feb 5, 2026DFPO: Scaling Value Modeling via Distributional Flow towards Robust and Generalizable LLM Post-Training Sep 10, 2025AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning Mar 12, 2026Can RL Improve Generalization of LLM Agents? An Empirical Study Dec 3, 2025DVPO: Distributional Value Modeling-based Policy Optimization for LLM Post-Training Apr 21, 2026EVPO: Explained Variance Policy Optimization for Adaptive Critic Utilization in LLM Post-Training Apr 14, 2013Correlated diffusion of colloidal particles near a liquid-liquid interface May 15, 2025Two Minds Better Than One: Collaborative Reward Modeling for LLM Alignment Oct 30, 2024Multi-Programming Language Sandbox for LLMs May 19, 2025FRABench and UFEval: Unified Fine-grained Evaluation with Task and Aspect Generalization May 23, 2025Compression Hacking: A Supplementary Perspective on Informatics Properties of Language Models from Geometric Distortion