"au:"Le Sun"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Le Sun"" — arXiv2 Search

Showing 1–6 of 6 results

/ Date/ Name

Oct 24, 2025When Models Outthink Their Safety: Unveiling and Mitigating Self-Jailbreak in Large Reasoning Models Aug 21, 2025A Survey on Large Language Model Benchmarks Jul 20, 2025RefCritic: Training Long Chain-of-Thought Critic Models with Refinement Feedback Oct 28, 2024Transferable Post-training via Inverse Value Learning Jun 3, 2024Towards Scalable Automated Alignment of LLMs: A Survey Feb 27, 2024SoFA: Shielded On-the-fly Alignment via Priority Rule Following