"au:"Archit Sharma"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Archit Sharma"" — arXiv2 Search

Showing 21–34 of 34 results

/ Date/ Name

Mar 19, 2024Yell At Your Robot: Improving On-the-Fly from Language Corrections Oct 23, 2023Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for Autonomous Real-World Reinforcement Learning Apr 22, 2024Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data Jul 7, 2025Gemini 2.5: Pushing the Frontier with Advanced Reasoning, Multimodality, Long Context, and Next Generation Agentic Capabilities Oct 12, 2023Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias Oct 19, 2022When to Ask for Help: Proactive Interventions in Autonomous Reinforcement Learning Sep 15, 2024Towards Data-Centric RLHF: Simple Metrics for Preference Dataset Comparison Oct 30, 2024Grounding by Trying: LLMs with Reinforcement Learning-Enhanced Retrieval Oct 19, 2023An Emulator for Fine-Tuning Large Language Models using Small Language Models Apr 1, 2024Stream of Search (SoS): Learning to Search in Language Dec 9, 2024Policy Agnostic RL: Offline RL and Online RL Fine-Tuning of Any Class and Backbone Oct 13, 2023Open X-Embodiment: Robotic Learning Datasets and RT-X Models Feb 16, 2024RLVF: Learning from Verbal Feedback without Overgeneralization Jun 2, 2021Variational Empowerment as Representation Learning for Goal-Based Reinforcement Learning