"au:"Prithviraj Ammanabrolu"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Prithviraj Ammanabrolu"" — arXiv2 Search

Showing 21–40 of 45 results

/ Date/ Name

Jan 23, 2020Graph Constrained Reinforcement Learning for Natural Language Action Spaces Feb 19, 2020How To Avoid Being Eaten By a Grue: Exploration Strategies for Text-Adventure Agents Oct 7, 2021Situated Dialogue Learning through Procedural Environment Generation Sep 8, 2019Story Realization: Expanding Plot Events into Sentences Oct 3, 2022Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization Oct 13, 2022Behavior Cloned Transformers are Neurosymbolic Reasoners Apr 6, 2026How Reasoning Evolves from Post-Training Data: An Empirical Study Using Chess Apr 24, 2025Collaborating Action by Action: A Multi-agent LLM Framework for Embodied Reasoning Apr 19, 2025TALES: Text Adventure Learning Environment Suite Nov 7, 2025Long Grounded Thoughts: Synthesizing Visual Problems and Reasoning Chains at Scale Aug 21, 2024Critique-out-Loud Reward Models Dec 20, 2022I Cast Detect Thoughts: Learning to Converse and Guide with Intents and Theory-of-Mind in Dungeons and Dragons Nov 17, 2025Preference-Based Learning in Audio Applications: A Systematic Analysis Jul 2, 2022INSCIT: Information-Seeking Conversations with Mixed-Initiative Interactions Jun 2, 2023Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Aug 16, 2024CPS-TaskForge: Generating Collaborative Problem Solving Environments for Diverse Communication Tasks Apr 9, 2025A Survey on Personalized and Pluralistic Preference Alignment in Large Language Models Oct 1, 2025Simultaneous Multi-objective Alignment Across Verifiable and Non-verifiable Rewards Oct 17, 2023Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging May 24, 2023Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning

← Previous Next →