"au:"Nadav Merlis"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Nadav Merlis"" — arXiv2 Search

Showing 1–20 of 22 results

/ Date/ Name

Oct 12, 2021Query-Reward Tradeoffs in Multi-Armed Bandits Feb 5, 2021Confidence-Budget Matching for Sequential Budgeted Learning Aug 13, 2020Reinforcement Learning with Trajectory Feedback May 8, 2019Batch-Size Independent Regret Bounds for the Combinatorial Multi-Armed Bandit Problem Jun 17, 2024Improved Algorithms for Contextual Dynamic Pricing Jan 15, 2026Reinforcement Learning with Multi-Step Lookahead Information Via Adaptive Batching Feb 13, 2020Tight Lower Bounds for Combinatorial Multi-Armed Bandits Nov 11, 2025Online Linear Regression with Paid Stochastic Features Mar 18, 2024The Value of Reward Lookahead in Reinforcement Learning Aug 10, 2020Lenient Regret for Multi-Armed Bandits Jun 4, 2024Reinforcement Learning with Lookahead Information Oct 2, 2019Never Worse, Mostly Better: Stable Policy Improvement in Deep Reinforcement Learning Sep 6, 2018Learn What Not to Learn: Action Elimination with Deep Reinforcement Learning May 27, 2019Tight Regret Bounds for Model-Based Reinforcement Learning with Greedy Policies May 26, 2024On Bits and Bandits: Quantifying the Regret-Information Trade-off Nov 5, 2024Stable Matching with Ties: Approximation Ratios and Learning Feb 4, 2023Reinforcement Learning with History-Dependent Dynamic Contexts May 31, 2022On Preemption and Learning in Stochastic Scheduling May 30, 2022Reinforcement Learning with a Terminator May 24, 2023Ranking with Popularity Bias: User Welfare under Self-Amplification Dynamics