"au:"Sami Jawhar"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Sami Jawhar"" — arXiv2 Search

Showing 1–5 of 5 results

/ Date/ Name

Mar 18, 2025Measuring AI Ability to Complete Long Software Tasks Mar 21, 2025HCAST: Human-Calibrated Autonomy Software Tasks Nov 22, 2024RE-Bench: Evaluating frontier AI R&D capabilities of language model agents against human experts Mar 13, 2025DarkBench: Benchmarking Dark Patterns in Large Language Models Jun 25, 2025The Singapore Consensus on Global AI Safety Research Priorities