"au:"Javier Rando"" — arXiv2 Search

/ Date/ Name

/ Date/ Name

"au:"Javier Rando"" — arXiv2 Search

Showing 1–20 of 20 results

/ Date/ Name

Jan 12, 2026Representations of Text and Images Align From Layer One Oct 8, 2025Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples Feb 4, 2025Adversarial ML Problems Are Getting Harder to Solve and to Evaluate Nov 15, 2024Measuring Non-Adversarial Reproduction of Training Data in Large Language Models Oct 17, 2024Persistent Pre-Training Poisoning of LLMs Oct 4, 2024Gradient-based Jailbreak Images for Multimodal Fusion Models Sep 26, 2024An Adversarial Perspective on Machine Unlearning for AI Safety Jun 17, 2024Adversarial Perturbations Cannot Reliably Protect Artists From Generative AI Jun 12, 2024Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition Apr 22, 2024Competition Report: Finding Universal Jailbreak Backdoors in Aligned LLMs Apr 15, 2024Foundational Challenges in Assuring Alignment and Safety of Large Language Models Apr 3, 2024Attributions toward Artificial Agents in a modified Moral Turing Test Nov 24, 2023Universal Jailbreak Backdoors from Poisoned Human Feedback Nov 6, 2023Scalable and Transferable Black-Box Jailbreaks for Language Models via Persona Modulation Oct 27, 2023Personas as a Way to Model Truthfulness in Language Models Jul 27, 2023Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Jun 2, 2023PassGPT: Password Modeling and (Guided) Generation with Large Language Models Oct 3, 2022Red-Teaming the Stable Diffusion Safety Filter Jun 14, 2022Exploring Adversarial Attacks and Defenses in Vision Transformers trained with DINO Apr 10, 2022"That Is a Suspicious Reaction!": Interpreting Logits Variation to Detect NLP Adversarial Attacks