Chuyển sang chế độ ngoại tuyến với ứng dụng Player FM !
[QA] The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions
Manage episode 414012842 series 3524393
LLMs are vulnerable to attacks due to equal priority given to all prompts. Proposed instruction hierarchy teaches models to ignore lower-priority instructions, enhancing robustness with minimal impact on capabilities.
https://arxiv.org/abs//2404.13208
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1017 tập
Manage episode 414012842 series 3524393
LLMs are vulnerable to attacks due to equal priority given to all prompts. Proposed instruction hierarchy teaches models to ignore lower-priority instructions, enhancing robustness with minimal impact on capabilities.
https://arxiv.org/abs//2404.13208
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1017 tập
Tất cả các tập
×Chào mừng bạn đến với Player FM!
Player FM đang quét trang web để tìm các podcast chất lượng cao cho bạn thưởng thức ngay bây giờ. Đây là ứng dụng podcast tốt nhất và hoạt động trên Android, iPhone và web. Đăng ký để đồng bộ các theo dõi trên tất cả thiết bị.