Chuyển sang chế độ ngoại tuyến với ứng dụng Player FM !
Steering Language Model Refusal with Sparse Autoencoders
Manage episode 450904923 series 3524393
The paper explores using sparse autoencoders to steer language model activations for safer responses, improving refusal behavior while noting potential negative impacts on overall performance.
https://arxiv.org/abs//2411.11296
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1687 tập
Manage episode 450904923 series 3524393
The paper explores using sparse autoencoders to steer language model activations for safer responses, improving refusal behavior while noting potential negative impacts on overall performance.
https://arxiv.org/abs//2411.11296
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1687 tập
Tất cả các tập
×Chào mừng bạn đến với Player FM!
Player FM đang quét trang web để tìm các podcast chất lượng cao cho bạn thưởng thức ngay bây giờ. Đây là ứng dụng podcast tốt nhất và hoạt động trên Android, iPhone và web. Đăng ký để đồng bộ các theo dõi trên tất cả thiết bị.