Chuyển sang chế độ ngoại tuyến với ứng dụng Player FM !
[QA] Generative Reward Models
Manage episode 446289064 series 3524393
The paper proposes GenRM, a hybrid approach combining RLHF and RLAIF, improving synthetic preference labels' quality and outperforming existing models in both in-distribution and out-of-distribution tasks.
https://arxiv.org/abs//2410.12832
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1637 tập
Manage episode 446289064 series 3524393
The paper proposes GenRM, a hybrid approach combining RLHF and RLAIF, improving synthetic preference labels' quality and outperforming existing models in both in-distribution and out-of-distribution tasks.
https://arxiv.org/abs//2410.12832
YouTube: https://www.youtube.com/@ArxivPapers
TikTok: https://www.tiktok.com/@arxiv_papers
Apple Podcasts: https://podcasts.apple.com/us/podcast/arxiv-papers/id1692476016
Spotify: https://podcasters.spotify.com/pod/show/arxiv-papers
--- Support this podcast: https://podcasters.spotify.com/pod/show/arxiv-papers/support
1637 tập
Tất cả các tập
×Chào mừng bạn đến với Player FM!
Player FM đang quét trang web để tìm các podcast chất lượng cao cho bạn thưởng thức ngay bây giờ. Đây là ứng dụng podcast tốt nhất và hoạt động trên Android, iPhone và web. Đăng ký để đồng bộ các theo dõi trên tất cả thiết bị.