Reward Models | Data Brew | Episode 40 Data Brew By Databricks podcast

Artwork

Databricks Data Analytics Apache Spark Delta Lake Machine Learning Data Engineering Artificial Intelligence Tech Data Science Science Lifestyle Podcasting Education

Nội dung được cung cấp bởi Databricks. Tất cả nội dung podcast bao gồm các tập, đồ họa và mô tả podcast đều được Databricks hoặc đối tác nền tảng podcast của họ tải lên và cung cấp trực tiếp. Nếu bạn cho rằng ai đó đang sử dụng tác phẩm có bản quyền của bạn mà không có sự cho phép của bạn, bạn có thể làm theo quy trình được nêu ở đây https://vi.player.fm/legal.

Data Brew by Databricks « »
Reward Models | Data Brew | Episode 40

1M ago 39:58

Chia sẻ

MP3•Trang chủ episode

Nội dung được cung cấp bởi Databricks. Tất cả nội dung podcast bao gồm các tập, đồ họa và mô tả podcast đều được Databricks hoặc đối tác nền tảng podcast của họ tải lên và cung cấp trực tiếp. Nếu bạn cho rằng ai đó đang sử dụng tác phẩm có bản quyền của bạn mà không có sự cho phép của bạn, bạn có thể làm theo quy trình được nêu ở đây https://vi.player.fm/legal.

In this episode, Brandon Cui, Research Scientist at MosaicML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF).
Highlights include:
- How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes.
- Techniques like Policy Proximal Optimization (PPO) and Direct Preference
Optimization (DPO) for enhancing response quality.
- The role of reward models in improving coding, math, reasoning, and other NLP tasks.
Connect with Brandon Cui:
https://www.linkedin.com/in/bcui19/

… continue reading

42 tập

#Databricks #Data Analytics #Apache Spark #Delta Lake #Machine Learning #Data Engineering #Artificial Intelligence #Tech #Data Science #Science #Lifestyle #Podcasting Education

Artwork

Reward Models | Data Brew | Episode 40

Data Brew by Databricks

71 subscribers

published 1M ago

Chia sẻ

MP3•Trang chủ episode

Nội dung được cung cấp bởi Databricks. Tất cả nội dung podcast bao gồm các tập, đồ họa và mô tả podcast đều được Databricks hoặc đối tác nền tảng podcast của họ tải lên và cung cấp trực tiếp. Nếu bạn cho rằng ai đó đang sử dụng tác phẩm có bản quyền của bạn mà không có sự cho phép của bạn, bạn có thể làm theo quy trình được nêu ở đây https://vi.player.fm/legal.

In this episode, Brandon Cui, Research Scientist at MosaicML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF).
Highlights include:
- How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes.
- Techniques like Policy Proximal Optimization (PPO) and Direct Preference
Optimization (DPO) for enhancing response quality.
- The role of reward models in improving coding, math, reasoning, and other NLP tasks.
Connect with Brandon Cui:
https://www.linkedin.com/in/bcui19/

… continue reading

42 tập

#Databricks #Data Analytics #Apache Spark #Delta Lake #Machine Learning #Data Engineering #Artificial Intelligence #Tech #Data Science #Science #Lifestyle #Podcasting Education

Alle afleveringen

×

Chào mừng bạn đến với Player FM!

Player FM đang quét trang web để tìm các podcast chất lượng cao cho bạn thưởng thức ngay bây giờ. Đây là ứng dụng podcast tốt nhất và hoạt động trên Android, iPhone và web. Đăng ký để đồng bộ các theo dõi trên tất cả thiết bị.

Nghe hơn 500 chủ đề

Hướng dẫn sử dụng nhanh

Podcast hàng đầu

Tạp chí thể thao

Tạp chí kinh tế

KBS WORLD Radio Tiếng Hàn qua phim ảnh

Vietnamese News - NHK WORLD RADIO JAPAN

Tạp chí tiêu điểm

The Present Writer

Podcasts – Life Abroad Podcast

Nghe chương trình này trong khi bạn khám phá