Artwork

Nội dung được cung cấp bởi Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti. Tất cả nội dung podcast bao gồm các tập, đồ họa và mô tả podcast đều được Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti hoặc đối tác nền tảng podcast của họ tải lên và cung cấp trực tiếp. Nếu bạn cho rằng ai đó đang sử dụng tác phẩm có bản quyền của bạn mà không có sự cho phép của bạn, bạn có thể làm theo quy trình được nêu ở đây https://vi.player.fm/legal.
Player FM - Ứng dụng Podcast
Chuyển sang chế độ ngoại tuyến với ứng dụng Player FM !

#76 – Joe Carlsmith on Scheming AI

1:51:32
 
Chia sẻ
 

Manage episode 406789446 series 2607952
Nội dung được cung cấp bởi Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti. Tất cả nội dung podcast bao gồm các tập, đồ họa và mô tả podcast đều được Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti hoặc đối tác nền tảng podcast của họ tải lên và cung cấp trực tiếp. Nếu bạn cho rằng ai đó đang sử dụng tác phẩm có bản quyền của bạn mà không có sự cho phép của bạn, bạn có thể làm theo quy trình được nêu ở đây https://vi.player.fm/legal.

Joe Carlsmith is a writer, researcher, and philosopher. He works as a senior research analyst at Open Philanthropy, where he focuses on existential risk from advanced artificial intelligence. He also writes independently about various topics in philosophy and futurism, and holds a doctorate in philosophy from the University of Oxford.

You can find links and a transcript at www.hearthisidea.com/episodes/carlsmith

In this episode we talked about a report Joe recently authored, titled ‘Scheming AIs: Will AIs fake alignment during training in order to get power?’. The report “examines whether advanced AIs that perform well in training will be doing so in order to gain power later”; a behaviour Carlsmith calls scheming.

We talk about:

  • Distinguishing ways AI systems can be deceptive and misaligned
  • Why powerful AI systems might acquire goals that go beyond what they’re trained to do, and how those goals could lead to scheming
  • Why scheming goals might perform better (or worse) in training than less worrying goals
  • The ‘counting argument’ for scheming AI
  • Why goals that lead to scheming might be simpler than the goals we intend
  • Things Joe is still confused about, and research project ideas

You can get in touch through our website or on Twitter. Consider leaving us an honest review wherever you're listening to this — it's the best free way to support the show. Thanks for listening!

  continue reading

86 tập

Artwork

#76 – Joe Carlsmith on Scheming AI

Hear This Idea

36 subscribers

published

iconChia sẻ
 
Manage episode 406789446 series 2607952
Nội dung được cung cấp bởi Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti. Tất cả nội dung podcast bao gồm các tập, đồ họa và mô tả podcast đều được Fin Moorhouse and Luca Righetti, Fin Moorhouse, and Luca Righetti hoặc đối tác nền tảng podcast của họ tải lên và cung cấp trực tiếp. Nếu bạn cho rằng ai đó đang sử dụng tác phẩm có bản quyền của bạn mà không có sự cho phép của bạn, bạn có thể làm theo quy trình được nêu ở đây https://vi.player.fm/legal.

Joe Carlsmith is a writer, researcher, and philosopher. He works as a senior research analyst at Open Philanthropy, where he focuses on existential risk from advanced artificial intelligence. He also writes independently about various topics in philosophy and futurism, and holds a doctorate in philosophy from the University of Oxford.

You can find links and a transcript at www.hearthisidea.com/episodes/carlsmith

In this episode we talked about a report Joe recently authored, titled ‘Scheming AIs: Will AIs fake alignment during training in order to get power?’. The report “examines whether advanced AIs that perform well in training will be doing so in order to gain power later”; a behaviour Carlsmith calls scheming.

We talk about:

  • Distinguishing ways AI systems can be deceptive and misaligned
  • Why powerful AI systems might acquire goals that go beyond what they’re trained to do, and how those goals could lead to scheming
  • Why scheming goals might perform better (or worse) in training than less worrying goals
  • The ‘counting argument’ for scheming AI
  • Why goals that lead to scheming might be simpler than the goals we intend
  • Things Joe is still confused about, and research project ideas

You can get in touch through our website or on Twitter. Consider leaving us an honest review wherever you're listening to this — it's the best free way to support the show. Thanks for listening!

  continue reading

86 tập

Tüm bölümler

×
 
Loading …

Chào mừng bạn đến với Player FM!

Player FM đang quét trang web để tìm các podcast chất lượng cao cho bạn thưởng thức ngay bây giờ. Đây là ứng dụng podcast tốt nhất và hoạt động trên Android, iPhone và web. Đăng ký để đồng bộ các theo dõi trên tất cả thiết bị.

 

Hướng dẫn sử dụng nhanh