[Reinforcement Learning] 动态规划(Planning)

2018-10-29 11:08

万码学堂

阅读目录

动态规划

动态规划（Dynamic Programming，简称DP）是一种通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。

动态规划常常适用于具有如下性质的问题：

具有最优子结构（Optimal substructure）
- Principle of optimality applies
- Optimal solution can be decomposed into subproblems
重叠子问题（Overlapping subproblems）
- Subproblems recur many times
- Solutions can be cached and reused

动态规划方法所耗时间往往远少于朴素解法。

马尔可夫决策过程MDP满足上述两个性质：

贝尔曼方程提供了递归分解的结构；
价值函数可以保存和重复使用递归时的结果。

使用动态规划解决MDP/MRP

动态规划需要满足MDP过程是已知的（model-based）。

For Predict：
- Input：MDP 和策略或者是 MRP
- Output：价值函数
For Control：
- Input：MDP
- Output：最优价值函数

可能你正在寻找一家靠谱的IT培训机构，渴望突破职业瓶颈，找一份得体的工作。恰巧万码学堂正在寻找像你这样不甘平凡的追光者！我们拒绝纸上谈兵，直接参与真实开发流程！
现在行动，未来可期‌
立即拨打0532-85025005，预约免费职业规划咨询前20名咨询者赠送《2025高薪技术岗位白皮书》!
你不是在报名课程，而是在投资五年后的自己！

申请免费试听课程

50000+

5万行代码练就真实本领

17年

创办于2008年老牌培训机构

1000+

合作企业

98%

就业率

联系我们

电话咨询

0532-85025005

扫码添加微信