该站本质私人Blog
包括且不限于以下内容
生活|学习|编程|游戏
本站配置
Debian 13
Powered by Typecho
Butterfly of Typecho
插件
MarkdownParse
阅读全文...
强化学习-贝尔曼方程
常见概念
马尔科夫决策过程(Markov DecisionProcess, MDP). 强化学习的数学基础和建模工具, 通常由状态空间, 动作空间, 奖励函数, 状态转移函数, 折扣率等组合.
马尔科夫性质(Markov Property). 马尔科夫性...
阅读全文...
阅读全文...