user-profile-img

李英斌

@liyingbin• Nov 5, 2022open-state

5_knn

-

5_knnwww.huaxiaozhuan.com

user-profile-img

李英斌

@liyingbin• Nov 1, 2022open-state

Complexity of Optimization Problems

Around 1750, Maupertuis introduced and later Euler formalized the principle of least action, according to which the motion of natural systems could be described as an minimization problem involving a certain cost function called ‘‘energy’’.

-

Complexity of Optimization Problemsinst.eecs.berkeley.edu

user-profile-img

李英斌

@liyingbin• Sep 5, 2022open-state

马尔可夫决策过程

具体来说,对于某一个状态,我们根据策略所有动作的概率进行加权,得到的奖励和就可以认为是一个 MRP 在该状态下的奖励

annotationMDP转化为MRP,需要依据策略π对状态转移概率P以及奖励R进行加权处理。
-

马尔可夫决策过程hrl.boyuai.com

user-profile-img

李英斌

@liyingbin• Aug 30, 2022open-state

routing_problem · dev_zwd · myda / Lavender · GitLab

-

routing_problem · dev_zwd · myda / Lavender · GitLab10.106.153.10

user-profile-img

李英斌

@liyingbin• Aug 27, 2022open-state

把一生献给了数学——埃尔德什_陶哲轩

-

把一生献给了数学——埃尔德什_陶哲轩www.sohu.com

user-profile-img

李英斌

@liyingbin• Aug 12, 2022open-state

8.13 第一部分总结 - 知乎

横轴表示更新的宽度,也就是采样更新和期望更新。纵轴表示更新的深度,也就是自举的程度。

-

8.13 第一部分总结 - 知乎zhuanlan.zhihu.com

user-profile-img

李英斌

@liyingbin• Aug 12, 2022open-state

8.12 本章小结 - 知乎

对于规划来说,一般我们需要一个环境模型。环境模型可以是分布模型或者是一个采样模型。分布模型会出所有可能的下一个状态和回报,因此更新一般采用期望更新。正如DP中的更新一样。采样模型只给出一个可能的状态,因此更新也是采样更新。

优先遍历侧重于更新那些近期值发生变化的状态的先前状态(predecessors)。

在策略轨迹采样侧重于更新那些智能体更有可能访问到的状态。这能够使我们忽略掉那些不相关的状态区域。

-

8.12 本章小结 - 知乎zhuanlan.zhihu.com

user-profile-img

李英斌

@liyingbin• Aug 12, 2022open-state

8.10 rollout算法 - 知乎

rollout算法只估计每一个当前状态的值。和决策时规划算法一样,rollout算法只在当前时刻会利用到这些估计值,然后就丢弃了。

MC是用于学习,所以我们要估计出所有状态的值函数,然后才能找到一个最优策略。而rollout算法是用于规划的,而且是决策时规划。对于这种规划,我们只在当前状态下搜索所有可能的plan,然后选择最有利的。因此就只侧重于当前状态周围值函数的值。这个区别,使得rollout算法实现起来很简单。因为我们不需要对所有状态-动作对采样。

rollout算法本质上的目的是提升当前的策略(一般利用MC估计值函数的策略叫做rollout policy,因为这个策略就是用来roll out出一个轨迹的),而不是找到一个最优策略。

-

8.10 rollout算法 - 知乎zhuanlan.zhihu.com

user-profile-img

李英斌

@liyingbin• Aug 12, 2022open-state

8.9 启发式搜索 - 知乎

启发式搜索的一个特点是:专注于当前的状态。在你下棋的时候,无论你采取什么样的策略,你总是最关心当前这一步该怎么走,当前状态的值函数是否准确也是最为紧要的。而启发式搜索总是通过搜索来更新当前状态的值。这样就能将计算资源和内存资源优先使用在我们关系的当前状态上,因此十分高效。

-

8.9 启发式搜索 - 知乎zhuanlan.zhihu.com

user-profile-img

李英斌

@liyingbin• Aug 12, 2022open-state

8.8 决策时规划 - 知乎

这种规划,是针对于当前状态,它会评估不同动作导致的后果。比如下棋游戏中的规划行为。我们把这种规划叫做决策时规划(decision-time planning)。

决策时规划中的A_t一般是通过启发式搜索来给出的,比如MCTS。当然也可以叫做策略。而后台规划更侧重于利用全局的信息(比如根据DP计算出值函数)来给出当前的动作。

-

8.8 决策时规划 - 知乎zhuanlan.zhihu.com