AI学习笔记之——多臂老虎机(Multi

  • 时间:
  • 浏览:0

大伙发现后面 另另1个土方法中,某个拉杆预估的中奖概率是随着這個拉杆被拉动的次数而变化的。大伙是通过预估概率作为评判标准,来决定去拉哪另另1个拉杆。

是第j个拉杆的的UCB概率,X

上一篇文章简要介绍了一下强化学习,强化学习是另另1个非常庞大的体系,与监督学习和非监督学习相比,其广度和层厚都大的多,涉及到只是我 经典的决策算法,对统计学知识有很高的依赖。作为强化学习的基础,这篇文章研究一下這個领域的另另1个经典决策问题报告 ——多臂老虎机问题报告 。

根据這個理论就都并能 引入UCB概率,公式如下:

多臂老虎机是另另1个有多个拉杆的赌博机,每另另1个拉杆的中奖几率是不一样的,问题报告 是:要怎样在有限次数内,选着拉不同的拉杆,获得最多的收益。

这里涉及到的理论知识叫做Chernoff-Hoeffding bound理论。大意只是我,真实概率与预估概率的差距是随真是验(拉杆)的次数成指数型下降的。

其中X

是這個拉杆的预估概率,N是总共实验的次数,N

在有限次数下,你到底是坚持在你认为中奖概率高的拉杆上投入更多的次数呢(Exploit),还是去试试别的拉杆(Explore)呢?要怎样分配Explore和Exploit的次数的问题报告 ,只是我著名的探索-利用困境(Explore-Exploit dilemma(EE dilemma))

将会另另1个拉杆这么被拉到,这么這個拉杆的预估中奖概率就不让改变。然而通过直觉就都并能 理解,另另1个拉杆的预估概率的准确度是跟你总共拉了哪几只次拉杆(所有的拉杆被拉的次数)相关的,拉得这么来越多预估概率就越准确。這個完后 大伙引入UCB概率,而是是否是预估概率来作为选着拉杆的评判标准。

ε贪婪土方法最难的只是我要怎样科学地选着ε,而预估回报方从这么 层厚,抛弃了ε,只保留其"利用"(Exploit)的每项,用预设中奖概率"天花板"的土方法来避免Explore-Exploit dilemma.

相关文章

AI学习笔记之——强化学习(Reinforcement Learning, RL)AI学习笔记之——要怎样理解机器学习(Machine Learning)人工智能学习笔记之——人工智能基本概念和词汇人工智能学习笔记二 —— 定义问题报告

具体操作只是我,每次玩的完后 就抽另另1个0到1的随机数,将会這個数大于ε,则玩你认为中奖概率(预估中奖概率)最大的那个拉杆。将会小于ε,则随机再选着另另1个拉杆,得到收益后,更新這個拉杆的预估中奖概率,以便于下次选着做参考。

同样的這個算法只能"利用"(Exploit)的每项,将判断Exploit的标准从预估中奖概率改成UCB概率即可。

文章首发steemit.com 为了方便墙内阅读,搬运至此,欢迎留言将会访问我的Steemit主页

假设這個老虎机有六个拉杆,最笨的土方法只是我每个拉杆都试哪几只,找到中奖概率最大的那个拉杆,很久 把完后 有限的游戏将会都用在這個拉杆上。

上文我试图用最简单的语言和大概的公式解释强化学习中的另另1个经典问题报告 和哪几只经典算法,当然还有另另1个更好的算法叫贝叶斯土方法,会用到完后 介绍的贝叶斯定理以及Bernoulli likeihood 的更多数学知识,我会找将会单独来讲讲。

然而這個土方法并是是否是可靠的,将会每个拉杆试60 0次显然比试10次所获得的中奖概率(预估概率)更加准确。比如你试了10次,其中那个这么 中奖概率不高的拉杆,有将会将会你运气好,会给你另另1个高概率中奖的假象。

首先, 将老虎机每个拉杆都设置另另1个比较高的预估中奖概率(比如是是否是60 %),很久 每拉一次选中的拉杆, 這個拉杆的的预估概率就会改变。

第j个拉杆被拉到的次数。

理论上来说真实概率高的拉杆其预估概率下降的传输速度会比真实概率低的拉杆慢,只是我 多试哪几只完后 就能找到真实概率最高的那个拉杆。

比如,我第一次选着拉第另另1个拉杆,发现这么中奖,那這個拉杆的预估中奖概率就从60 %变成了60 %了。下一次Exploite选着拉杆的完后 ,第另另1个拉杆的预估概率就是是否是最高了,大伙就去找這個完后 预估概率最高的拉杆来拉,每拉一次更新一下這個拉杆的预估中奖概率。

這個土方法只是我设定另另1个ε值, 用来指导到底是Explore 还是 Exploit。比如将ε设定为0.1,以保证将10%的次数投入在探索(Explore),90%的次数用于利用(Exploit)。