当前位置: www.2977.com > 新闻中心 > 技术分享 > 【澳门葡京技术分享】第五十七期:深度剖析AlphaGo与强化学习原理(番外工程篇)

【澳门葡京技术分享】第五十七期:深度剖析AlphaGo与强化学习原理(番外工程篇)

【澳门葡京技术分享】第五十七期:深度剖析AlphaGo与强化学习原理(番外工程篇)


上期技术分享线上澳门葡京网址技术专家带我们解密AlphaGo背后的“高手”:强化学习原理,反响热烈。很多微友在后台留言表示想了解更多AlphaGo的具体实现原理,所以本期线上澳门葡京网址技术专家特别开辟了这个番外工程篇,从表面和实现角度阐述AlphaGo工程理论。其中作者还在业余时间,实现了一个小型的AlphaGo。


AlphaGo的基本原理

由AlphaGo原论文可知,系统由以下部分构成:

1. 策略网络(Policy Network):根据给定当前局面,预测下一步每个位置的走子概率,根据概率大小来选择下一步的走子。

2. 快速走子网络(Fast rollout):目标和策略网络一样,也是预测或采样下一步的走子,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍(天下武功,唯快不破)。

3. 估值网络(Value Network):给定当前局面,估计白棋或黑棋的胜率(大师一出手,就知有没有)。

4. 蒙特卡罗树搜索(MCTS): 使用蒙特卡洛走子方法,评估搜索树中每一个状态的估值,选择更高估值的子树。


AlphaGo主要算法就是使用蒙特卡洛树搜索结合策略网络(Policy Networks)和估值网络(Value Networks)策略网络根据当前棋盘面预测每个位置的概率,估值网络评估当前棋盘所对应的胜率,并结合有监督学习和强化学习结合来训练这两个深度神经网络。有监督学习是训练大量棋手的棋谱,强化学习则通过自己对弈来更新模型,可以说算是师父领进门,修行靠个人了。

image

image

image

image

image

image

image

image

888.png