当前位置: www.2977.com > 新闻中心 > 技术分享 > 【澳门葡京技术分享】第五十六期:原来AlphaGo背后的“高人”是...

【澳门葡京技术分享】第五十六期:原来AlphaGo背后的“高人”是...

【澳门葡京技术分享】第五十六期:原来AlphaGo背后的“高人”是...


者按:今年,AlphaGo大胜棋手柯洁的事件再一次向人们证明了人工智能的厉害。那么,人工智能到底有什么过人之处,AlphaGo高“智商”的背后,到底有什么?今天,线上澳门葡京网址技术专家就带你一起解密AlphaGo背后的“高手”!如您也对人工智能深有研究或有其他见地,欢迎您留言与我们的专家进行讨论。


强化学习,这个非有监督学习,又非无监督学习的“崭新理论”,总让初学者肃然起敬,它帮助AlphaGo实现了一统围棋天下的理想,让世人惊叹的同时,又处处透露着神秘与诡异的神采。



一、强化学习并非崭新理论

首先,强化学习并非崭新理论,而是至少拥有50年寿命的经典理论,今天所谓的深度强化学习仅仅只是在计算能力与大数据理论发展中应运而生的“新瓶装旧酒”而已。其实,无论是ACM的参赛者,还是随机过程理论的学者,应该都对“动态规划”这个词颇感亲切,如果我们告诉您,强化学习与动态规划几乎是一脉相承的学科(至少动态规划扮演了相当重要的角色),您会不会感到非常惊讶。别急本文会深入讨论这个问题。


二、深度强化学习仍有其独特之处

万事不能走极端,这里我们还不能简单地认为强化学习、动态规划、深度强化学习就是相互可以替代的名词。某些独特的差距会体现在深度强化学习中,但这种差距并非来自于基本理论,而是工程经验或者表现形态。例如DNQ(Q-learning的深度版本)算法中,卷积神经网络构成了算法的“骨干结构”,这完全是因为这两年卷积神经网络“恩宠盛隆”,而大家又习惯于通过计算机视觉的方式来感知“外部环境”的原因。另外,由于大数据的出现,样本规模与日俱增,online update(在线学习)逐渐变得不合时宜,故而增强学习也借鉴了“批量”有监督学习的某些经验,保存一定数量的旧样本反复学习。还有,随着计算成本的降低,我们可以引入辅助训练网络,帮助我们计算学习目标。此外,还有学学多多比较抽象的理由,我们暂时不做赘述。


三、AlphaGo是深度强化学习的集大成者

说起来,这两年深度强化学习崭露头角的领域不是游戏领域就是棋牌领域,AlphaGo是其中最令人仰止的。其实深度强化学习的经验技巧在AlphaGo上体现的淋漓尽致。可以说:AlphaGo与深度强化学习是密不可分的。


四、AlphaGo究竟算不算强人工智能

虽说图灵测试已经过时,但必须指出,强人工智能还远未实现,AlphaGo根本不能算作有思维有意识的软件程序,另外,深度强化学习在某种程度的确更接近人类的思考方式,故而我们应该对最终实现强人工智能的目标持乐观态度。


五、AlphaGo或强化学习能解决什么问题?

这是个大问题,但可以确切地说:许多的决策和推理过程都可以用深度强化学习来训练,并最终实现高度模拟,这种模拟甚至富有智慧的色彩。就线上澳门葡京网址所处的行业而言,犯罪行为的预测或破案过程的推理都是未来可以期待的产品。对医疗行业来说,门诊诊断、大型医疗器械的综合诊断都可以用深度强化学习助其一臂之力。


六、我们该如何学习?

这也是我们在探索中的问题,尽管我们现在还在摸索,但已有的经验告诉我们:首先,您需要机器学习和最优化理论的基础知识。数学上,我们希望您尽量的学习随机过程和泛函理论。如果您没有时间全面的复习数学知识,我们强烈建议您至少对马尔科夫过程深入了解,并读懂最优化建模的公式形态,否则您可能无法顺利阅读相关文献。


七、强化学习的定义

监督学习是“认知学习”,强化学习是一种“行为学习”。这么说大家一定还是一头雾水,那么我们展开来描述:监督学习是有教师的,这个教师是什么呢,就是所谓的样本标签,在人脸识别问题中,标签可以是你的名字或者你能跟他人区分开的一个代号;在大规模图像分类问题中,标签可以是物种的名称;在情感分类中,标签可以是喜怒哀乐或者积极消极。狭义的讲,标签是某一类物体的唯一代号,广义的讲,标签就是我们要告诉机器学习系统的先验知识。而监督学习的标签是一次给定的,也就是说,在训练之前,我们会一次性的打完所有标签,这个过程很辛苦,称为样本标注,也就是人为地将样本归类的过程。标注工作是否仔细,归类是否合理,样本数量质量是否满足要求往往直接影响机器学习的训练结果。


那么我们将告诉您,强化学习也有这么一个老师,您一定会感到无比困惑:这样的话,它和监督学习到底有什么差异呢?强化学习的老师是虚无缥缈的,就是我们每一步学习过程中面临的“环境”。这里的环境可不仅仅是我们热爱的大自然,而是强化学习系统做出某种决策后得到的运行时的反馈。这里领悟力高的同事一定会灵光乍现,是不是有监督学习是提前打好标签再学习,而强化学习是边学习边打标签呢?我们可以告诉您,已经理解得八九不离十,只是这个打标签的过程来得晚了一点而已。俗话说,教化那些顽劣的孩子,往往需要一顿皮鞭一颗蜜糖的过程反复交替进行,在强化学习中,我们称这个过程为奖赏或效用,这就是标签,是对某种决策行为是鼓励还是反对的信号。


言归正传,我们给出强化学习的定义:通过学习系统与环境交互作用完成任务,以求在环境中达到特定目标的智能程序。这时候可以“脑洞大开”一下:那些棋牌、那些即时战略游戏、那些动作游戏,不是都可以抽象成这样一个过程吗?


八、强化学习的四大要素

一、状态:也就是前面所说的环境,例如迷宫的每一个格,及时战略地图的分布,双方的数据统计等,都可以是环境。


二、动作:在每个环境下,所允许的决策或行为。


三、奖励: 进入每个状态,所能带来的正面或负面的代价。


四、方案: 在每个状态下,你将选择哪个决策或行动。


这样我们可以尝试描述一下算法过程了,首先,试探环境,然后试探地走出一个决策行为,这个行为有可能是随机的,也有可能是人工那个指定的。根据行为的结果得到这个行为产生的代价(积极还是消极的),最后论功行赏(也可能是论过惩罚)。以上流程反复迭代,直到决策链收敛到预期目标,这个目标就是最终让整个“决策链”得到的奖赏最大化。(好学生天天被夸)


九、数学模型知识点1

了解了强化学习的四大要素后,相信大家已经有直观感受,现在我们要给出强化学习系统的数学模型定义:一个学习系统或智能决策程序(可能是天网),以“下图”方式和环境相互作用,系统依照一个有限的,离散的时间马尔科夫决策过程运行,这个马尔科夫链有以下特性:


1088340786.jpg


环境依概率以一组有限的离散状态来演化,但是状态并不包含过去的统计特性。这句话是理所当然的,我们不妨看一下“马尔科夫链”的定义:

1504249002833993.jpg

上述的描述中,大家要理解三点,首先,马尔科夫链是一个随机过程,也就是一个受时间控制的随机变量序列。其次,其在一个时间轴上取有限的,可列的值,不能是无穷的,不可数的(尤其是离散马尔科夫链),最后,也是最重要的,马尔科夫链在决策时,不依赖以往的统计信息。


十、数学模型知识点2

回过头再看强化学习,大家一定有所思考。是时候给出这个马尔科夫链的第二个特性:对于每一个环境状态,学习系统可以采取一组有限的可能的行动。这里就是说,我们所能施加的决策是一个预定的集合,而且有充分的合理性。(这就好比“腿”只能跑或跳,不能拿来吃饭)


未完待续...