欢迎来到Coolfensi推广平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服QQ:1842323479,24小时在线欢迎咨询购买!
Twitter买赞网站 --twitter买播放量平台
Twitter买赞网站 --twitter买播放量平台公告:
欢迎来到Coolfensi推广平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服QQ:1842323479,24小时在线欢迎咨询购买!

Twitter买赞网站 --twitter买播放量平台

首页 Twitter   作者:coolfensi  2022年10月13日  热度:88  评论:0     
时间:2022-10-13 4:27   热度:88° 
Twitter买赞网站 --twitter买播放量平台
红豆 丽翔 凹非寺物理位 报导 | 社会公众号 QbitAI

能棋艺、能打刀塔、能玩星舰……广度加强自学(DRL) 就快称霸了。

但业内始终似曾相识常用的忧虑:

加强自学 (RL) 很慢。人类文明一三盘就能专业委员会的格斗游戏,AI可能将要和格斗游戏自然环境交互上万次就可以弹出。样品工作效率低,演示不出人类文明自学的操作过程。

那时,DeepMind项目组用早先的科研成果归纳,来说我们此种忧虑不值得称赞

广度加强自学早已有了十分加速且灵巧的控制技术。

因此,从AI应用领域问世的方式,也能为人类文明的社会学认知科学增添捷伊认知。

这篇广度加强自学概要,早已赢得了twitter观众们的799赞。

为什么会慢

最近五年,是DRL爆发的时期。一开始,就像人们批判的那样,算法的确学得很慢。

但要让它快起来,首先要知道为什么慢。

DeepMind举出了两个主要原因:

一是增量式的参数更新(Incremental Parameter Adjustment) 。最初的算法,从输入的周围自然环境,到输出的AI动作之间,是靠梯度下降来完成映射的。

在这个操作过程中,每个增量都需要十分小,才不至于让新学到的信息,把之前学到的经验覆盖了 (这叫做灾难性干扰) 。如此一来,自学操作过程便十分缓慢。

二是弱归纳偏置(Weak Inductive Bias) 。任何自学操作过程,都要面临偏见-方差权衡。

所谓偏见,就是一开始限定好一些可能将的结果,AI从里面找出自己想要的那一种。限定越窄,AI就可以只考虑为数不多的可能将性,更快地得出结果。

弱归纳偏置,就需要考虑更多的可能将性,自学也就慢一些。重要的是,通用神经网络都是偏见极低的系统,他们有十分大量的参数,可以用来拟合大范围的数据。

DRL,就是把广度网络用到RL里面。所以,最初样品工作效率必然是极低,需要大量数据来自学。

快从慢中来

不过,从最近的研究上看, 这两个问题都是有办法解决的。

DeepMind举出了两种方式,对症下药。

首先,解决参数增量的问题:

方式是情节性广度加强自学(Episodic DRL) 。就是给过去发生的事件,保留一个明确的记录 (Explicit Record) 。这个记录会作为依据,指导AI做出捷伊决策。

它与机器自学里非参数的方式异曲同工,也很像基于示例 (Exemplar-Based) 的社会学原理

当遇到一个新事件,该做新决策的时候,就把当前事件的内部表征 (Internal Representation) ,跟储存的各种过去事件对比一下。匹配分数最高的中选。

和增量方式的区别在于:在这里,从过去的事件里学到的信息,都可以立刻派上用场,由此加速了自学操作过程。

但注意,加速的情节自学,是以缓慢的增量自学为基础的

因为,在把当前事件和过去事件的表征作对比之前,AI先要专业委员会这些表征:连接权重(Connection Weights) 的自学,依然要靠增量来进行,就像传统的DRL算法那样。

慢慢学好表征之后,就可以开始迅猛地奔跑。

DeepMind说,快从慢中生并不是什么巧合,在社会学和认知科学上的体现,不亚于AI应用领域 (这个部分,我们可以自行探索原文) 。

然后,再解决归纳偏置的问题:

首先限定好一个狭窄的范围,再让AI去探索。道理都懂,可怎么知道应该限定在哪里?

答案是,借鉴过去的经验。

打个比方,第一次用智能手机的人类文明,可能将从前还用过其他的设备。那里的经验,就可以帮他很快专业委员会智能手机的用法。如果没有那些经验,就只能广泛尝试,影响自学速度了。

这个思路,也是从社会学上来的,叫做学着自学 (Learning to Learn)。

社会学家Harry Harlow就曾经用猴子来做实验:给猴子两个不熟悉的物体,一个下面放食物,一个不放。换两个物体,再换两个……久之猴子就知道,一边有食物一边没有,不管物体是什么,不管左边有还是右边有。

回到AI上来,用过去的经验来加速自学,在机器自学里叫做元自学 (Meta-Learning)

Wang与Duan带领的两项研究,几乎是同时发表。都把这样的原理用在了广度加强自学上,就是元加强自学 (Meta RL)

一个RNN是用许多互相关联的RL任务来训练的。

RNN的权重慢慢调整,然后可以吸取各种RL任务里面的共同点,改变网络的设定。原本,它没办法做到加速改变,来支持任何一个单一任务。

重点来了,从RNN的活动动态 (Activity Dynamics) 中,可以生出一个独立的RL算法,根据过往的任务,加速解决新任务。

一个RL算法,能生出另一个RL算法,这就是元加强自学。

像情节性RL一样,元RL也涉及了加速和慢速之间的联系:

RNN中的连接,是在不同RL任务的自学中缓慢更捷伊,建立起不同任务之间共同的部分,把它内置到网络里去。

让这个RNN,来实现捷伊RL算法,就可以加速搞定各种情况了。毕竟,早已有了慢速自学的归纳偏置做基础 (就像人类文明使用智能手机之前,早已用过其他设备那样)。

依然,慢是快的前提。

当然,情节性DRL可以和元RL合在一起用,相辅相成。

在情节性的元加强自学里,元自学是在RNN里实现的,不过上面叠加了一个情节记忆系统,作用是恢复RNN里的活动模式 (Patterns of Activity) 。

就像情节性RL一样,情节记忆会对各种过去的事件进行编目,可以查询。

但决策操作过程不一样,不是按照匹配分数来选择下一步的动作。而是和RNN存储好的活动模式,联系起来。

这些模式十分重要,通过RNN,它们可以归纳出智能体学到的东西。

当智能体遇到了类似过去的情况,就会在从前的经验中,恢复一些隐藏的activations,让之前学过的信息立即派上用场,影响当前的策略。

这就叫情节性元加强自学,可以进一步加快加强自学的速度。

慢慢地,人们开始减轻对加强自学算法的忧虑;并重新开始相信,这样的AI可以演示人类文明的自学操作过程。

传送门

不知未来,不断加速的加强自学,还能在哪些应用领域超越人类文明呢?

概要原文传送门:https://www.cell.com/action/showPdf?pii=S1364-6613%2819%2930061-0

小程序|get更多AI资讯与资源

物理位+交易担保放心买AI进阶必备神器小程序

加入社群

物理位AI社群开始招募啦,物理位社群分:AI讨论群、AI+行业群、AI控制技术群;

欢迎对AI感兴趣的同学,在物理位社会公众号(QbitAI)对话界面回复关键字群,获取入群方式。(控制技术群与AI+行业群需经过审核,审核较严,敬请谅解)

物理位QbitAI · 头条号签约作者

վᴗ ի 追踪AI控制技术和产品新动态

喜欢就点「在看」吧 !

Twitter买赞网站 --twitter买播放量平台