脸书最新新闻资讯--facebook加粉丝网站

- Horizon 是首个采用应用应用领域加强自学(RL)在小规模制造自然环境中加强控制系统的起新端对外开放源码网络平台。
- 那个版中包含的组织工作流和演算法是以对外开放框架为依据构建的——PyTorch 1.0、Caffe2 和 Spark——使得任何人小规模采用 RL 的人都能采用 Horizon。
- 在往后的两年里,他们内部已经在多个插件布季采用了 Horizon,主要包括帮助订制 M 提议、推送枭女的通告和加强在线视频音频质量。
今天,他们对外开放源码了 Horizon,一个起新端应用应用领域加强自学网络平台,采用 RL 来加强数千万人采用的产品和服务。他们合作开发那个网络平台是为了弥补 RL 在科学研究应用领域不断增长的影响力和在制造应用领域历来狭窄的应用应用领域范围之间的差距。往后两年,他们在 Facebook 布署了 Horizon,提升了该网络平台把 RL 如前所述重大决策的方式利用到小规模插件的潜能。尽管人们都在合作开发增强自学插件,但 Horizon 是第一个用作制造的对外开放源码 RL 网络平台。
尽管他们正在进行各种加强自学工程项目,那些工程项目采用意见反馈来提升操控性,但,Horizon 主要高度关注的是将 RL 应用应用领域于大型控制系统。那个版主要包括模拟自然环境的组织工作流和用作后处理、训练和求出制造自然环境数学模型的分布式系统网络平台。该网络平台已经为 Facebook 带来了操控性优势,主要包括推送更相关的通告、加强在线视频音频码率和改进 Messenger 中的 M 提议。但,Horizon 的对外开放设计和合作开发工具也有可能让该应用领域的他们受益,特别是那些有兴趣采用应用应用领域 RL 从大量信息中自学思路的公司和科学研究团队。Horizon 不仅仅证明了他们在 RL 应用领域的持续投入,也证明了那个有前途的人工智慧科学研究应用领域现在能利用到前述的插件中。
小规模重大决策:Horizon 怎样把 RL 利用到制造自然环境
机器自学(ML)控制系统一般来说会生成预估,但随后须要工程师将那些预估转换为思路(即行动思路)。另一方面,RL 创建的控制系统能够作出重大决策、采取措施,然后依照意见反馈进行调整。这种方式有可能加强几组重大决策,而不须要纯手工制定思路。例如,RL 控制系统能依照其他 ML 控制系统的估计和音频头文件的状态,直接为特定播映中的音频选择高码率或低码率。
尽管 RL 的思路加强潜能在科学研究中显示出了良好的效果,但人工智慧社区极难采用那些数学模型处理制造自然环境中有很大差别的前述需求。借助 Horizon,他们高度关注的是怎样将两种完全相同类型的应用应用领域相连接:复杂但即便非常有限的科学研究用工具包自然环境;如前所述 ML 的思路加强控制系统,倚赖存在所谓噪音的、浓密的、任意分布的数据。与游戏中如前所述 RL 的机器能对几组非常有限且可预知、可重复的规则作出反应相同,现实情景极难仿效,意见反馈更难以纳入已布署代码,与在受控的实验自然环境中相比,任何人修改一般来说都须要更加小心。
就像深度自学彻底改变了神经网络的应用应用领域那样,像 Horizon 这样的工程项目有可能将定义科学家和工程师怎样将 RL 应用应用领域到制造自然环境中,采用思路加强来产生影响。特别地,Horizon 考虑了特定于制造自然环境的问题,主要包括特征规范化、分布式系统训练、小规模布署和服务、具有数千种相同特征类型和分布的数据集,和高维离散的连续动作空间。
Horizon 的管道主要包括三个组件:
(1)时间轴生成,运行在数千个 CPU 上;
(2)训练,跨多个 GPU;
(3)服务,这也跨越了数千台机器。
那个管道允许 Horizon 扩展到 Facebook 的数据集。对于思路自学(例如采用 OpenAI Gym), Horizon 能选择在一个闭环中将数据直接提供给训练过程。
Horizon 还解决了小规模构建和布署 RL 控制系统所带来的独特挑战。RL 一般来说以在线方式训练,控制系统从随机选择动作开始,然后实时更新。考虑到那些控制系统在 Facebook 的规模和影响,这种随机性和实时更新目前还不是一个选项。相反,他们的数学模型是从在一个产品工程师设计的思路上训练开始的。那些数学模型必须离线训练,采用 off-policy 方式和反事实思路评估(CPE)来估计 RL 数学模型在往后的重大决策中会做什么。一旦 CPE 结果被接受,他们将在一个小实验中布署 RL 数学模型,收集结果信息。有趣的是,他们发现,与之前相对稳定的控制系统相同,RL 控制系统会随着时间的推移不断自学和改进。
行业数据集一般来说包含数千万条记录,和数千个具有任意分布和高维离散连续动作空间的状态特征。通过科学研究和观察,他们发现,与传统的深度网络相比,应用应用领域 RL 数学模型对噪音和非规范化数据更敏感。Horizon 采用 Apache Spark 并行对那些状态和动作特征进行后处理,他们的 Spark 管道也包含在对外开放源码版中。在对训练数据进行后处理之后,他们采用如前所述 PyTorch 的演算法在图形处理单元上进行规范化和训练。
尽管 Horizon 能在单个 GPU 或 CPU 上运行,但该网络平台的设计侧重于大型集群,一次在多个 GPU 上进行分布式系统训练,使工程师能采用数百万个样本来解决问题,并更快地迭代他们的数学模型。他们在 PyTorch 中采用数据并行和分布式系统数据并行功能进行分布式系统训练。该版主要包括深度 Q 网络(DQN)、参数化 DQN 和深度确定性思路梯度(DDPG)数学模型。在训练过程中,他们还运行 CPE,并将评估结果记录到 TensorBoard 上。训练完成后,Horizon 将采用 ONNX 求出那些数学模型,以实现小规模地高效服务。
在许多 RL 应用领域中,你能通过尝试来度量数学模型的操控性。在 Facebook,他们希望确保在小规模布署数学模型之前对它们进行彻底地测试。由于 Horizon 解决了思路加强任务,训练组织工作流还自动运行了几种最先进的思路评估技术,主要包括时序双鲁棒性思路评估和 MAGIC。生成的思路评估报告从训练流中求出,能采用 TensorBoard 进行观察。评估能与异常检测相结合,在将思路公开布署之前,如果数学模型再次迭代的操控性与前一个迭代相比有很大的差别,就会自动向工程师发出警报。
在组织工作中自学:Horizon 对 Messenger、360 音频等的影响
自从他们开始在内部采用 Horizon 以来,该网络平台已经示范了 RL 怎样利用即时意见反馈来作出提升操控性的重大决策,从而对制造插件产生影响。
例如,Horizon 使他们能通过实时加强码率参数来提升 Facebook 上 360 音频的图像质量。该网络平台既考虑了可用带宽的数量,也考虑了已缓冲音频的数量,以确定是否有可能转换到更高质量的音频。那个过程利用了 RL 随时产生奖励的潜能,采用新的无监督数据——它在给定的音频正在播映时组织工作,而不是事后再分析操控性和仔细标注的数据。
反事实思路评估为在离线自然环境中布署 RL 数学模型的工程师提供了见解。那个图比较了几种 CPE 方式和日志思路(最初生成训练数据的控制系统)。得分 1.0 意味着 RL 和日志思路在操控性上是匹配的。那些结果表明,RL 数学模型的累积奖励大约是日志控制系统的两倍。
那个高级图表说明了 Horizon 的意见反馈循环。首先,他们对现有控制系统记录的一些数据进行后处理。然后,他们训练一个数学模型并分析离线自然环境下的反事实思路结果。最后,他们将数学模型布署到几组人员中,并度量真正的思路。来自新数学模型的数据意见反馈到下一次迭代中,大多数团队每天都布署一个新数学模型。
Horizon 还过滤了 Messenger 中智能助手 M 的提议。M 在人们的对外开放式对话中提供相关内容的提议,丰富人们的交流方式,在 Messenger 中完成组织工作。Horizon 采用 RL——比如前所述规则的对话自学思路方式更具可扩展性、前瞻性、更能响应用应用领域户的意见反馈——帮助 M 逐步自学。例如,如果人们更有规律地与一个提议交互,M 可能会更多地提供那个提议。在 Horizon 的帮助下,M 变得更加智能化和高度个性化,因为它每天都能帮助数百万人进行交流。
该网络平台还改进了他们采用人工智慧的方式,帮助他们决定向用户推送哪些 Facebook 通告,和多久推送一次。在往后,他们不是推送所有可能的通告(说明有新帖子、评论等),而是采用 ML 数学模型来帮助预估哪些可能最有意义或最相关,并过滤掉其他的。但那些数学模型倚赖监督自学,没有考虑到推送通告的长期价值。例如,每天多次访问该网络平台的人可能不须要控制系统为他们本来会看到的帖子发出通告,而不太活跃的人可能会从通告中受益,这能确保他们不会错过家人和朋友发表的值得高度关注的帖子。
使任何人人都能在制造自然环境中布署 RL 的工具
那些好处突显了 RL 能为行业提供的东西,即能够直接从以前的次优思路下收集样本,并从中自学最优思路。尽管他们已经确定了非常适合 RL 的具体情景和插件,但这仅仅是激动人心的旅程的开始。鉴于人工智慧社区的集体才华和创造力,他们迫不及待地想看到 Horizon 所激发的创意、功能和产品。
任何人采用机器自学来做决定的人都能试试 Horizon。第一步是记录倾向(采取措施的概率)和备选方案(其他可能的行动)。Horizon 采用倾向性和备选方案来了解何时能采取更好的行动。第二步,定义并记录奖励(采取措施所获得的价值)。在收集到那些数据之后,就能运行 Horizon 的训练循环,求出一个能够作出新重大决策并最大化总回报的数学模型。
Horizon 是他们致力于 AI 对外开放合作开发的一部分——它是 Facebook 的内部网络平台,他们现在正在对外开放源代码,它采用的工具他们已经提供给社区,主要包括 PyTorch 1.0 和 Caffe2。尽管 Horizon 已经针对在制造自然环境应用应用领域进行了加强,但他们采用该网络平台的经验也揭示了与 RL 集成到其他控制系统相关的重要科学研究。他们正利用 Horizon 网络平台探索如前所述数学模型的 RL 和奖励塑造(reward shaping)的新技术,并利用该网络平台在 Facebook 更广泛地挖掘其他应用应用领域,比如数据中心资源分配和音频推荐。他们还计划添加更多的数学模型和组织工作流,以帮助他们将 RL 的长期承诺转化为即时行动。
有关详细信息,请阅读关于 Horizon 合作开发和内部用例的完整白皮书:https://arxiv.org/abs/1811.00260
除了对新插件产生影响外,Horizon 还能改变工程师和 ML 数学模型协同组织工作的方式。不再通过编写难以理解和维护的规则来驱动数学模型,他们设想,在工程师和他们采用的数学模型之间有一个双向对话,工程师能指定他们的高层目标,并与机器自学协同实现那些目标,把它们应用应用领域到一个不断变化的重大决策自然环境中。Horizon 是那个旅程的第一步,他们邀请您复制他们的 GitHub 库并进行试用。
查看英文原文:
https://code.fb.com/ml-applications/horizon/