欢迎来到Coolfensi推广平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服微信:coolfensi 24小时在线欢迎咨询购买!
twitter加赞网站 --twitter买评论
twitter加赞网站 --twitter买评论公告:
欢迎来到Coolfensi推广平台,平台经营Instagram、Facebook、YouTube、TIKTOK、Twitter粉丝、点赞、播放量服务、客服微信:coolfensi 24小时在线欢迎咨询购买!

twitter加赞网站 --twitter买评论

首页 Twitter   作者:coolfensi  2022年10月21日  热度:38  评论:0     
时间:2022-10-21 22:18   热度:38° 
twitter加赞网站 --twitter买评论

鱼羊 丽翔 凹非寺

物理位 报导 | 社会公众号 QbitAI

蕨麻互联网曾被认为是新一代广度自学的终极目标。

诺贝尔奖获得者Geoffrey Hinton在2017年明确提出了此种崭新的广度自学方式,以求考验CNN自为之母的话语权。

传递函数神经互联网CNN虽说称心,不过在surfaces中常经济损失遥感,所以直面上面此种很多交叉的人脸辨识,CNN就会陷于迷惘。

蕨麻互联网就相同了,它排序球体的存有机率,他用矢量的模来表观,矢量路径则表示了特点面目重要信息。因为蕨麻的输入是一个矢量,详尽的面目重要信息会被整座互联网留存留下来。

如此一来,无须繁杂的统计数据扩充,蕨麻互联网也能同时实现上看下看左看右看相同方位角辨识

但一年往后后,对这个方式的科学研究或许仍处在起跑期,CNN仍然雄霸广度自学。

这呢有点儿孔晓明点小了?

再说创办人这类如果是有自信心的。前段时间,Hinton特地辅导了几项科学研究,出任学术论文的通信译者,还退场点赞,称此为更快的蕨麻版。

连创办人都点赞的蕨麻互联网

在对象检测这个任务上,当前的AI已经展现出了超强的性能,但有个问题,想要训练出一个靠谱的AI,先得投喂它大量的统计数据。

这跟幼童的自学过程形成了鲜明的对比,不需要太多辅导,孩子们也能学会辨识和定位球体。

科学研究人员认为,自我监督和归纳偏差在更高效的自学中扮演了重要的角色。

于是,无监督蕨麻互联网诞生了。

相同于单个神经元,蕨麻是一组打包好的人造神经元,能够跟踪对象各个部分之间的关系。

这个名为SCAE(Stacked Capsule Autoencoder)的互联网主要由三个部分组成:集群蕨麻自动编码器(CCAE),零件蕨麻自动编码器(PCAE)和对象蕨麻自动编码器(OCAE)。

集群蕨麻用二维点表示零件,并且把它们的坐标作为系统的输入。

零件蕨麻(PCAE)先将输入对象整体划分成一个个零件及其姿势;然后,通过仿射变换自学模板,使用姿势来构建新的输入。

接着,对象蕨麻(OCAE)会试着由姿势推断出球体,从而发现潜在的结构。

蕨麻互联网的窘境

像CNN这样的神经互联网需要依靠庞大的统计数据库自学,并且需要很长时间才能认识到相同角度看到的对象,其实是同一个球体。

而蕨麻互联网的思路是,场景通常包含许多繁杂的对象,这些对象又由更简单的部分组成,所以其实无须构建全局等同于仿射变换的模型。

根据定义,部件的外观和形状比完整球体的变化更小,因此,它们如果更容易被自学。只要了解零件是如何组合在一起形成相同球体的,就可以从零件及其姿势中辨识出对象这类。

由于球体的姿势会随着观察者位置(坐标系)的改变而改变,因此能够正确辨识零件姿势的检测器会产生注视点等效的零件表示。对象 - 零件的关系不依赖于特定的位置,因此它们又是注视点不变的。这两个属性结合在一起,就产生了注视点等效的对象表示。

之前版的蕨麻互联网通过迭代地改进对象的零件分配(也称为路由)来解决这个问题。但问题是这样做在排序和存储方面效率很低,并且无法扩展到更大的图像。这也就造成了蕨麻互联网训练速度比CNN慢得多,在CIFAR-10、ImageNet等统计数据集上准确率也不如CNN。

那么这个更快的蕨麻互联网,有什么突破吗?

SCAE

根据蕨麻互联网的原理,为了同时实现分类,需要构建生成模型(解码器)和相应的推理互联网(编码器)。

生成比较简单,因为任意对象都可以产生任意多个部分。因为解码器在设计中是注视点等变的,所以编码器必须至少能近似地自学注视点等变的表示。

SCAE定义了一种新的表示自学方式,其中任意编码器都能通过推理局部零件和它们的姿势来自学注视点等变表示,并辨识出这些零件属于哪一种球体。

蕨麻的定义:描述抽象实体的模型的特殊部分。

在这个新版的无监督蕨麻互联网中,有四个重要的组成部分:

  • PCAE编码器:自下而上注意力机制的CNN
  • OCAE编码器:Set Transformer
  • PCAE解码器
  • OCAE解码器

推断零件及姿势

对M个零件,PCAE需要 M ×(6 + 1 )个预测参数。也就是说,对每一个零件,都需要6个仿射变换参数,以及该零件存有的机率。

用 1 × 1 的传递函数将CNN的输入投影到 M ×(6 + 1 + 1)个特点图上——这里额外的特点图将作为注意力Mask,通过softmax(归一化指数函数)在空间上对其进行标准化,与其余7个特点图相乘,并在空间位置上独立地对每个维度求和。这类似于全局平均池化,但允许模型专注于特定位置,称作基于注意力的池化。

PCAE编码器将自学推断相同零件蕨麻的姿势和存有,而解码器会为每个零件绘制图像模板,像是这样:

对应于当前零件的模板,使用该零件的姿势进行仿射变换,并且变换模板的像素会被用来创建每一个图像像素的单独混合模型。

由零件,及整体

同时实现判断的是OCAE。

此前的蕨麻互联网采用基于EM算法(Hinton明确提出)的推理程序来投票,判断零件归属于哪个对象。这样,每个零件最开始会被投给相同的对象,但最终,投票会收敛到少数几个对象身上。

SCAE尝试直接根据零件的姿势和存有机率预测对象蕨麻的activations。

使用带有K个输入的Set Transformer编码零件的activations。零件蕨麻的activations描述零件这类而非像素,其在图像中可以处在任意位置,并且没有顺序意义。因此,集输入神经互联网比起MLPs(多层感知机)来就成了更快的选择。

Set Transformer的每个输入都被喂给一个单独的MLP,MLP会输入对应对象蕨麻的所有activations。

此外,科学研究人员还采用了一些应用于对象存有机率的稀疏经济损失。根据消融实验的结果,这一点是很有必要的:

投喂给OCAE进行训练的,是来自对象蕨麻的高斯混合预测下的零件蕨麻activations最大化后的可能性,受到稀疏性约束。

成绩

光说不练假把式,科学研究团队用未标记统计数据进行了训练,在无监督分类SVHN上收获了state-of-the-art的成绩,55%;在MNIST上则收获了接近于state-of-the-art的成绩,98.5%。

SCAE用对象来预测部件,因此在推理时省略了迭代路由。并且,SCAE是唯一一种在无监督对象分类中取得了具有竞争力的结果,而不依赖于互重要信息(MI)的方式。也就是说,它不再需要繁杂的统计数据扩充。

不过,在目前的版中,图像中还不允许多次出现相同类型的部件。并且在大型统计数据集CIFAR-10上的表现还是不给力。

译者自己也承认,这个蕨麻互联网还不足以模拟繁杂的现实世界图像。

但正如Hinton本人所说,他只担心为基础理论挑毛病的人不够多。只要有诞生更快的方式的可能性,就如果遵循直觉继续科学研究。

学术论文团队

学术论文一作是来自牛津大学的博士生Adam Kosiorek,现在在DeepMind实习。

这篇学术论文是小哥在谷歌大脑实习期间完成的,合作单位包括谷歌大脑和DeepMind。

传送门

学术论文地址:https://arxiv.org/abs/1906.06818

解读博客:http://akosiorek.github.io/ml/2019/06/23/stacked_capsule_autoencoders.html

诚挚招聘

物理位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在物理位社会公众号(QbitAI)对话界面,回复招聘两个字。

物理位 QbitAI · 头条号签约译者

վᴗ ի 追踪AI技术和产品新动态

twitter加赞网站 --twitter买评论