小猫钓鱼的故事,transformer 中的专注力体制和胶襄互联网中的动态路由:他们在实质上也许具备相似度,我爱背单词

雷锋网 AI 科技谈论按,胶囊网络是一种抢手的核算机网络模型,倍受人工智能范畴相关研讨人员的重视。而 transformer 是谷歌在 2017 年的一篇闻名论文「Attention Is All You Need」中提出的一种网络结构,这种网络结构是依据留意力机制的,首要重视 NLP 范畴的机器翻译问题。

Amsterd1688批发网am 大学的博士生 Samira 考虑了胶囊网络和 transformer 之间的联络,并宣布了一篇博客。在博客中,她谈论了 transformer 和胶囊网络的首要组成部分以及它们之间的联络。雷锋网 AI 科技谈论将她的文章编译收拾如下:

在本文中,咱们将介绍 transformer 和胶囊网络的首要组成部分,并测验在这两个模型的不同组件之间树立衔接。咱们的首要方针是研讨这些模型本质上是否是不同的,假如是不同的,它们之间的联络是什么。

transformers:

transformers,或所谓的自留意力网络,是一系列深度神经网络体系结构,其间自留意力层互相堆叠,经过多重转化学习输入分词在详细的情境中怎么表明。这些模型现已能够在许多视觉和 NLP 使命上完结 SOTA。关于怎么完结 transformer 有许多细节,但从全体上来看,transformer 是一种编码器-解码器体系结构,其间每个编码器和解码器模块由一组 transformer 层组成,在每个层中,咱们学习(从头)核算每个输入分词的表明。这个表明是经过重视前一层中一切分词的表明方法核算出来的。详细如下图所示。

因而,为了核算层 L+1 中的表明,来自它前面的层 L 的表明经过一个自留意力模块传递过来,该模块更新每个和其它分词有相关的分词的表明。后边的层的分词在解码器块的自留意力中被屏蔽。别的,除了自留意力之外,解码器中还有编码器-解码器留意(「encoder-decoder-attention」,上图中没有描绘)。要了解有关 transformer 的更多详细信息,请检查这篇巨大的文章:http://jalammar.gi莫绮雯thub.io/illustrated-transformer。

transformer 的要害组成部分是自留意力机制,它的一个重要特性是选用多头留意力机制。在这篇文章中,咱们首要重视这个部分,并在将胶囊网络与 transformer 进行比较的进程中,深入探讨它的一些细节。

运用多头留意力机制的首要动机是取得探究多个表明子空间的时机,由于每个留意力头得到的表明投影是不相同的。在抱负的状况下,每个留意力头都会经过考虑一个不同的方面来学习处理输入的不同部分,而且在实践中,不同的留意力机制核算出来的留意力散布也是不同的。transformer 中的多个留意力头和 CNN 中的多个滤波器是类似的。

在这儿,咱们解说了怎么使海南黄花梨陈仓气候用多个头的自留意力机制来整合来自较基层 L 中不同方位的信息,以核算较上层的 L+1 表明。

首要,咱们应该留意到,每一层的每个方位的表明都方法都是(键、值、查询)三元组。因而,关于每一层,咱们有三个矩阵(K,Q,V),这些矩阵中的每一行对应一个方位。

留意力头 i 的输入是 K、Q 和 V 的线性改换:

然后,该留意力头 i 输出为:

di 表明 Ki的长度。

直观地说,在 L+1 层中每个方位的表明是 L 层中一切表明的加权组合。为了核算这些权重,留意力散布,每个留意力头,核算 L+1 层中每个方位的查询与 L 层中一切方位的键之间的类似性,然后经过 softmax 函数对这些类似性分数进行核算,得出一切方位的留意力散布。因而,对一向很安静于每个自留意力层中的每个方位,咱们在每个留意力头下一层的方位上都有一个留意力权重散布。终究,关于每个留意力头,运用头部的留意力概率组合一切方位的值。在终究一步中,将一切留意力头的值进行线性衔接和转化,以核算多个留意力会集部分的输出:

因而,依据所学的参数,关于每一层,咱们有一个转化矩阵Wo,它将一切留意力头的输出组合起来。一起,对每个留意力头来说,咱们有三个转化矩阵,即

带 EM 路由的矩阵胶囊:

从一开端,胶囊网络就被用于以更天然的方法来处理图画。在 2000 年,Hinton 和 Gharamani 以为,依赖于切割预处理阶段的图画辨认体系存在这样一个现实,即切割器不知道被处理目标的一般信息,一起,他们主张图画的辨认和切割都能够在同一个体系里边完结。其思维是,为了辨认目标的某一部分,有必要首要需求对目标是什么有一个大致的了解。换句话说,咱们需求一起具有自上而下突组词和自下而上的信息流。

关于 NLP 问题来说这也相同适用。这方面的一个比如是解析 garden path 里边的语句。胶囊网络能够被看作是 CNN,在那里内核的输出有一些结构,池被动态路由所替代。

胶囊是一个单元,它学习怎么在有限的检查条件域中检测隐式界说的实体。它输小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词出实体存在的概率和一组反映实体特征(如姿势信息)的「实例化参数」。存在概率是视点不变的,例如,它不会跟着实体的移动或旋转而改动,可是实例化参数是视点等变的,例如,假如实景色壁纸体移动或旋转,这些参数就会发生变化。

在具有 EM 路由的矩阵胶囊中,它们运用了一个胶囊网络,这个网络包括规范的卷积层,以及一层初级胶囊,随后是几层卷积胶囊。在这个版别的胶囊网络中,实例化参数被表明为一个矩阵,这个矩阵被称为姿势矩阵。

每个胶囊层都有固定数量的胶囊类型(类似于 CNN 中的滤波器),它们被选作超参数。每个胶囊都是某种胶囊类型的实例。每个胶囊类型对应于一个实体,而且一切相同类型的胶囊都对应于不同方位的类型相同的实体。在较基层中,胶囊类型学习辨认基层实体,例如眼睛,在较上层中,它们会出现更多的上层实体,例如脸。

在卷积胶囊层中,每种胶囊类型的权矩阵在输入上进行卷积,类似于内核在 CNN 中的运用。这会导致每种胶囊类型具有不同的实例。

在胶囊网络中,每个层中胶囊类型的数量是预先界说好的。在两个相邻层中的每种胶囊类型之间,都有一个改换矩阵。这样,每一个上层胶囊看到的都是不同视点的基层胶囊中的实体。

姿势矩阵

该方程显现了怎么依据基层胶囊的姿势矩阵核算上层柬埔寨气候胶囊的姿势矩阵 Mj,即 Mis 是:

在这个方程中,rij是胶囊 i 分配给胶囊 j 的概率,也便是说,胶囊 i 对胶囊 j 所捕获概念的奉献程度。WijMi 是基层胶囊 i焦裕禄 相关于胶囊 j 的姿势矩阵投影,也称为「vote 矩阵」,表明为 Vij。因而,胶囊 j 的姿势矩阵基本上是基层胶囊投票矩阵的加权平均数。请留意,分配概率意外是作为动态路由 EM 进程的一部分核算的,与胶囊的存在概率或激活概率不同。

存在概率

现在,让咱们看看怎么核算上层胶囊的激活概率。简略地说,较上层胶囊的激活概率是依据激活本钱与不激活本钱相权衡核算出来的。

问题是:这些本钱是什么,咱们该怎么核算它们?

假如分配给更上层胶囊的概率总和大于零,即有一些较基层胶囊分配给这个胶囊,则不激活该胶囊会发生本钱。但胶囊的激活概率并不是仅依据分配概率的值来核算的。咱们还应该考虑分配给上层胶囊的基层胶囊的 vote 矩阵互相之间的一致性。

换句话说,分配给上层荔枝网胶囊的基层胶囊应该是上层胶囊所代表的同一实体的一部分。因而,激活胶囊的本钱也反映了基层胶囊的 vote 矩阵与上层胶囊核算出的姿势矩阵之间的不一致程度。此外,为了防止随意激活胶囊,激活每个胶囊时都有固定的赏罚。

带 EM 的动态路由

这儿的首要应战是核算分配概率 rij。也便是怎么将基层胶囊

衔接到上层胶囊

,或许换句话说,怎么在胶囊层之间路由雷锋精神信息。咱们期望这些联络不只取决于基层胶囊的存在,还取决于它们互相之间的联络以及它们和上层胶囊之间的联络。例如,代表眼睛的胶囊(面部的一部分)或许不应该和代表桌子的胶囊联络在一起。这能够看作是在核算从基层胶囊到上层胶囊的留意力。但问题在于,为了能够依据基层胶囊与上层胶囊的类似性来核算这一概率,咱们事前没有对上层胶囊的初始表明。这是由于胶囊的表明取决于基层的哪些胶囊将会被分配给它。这正是动态路由起作用的当地,它经过运用 EM 处理了这个问题。

依据

的表明和基层胶囊到上层胶囊的分配概率,咱们能够运用 EM 核算出

的表明。这种迭代进程称为带 EM 的动态路由。请留意,带 EM 的动态路由是胶囊网络中前向传递的一部分,在练习期间,过错经过动态路由的打开迭代进行反向传达。

值嘴巴苦是怎么回事得留意的是,它的核算方法和首要胶囊层的核算方法有点不同,由于其下面的层不是胶囊层。初级胶囊的姿势矩阵仅仅基层内核输出的线性改换。此外,每个输出类的终究胶囊层有一个胶囊。当将终究一个卷积胶囊层衔接到终究一层时,改换矩阵在不同的方位上同享,它们运用一种称为「坐标加成」(Coordinate Addition)的技能来保存关于卷积胶囊方位的信息。

胶囊网络与 transfor小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词mer:

终究,咱们来到了本文最风趣的部分:比较这两个模型。尽管从完结的视点来看,胶囊网络和 transformers 好像并小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词不十分类似,但这两个系列模型的不同组件之间存在一些功能上的类似性。

动态路由与留意力机制

在胶囊网络中,咱们运用动态路由来确认从基层到上层的衔接,与 transformer 中的状况相同,咱们运用自留意力来决议怎么处理输入的不同部分以及来自不同部分的信息怎么促进表明的更新。咱们能够将 transf淘宝点评ormer 中的留意力权重映射到胶囊网络中的分配概率,可是,胶板野友美囊网络中的分配概率是自下而上核算的,而 transformer 中的留意小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词力是自上而下核算的。即 transformer 中的留意力权重散布在基层的表明上,而在胶囊网络中,分配概率散布在上层胶囊上。请留意,在 transformer 中,留意力概率是依据同一层中表明的类似性核算的,但这相当于假定上层首要用基层的表明进行初始化,然后经过将这些初始表明与基层的表明进行比较,核算出留意力概率来更新上层的表明。

胶囊网络中的自下而上的留意力机制以及存在概率和激活胶囊会发生的赏罚,清晰答应模型在信息传达到更上面的层时笼统出概念。另一方面,在 transformer 中,自上而下的留意力机制答应上层节点不重视基层节点,并过滤掉在这些节点中捕获的信息。

现在的问题是,为什么在胶囊网络中咱们需求运用 EM 来进行动态路由?为什么咱们不能用一个和 transformer 中核算留意力的机制类似的方法来核算胶囊网络中的分配概率呢?

咱们的猜测是,能够运用点积类似度来核算基层胶囊与上层胶囊的类似度,然后核算出分配概率。

现在面对的应战在于,在胶囊网络中,咱们对更上层胶囊的表明没有任何先验的假定,由于咱们事前并不知道它们所代表的是什么。另一方面,在 t白云机场ransformer 中,一切层中的节点数是相同的,而且数量上和输入的分词数相同,因而,小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词咱们能够将每个节点解说为相应输入分词结合了上下文的表明。这样,咱们就能够用较基层的对应表明来初始化每个较上层中的表明,这样就能够运用这两种表明之间的类似性分数来核算留意力权重。

胶囊类型和留意力头:

胶囊网络和 transformer 体系结构都有一种机制,答应模型从不同的视点处理较小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词基层的表明,以此来核算较上层的表明。在胶囊网络中,来自两个相邻层的每对胶囊类型之间有不同的转化矩阵,因而作为不同胶囊类型实例的胶囊从不同的视点检查前一层的胶囊。与此相同,在 transformer 中,咱们有多个留意力头,其间每个留意力头运用一组不同的转化矩阵来核算键、值和查询的投影值。因而,每个留意力头在基层表明的不同投影上作业。这两种机制和卷积神经网络中有不同的核是类似的。

现在,胶囊网络和 transformer 在这方面的不同之处在于,在胶囊网络中,不同类型的胶囊有不同的检查视点,斗米兼职终究,较基层胶囊的分配概率在较上层中的一切胶囊上进行归一化,而不论其类型怎么。因而,在较低层中,每个胶囊有一个分配散布。而在 transformer 中,每个留意力头成人小游戏独立地处理其输入。这意小猫垂钓的故事,transformer 中的专心力体系和胶襄互联网中的动态路由:他们在实质上或许具有类似度,我爱背单词味着咱们在更高层的每个方位都有一个独自的留意力散布,留意力头的输出只在终究一个过程中组合,在终究一个过程中它们被简略地衔接和线性转化,以核算多头留意力块的终究输出。

方位嵌入和坐标增加:

在 transformer 和胶囊网络中,都有一些机制能够将特征的方位信息显式地增加到模型核算的表明中。可是,在 transformer 中,这是在第一层之前完结的,其间方位嵌入被增加到单词嵌入中。而在胶囊网络中,它是经过坐标增加在终究一层中完结的,其间每个胶囊的感触野中心的缩放坐标(行、列)被增加到 vote 矩阵的右边列的前两个元素中。

结构化躲藏表明:

在 transformer 和胶囊网络中,躲藏的表明是以某种方法构建的。在胶囊网络中,咱们用一种胶囊替代规范神经网络中的标量激活单元,每个这种胶囊都用姿势矩阵和激活值表明。姿势矩阵对每个胶囊的信息进行编码,并用于动态路由核算基层胶囊和上层胶囊之间的类似性,激活概率决议了它们是否存在。

与此相反,在 transformer 中,表明被分解成键、查询和值三元组,其间键和查询是用于核算输入不同部分之间类似性的寻址向量,并核算留意力散布,以核算输入的不同部分对互相的表明的奉献程度。

从广义的概念来看,胶囊网络中的姿势矩阵在 transformer 中扮演着键和查询向量的人物。这儿的关键是,它在不同类型信息的表明别离中奔跑cls300好像有一些优势,而且在这两个模型中,这是依据路由或留意力处理进程中躲藏状况的人物来完结的。

via:https://staff.fnwi.uva.nl/s.abnar/?p=108

雷锋网雷锋网

评论(0)