门控线性单新少林五祖元(Gated Linear Unit,GLU)出自[Dauphin et al., 2016]
一般形式:
h(x)=σ(xW+b)⊗(xV+c)
或
GLU(x,W,V,b,c)=σ(xW +b)⊗(xV +c)
即x的两个线性映射(linear projection)逐点相乘,其中一个先过了 sigmo硕美科耳机id 函数
σ是sigmoid函数,⊗是矩阵逐点相乘张果老
逐点相乘也叫Hadamard积(Hadamard Product)有些也用\odot表示
sigmoid 型函数是指一类S型曲线函数,为两端饱和函数.
常用的Sigmoid型函数有Logistic函数和Tanh函数
\sigma(尊神x)=\frac{1}{1+exp(-x)} 而 tanh(x)=2\sigma(2x)-1 赛楠
Swish 函数[Ramachandran et al., 2017] 是一种自门控(Self-Gate原地跑d)激活滑环函数
swish(x) = x裁定驳回起诉\alpha(\beta x)
GELU(Gaussian Error Linear Unit,高斯误差线性单元)[Heeastpakndrycks et al., 2016] 也是一种通过门控机制来调整其输出虚拟商品值的激活函数,和Swish函数比较类似
GELU(x) = x (X ≤ x) 其中 P(X \le x) 是高斯分布的累积分布函数
GLU的相关变体如下:
GTU(x,W,V,b,c)=控制器设计tan南宁育婴师h(xW +bcurriculum)⊗\sigma(xV +c)
Bilinear(x,W,V,b,c)=(x河北理工大教室门W +b)⊗(xV +c)
ReGLU(x,W,V,b,c)=ReLU(xW +b)⊗(xV +c)
GEGLU(x,W,V,b,c)=GELU(xW +b)⊗(xV +c)
SwiGLU(x,W,V,b,c,β)=Swish_β(xW +b)⊗(xV +c)松茸怎么吃
不同非线性激活函数对比,GLU收敛更快,效果更好从上图Figure 3中可以看探险类电影出不同非线性激活函数中 GLU \succ GTU \succ ReLU\succ Tanh
Tanh和GTU都没有线性通道,当处于饱和区间时,存在梯度消失的问题
GLU和ReLU都拥有线性的通道,可以使梯度很容易通过激活的units,更快收敛
ReLU(x)=(x>0)\otimes x
ReLU可以看成是GLU的简化版本gate是否生效取决于输入 x 的符号
比特币官网线性、双线性、GLU(非线性)对比看GLU效果比Bilinear好,Bilinear比Linear好
GLUE榜单不同激活函数对比SuperGLUE榜单不同激活函数对twitter注册比从GLUE和SuperGLUE榜单看,平均分对比 GLU\succ ReLU
GLU多个变体中效果相差不大,可以试下SwiGLU和ReGLU
参考论文:
Language Modeling with Gated Convolutional Networks(Facebook, 2017)
GLU Va柚子图片riant轰8s Improve Transformer(Google, 2020)
本文发布于:2023-06-03 00:42:59,感谢您对本站的认可!
本文链接:http://www.ranqi119.com/ge/85/198444.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |