首页 > 生活

GLU介绍

更新时间:2025-05-19 17:43:19 阅读: 评论:0

门控线性单新少林五祖元(Gated Linear Unit,GLU)出自[Dauphin et al., 2016]

一般形式:

h(x)=σ(xW+b)⊗(xV+c)

GLU(x,W,V,b,c)=σ(xW +b)⊗(xV +c)

即x的两个线性映射(linear projection)逐点相乘,其中一个先过了 sigmo硕美科耳机id 函数

σ是sigmoid函数,⊗是矩阵逐点相乘张果老

逐点相乘也叫Hadamard积(Hadamard Product)有些也用\odot表示

sigmoid 型函数是指一类S型曲线函数,为两端饱和函数.

常用的Sigmoid型函数有Logistic函数和Tanh函数

\sigma(尊神x)=\frac{1}{1+exp(-x)} 而 tanh(x)=2\sigma(2x)-1 赛楠

Swish 函数[Ramachandran et al., 2017] 是一种自门控(Self-Gate原地跑d)激活滑环函数

swish(x) = x裁定驳回起诉\alpha(\beta x)

GELU(Gaussian Error Linear Unit,高斯误差线性单元)[Heeastpakndrycks et al., 2016] 也是一种通过门控机制来调整其输出虚拟商品值的激活函数,和Swish函数比较类似

GELU(x) = x (X ≤ x) 其中 P(X \le x) 是高斯分布的累积分布函数

GLU的相关变体如下:

GTU(x,W,V,b,c)=控制器设计tan南宁育婴师h(xW +bcurriculum)⊗\sigma(xV +c)

Bilinear(x,W,V,b,c)=(x河北理工大教室门W +b)⊗(xV +c)

ReGLU(x,W,V,b,c)=ReLU(xW +b)⊗(xV +c)

GEGLU(x,W,V,b,c)=GELU(xW +b)⊗(xV +c)

SwiGLU(x,W,V,b,c,β)=Swish_β(xW +b)⊗(xV +c)松茸怎么吃

不同非线性激活函数对比,GLU收敛更快,效果更好

从上图Figure 3中可以看探险类电影出不同非线性激活函数中 GLU \succ GTU \succ ReLU\succ Tanh

Tanh和GTU都没有线性通道,当处于饱和区间时,存在梯度消失的问题

GLU和ReLU都拥有线性的通道,可以使梯度很容易通过激活的units,更快收敛

ReLU(x)=(x>0)\otimes x

ReLU可以看成是GLU的简化版本gate是否生效取决于输入 x 的符号

比特币官网线性、双线性、GLU(非线性)对比看

GLU效果比Bilinear好,Bilinear比Linear好

GLUE榜单不同激活函数对比SuperGLUE榜单不同激活函数对twitter注册比

从GLUE和SuperGLUE榜单看,平均分对比 GLU\succ ReLU

GLU多个变体中效果相差不大,可以试下SwiGLU和ReGLU

参考论文:

Language Modeling with Gated Convolutional Networks(Facebook, 2017)

GLU Va柚子图片riant轰8s Improve Transformer(Google, 2020)

本文发布于:2023-06-03 00:42:59,感谢您对本站的认可!

本文链接:http://www.ranqi119.com/ge/85/198444.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:GLU
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26|友情:优美诗词|电脑我帮您|扬州装修|369文学|学编程|软件玩家|水木编程|编程频道