热点新闻
注意力机制作用被高估了?苹果等机构新研究:把注意力矩阵替换成常数矩阵后,性能差异不大
admin2022-11-22 05:41
177人已围观
简介注意力机制作用被高估了?苹果等机构新研究:把注意力矩阵替换成常数矩阵后,性能差异不大
要说 Transformer 的核心亮点,当然是注意力机制了。
但现在,一篇新研究却突然提出了带点火药味的观点:
注意力机制对于预训练 Transformer 有多重要,这事儿得打个问号。
研究人员来自希伯来大学、艾伦人工智能研究所、苹果和华盛顿大学,他们提出了一种新的方法,用来衡量注意力机制在预训练 Transformer 模型中的重要性。
结果表明,即使去掉注意力机制,一些 Transformer 的性能也没太大变化,甚至与原来的模型差异不到十分之一!
这个结论让不少人感到惊讶,有网友调侃:
你亵渎了这个领域的神明!
所以,究竟如何判断注意力机制对于 Transformer 模型的重要性?
把注意力换成常数矩阵
这种新测试方法名叫 PAPA,全称“针对预训练语言模型注意力机制的探测分析”(Probing Analysis for PLMs’ Attention)。
PAPA 采用的方法,是将预训练语言模型(PLMs)中依赖于输入的注意力矩阵替换成常数矩阵。
如下图所示,我们熟悉的注意力机制是通过 Q 和 K 矩阵,计算得到注意力权重,再作用于 V 得到整体权重和输出。
现在,Q 和 K 的部分直接被替换成了一个常数矩阵 C:
其中常数矩阵 C 的计算方式如下:
随后,用 6 个下游任务测试这些模型(CoLA、MRPC、SST-2、MNLI、NER、POS),对比采用 PAPA 前后,模型的性能差距。
为了更好地检验注意力机制的重要性,模型的注意力矩阵并非一次性全换成常数矩阵,而是逐次减少注意力头的数量。
如下图,研究先用了 BERT-BASE、RoBERTa-BASE 和 DeBERTa-BASE 做实验,其中 y 轴表示性能,x 轴是注意力头相比原来减少的情况:
随后,研究又用了 BERT-LARGE、RoBERTa-LARGE 和 DeBERTa-LARGE 做实验:
通过比较结果,研究人员发现了一些有意思的现象:
首先,用常数矩阵替换一半的注意矩阵,对模型性能的影响极小,某些情况下甚至可能导致性能的提升(x 值达到 ½ 时,图中有些模型数值不减反增)。
其次,即使注意力头数量降低为 0,平均性能下降也就 8%,与原始模型相比最多不超过 20%。
研究认为,这种现象表明预训练语言模型对注意力机制的依赖没那么大(moderate)。
模型性能越好,越依赖注意力机制
不过,即使是预训练 Transformer 模型之间,性能表现也不完全一样。
作者们将表现更好的 Transformer 模型和更差的 Transformer 模型进行了对比,发现原本性能更好的模型,在经过 PAPA 的“测试”后,性能反而变得更差了。
如下图,其中 y 轴代表各模型原本的平均性能,x 轴代表将所有注意力矩阵替换为常数矩阵时(经过 PAPA 测试)模型性能的相对降低分值:
可以看出,之前性能越好的模型,将注意力矩阵替换成常数矩阵受到的损失也越高。
这说明如果模型本身性能越好,对注意力机制的利用能力就越好。
对于这项研究,有网友感觉很赞:
听起来很酷,现在不少架构太重视各种计算和性能任务,却忽略了究竟是什么给模型带来的改变。
但也有网友认为,不能单纯从数据来判断架构变化是否重要。
例如在某些情况下,注意力机制给隐空间(latent space)中数据点带来的幅度变化仅有 2-3%:
难道这种情况下它就不够重要了吗?不一定。
对于注意力机制在 Transformer 中的重要性,你怎么看?
论文地址:
https://arxiv.org/abs/2211.03495
参考链接:
https://twitter.com/_akhaliq/status/1589808728538509312
本文来自微信公众号:量子位 (ID:QbitAI),作者:萧箫

微信公众号
很赞哦!(0)
相关文章
文章评论
评论0
站点信息
- 微信公众号:扫描二维码,关注我们

点击排行

标签云
-
php
网页设计
个人博客
JS
个人博客
Html
春节必看: 2020新春红包大战 全攻略
新增详细玩法攻略!
支付宝集五福5亿集分宝招商银行抽现金券抖
抖音 2020 发财中国年 攻略
支付宝集五福5亿集分宝招商银行抽现金券抖
最近购买威尔胜WTB0900复刻版和WT
mysql慢查询和php-fpm慢日志
PSR-2
基础代码规范
Thinkphp
响应式
公司
整站
源码
网络科技网站模板
1024
节日
百度收录
论坛
社区
2020
豆瓣
评分最高
电影
debugger
调试
Python
语法
高德
百度地图
MySQL
追寻
webpack
vue
oracle
服务器搭建
有趣
动物
人体
历史
天文
生活
名人
体育
地理
文化
科学
心理
植物
饮食
自然
图片
JVM
IDEA
Loader
Git
UNIAPP
股票
A股
同花顺
海尔
海天味业
半年报
股市总结
歌尔股份
乐普医疗
涪陵榨菜
餐饮
财报分析
酒店
年报分析
美锦能源
山煤国际
贵州茅台
张坤
腾讯
华鲁恒升
淮北矿业
药明康德
早盘关注
国电电力
北方华创
宝丰能源
TCL中环
兔宝宝
天润乳业
启明星辰
阳光电源
山西汾酒
迈瑞医疗
人福医药
比亚迪
宁德时代
汤臣倍健
伊利股份
通威股份
东鹏饮料
隆基股份
紫金矿业
五粮液
康龙化成
赣锋锂业
爱尔眼科
片仔癀
VR
永新股份
爱美客
美的集团
格力电器
科沃斯
云南白药
同仁堂
洋河股份
白云山
三体
狂飙 原著