稀疏注意力集中的原理与应用

稀疏注意力机制是一种在Transformer模型中用于减少计算复杂度的技术。在全局注意力机制中，每个query都会与所有的key进行计算，导致计算复杂度为O(n^2)，其中n为序列的长度。而稀疏注意力机制则通过限制每个query只与部分key进行计算，从而降低计算复杂度。

稀疏注意力机制原理：

稀疏注意力机制的原理是通过引入一种稀疏的方式来选择与每个query相关的key，通常是通过引入一个mask矩阵来实现。这个mask矩阵可以根据一定的规则来选择与每个query相关的key，比如只选择与query距离最近的k个key进行计算。这样可以大大减少计算量，提高模型的效率。

稀疏性的程度可以通过参数w来控制，w是一个比1大但比序列长度n小的数。通过调整w的值，可以在计算效率和模型性能之间找到一个平衡。在实际应用中，稀疏注意力机制可以采用固定模式、可学习的模式或基于启发式规则等方式来实现。

以下是一些实现稀疏注意力的具体方式：

1. 固定模式稀疏：

• 固定窗口 attention：仅考虑每个位置附近的一个固定大小窗口内的元素，忽略远离中心位置的元素。

• 块状/分段注意力：将序列划分为多个区块，在区块内部执行局部注意力，跨区块可能通过稀疏连接或其他机制进行通信。

2. 动态稀疏：

• 稀疏采样：如BigBird模型，采取随机抽样、确定性稀疏采样或基于内容的采样策略，只关注序列中一部分位置。

• 自适应稀疏：根据输入数据的特性动态生成注意力模式，例如，某些位置可以根据上下文信息决定关注哪些其他位置。

3. 路由或层次注意力：

• 路由机制：先在一个较粗糙的层级上筛选出相关的键值对，再在筛选后的子集上执行精细化的注意力计算。

• 层次注意力：通过分层结构逐步缩小注意力范围，比如先在高层级关注整体结构，再在下一级别关注细节。

稀疏注意力机制的优点包括：

1. 减少计算复杂度：通过限制每个词的注意力计算范围，可以显著降低计算复杂度，提高模型的效率。

2. 提高可解释性：稀疏注意力机制可以使模型更容易解释，因为每个词只与部分词之间计算注意力权重，更容易理解模型的决策过程。

3. 改善泛化能力：稀疏注意力机制可以减少模型的过拟合风险，提高模型的泛化能力。

关于信息缺失的问题：

尽管稀疏注意力在理论上可能会错过某些全局上下文信息，但通过巧妙的设计和优化，稀疏注意力模型能够在一定程度上模拟全局上下文的效果。例如，BigBird模型通过混合稀疏注意力、全局注意力和随机跳过连接来捕捉远程依赖关系，从而减少信息损失。而在实际应用中，合理设计的稀疏策略往往可以在性能和效率之间取得较好的平衡，即使在有限的计算资源下也能达到相当不错的性能表现。#动图详解Transformer

稀疏注意力集中的原理与应用

25万美元奖金不要了？辽篮做意外决定，3外援回国恐提前放弃亚冠

东部战区发布多军种联合打击3D虚实动画

美国ATACMS弹道导弹几乎成为俄国S-400防空系统克星，一打一个准

英伟达CEO黄仁勋身家达913亿美元

布朗40+5凯尔特人大胜步行者2-0 西卡28+5

3-1！超强旋转，锁死张本美和，石洵瑶为队友复仇，连战日本主力

乌部队称击落一架俄苏-25战机俄暂无回应

第二批中央生态环保督察约谈党政领导干部96人，目前全面下沉

笑不活了！电视开机率下降到不足三成冲上热搜，我却笑死在评论区

医院俩女护士突然奔跑摔倒监控显示其身后并没有人

周鸿祎：只要大家都支持国产品牌，丰田埃尔法、雷克萨斯就只会降价！提了人生第一款新能源极氪009光辉版

印度驻华大使馆4500元招司机，会开B1小客车，还要会说英语中国网友：太抠了

张敏任河南省委常委

联合早报：若继续孤立中国， 45年改开红利将消失，忠言逆耳？

男子登福清大化山失联，知情人：在谷底水域中找到，已无生命体征

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

变局！广州各区开局季经济排名：越秀超黄埔，白云增速第一

“花了5万多元就敲了根柱子” 四川西昌一装修公司“跑路”，70余户业主报警｜云求助

珠海全面取消限购、限售

游客驾车碾压新疆一景区草场官方通报：行政处罚5000元，责令限期恢复植被

稀疏注意力集中的原理与应用

25万美元奖金不要了？辽篮做意外决定，3外援回国恐提前放弃亚冠

东部战区发布多军种联合打击3D虚实动画

美国ATACMS弹道导弹几乎成为俄国S-400防空系统克星，一打一个准

英伟达CEO黄仁勋身家达913亿美元

布朗40+5凯尔特人大胜步行者2-0 西卡28+5

3-1！超强旋转，锁死张本美和，石洵瑶为队友复仇，连战日本主力

乌部队称击落一架俄苏-25战机 俄暂无回应

第二批中央生态环保督察约谈党政领导干部96人，目前全面下沉

笑不活了！电视开机率下降到不足三成冲上热搜，我却笑死在评论区

医院俩女护士突然奔跑摔倒 监控显示其身后并没有人

周鸿祎：只要大家都支持国产品牌，丰田埃尔法、雷克萨斯就只会降价！提了人生第一款新能源极氪009光辉版

印度驻华大使馆4500元招司机，会开B1小客车，还要会说英语 中国网友：太抠了

张敏任河南省委常委

联合早报：若继续孤立中国， 45年改开红利将消失，忠言逆耳？

男子登福清大化山失联，知情人：在谷底水域中找到，已无生命体征

奥迪车主称每次启动车辆就会显示"续费弹窗" 客服回应

变局！广州各区开局季经济排名：越秀超黄埔，白云增速第一

“花了5万多元就敲了根柱子” 四川西昌一装修公司“跑路”，70余户业主报警｜云求助

珠海全面取消限购、限售

游客驾车碾压新疆一景区草场 官方通报：行政处罚5000元，责令限期恢复植被

乌部队称击落一架俄苏-25战机俄暂无回应

医院俩女护士突然奔跑摔倒监控显示其身后并没有人

印度驻华大使馆4500元招司机，会开B1小客车，还要会说英语中国网友：太抠了

游客驾车碾压新疆一景区草场官方通报：行政处罚5000元，责令限期恢复植被