YC科技资讯网

DeepSeek Engram论文发布:“查”“算”分离,提升模型效率 ----

DeepSeek Engram论文发布:“查”“算”分离,提升模型效率
-----------------
DeepSeek 于2026年1月12日发布的最新研究成果,提出了一种名为“条件记忆”的全新大语言模型稀疏化维度,并通过Engram模块具体实现。这项技术旨在解决当前大语言模型在知识检索方面的根本性效率问题。
[烟花]Engram的核心思想是:语言建模包含两种性质不同的子任务---组合推理(需要深度动态计算)和知识检索(涉及大量局部、静态的模式),简单理解为MoE负责“算”,Engram负责“查”。
----------------
[烟花]Engram架构设计:
Engram是一个集成在Transformer主干网络中的条件记忆模块,其工作流程分为两个阶段:
1)稀疏检索:通过哈希化的N-gram进行快速查找
a. 将原始词符ID映射到规范化的ID,提高语义密度
b.使用轻量级哈希函数将压缩后的后缀N-gram映射到大型嵌入表中的索引
c. 采用多哈希头缓解碰撞问题
2)上下文感知门控:确保检索的静态知识与当前语境适配
a.使用当前层的隐藏状态作为查询(Query)
b.将检索到的记忆向量同时作为键(Key)和值(Value)
c.通过缩放点积注意力机制计算门控标量,动态调制检索值
d.如果记忆与当前上下文矛盾,门控值会趋近于0,抑制噪声
-------------------------
[烟花]U型缩放定律与性能提升
1)实验显示:
U型缩放定律:验证损失与分配给MoE的稀疏参数比例呈U型关系
最优分配比例:纯MoE并非最优;将20-25%的稀疏容量分配给Engram记忆模块效果最佳
无限内存机制:在固定MoE主干、仅扩展Engram内存容量的实验中,验证损失随内存槽数量增加呈对数线性下降
2)实际性能表现
在262B token上训练的实验模型对比显示:
a.全面性能提升:在同等计算和参数成本下,Engram-27B全面超越纯MoE基线
b.多领域优势:不仅在知识密集型任务(如MMLU、CMMLU)上表现更好,在通用推理(BBH、ARC-Challenge)、代码/数学(HumanEval、MATH)和长上下文理解(RULER)任务上提升更为显著
------