大模型长上下文任务上表现越来越差怎么办？让它睡一觉就好了……卡内基梅隆大学和马里

大模型长上下文任务上表现越来越差怎么办？让它睡一觉就好了……卡内基梅隆大学和马里兰大学的一项研究“Language Models Need Sleep”

现在的大语言模型越来越常被用于长任务，比如长文推理、多步数学题、长期对话和跨段信息整合。但传统 Transformer 依赖KV cache来保存上下文，内容越长，计算和内存成本越高。

文章借用了动物睡眠中的记忆巩固概念：动物在睡眠中会重放和整理白天的记忆。作者认为，语言模型也可以在清空上下文缓存前，花额外计算时间整理刚看过的内容。

于是作者设计了一种“模型睡眠”机制：当模型的上下文窗口快满、旧内容即将被清掉时，模型暂停接收新输入，对已经看到的内容进行多次内部处理，把它们压缩进更持久的内部记忆。之后再清空缓存，继续处理后面的内容。

模型在回答时仍然只用一次正常预测，不增加回答阶段的延迟。额外计算被放在“睡眠”阶段完成。AI创造营

YC科技资讯网