YC科技资讯网

大模型长上下文任务上表现越来越差怎么办?让它睡一觉就好了……卡内基梅隆大学和马里

大模型长上下文任务上表现越来越差怎么办?让它睡一觉就好了……卡内基梅隆大学和马里兰大学的一项研究“Language Models Need Sleep”

现在的大语言模型越来越常被用于长任务,比如长文推理、多步数学题、长期对话和跨段信息整合。但传统 Transformer 依赖KV cache来保存上下文,内容越长,计算和内存成本越高。

文章借用了动物睡眠中的记忆巩固概念:动物在睡眠中会重放和整理白天的记忆。作者认为,语言模型也可以在清空上下文缓存前,花额外计算时间整理刚看过的内容。

于是作者设计了一种“模型睡眠”机制:当模型的上下文窗口快满、旧内容即将被清掉时,模型暂停接收新输入,对已经看到的内容进行多次内部处理,把它们压缩进更持久的内部记忆。之后再清空缓存,继续处理后面的内容。

模型在回答时仍然只用一次正常预测,不增加回答阶段的延迟。额外计算被放在“睡眠”阶段完成。AI创造营