[LG]《Convex Optimization for Alignment a

[LG]《Convex Optimization for Alignment and Preference Learning on a Single GPU》M Feng, M Pilanci [Stanford University] (2026)

在偏好对齐领域，DPO虽比RLHF简单，却仍吃显存、依赖参考模型和调参。根因是把排序学习塞进非凸训练，稳定性靠经验配方维持。

本文的核心洞见是：把偏好对齐重新看作凸分类问题。由此，在冻结LLM特征上训练凸神经网络头，用ADMM求解，去掉参考模型。