计算机视觉顶会 CVPR 2026 获奖名单正式出炉。
今年CVPR看点是广东:何恺明再获至高大奖,广工大打破大厂名校垄断
其中,一篇由本科生主导完成的论文不仅成功中稿 Oral,还一举拿下最佳学生论文提名奖,引发了大家的关注。

奖项公布后,有网友发帖称,「感觉蛮励志的」,论文的第一作者Liangsi Lu和通讯作者Yang Shi均为广东工业大学的在读本科生,实验甚至是在一块古早的 NVIDIA Titan 显卡上跑出来的。

最佳学生论文提名
一行公式干翻多步推理
论文题目:ChordEdit: One-Step Low-Energy Transport for Image Editing
作者:卢梁司(广东工业大学,一作)、Xuhang Chen(惠州学院)、Minzhe Guo(广东工业大学)、Shichu Li(深圳大学)、Jingchao Wang(北京大学)、Yang Shi(广东工业大学,通讯作者)
两个本科生,组队登顶会
这篇ChordEdit的一作卢梁司(Liangsi Lu)和通讯作者Yang Shi,都是广东工业大学本科在读生。
卢梁司来自数学与统计学院,专业是信息与计算科学,研究方向是表示学习和视觉生成。
在他看来,视觉是人与世界交互的高带宽接口,视觉表示可以捕捉到文本无法描述的规律,帮助AI与人类共同发现物理法则、学习鲁棒的世界模型。
基于这个方向,他做了RLSTG(建模真实世界非欧几何的连续神经动力系统)和ChordEdit(高效稳定地增强生成模型抓取真实语义的编辑框架)。
Yang Shi来自计算机学院,预计2027年毕业,研究方向是计算机视觉和数据挖掘。
两个不同学院的本科生,组成了搭档。

然后他们半年内交出了这样一张成绩单。
Yang Shi的个人主页显示,截至目前他以一作或sole通讯作者身份,入选了5个顶会:
CVPR 2026(ChordEdit,sole通讯,最佳学生论文提名)
ICML 2026(sole通讯,图像编辑语义粒度导航)
KDD 2026(一作,图上的过度挤压问题)
ACL 2026(一作,多模态推理错误检测基准)
WWW 2026(sole通讯,黎曼液态时空图网络)
这些工作横跨图像编辑、图神经网络、多模态推理、数据挖掘四个完全不同的方向,从视觉生成到时空图建模,再一路到VLM评测。
问题有多棘手
回到CVPR 2026这篇论文。
如今,一步式文生图模型(SD-Turbo、SwiftBrush这类)已经把生成速度拉到了极限,但速度快的代价是,这类模型做图像编辑的时候几乎不能用。
现有的training-free编辑方法(FlowEdit、Direct Inversion这些),原理上都依赖多步推理来平均掉轨迹中的不稳定性。强行压到一步,画面崩掉。物体扭曲变形,背景乱飘,编辑区和非编辑区的一致性完全丧失。
总结来说就是,一步推理意味着你必须沿着一条极其粗糙的路径,一大步迈到目标位置。路径越粗糙,轨迹能量越高,结果越不可控。
这个问题不是调参能解决的,是数学层面的结构性缺陷。

解法从哪来
卢梁司的解法,来自一套跨越两个世纪的数学。
最优传输问题最早由法国数学家Monge在1781年提出,之后经历了Kantorovich在1940年代的线性规划松弛、Brenier在1991年的二次代价求解。
到2000年,Benamou和Brenier给出了动态最优传输的流体力学形式,也就是ChordEdit直接依赖的框架。
具体来说,ChordEdit把图像编辑重新定义为源分布(原图+原始prompt)和目标分布(原图+编辑后prompt)之间的传输问题。
朴素方法直接拿两个漂移场的差值做编辑,单步推理下噪声极大。ChordEdit则把这个差值场在两个相邻时间点的观测做加权平均,得到一个低能量的Chord Control Field。
这个操作相当于一个时间维度上的平滑算子。漂移场被平滑之后,方差被压下来,能量降下来,天然就适合用一步积分走完全程。

整个方法的核心,浓缩成一个等式(Eq. 4.5),一行加权平均。
Jensen不等式保证能量收缩,平滑后的编辑场方差更低,单步积分的离散化误差随之压缩。
不需要训练。不需要反演。不需要额外的掩码网络。不需要对模型做任何修改。

这篇论文总共33页,光附录就写了25页,全是数学证明。从能量为什么会收缩、误差界怎么推、到单步积分为什么能稳定收敛,一路证到底。
消融实验部分则直接可视化了两种编辑场的能量分布。
朴素方法的编辑场能量高且不均匀,对应的就是背景被摧毁、物体变形的区域。ChordEdit的编辑场能量低且平稳,非编辑区域几乎零扰动。

一块消费级显卡跑完
ChordEdit的全部实验,跑在一块2018年发布的NVIDIA Titan 24GB上。推理时显存占用仅7GB。
对比之下,同赛道的SwiftEdit需要15GB,而且还得额外训练一个反演网络。ChordEdit连训练都省了。
速度方面更夸张。比FlowEdit快19倍,比Direct Inversion快208倍。
用户研究中,42.5%的参与者在编辑语义准确性上选择ChordEdit,48.3%在背景保持上选择ChordEdit,均为压倒性优势。
而且这个方法是model-agnostic的,SD-Turbo能用,SwiftBrush-v2也能用,换模型不需要改代码、不需要重新训练、不需要调架构。真正的即插即用。

从演示效果看,ChordEdit可以一步完成horse→unicorn、fall→spring、ground→snow等语义编辑,编辑区域跟随prompt变化,非编辑区域保持不变。
这就是低能量传输场的效果,编辑路径足够平滑,非编辑区域几乎零扰动。

从16092篇投稿里,74篇进入最佳论文候选名单(Top 0.45%)。
最终ChordEdit拿到了最佳学生论文提名(Top 0.03%),同时也是Oral。

项目地址:https://chordedit.github.io
开源地址:https://github.com/ChordEdit/ChordEdit
论文地址:https://arxiv.org/pdf/2602.19083
来源:新智元,I-CFP学术会议网仅用于学术交流,若相关内容侵权,请联系删除。
上一篇
第十七届环境科学与发展国际学术会议暨泰山论坛(ICESD 2026)在青岛举行!