基于随机梯度MCMC和施罗丁格桥的非凸贝叶斯学习

报告学者:邓伟

报告者单位:摩根斯坦利

报告时间:2024年11月1日(周五)上午10:00-12:00

报告地点:逸夫501

 

报告摘要:从模型生成样本依赖于蒙特卡罗方法;而从样本训练模型则需要扩散模型。前者保障了决策的安全性和可靠性,后者则为艺术创作和产品设计等应用提供了启发。尽管GPU计算已取得重大进展,但在多峰分布的模拟和生成方面仍然面临低效的问题。

朗之万蒙特卡罗(LMC)是一个标准的采样工具。为了加速多峰分布的采样,我们首先引入replica exchange LMC(也称为parallel tempering)来在exploration和exploitation之间取得平衡。我们展示了如何在大数据中实现无偏的互换方式,如何使用方差减少来加速收敛,以及如何使用非可逆性性质实现多链机制,如何在有限空间内采样加速收敛。

  生成扩散模型虽然在实验上取得了巨大成功,但由于传输效率低下而常常导致推理速度缓慢。薛定谔桥(SB)已成为优化扩散模型中传输计划的理论首选方法。然而,SB需要估计难以处理的前向评分函数,这不可避免地导致了需要模拟轨迹的昂贵训练方式。为了提高可扩展性同时保持高效的传输计划,我们利用变分推断来线性化SB的前向评分函数(变分评分)并提出变分薛定谔扩散模型(VSDM),其中前向过程是多变量线性扩散过程,变分评分为高效传输进行自适应优化。我们牺牲传输的全局最优来达到Simulation-free的计算优势。在实验方面,我们观察到VSDM在生成各向异性形状方面很有效,与经典的生成扩散模型相比有更有效的传输,算法也比SB更易于高维拓展。

 

报告学者简介邓伟现任职于纽约摩根士丹利,担任机器学习研究员。他于2021年在美国普渡大学数学系获得博士学位,2012年本科毕业于北京交通大学信息与计算科学专业。他的研究领域包括蒙特卡洛方法、扩散模型和状态空间模型。致力于构建可扩展的概率方法解决机器学习、生成模型和时间序列建模中的非线性、高维和稀疏性等问题。他在Statistics and Computing, Journal of Computational Physics, Journal of Computational and Graphical Statistics等计算类期刊和NeurIPS, ICML, ICLR等机器学习会议发表文章20余篇