助理教授
人工智能基础理论、机器学习、大模型安全与对齐、生成式AI等
2017年,于清华大学计算机科学与技术系获得学士学位
2022年,于清华大学计算机科学与技术系获得博士学位(导师为朱军教授)
2022.1-2025.2,就职于清华大学计算机科学与技术系,从事博士后工作
2025.2-至今,就职于清华大学人工智能学院,担任助理教授
1、提出了深度学习的高效对抗攻击方法,在模型信息未知的黑盒场景下大幅提升了攻击成功率,揭示了深度学习的脆弱性机理。代表性工作动量迭代法【CVPR’18 Spotlight】被引用超过3600次,被谷歌、OpenAI、IBM开发的对抗攻防平台列为基准算法;国际上首次攻破了商用多模态大模型(如GPT-4o、Gemini),被OpenAI应用于GPT-o1模型鲁棒性评估。
2、研究可泛化鲁棒防御和安全增强方法,提出鲁棒扩散分类器模型【ICML’24&NeurIPS’24】,将机器学习中判别式建模和生成式建模两类方法融合统一,首次验证生成式分类器能够取得最优的模型鲁棒性效果;提出基于推理增强的大模型安全对齐方法【ICML‘25 Oral】,取得了商用模型的安全性水平,并应用于DeepSeek-R1的安全对齐。
3、构建模型安全性评测基准与平台,包括:1)首个深度学习模型鲁棒性综合评测基准ARES【CVPR‘20 Oral】;2)首个多模态大模型可信评测基准MultiTrust【NeurIPS’24】;3)首个文生视频模型安全性评测基准T2VSafetyBench【NeurIPS’24】。基于算法平台组织“AI安全挑战者计划”竞赛,被人民日报等媒体报道。