T-STAR Lab-清华大学人工智能学院

科学研究

T-STAR Lab

PI：Yinpeng DONG

研究方向：人工智能基础理论、机器学习、大模型安全与对齐、生成式AI等

课题组简介

清华大学安全与可信人工智能实验室（Tsinghua Safe and Trustworthy AI Research Lab，T-STAR实验室）致力于推动对当前人工智能模型的‌深入、科学性认知，研发新理论与新方法，系统性提升机器学习（尤其是生成式AI）的泛化能力、安全性、可靠性、高效性以及可信度。

代表性论文

▪ STAIR: Improving Safety Alignment with Introspective Reasoning (Oral, Accept rate ~1%)

Yichi Zhang, Siyuan Zhang, Yao Huang, Zeyu Xia, Zhengwei Fang, Xiao Yang, Ranjie Duan, Dong Yan, Yinpeng Dong#, Jun Zhu

International Conference on Machine Learning (ICML), 2025

▪ MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models

Yichi Zhang, Yao Huang, Yitong Sun, Chang Liu, Zhe Zhao, Zhengwei Fang, Yifan Wang, Huanran Chen, Xiao Yang, Xingxing Wei, Hang Su, Yinpeng Dong#, and Jun Zhu

Advances in Neural Information Processing Systems (NeurIPS) Datasets and Benchmarks Track, 2024

▪ A Comprehensive Study on Robustness of Image Classification Models: Benchmarking and Rethinking

Chang Liu*, Yinpeng Dong*, Wenzhao Xiang, Xiao Yang, Hang Su, Jun Zhu, Yuefeng Chen, Yuan He, Hui Xue, and Shibao Zheng

International Journal of Computer Vision (IJCV), 2024

▪ Exploring the Transferability of Visual Prompting for Multimodal Large Language Models (Highlight, Accept rate ~2.8%)

Yichi Zhang, Yinpeng Dong#, Siyuan Zhang, Tianzan Min, Hang Su, and Jun Zhu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2024

▪ Query-Efficient Black-box Adversarial Attacks Guided by a Transfer-based Prior

Yinpeng Dong, Shuyu Cheng, Tianyu Pang, Hang Su, and Jun Zhu

IEEE Transaction on Pattern Analysis and Machine Intelligence (TPAMI), 2021

▪ Benchmarking Adversarial Robustness on Image Classification (Oral)

Yinpeng Dong, Qi-An Fu, Xiao Yang, Tianyu Pang, Hang Su, Zihao Xiao, and Jun Zhu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020

▪ Evading Defenses to Transferable Adversarial Examples by Translation-Invariant Attacks (Oral)

Yinpeng Dong, Tianyu Pang, Hang Su, and Jun Zhu

IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019

▪ Boosting Adversarial Attacks with Momentum (Spotlight)

Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Jun Zhu, Xiaolin Hu, and Jianguo Li

IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018

课题组成员

新闻动态

07-10

2025

ICML 2025 Oral | 从「浅对齐」到「深思熟虑」，迈上大模型安全的下一级阶梯

科学研究

T-STAR Lab

课题组简介

代表性论文

课题组成员

新闻动态

07-10

2025

ICML 2025 Oral | 从「浅对齐」到「深思熟虑」，迈上大模型安全的下一级阶梯

contacts

Office

Postal Code

Email