李佳

助理教授

聚焦于程序语言处理(Program Language Processing,PLP)

教育背景

2020年9月-2025年7月,于北京大学计算机学院获得博士学位(导师:金芝教授)

2025年8月起,就职于清华大学人工智能学院,担任助理教授

研究方向

李佳助理教授的研究聚焦于程序语言处理(Program Language Processing,PLP),致力于探索人工智能技术在程序自动理解与生成方面的前沿应用,旨在推动软件工程及其相关领域的智能化发展。

其具体研究兴趣包括:

1.程序语言处理的模型与算法研究

重点关注适用于程序源代码的深度学习模型设计、训练策略与推理机制,提升神经网络对程序源代码结构与语义的理解能力,强化代码生成的准确性、效率与安全性。

2.程序语言处理与多学科交叉融合

探索程序语言处理与其他学科的交叉赋能,例如,在软件工程中的应用,涵盖自动代码生成、测试用例生成、程序优化等方向,提升软件开发的智能化水平。同时关注其在具身智能、神经科学方面的交叉应用。

研究成果

➢ 有效推动了基于大模型的代码生成技术的发展。主导/参与训练多个面向代码的大语言模型,在代码生成等下游任务上取得国际领先结果,为研究社区提供坚实的基座模型。提出基于深度推理的代码生成技术,充分释放大模型的推理能力,提升模型解决复杂开发需求的能力。提出面向真实软件项目代码生成评估基准,促进大模型在真实软件开发中的应用。

➢ 近五年,在NeurIPS、ACL、ICSE、ASE、FSE等 CCF A 类顶会/顶刊发表论文二十余篇,包含多篇Oral文章。论文多次被麻省理工学院、斯坦福大学、南洋理工大学、香港中文大学等机构的研究者引用,累计达千余次。

➢ 曾担任国际顶级会议(如ASE)的程序委员会成员,多次受邀在国际会议上做口头汇报,科研成果被《中国科技网》、《中国日报》、《机器之心》等主流媒体报道。曾荣获北京市优秀毕业生、中国软件大会“优秀博士生”等荣誉称号。

代表性工作介绍

➢ 参与训练:面向代码的大语言模型 – aiXcoder-7B(70亿参数)、主导训练:二代模型 – aiXcoder-7B-v2。aiXcoder-7B首次在大语言模型的预训练中考虑代码的结构特性(如语法结构、依赖关系等),在预训练目标、数据采样和数据清洗方面包含多项技术创新。aiXcoder-7B展现出了强大的代码补全和代码生成能力,在八个主流评测集准上超越了国际上同等规模的模型(例如:Meta的Code Llama-7B、DeepSeek的DeepSeek-Coder-6.7B)。aiXcoder-7B已获2271个 GitHub Stars,跻身 2024 年 5 月份 HuggingFace 全球趋势榜 Top 30。aiXcoder-7B-v2在aiXcoder-7B的基础上利用强化学习进一步提升模型的长上下文能力,在仓库级代码补全任务上取得了进一步的提升。

➢ 提出:基于深度推理的代码生成技术,将人类程序员在真实世界软件开发中的推理过程融入到大模型的推理过程中,包括:需求理解、代码规划、代码实现和代码优化四个阶段。每个阶段的推理都是对上一阶段输出的细化和修正,以提升最终代码的质量。该技术有效提升了大模型在代码生成任务上的准确率,在Pass@1上取得了最高88.4%的相对提升。该技术引发研究社区讨论,引发了来自麻省理工学院、北京大学等机构研究者的后续工作。

➢ 提出并开源:与真实项目对齐的代码生成评估基准 – DevEval(静态版本)和EvoCodeBench(动态版本)。该评估基准从高质量开源项目中精心采集得到,其数据分布与真实软件项目保持一致。动态版本可自动更新,有效避免数据泄露。该评估基准有效揭示了现有技术难以解决真实项目上的复杂需求,促进大模型在真实软件开发中的评测与应用。该评估基准已被字节跳动、百度、南洋理工大学等机构的研究者使用。

课题组风格和人才培养理念

清华大学程序语言处理研究组(THU-PLP)秉持“顶天立地”的风格,“立地”是指深入研究领域内的基础问题,做出高水平的学术研究;“顶天”是指构建出有效的跨学科应用,解决真实世界中的痛点问题。

重视学生的个人兴趣,在贴合课题组主线方向的背景下,鼓励学生自由探索有价值的研究问题。积极引导学生与工业界进行深度交流,从实际应用中发掘有价值的研究问题,旨在将学生培养成能够独立思考和解决问题的科研工作者。

定期举行周会和一对一讨论,提供充足的计算资源和专业的科研指导。

课题组联系方式

课题组诚挚欢迎对程序语言处理、大模型、软件工程等领域感兴趣的学者、同学(包括科研实习生)交流或加入。希望你富有科研热情、自我驱动力和扎实的实践能力,共同探索有趣的科研问题!欢迎联系:jia_li@mail.tsinghua.edu.cn

Email

jia_li@mail.tsinghua.edu.cn

Office

中关村智造大街F座411

Homepage

https://lj2lijia.github.io/
TOP