DeepSeek AI · 深度学习研究员
|
北京大学 · 人工智能博士
我目前是 DeepSeek AI 的深度学习研究员,主要从事大语言模型的后训练以增强其智能体能力,重点方向是代码智能体。 我关心的问题是:如何通过可扩展的训练,让语言模型成长为一个在解决真实软件工程任务时能够稳定地规划、执行并自我纠错的智能体。
我同样对多模态智能体抱有浓厚的兴趣,例如 GUI 智能体,以及 3D 游戏世界中的智能体。 这份兴趣源自我在北京大学的博士研究:我围绕开放世界环境中的多任务智能体展开工作,作为第一作者主导了 GROOT 与 ROCKET 系列,让 AI 智能体能够遵循人类指令、在 Minecraft 中完成复杂任务,持续推动 3D 游戏环境中智能体能力的前沿。 其中一个核心主题是寻找兼具高表达力、低歧义、且可扩展用于高效训练的任务表征。

蔡少斐, 王子豪, 连可为, 牟湛存, 马晓健, 刘安吉, 梁一韬
IEEE/CVF Computer Vision and Pattern Recognition (CVPR'25) 2025
我们提出视觉—时序上下文提示,这是一种 VLM 与策略模型之间的全新通信协议。该协议利用过去观测中的目标分割来引导策略与环境的交互。基于此,我们训练了 ROCKET-1——一个低层策略,它根据拼接的视觉观测与分割掩码预测动作,并由 SAM-2 提供的实时目标跟踪支持。
蔡少斐, 王子豪, 连可为, 牟湛存, 马晓健, 刘安吉, 梁一韬
IEEE/CVF Computer Vision and Pattern Recognition (CVPR'25) 2025
我们提出视觉—时序上下文提示,这是一种 VLM 与策略模型之间的全新通信协议。该协议利用过去观测中的目标分割来引导策略与环境的交互。基于此,我们训练了 ROCKET-1——一个低层策略,它根据拼接的视觉观测与分割掩码预测动作,并由 SAM-2 提供的实时目标跟踪支持。

International Conference on Learning Representations (ICLR'24) 2024 Spotlight Top 6.2%
本文研究在开放世界环境中构建能够遵循开放式指令的控制器这一问题。我们提出以参考视频作为指令,它既能提供富有表达力的目标设定,又免去了昂贵的文本—游戏过程标注。我们推导出一个全新的学习框架,使其能够从游戏视频中学习这类指令跟随控制器,同时产生一个诱导出结构化目标空间的视频指令编码器。
International Conference on Learning Representations (ICLR'24) 2024 Spotlight Top 6.2%
本文研究在开放世界环境中构建能够遵循开放式指令的控制器这一问题。我们提出以参考视频作为指令,它既能提供富有表达力的目标设定,又免去了昂贵的文本—游戏过程标注。我们推导出一个全新的学习框架,使其能够从游戏视频中学习这类指令跟随控制器,同时产生一个诱导出结构化目标空间的视频指令编码器。

IEEE/CVF Computer Vision and Pattern Recognition (CVPR'22) 2022 Oral Top 4.2%
本文提出自动关系感知图网络增殖(ARGNP),以关系引导的消息传递机制高效搜索图神经网络。具体而言,我们首先设计了一个包含节点与关系学习操作的全新双重关系感知图搜索空间,这些操作能提取层次化的节点/关系信息,并为图上的消息传递提供各向异性的引导。其次,类比细胞增殖,我们设计了一种网络增殖搜索范式,通过迭代执行网络分裂与分化,逐步确定 GNN 架构。
IEEE/CVF Computer Vision and Pattern Recognition (CVPR'22) 2022 Oral Top 4.2%
本文提出自动关系感知图网络增殖(ARGNP),以关系引导的消息传递机制高效搜索图神经网络。具体而言,我们首先设计了一个包含节点与关系学习操作的全新双重关系感知图搜索空间,这些操作能提取层次化的节点/关系信息,并为图上的消息传递提供各向异性的引导。其次,类比细胞增殖,我们设计了一种网络增殖搜索范式,通过迭代执行网络分裂与分化,逐步确定 GNN 架构。