职位描述:
1.针对大模型在推理、生成、指令遵循等方向的核心问题,能够提出创新性的想法并设计实验验证;探索提升模型能力的新方法与新范式;
2.与数据标注团队紧密协作,设计标注方案与质量标准;通过数据分析发现模型能力短板,针对性地构建训练数据,形成”数据-训练-评测”的能力提升闭环;
3.参与强化学习(RL)在大模型对齐与能力提升中的应用研究,探索 RLHF/RLAIF、过程奖励、偏好学习等方法的优化路径;
4.持续跟踪大模型领域的前沿进展,快速复现并评估业界最新方法,推动有价值的研究成果落地。
职位要求:
1.面对问题能够独立分析并提出自己的 idea,具备从 0 到 1 推动研究的能力;
2.能够快速将想法转化为可运行的原型,具备高效的实验迭代能力;
3.了解强化学习基本概念与常用算法(如 PPO、DPO、Actor-Critic 等),有相关实践经验者优先;
4.熟练掌握 Python、C/C++,熟悉 PyTorch 等深度学习框架;
5.善于跨团队沟通,能够与数据标注、工程团队高效配合。
加分项:
1.有大模型预训练、微调、对齐相关研究或项目经验;
2.在顶会(NeurIPS、ICML、ICLR、ACL 等)发表过论文;
3.有 Agent 系统、工具调用、代码生成相关研究或实践背景;
4.深度使用过 Claude Code、Cursor 等 AI 编程工具,对模型能力边界有实践认知;
5.参与过知名开源项目或有活跃的 GitHub 贡献。