岗位职责:
研究、开发和优化强化学习算法(如DQN、PPO、SAC、多智能体RL等),解决实际业务问题。
设计高效的仿真环境或与物理系统交互的RL训练框架。
实现大规模分布式RL训练系统,提升算法性能和收敛速度。
与跨职能团队(如产品、数据、工程)合作,将RL模型部署到生产环境。
跟踪学术界和工业界的最新RL进展,推动技术创新。
任职要求:
计算机科学、人工智能、数学、电子工程或相关领域的硕士/博士学历。
扎实的机器学习基础,熟悉深度学习(PyTorch/TensorFlow)。
熟练掌握强化学习经典算法(如MDP、Q-Learning、Policy Gradient等)。
较强的编程能力(Python为主,熟悉C++/Rust更优)。
有RL仿真环境开发经验(如OpenAI Gym、Unity ML-Agents、MuJoCo等)。
具备分布式训练(Ray/RLLib、Horovod)或模型部署经验(ONNX、TensorRT)者优先。