运营运维工程师

岗位职责：
致力于通过技术手段，解决运维难题，包括运维自动化、业务部署、稳定性、可观测性和安全等工作。从公有云，到自建机房，再到万卡 GPU 集群，都有你发挥的空间。

1. 为面向亿级日活的 AI 基础设施的构建与维护，提供专业的稳定性和架构改善方案。

2. 负责持续优化系统稳定性、可观测性，深入参与业务和系统的监控与 Troubleshooting 工作。

3. 负责内部基建的开发与运维自动化，提高人效。

岗位要求：
1. 有扎实的编程功底，熟练脚本语言（Python，Bash 等），熟练掌握 SQL，有较强动手能力。

2. 熟悉 K8S 集群运维、多集群管理、集群容灾多活。

3. 熟悉 Linux，熟悉计算机网络、操作系统基础知识。

4. 熟悉开源 OpenTelemetry 可观测生态 log、metric、trace 最佳实践及相关工具。

5. 有责任感，能够及时处理线上故障告警，合作意识好。

6. 有线上系统的运维管理经验，熟悉各类监控、告警基础设施，能帮助完善各种监控、告警工具链。

7. 【加分项】了解LLM训练/推理流程，熟悉GPU/RDMA的问题诊断，提高集群稳定性

Contact Us

地点：杭州

薪资：40k-60k

推荐奖：6k-2w/人

关键词：运维运营

Have a thing for this job? Go for it and apply today! You got this!

运营运维工程师

地点：杭州

薪资：40k-60k

推荐奖：6k-2w/人

关键词：运维 运营

Have a thing for this job? Go for it and apply today! You got this!

关键词：运维运营