联系我们

运营运维工程师

地点:杭州

薪资:40k-60k

推荐奖:6k-2w/人

关键词:运维 运营

岗位职责:
致力于通过技术手段,解决运维难题,包括运维自动化、业务部署、稳定性、可观测性和安全等工作。从公有云,到自建机房,再到万卡 GPU 集群,都有你发挥的空间。

1. 为面向亿级日活的 AI 基础设施的构建与维护,提供专业的稳定性和架构改善方案。

2. 负责持续优化系统稳定性、可观测性,深入参与业务和系统的监控与 Troubleshooting 工作。

3. 负责内部基建的开发与运维自动化,提高人效。



岗位要求:
1. 有扎实的编程功底,熟练脚本语言(Python,Bash 等),熟练掌握 SQL,有较强动手能力。

2. 熟悉 K8S 集群运维、多集群管理、集群容灾多活。

3. 熟悉 Linux,熟悉计算机网络、操作系统基础知识。

4. 熟悉开源 OpenTelemetry 可观测生态 log、metric、trace 最佳实践及相关工具。

5. 有责任感,能够及时处理线上故障告警,合作意识好。

6. 有线上系统的运维管理经验,熟悉各类监控、告警基础设施,能帮助完善各种监控、告警工具链。

7. 【加分项】了解LLM训练/推理流程,熟悉GPU/RDMA的问题诊断,提高集群稳定性

Have a thing for this job? Go for it and apply today! You got this!