岗位职责:
致力于通过技术手段,解决运维难题,包括运维自动化、业务部署、稳定性、可观测性和安全等工作。从公有云,到自建机房,再到万卡 GPU 集群,都有你发挥的空间。
1. 为面向亿级日活的 AI 基础设施的构建与维护,提供专业的稳定性和架构改善方案。
2. 负责持续优化系统稳定性、可观测性,深入参与业务和系统的监控与 Troubleshooting 工作。
3. 负责内部基建的开发与运维自动化,提高人效。
岗位要求:
1. 有扎实的编程功底,熟练脚本语言(Python,Bash 等),熟练掌握 SQL,有较强动手能力。
2. 熟悉 K8S 集群运维、多集群管理、集群容灾多活。
3. 熟悉 Linux,熟悉计算机网络、操作系统基础知识。
4. 熟悉开源 OpenTelemetry 可观测生态 log、metric、trace 最佳实践及相关工具。
5. 有责任感,能够及时处理线上故障告警,合作意识好。
6. 有线上系统的运维管理经验,熟悉各类监控、告警基础设施,能帮助完善各种监控、告警工具链。
7. 【加分项】了解LLM训练/推理流程,熟悉GPU/RDMA的问题诊断,提高集群稳定性