【岗位描述】
您将加入AI Infra团队,深度参与并推动已承载海量生产任务的 Agent运行时与调度平台 向下一代演进。我们直面规模、性能、安全与异构环境带来的综合挑战:包括容器快速启停的生命周期瓶颈、镜像与数据分发的IO瓶颈、超售环境下资源的精细调度与隔离、以及对多平台多硬件的统一支撑等核心难题。
您需要与训练算法、框架团队紧密协作,将复杂的业务需求转化为稳定、优雅且高性能的基础架构特性,共同塑造下一代Agent基础设施的标准。
【岗位要求】
1. 计算机科学或相关专业本科以上学历,2年以上系统基础设施或云原生相关开发经验。
2. 扎实的工程能力:精通Rust/C++/TypeScript中至少一门编程语言,具备优秀的设计能力、代码品味与调试能力。
3. 深厚的系统功底和排查问题的能力:深刻理解计算机组成、操作系统、计算机网络,能通过profiling工具和观测指标分析定位系统瓶颈和疑难问题。
4. 自主驱动和团队合作:积极探索技术落地,能主动推动项目,并在跨团队协作中清晰沟通。
加分项(满足以下任一方向的经验或兴趣即可)
我们正在探索多个前沿方向,诚邀在任一领域有深度实践或浓厚兴趣的您加入:
· 运行时或虚拟化:在 容器(Docker)、Kubernetes、安全容器(Firecracker/Kata)、轻量级虚拟机(cloud-hypervisor) 、内核隔离机制(namespace, cgroups v2)等某个方面有开发或深度调优经验;或者熟悉 虚拟化技术栈(KVM/QEMU/virtio/SR-IOV)
· 性能优化与内核技术:有 Linux内核模块开发、参数调优或eBPF技术 的实践经验;熟悉 内存管理(COW, mmap, swap)、快照(CRIU)、文件系统(FUSE, erofs, OverlayFS) 或 存储加速(ublk) 等底层机制。
· 高性能存储与网络:有 分布式存储(3FS)/对象存储 性能优化经验;或有 RDMA/ROCE 高性能网络开发调试经验,或有大规模集群 网络拥塞控制 调优的经验。
· 异构计算与资源调度:熟悉 GPU虚拟化(MIG)或直通(SR-IOV),或有为 安卓模拟、macOS 等异构环境提供底层支持的经验;对基于指标分析的 动态调度策略 设计有实践或见解。
· AI Infra 融合经验:了解 LLM 推理/训练 的基础流程、Agent 运行时环境 的特点,或对 强化学习 等算法在系统中的需求有认知。