联系我们

高性能网络研发工程师(端侧 RDMA 优化方向)

地点:上海,北京

薪资:40k-60k

推荐奖:6k-2w/人

关键词:网络研发

职位描述
1.通过上层通信库或应用指标(如 NCCL / MPI / DeepEP)发现端侧性能问题,并进行量化分析。
2.分析端侧 RDMA / RoCE / DCQCN / QP/WQE/CQ 状态,定位拥塞、重传、Credit 不足等瓶颈。
3.深入 Linux RDMA stack 与 NIC driver,分析 PCIe / DMA / NUMA / GPU memory 的端侧瓶颈。
4.调整驱动参数、缓冲区、QP 数量、流控策略,提出可落地优化方案,并验证效果。
5.开发或使用性能分析工具(perf、eBPF、ibv_perftest、nvidia-smi 等)辅助排障和端侧监控。
6.与硬件、内核人员协作,推动端侧 RDMA 优化落地,并形成问题分析与调优经验库。
7.复现大模型训练或压测场景下的慢流问题,定位慢节点和端侧瓶颈,并提供可执行调优方案。

职位要求
1.熟悉 Linux 内核与驱动开发,具备系统级调优能力。
2.熟悉 RDMA 协议栈(QP/WQE/CQ 状态机)及端侧传输机制,理解 RoCE / DCQCN 流控与重传逻辑。
3.熟悉 PCIe / DMA / NUMA / GPU memory,能够分析端侧性能瓶颈来源。
4.具备端侧性能分析和调优经验,熟练使用 ibv_perftest、perf、eBPF、nvidia-smi 等工具。
5.有 HPC 或 AI 集群端侧优化经验者优先。
6.逻辑清晰,善于问题分析和解决,能够输出可执行优化方案。


加分项
1.熟悉 NCCL / MPI 性能测试和调优。
2.有端侧微型调试工具或自动化脚本开发经验。
3.具备多租户 / 多平面 RDMA 架构优化经验。
4.具备端侧 RDMA/高性能网络调优的工程化落地经验。
5.熟悉 RDMA verbs 编程,可进行低层 QP/WQE 调试。

Have a thing for this job? Go for it and apply today! You got this!