职位编号:011322
岗位职责:
● 评估主流推理框架(如 TensorRT、ONNX Runtime、TVM、MLC等),分析其适⽤场景及性能
优劣。
● 根据业务需求选择最优框架并进⾏深度优化,确保性能与资源消耗的最佳平衡。
● 在端侧(如嵌⼊式设备或移动设备)或云端实现⾼效的模型推理部署。
● 应⽤先进的推理加速技术(如算⼦优化、内存管理优化),提升推理速度并降低资源消耗。
● 掌握量化技术(如 INT8、FP16)以及蒸馏⽅法,减少模型体积并提升推理效率。
● 通过优化和压缩⼿段,让模型适配算⼒受限的环境。
● 设计并实施性能监控⼯具,实时分析模型在⽣产环境中的运⾏表现。
● 持续优化系统性能,及时解决瓶颈问题。
● 与团队成员及其他部⻔协作,提供技术指导,推动 AI 技术的⼴泛应⽤。
职位要求:
● 熟练掌握主流推理框架(TensorRT、ONNX Runtime、TVM 等),并具备框架深度优化的经
验。
● 对模型量化(如 INT8、FP16)和蒸馏技术有实际项⽬经验,能够优化模型性能和资源利⽤率。
● 熟悉算⼦优化、内存分配等底层技术细节,有能⼒优化推理速度。
● 具备在端侧设备(如移动端或嵌⼊式)或云端部署 AI 模型的经验。
● 有完整的项⽬经历,从模型优化到⽣产部署,并能快速响应和解决实际问题。
● 精通 Python 和 C++,能够编写⾼效的推理代码并解决复杂技术问题。
● 对 GPU、TPU 或其他硬件加速平台有实际操作经验。
● 逻辑思维清晰,能快速分析问题并提出⾼效解决⽅案。
● 具备优秀的团队合作和沟通能⼒,能与不同部⻔⽆缝对接。