Contact Us

【重点】数据pipeline

地点:北京,杭州

薪资:40k-60k

推荐奖:6k-2w/人

关键词:数据开发

【岗位职责】(满足以下任一方向的经验或兴趣即可)
1. 【数据采集 pipeline 建设】
1. 广度数据采集系统的整体质量策略设计与优化,包括数据选取、质量评估、规模控制等。
2. 开发特定策略模块(如无效参数挖掘、站群挖掘等),提升系统数据有效性。
3. 开发并持续优化采集各组件性能,如下载、流式数据处理、并发控制模块等。
2. 【数据处理与算法支持】
1. 主导数据清洗、大规模网页库构建、索引库构建等流程;
2. 研发并落地数据质量算法(如分类算法、消重算法等),为搜索、多模态与大模型训练提供高质量数据支持。
3. 【数据基建】
1. 负责数据 Pipeline 与底层基建(如分布式 KV、存储、数据湖等)的对接、性能调优与模块封装。
2. 开发相应的监控与管理工具。


【岗位要求】
1. 具备全栈研发能力,能够从前端到后端独立完成模块开发。
2. 有一定的数学基础,能够理解和应用策略中的统计与逻辑模型。
有爬虫系统、数据策略或搜索等相关领域经验者优先;有基于 c++/rust 的大型系统研发经验优先。

Have a thing for this job? Go for it and apply today! You got this!