爬虫中级工程师

岗位职责

设计并实现大规模网页数据的抓取、清洗及结构化、存储流程，保障数据质量与时效性。
熟悉反爬机制及应对策略，开发高可用的数据采集与清洗方案。
构建基于分布式框架（如Scrapy-Redis、Celery）的爬虫系统，提升并发性能与容错能力。
融合大数据组件（如Spark/PySpark）优化数据处理效率，支持实时、批量清洗与转换任务。
协同数据团队完成数据交付，驱动下游分析与应用。

任职要求

必备能力

精通Python及Scrapy框架，深入理解HTTP协议与动态页面渲染机制
熟悉java 或 c++, 对计算机底层原理有较深入了解
掌握主流数据库（MySQL/MongoDB/Redis/HBase）和消息队列（Kafka/Pulsar）
具备分布式爬虫开发经验，熟悉任务调度与性能优化策略
熟悉Spark进行大规模数据清洗，了解Ray/Dask等分布式计算框架
项目经验

5年以上工作经验，2年以上爬虫开发经验，主导过至少1个中大型爬虫项目落地
有复杂反爬机制破解案例
有Spark/Ray等大数据组件在爬虫任务中的实际应用经验
加分项

掌握JS逆向分析及浏览器自动化工具（如Selenium/Puppeteer）
熟悉容器化部署（Docker/Kubernetes）
在专有领域有数据采集经验

联系我们

地点：北京

薪资：open

关键词：大规模网页数据抓取

Have a thing for this job? Go for it and apply today! You got this!