职位描述:
1.参与收集、处理、清洗各种渠道的原始文本数据,包括但不限于网页数据、电子书数据等;
2.与大模型算法团队、数据采集团队、分布式训练工程团队密切合作,建立数据系统迭代流程;
3.建立针对大模型的数据质量评估方法,持续提高数据质量和多样性,安全性,有用性。
任职要求:
1.有搜索、推荐、广告等业务数据的处理经验;
2.有⼤规模中文网页数据收集和清洗经验者优先;
3.有文本数据集搭建和数据质量管理经验者优先。
职位描述:
1.参与收集、处理、清洗各种渠道的原始文本数据,包括但不限于网页数据、电子书数据等;
2.与大模型算法团队、数据采集团队、分布式训练工程团队密切合作,建立数据系统迭代流程;
3.建立针对大模型的数据质量评估方法,持续提高数据质量和多样性,安全性,有用性。
任职要求:
1.有搜索、推荐、广告等业务数据的处理经验;
2.有⼤规模中文网页数据收集和清洗经验者优先;
3.有文本数据集搭建和数据质量管理经验者优先。