DataFlow 版本更新说明 v202410
算法模版
- 提供算法模版,预定义多种算法模版,包含数据处理、数据增强以及数据生成等。
- 支持用户自定义算法模版,支持算法模版的增删查改等操作。
- 支持基于算法模版的数据处理作业运行。
作业管理
- 作业运行情况监控和管理,包括删除等操作。
- 作业内每个算子数据处理结果查看,每个算子处理数据条数显示。
- 作业内每个算子处理数据样例查看,处理前后效果对比。
- 实时监控Pipeline运行状态,查看Logs等。
运行作业
- 提供一系列数据处理操作(比如去除无效数据、格式转换、数据筛选等)。
- 文本数据处理算子数量50+, 类型包含Mapper、Filter、Deduplicator等。
- 支持算子在UI上展示和示例,方便用户通过UI直接定义和运行数据工作流。
- 提供Pipeline engine支持多作业并行运行。
产品集成
- DataFlow与CSGHub集成,统一用户登陆界面,完整数据集管理和数据处理流程。
- 支持数据集版本管理,对指定版本中所有数据集进行集中式数据处理,生成新的版本可应用于大模型微调,预训练或者RAG。