跳到主要内容

DataFlow 版本更新说明 v202410

算法模版

  • 提供算法模版,预定义多种算法模版,包含数据处理、数据增强以及数据生成等。
  • 支持用户自定义算法模版,支持算法模版的增删查改等操作。
  • 支持基于算法模版的数据处理作业运行。

作业管理

  • 作业运行情况监控和管理,包括删除等操作。
  • 作业内每个算子数据处理结果查看,每个算子处理数据条数显示。
  • 作业内每个算子处理数据样例查看,处理前后效果对比。
  • 实时监控Pipeline运行状态,查看Logs等。

运行作业

  • 提供一系列数据处理操作(比如去除无效数据、格式转换、数据筛选等)。
  • 文本数据处理算子数量50+, 类型包含Mapper、Filter、Deduplicator等。
  • 支持算子在UI上展示和示例,方便用户通过UI直接定义和运行数据工作流。
  • 提供Pipeline engine支持多作业并行运行。

产品集成

  • DataFlow与CSGHub集成,统一用户登陆界面,完整数据集管理和数据处理流程。
  • 支持数据集版本管理,对指定版本中所有数据集进行集中式数据处理,生成新的版本可应用于大模型微调,预训练或者RAG。