跳到主要内容

数据处理任务的创建与运行

本教程提前准备好了样例数据集文件data_sample.jsonl,将使用该数据集来展示 DataFlow 的数据处理功能。 目前 DataFlow 支持的数据集格式有:jsonljsonparquetcsvtxttsvjsonl.zst

DataFlow 入口

DataFlow 在 CSGHub 平台上提供了两个入口,用户可以通过任一入口进入 DataFlow 进行数据管理和操作,实现高效的数据处理与管理任务。

  • 入口 1: 进入之前创建好的dataflow-dataset数据集,点击数据处理按钮进入 DataFlow 创建数据处理任务。

    注意:请确保是个人仓库下的数据集,否则没有“数据处理”按钮。

Dataflow Entry 1

  • 入口 2: 点击 CSGHub 页面右上角用户头像下的数据工具进入 DataFlow。

Dataflow Entry 2

创建数据处理任务

新建数据处理任务时,若从入口 1 进入 DataFlow,数据来源字段参数将会被自动带入,若从入口 2 进入,则需要手动选择数据来源,然后填写任务名称数据来源分支处理字段任务模版字段,并根据需要调整算子参数,最后点击页面右下角的创建完成按钮完成数据处理任务的创建。

本教程中的字段将按下图进行设置:

Create Task Ops Setting

查看数据处理任务详情

数据处理任务完成后,点击详情可以查看作业运行的状态和结果。

Task List

  • 处理详情页可以查看每个算子的基本信息、运行状态,以及处理的数据量等详细内容,帮助了解各环节的执行情况和性能表现。

Task Details

  • Session处理结果页可以直观地查看每个 session 处理前后的内容对比,方便追踪和分析数据处理效果。

Session Result

  • 任务日志页可以查看数据处理作业的完整日志记录,并清晰追踪每个步骤的执行情况。根据需要,日志还支持下载,方便后续分析和存档。

Task Log