数据处理任务的创建与运行
本教程提前准备好了样例数据集文件data_sample.jsonl
,将使用该数据集来展示 DataFlow 的数据处理功能。
目前 DataFlow 支持的数据集格式有:jsonl
、json
、parquet
、csv
、txt
、tsv
、jsonl.zst
。
DataFlow 入口
DataFlow 在 CSGHub 平台上提供了两个入口,用户可以通过任一入口进入 DataFlow 进行数据管理和操作,实现高效的数据处理与管理任务。
- 入口 1:
进入之前创建好的
dataflow-dataset
数据集,点击数据处理
按钮进入 DataFlow 创建数据处理任务。注意:请确保是个人仓库下的数据集,否则没有“数据处理”按钮。
- 入口 2:
点击 CSGHub 页面右上角用户头像下的
数据工具
进入 DataFlow。
创建数据处理任务
新建数据处理任务时,若从入口 1 进入 DataFlow,数据来源
字段参数将会被自动带入,若从入口 2 进入,则需要手动选择数据来源
,然后填写任务名称
、数据来源分支
、处理字段
、任务模版
字段,并根据需要调整算子参数,最后点击页面右下角的创建完成
按钮完成数据处理任务的创建。
本教程中的字段将按下图进行设置:
查看数据处理任务详情
数据处理任务完成后,点击详情
可以查看作业运行的状态和结果。
- 在
处理详情
页可以查看每个算子的基本信息、运行状态,以及处理的数据量等详细内容,帮助了解各环节的执行情况和性能表现。
- 在
Session处理结果
页可以直观地查看每个 session 处理前后的内容对比,方便追踪和分析数据处理效果。
- 在
任务日志
页可以查看数据处理作业的完整日志记录,并清晰追踪每个步骤的执行情况。根据需要,日志还支持下载,方便后续分析和存档。