数据处理任务的创建与运行
本教程提前准备好了样例数据集文件data_sample.jsonl
,将使用该数据集来展示 DataFlow 的数据处理功能。
目前 DataFlow 支持的数据集格式有:jsonl
、json
、parquet
、csv
、txt
、tsv
、jsonl.zst
。
DataFlow 入口
DataFlow 在 CSGHub 平台上提供了两个入口,用户可以通过任一入口进入 DataFlow 进行数据管理和操作,实现高效的数据处理与管理任务。
- 入口 1:
进入之前创建好的
dataflow-dataset
数据集,点击数据处理
按钮进入 DataFlow 创建数据处理任务。注意:请确保是个人仓库下的数据集,否则没有“数据处理”按钮。
- 入口 2:
点击 CSGHub 页面右上角用户头像下的
数据工具
进入 DataFlow。
创建数据处理任务
在新建数据处理任务时,若用户从入口 1 进入 DataFlow,数据来源
字段将自动预填;若从入口 2 进入,则需手动选择数据来源
。
数据处理任务分为两类:算子类任务和工具类任务。
- 算子类任务
在新建任务时,用户需要填写任务名称、数据来源和分支,并选择相应的算法模板。此外,用户还可以根据需要调整算子的参数设置。
- 工具类任务
新建任务时,用户需填写任务名称、数据来源和分支,并选择所需的工具。不同工具所需要的参数配置各不相同,用户可以根据需要调整相应参数。
查看数据处理任务详情
数据处理任务完成后,点击详情
可以查看作业运行的状态和结果。
- 在
处理详情
页可以查看每个算子的基本信息、运行状态,以及处理的数据量等详细内容,帮助了解各环节的执行情况和性能表现。
- 在
Session处理结果
页可以直观地查看每个 session 处理前后的内容对比,方便追踪和分析数据处理效果。
- 在
任务日志
页可以查看数据处理作业的完整日志记录,并清晰追踪每个步骤的执行情况。根据需要,日志还支持下载,方便后续分析和存档。