数据处理任务
本教程提前准备好了样例数据集文件data_sample.jsonl,将使用该数据集来展示 DataFlow 的数据处理功能。
目前 DataFlow 支持的数据集格式有:jsonl、json、parquet、csv、txt、tsv、jsonl.zst。
DataFlow 入口
DataFlow 在 CSGHub 平台上提供了两个入口,用户可以通过任一入口进入 DataFlow 进行数据管理和操作,实现高效的数据处理与管理任务。
- 入口 1:
进入之前创建好的
dataflow-dataset数据集,点击数据处理按钮进入 DataFlow 创建数据处理任务。注意:请确保是个人仓库下的数据集,否则没有“数据处理”按钮。

- 入口 2:
点击 CSGHub 页面右上角用户头像下的
数据工具进入 DataFlow。
