跳到主要内容

创建个人数据集

在使用 DataFlow 处理数据前,需要在 CSGHub 上创建个人数据集。该数据集的创建需要通过 后台 API 完成,以确保数据资源的独立管理和后续操作的顺利进行。

注册与登录

访问 CSGHub,点击页面右上角的登录/注册按钮,注册/登录您的 CSGHub 账号。

获取用户 Access Token

点击个人头像会出现账号设置按钮,进入账号设置页面后,点击Access Token,复制 access token,保存待后面的步骤使用。

Access Token

使用 API 创建个人数据集

CSGHub 要求通过后台 API 创建个人数据集,可以使用 Postman 或者命令行来完成创建。 下面以curl命令为例,将命令中的 “Your-Access-Token”“Your Account Name” 更改为您的账号信息后,在 Terminal 中运行该命令:

curl --location 'https://hub.opencsg.com/api/v1/datasets' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <Your-Access-Token>' \
--data '{
"default_branch": "main",
"description": "dataset examples",
"labels": "a",
"license": "MIT",
"name": "dataflow-dataset",
"namespace": "<Your Account Name>",
"nickname": "dataflow-dataset",
"private": false,
"readme": "dataflow datasets need to be refined"
}'

上传数据集文件

完成创建后,点击个人信息,即可查看到该数据集。点击进入数据集详情页面。

Dataset Info

在详情页点击下载数据集按钮,通过 Git 方式下载数据集仓库,然后将需要上传的数据集文件拷贝到对应仓库中。 假设您的数据集文件位于/work/my_dataset_dir本地目录下,您可以通过执行以下命令将本地准备好的数据集文件上传到在 CSGHub 创建的数据集仓库中:

cd dataflow-dataset
cp -rf /work/my_dataset_dir/* .
git add .
git commit -m "commit message"
git push origin main

Download Dataset