创建个人数据集
在使用 DataFlow 处理数据前,需要在 CSGHub 上创建个人数据集。该数据集的创建需要通过 后台 API 完成,以确保数据资源的独立管理和后续操作的顺利进行。
注册与登录
访问 CSGHub,点击页面右上角的登录/注册
按钮,注册/登录您的 CSGHub 账号。
获取用户 Access Token
点击个人头像会出现账号设置
按钮,进入账号设置页面后,点击Access Token
,复制 access token,保存待后面的步骤使用。
使用 API 创建个人数据集
CSGHub 要求通过后台 API 创建个人数据集,可以使用 Postman 或者命令行来完成创建。
下面以curl
命令为例,将命令中的 “Your-Access-Token” 和 “Your Account Name” 更改为您的账号信息后,在 Terminal 中运行该命令:
curl --location 'https://hub.opencsg.com/api/v1/datasets' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer <Your-Access-Token>' \
--data '{
"default_branch": "main",
"description": "dataset examples",
"labels": "a",
"license": "MIT",
"name": "dataflow-dataset",
"namespace": "<Your Account Name>",
"nickname": "dataflow-dataset",
"private": false,
"readme": "dataflow datasets need to be refined"
}'
上传数据集文件
完成创建后,点击个人信息
,即可查看到该数据集。点击进入数据集详情页面。
在详情页点击下载数据集
按钮,通过 Git 方式下载数据集仓库,然后将需要上传的数据集文件拷贝到对应仓库中。
假设您的数据集文件位于/work/my_dataset_dir
本地目录下,您可以通过执行以下命令将本地准备好的数据集文件上传到在 CSGHub 创建的数据集仓库中:
cd dataflow-dataset
cp -rf /work/my_dataset_dir/* .
git add .
git commit -m "commit message"
git push origin main