上传数据集
如果您需要将数据集上传到CSGHub平台,您需要先注册一个账户,登录后可创建数据集并上传数据文件。CSGHub平台上的数据集基于Git存储库,可为您提供版本控制、分支管理和发现共享功能。您可以向数据集中上传任何想要的数据文件。
当前,我们支持四种上传文件的方式:通过 Web 端、Git、命令行 (CLI) 和 SDK。
💡 应该选择哪种方式?
- Web 端上传:最简单快捷,适合上传少量的小文件(单文件限制 5MB 内)。
- Git 上传:适合需要归档版本控制、管理大量零碎代码及配置文件。
- 命令行 (CLI) / SDK 上传:适合上传大于 5GB 的超大数据集文件,支持更好的传输机制。
使用Git上传数据集
前置准备工 作
在开始之前,请确保您已经完成了以下准备工作:
- 安装 Git 和 Git LFS:请检查系统中是否已 安装 Git 和 Git LFS。对于大文件,安装后需在终端执行以下命令初始化 LFS:
git lfs install - 配置 Git 账户信息:
git config --global user.name "您的用户名"
git config --global user.email "您的邮箱" - 获取 Access Token(若使用 HTTPS 上传):请前往控制台的 个人设置 -> Access Token 页面生成并复制您的 Token,它将作为您的密码使用。
上 传步骤
-
首先通过
git clone将创建好的数据集仓库下载到本地:git clone https://hub.opencsg.com/<您的用户名>/<您的数据集名>.git -
假设您的数据集文件位于
/work/my_dataset_dir本地目录下,您可以通过执行以下命令将本地数据集文件拷贝到对应仓库中并上传:cd test_dataset
cp -rf /work/my_dataset_dir/* .
git add .
git commit -m "commit message"
git push