上传数据集
如果您需要将数据集上传到CSGHub平台,您需要先注册一个账户,登录后可创建数据集并上传数据文件。CSGHub平台上的数据集基于Git存储库,可为您提供版本控制、分支管理和发现共享功能。您可以向数据集中上传任何想要的数据文件。
当前,我们支持四种上传文件的方式:通过Git,Web端, 命令行和SDK。下面将详细介绍这四种方式的使用方法。
使用Git上传数据集
请先通过Git方式下载数据集仓库,然后将需要上传的数据集文件拷贝到对应仓库中。
假设您的数据集文件位于/work/my_model_dir本地目录下,您可以通过执行以下命令将本地数据集文件上传到在平台创建的数据集仓库中:
cd test_dataset
cp -rf /work/my_dataset_dir/* .
git add .
git commit -m "commit message"
git push
【特别说明】
目前平台对于包含以下后缀的文件会自动按照git-lfs的方式进行上传:
.7z、.arrow、.bin、.bz2、.ckpt、.ftz、.gz、.h5、.joblib、.lz4、.mlmodel、.model、.msgpack、.npy、.npz、.onnx、.ot、.parquet、.pb、.pickle、.pkl、.pt、.pth、.rar、.safetensors、.tar、.tflite、.tgz、.wasm、.xz、.zip、.zst、.tfevents、.pcm、.sam、.raw、.aac、.flac、.mp3、.ogg、.wav、.bmp、.gif、.png、.tiff、.jpg、.jpeg、.webp
如果在数据文件中有其他类型的大文件,请在git add之前执行以下命令使其按照lfs的方式进行上传:
git lfs track <your_file_name>
使用Web端上传文件
在网页端点击“添加文件”,可以选择“创建新文件”或者“上传文件”两种方式。
创建新文件
点击“创建新文件”,在弹出的页面中填写文件内容,点击“创建文件”,可将当前填写的内容创建并提交。
上传文件
点击“上传文件”,在弹出的页面中可以选择本地文件上传。
使用命令行上传数据
使用命令行工具 csghub-cli
可以方便的上传数据,安装方法如下:
pip install csghub-sdk
使用方法如下:
export CSG_TOKEN=your_access_token
# upload local folder '/Users/hhwang/temp/jsonl' to root path of repo 'wanghh2000/m01' with default branch
csghub-cli upload wanghh2000/m01 /Users/hhwang/temp/jsonl
使用SDK上传数据
CSGHub SDK 提供了一个 Python Libaray,可以在代码中通过SDK上传数据。
上传一个仓库的示例代码如下:
from pycsghub.repository import Repository
token = "your access token"
r = Repository(
repo_id="wanghh2003/ds15",
upload_path="/Users/hhwang/temp/bbb/jsonl",
user_name="wanghh2003",
token=token,
repo_type="dataset",
)
r.upload()
同时SDK也支持上传单个或多个文件,详细示例请参考SDK文档。
查看数据集仓库的历史记录
每次进行add-commit-push循环时,数据集仓库都会跟踪您对文件所做的每项更改。您可以浏览数据集文件和提交,并查看每次提交引入的差异(也称为diff)。要查看历史记录,您可以点击“提交历史”。
也可以单击单个提交来查看该提交引入了哪些更改: