下载数据集
如果您想获取CSGHub平台上的数据集并下载至本地,当前我们支持通过Git、Web端下载、命令行下载以及SDK四种方式下载模型。
使用Git下载数据集
- 您可以通过HTTP下载数据集:
git lfs install
git clone https://hub.opencsg.com/datasets/opencsg/test_dataset.git
- 您也可以通过SSH下载数据集:
git lfs install
git clone ssh://git@localhost:2222/datasets/opencsg/test_dataset.git
注:需要将SSH公钥添加到您的用户设置才能推送更改或访问私有存储库。 点击右上角“账号设置”,进入“SSH Keys”添加公钥。
使用Web端下载数据
在文件列表页点击下载按钮可直接下载文件。
使用命令行下载数据
使用命令行工具 csghub-cli
可以方便的下载数据,安装方法如下:
pip install csghub-sdk
使用方法如下:
export CSG_TOKEN=your_access_token
# donwload dataset
csghub-cli download demo/test_dataset -t dataset
使用SDK下载数据
CSGHub SDK 提供了一个 Python Libaray,可以在代码中通过SDK下载数据。
示例代码如下:
from pycsghub.snapshot_download import snapshot_download
token="xxxx"
endpoint = "https://hub.opencsg.com"
repo_id = 'AIWizards/tmmluplus'
repo_type="dataset"
cache_dir = '/Users/xiangzhen/Downloads/'
result = snapshot_download(repo_id, repo_type=repo_type, cache_dir=cache_dir, endpoint=endpoint, token=token)
数据集的多源同步
在CSGHub的开源版本中,可浏览远端传神社区的数据集,进入某个项目,点击同步按钮,可快速将数据集同步到本地服务器。 详情参见模型的多源同步部分。
整个多源同步的介绍可参考如下视频