跳到主要内容

下载数据集

如果您想获取CSGHub平台上的数据集并下载至本地,当前我们支持通过Git、Web端下载、命令行下载以及SDK四种方式下载模型。

使用Git下载数据集

  • 您可以通过HTTP下载数据集:
git lfs install
git clone https://hub.opencsg.com/datasets/opencsg/test_dataset.git
  • 您也可以通过SSH下载数据集:
git lfs install
git clone ssh://git@localhost:2222/datasets/opencsg/test_dataset.git

注:需要将SSH公钥添加到您的用户设置才能推送更改或访问私有存储库。 点击右上角“账号设置”,进入“SSH Keys”添加公钥。 SSH Key

使用Web端下载数据

在文件列表页点击下载按钮可直接下载文件。 下载文件

使用命令行下载数据

使用命令行工具 csghub-cli 可以方便的下载数据,安装方法如下:

pip install csghub-sdk

使用方法如下:

export CSG_TOKEN=your_access_token

# donwload dataset
csghub-cli download demo/test_dataset -t dataset

使用SDK下载数据

CSGHub SDK 提供了一个 Python Libaray,可以在代码中通过SDK下载数据。

示例代码如下:

from pycsghub.snapshot_download import snapshot_download
token="xxxx"
endpoint = "https://hub.opencsg.com"
repo_id = 'AIWizards/tmmluplus'
repo_type="dataset"
cache_dir = '/Users/xiangzhen/Downloads/'
result = snapshot_download(repo_id, repo_type=repo_type, cache_dir=cache_dir, endpoint=endpoint, token=token)

数据集的多源同步

在CSGHub的开源版本中,可浏览远端传神社区的数据集,进入某个项目,点击同步按钮,可快速将数据集同步到本地服务器。 详情参见模型的多源同步部分。

整个多源同步的介绍可参考如下视频