介绍

CSGHub新手指南旨在向用户提供全面的指导，快速学习如何使用CSGHub对大模型资产进行有效管理。

CSGHub与大模型

什么是CSGHub？

CSGHub是一个开源、可信的大模型资产管理平台，可帮助用户治理LLM和LLM应用生命周期中涉及到的资产（数据集、模型文件、代码等）。 CSGHub致力于提供一种专为大型模型原生设计，且能够私有化部署离线运行的资产管理解决方案。提供代码开源、可私有化部署的类Hugging Face平台功能，以类似GitLab管理源代码、OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及 Sonatype Nexus 管理制品的方式，实现对LLM资产的管理。

您可通过访问CSGHub开源项目页面 https://github.com/OpenCSGs/CSGHub 来获取开源项目代码，研发人员可访问 https://deepwiki.com/OpenCSGs/csghub 来快速了解CSGHub的架构设计。

我们欢迎并鼓励用户在使用CSGHub的过程中，通过GitHub发起Issue来进行问题讨论或对CSGHub开源项目进行代码贡献，共同促进平台的持续发展和改善。

什么是模型？

定义

在机器学习和自然语言处理领域，模型是一个经过训练的数学表示，用于执行某一特定任务，如文本生成、情感分析、机器翻译等。模型通过分析大量数据学习到输入与输出之间的关系。

CSGHub中的模型

CSGHub提供了一个丰富的模型库，包含预训练的模型，用户可以直接用来进行推理，或在此基础上进行微调。CSGHub模型完全兼容Hugging Face的工具体系，您可以使用Hugging Face的Transformers库支持多种架构，如GPT、BERT、T5等，适用于多种任务：

文本分类： 例如情感分析
命名实体识别： 识别文本中的特定实体
文本生成： 基于输入生成新的文本
翻译： 将一种语言翻译成另一种语言

如何使用模型？

用户可以通过简单的API接口加载预训练模型。例如，使用Python代码：

from transformers import pipeline

# 创建情感分析管道
classifier = pipeline('sentiment-analysis')

# 使用模型进行推理
result = classifier("我爱CSGHub！")
print(result)

什么是数据集？

定义

数据集是一组收集到的数据，用于训练和评估机器学习模型。在自然语言处理领域，数据集通常由文本、标签组成，如句子、文章、标注的情感等。

CSGHub中的数据集

CSGHub的数据集库提供了多种公开可用的数据集，涵盖广泛的主题和任务。用户可以下载、加载并在自己的模型训练中使用。这些数据集可能包括：

文本分类数据集： 用于训练情感分析模型
翻译对照数据集： 用于训练翻译模型
问答数据集： 供问答系统使用
对话系统数据集： 用于训练聊天机器人

什么是Space应用？

定义

Space是CSGHub提供的一种快速构建和托管运行应用程序的服务，允许用户以互动方式展示其机器学习模型。用户可以创建Web应用程序来展示模型的能力，让其他人能够体验模型的实际效果。

CSGHub中的Space应用特性

互动性： 提供用户与模型交互的界面
简易部署： 用户只需上传代码和模型，CSGHub负责构建、部署和托管运行
私有化： 用户可以在企业或者个人环境内使用

什么是代码仓库？

定义

代码仓库是一个代码存储和版本控制的地方，通常用于管理项目代码、文档和其他资源。在CSGHub平台，代码仓库便于用户存储、分享和协作开发机器学习项目。

CSGHub中的代码仓库功能

版本控制： 用户可以查看代码修改历史，回滚到先前版本
协作开发： 支持多人合作开发，提高项目管理效率
公开&私密： 用户可以选择将仓库设为公开或私密

为什么要使用 CSGHub

在大模型技术高速发展、持续演进的时代，数据与模型已成为企业与个人最核心的数字资产。然而，工具链割裂、大文件传输低效、算力调度分散等问题，严重制约了 AI 创新的持续推进。CSGHub 已从“模型与数据托管仓库”升级为全链路、原生化的大模型资产与生命周期管理平台。

多维资产统一管理与可追溯

一站式管理模型文件、数据集、代码仓库与应用 Space
原生支持 Prompt 仓库和MCP（Model Context Protocol）仓库
提供可视化模型树与资产关联关系图，支持派生路径与依赖追溯

全链路 LLMOps

内置在线 Notebook，支持交互式开发
一键挂载数据集并发起模型微调
支持多框架模型评测（OpenCompass、EvalScope、lm-evaluation-harness）
微调模型可一键发布为公共 API 或专属推理服务

一体化数据处理工具链

支持从 MySQL、MongoDB 直接采集数据
支持 Word、Excel 等多格式文件解析与转换
提供可视化处理面板，内置清洗、去重与大模型辅助算子
深度集成 Label Studio，实现多模态数据标注

生态兼容与存储加速

兼容 Hugging Face SDK
支持 Git、Web、CLI、Python SDK 多种研发流程
XNet 智能块加速引擎支持切块去重、秒级增量更新与并行下载

企业级安全与私有化部署

支持无公网依赖的一键私有化部署
支持对接企业 SSO 系统（如 Casdoor、Paraview）
提供组织级细粒度权限控制与资产可见性隔离

全局资源调度与多源同步

管理员控制台支持算力资源池监控与日志排查
支持远端模型与数据集断点续传、一键同步至私有环境

CSGHub技术特点

底层高性能存储架构

整合 Git Server、Git LFS 与对象存储 OSS，引入自研 XNet 存储后端。
通过加密哈希与智能切块技术，实现高去重率与大规模并行传输能力。

云原生架构与高可靠调度

支持 Docker Compose 与 Kubernetes Helm 标准化部署。
核心调度迁移至 Volcano，引擎提升推理与微调任务可靠性。

广泛 AI 框架集成

平台保持技术栈中立，通过插件化与容器化集成主流框架。
推理侧：vLLM、SGLang、TGI、llama.cpp、KTransformers、MindIE
微调与评测：主流开源工具链

现代化数据处理引擎

基于 Apache Arrow 与 DuckDB 实现大规模数据秒级预览与检索。
DataFlow 结合 Celery 分布式任务队列，保障海量语料处理效率。

企业基础设施对接能力

抽象化 SSO 接口设计，支持企业身份系统快速接入。
支持私有云存储与算力资源池，实现混合云与私有化部署。

教程内容

本教程旨在从实操入门、快速部署、基础概念以及应用视角多维度全面地向您介绍CSGHub，以便您能够高效掌握利用CSGHub及大模型能力。即使您之前没有部署经验，本教程也帮助您快速上手。针对更进阶的内容和高级功能，我们另外提供了面向高级用户和开发人员的文档，旨在提供详尽的说明和指导。

联系我们

使用过程中的任何问题，您可以通过以下任何一种方式联系我们：

在Github发起Issue
扫描下方微信二维码，添加微信小助手回复“开源”或者“open source”入群，加入我们的微信讨论群
加入我们的Discord频道：OpenCSG Discord Channel
加入我们的Slack频道：OpenCSG Slack Channel

wechat discord slack

CSGHub与大模型​

什么是CSGHub？​

什么是模型？​

定义​

CSGHub中的模型​

如何使用模型？​

什么是数据集？​

定义​

CSGHub中的数据集​

什么是Space应用？​

定义​

CSGHub中的Space应用特性​

什么是代码仓库？​

定义​

CSGHub中的代码仓库功能​

为什么要使用 CSGHub​

CSGHub技术特点​

教程内容​

联系我们​