介绍
CSGHub新手指南旨在向用户提供全面的指导,快速学习如何使用CSGHub对大模型资产进行有效管理。
CSGHub与大模型
什么是CSGHub?
CSGHub是一个开源、可信的大模型资产管理平台,可帮助用户治理LLM和LLM应用生命周期中涉及到的资产(数据集、模型文件、代码等)。 CSGHub致力于提供一种专为大型模型原生设计,且能够私有化部署离线运行的资产管理解决方案。提供代码开源、可私有化部署的类Hugging Face平台功能,以类似GitLab管理源代码、OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及 Sonatype Nexus 管理制品的方式,实现对LLM资产的管理。
您可通过访问CSGHub开源项目页面 https://github.com/OpenCSGs/CSGHub 来获取开源项目代码,研发人员可访问 https://deepwiki.com/OpenCSGs/csghub 来快速了解CSGHub的架构设计。
我们欢迎并鼓励用户在使用CSGHub的过程中,通过GitHub发起Issue来进行问题讨论或对CSGHub开源项目进行代码贡献,共同促进平台的持续发展和改善。
什么是模型?
定义
在机器学习和自然语言处理领域,模型是一个经过训练的数学表示,用于执行某一特定任务,如文本生成、情感分析、机器翻译等。模型通过分析大量数据学习到输入与输出之间的关系。
CSGHub中的模型
CSGHub提供了一个丰富的模型库,包含预训练的模型,用户可以直接用来进行推理,或在此基础上进行微调。CSGHub模型完全兼容Hugging Face的工具体系,您可以使用Hugging Face的Transformers库支持多种架构,如GPT、BERT、T5等,适用于多种任务:
- 文本分类: 例如情感分析
- 命名实体识别: 识别文本中的特定实体
- 文本生成: 基于输入生成新的文本
- 翻译: 将一种语言翻译成另一种语言
如何使用模型?
用户可以通过简单的API接口加载预训练模型。例如,使用Python代码:
from transformers import pipeline
# 创建情感分析管道
classifier = pipeline('sentiment-analysis')
# 使用模型进行推理
result = classifier("我爱Huggingface!")
print(result)
什么是数据集?
定义
数据集是一组收集到的数据,用于训练和评估机器学习模型。在自然语言处理领域,数据集通常由文本、标签组成,如句子、文章、标注的情感等。
CSGHub中的数据集
CSGHub的数据集库提供了多种公开可用的数据集,涵盖广泛的主题和任务。用户可以下载、加载并在自己的模型训练中使用。这些数据集可能包括:
- 文本分类数据集: 用于训练情感分析模型
- 翻译对照数据集: 用于训练翻译模型
- 问答数据集: 供问答系统使用
- 对话系统数据集: 用于训练聊天机器人
如何使用数据集?
用户可以使用Hugging Face的datasets库轻松加载数据集。以下是加载并查看数据集的示例:
from datasets import load_dataset
# 加载情感分析数据集
dataset = load_dataset("imdb")
# 查看数据集的结构
print(dataset)
什么是Space应用?
定义
Space是CSGHub提供的一种快速构建和托管运行应用程序的服务,允许用户以互动方式展示其机器学习模型。用户可以创建Web应用程序来展示模型的能力,让其他人能够体验模型的实际效果。
CSGHub中的Space应用特性
- 互动性: 提供用户与模型交互的界面
- 简易部署: 用户只需上传代码和模型,CSGHub负责构建、部署和托管运行
- 私有化: 用户可以在企业或者个人环境内使用
如何创建Space应用?
用户可以创建自己的Space,只需以下简单步骤:
- 登录您的CSGhub平台账号
- 点击右上角个人头像的“新建应用空间”按钮
- 选择应用类型(如Gradio或Streamlit)
- 填写所需的代码和配置文件
- 发布和使用
示例代码(Gradio)
import gradio as gr
from transformers import pipeline
classifier = pipeline('sentiment-analysis')
def predict_sentiment(text):
return classifier(text)
iface = gr.Interface(fn=predict_sentiment, inputs="text", outputs="label")
iface.launch()
什么是代码仓库?
定义
代码仓库是一个代码存储和版本控制的地方,通常用于管理项目代码、文档和其他资源。在CSGHub平台,代码仓库便于用户存储、分享和协作开发机器学习项目。
CSGHub中的代码仓库功能
- 版本控制: 用户可以查看代码修改历史,回滚到先前版本
- 协作开发: 支持多人合作开发,提高项目管理效率
- 公开&私密: 用户可以选择将仓库设为公开或私密
如何使用代码仓库?
用户可以通过CSGHub的接口或者Web网页界面创建和管理代码仓库。操作步骤如下:
- 创建您的CSGhub平台账号
- 点击右上角个人头像的“新建代码仓库”按钮
- 填写仓库名称与描述
- 上传代码文件或文档
如果你有本地代码要上传,可以使用git命令:
git clone https://huggingface.co/username/repository_name
cd repository_name
# 添加你的代码文件
git add .
git commit -m "Initial commit"
git push
为什么要使用 CSGHub
在大模型技术高速发展、持续演进的时代,数据与模型已成为企业与个人最核心的数字资产。然而,工具链割裂、大文件传输低效、算力调度分散等问题,严重制约了 AI 创新的持续推进。CSGHub 已从“模型与数据托管仓库”升级为全链路、原生化的大模型资产与生命周期管理平台。
多维资产统一管理与可追溯
- 一站式管理模型文件、数据集、代码仓库与应用 Space
- 原生支持 Prompt 仓库和MCP(Model Context Protocol)仓库
- 提供可视化模型树与资产关联关系图,支持派生路径与依赖追溯
全链路 LLMOps
- 内置在线 Notebook,支持交互式开发
- 一键挂载数据集并发起模型微调
- 支持多框架模型评测(OpenCompass、EvalScope、lm-evaluation-harness)
- 微调模型可一键发布为公共 API 或专属推理服务
一体化数据处理工具链
- 支持从 MySQL、MongoDB 直接采集数据
- 支持 Word、Excel 等多格式文件解析与转换
- 提供可视化处理面板,内置清洗、去重与大模型辅助算子
- 深度集成 Label Studio,实现多模态数据标注
生态兼容与存储加速
- 兼容 Hugging Face SDK
- 支持 Git、Web、CLI、Python SDK 多种研发流程
- XNet 智能块加速引擎支持切块去重、秒级增量更新与并行下载
企业级安全与私有化部署
- 支持无公网依赖的一键私有化部署
- 支持对接企业 SSO 系统(如 Casdoor、Paraview)
- 提供组织级细粒度权限控制与资产可见性隔离
全局资源调度与多源同步
- 管理员控制台支持算力资源池监控与日志排查
- 支持远端模型与数据集断点续传、一键同步至私有环境
CSGHub技术特点
底层高性能存储架构
- 整合 Git Server、Git LFS 与对象存储 OSS,引入自研 XNet 存储后端。
- 通过加密哈希与智能切块技术,实现高去重率与大规模并行传输能力。
云原生架构与高可靠调度
- 支持 Docker Compose 与 Kubernetes Helm 标准化部署。
- 核心调度迁移至 Volcano,引擎提升推理与微调任务可靠性。
广泛 AI 框架集成
- 平台保持技术栈中立,通过插件化与容器化集成主流框架。
- 推理侧:vLLM、SGLang、TGI、llama.cpp、KTransformers、MindIE
- 微调与评测:主流开源工具链
现代化数据处理引擎
- 基于 Apache Arrow 与 DuckDB 实现大规模数据秒级预览与检索。
- DataFlow 结合 Celery 分布式任务队列,保障海量语料处理效率。
企业基础设施对接能力
- 抽象化 SSO 接口设计,支持企业身份系统快速接入。
- 支持私有云存储与算力资源池,实现混合云与私有化部署。
教程内容
本教程旨在从实操入门、快速部署、基础概念以及应用视角多维度全面地向您介绍CSGHub,以便您能够高效掌握利用CSGHub及大模型能力。即使您之前没有部署经验,本教程也帮助您快速上手。 针对更进阶的内容和高级功能,我们另外提供了面向高级用户和开发人员的文档,旨在提供详尽的说明和指导。
联系我们
使用过程中的任何问题, 您可以通过以下任何一种方式联系我们:
- 在Github发起Issue
- 扫描下方微信二维码,添加微信小助手回复“开源”或者“open source”入群,加入我们的微信讨论群
- 加入我们的Discord频道:OpenCSG Discord Channel
- 加入我们的Slack频道:OpenCSG Slack Channel
