跳到主要内容

介绍

CSGHub新手指南旨在向用户提供全面的指导,快速学习如何使用CSGHub对大模型资产进行有效管理。

CSGHub与大模型

什么是CSGHub?

CSGHub是一个开源、可信的大模型资产管理平台,可帮助用户治理LLM和LLM应用生命周期中涉及到的资产(数据集、模型文件、代码等)。 CSGHub致力于提供一种专为大型模型原生设计,且能够私有化部署离线运行的资产管理解决方案。提供代码开源、可私有化部署的类Hugging Face平台功能,以类似GitLab管理源代码、OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及 Sonatype Nexus 管理制品的方式,实现对LLM资产的管理。

您可通过访问CSGHub开源项目页面 https://github.com/OpenCSGs/CSGHub 来获取开源项目代码,研发人员可访问 https://deepwiki.com/OpenCSGs/csghub 来快速了解CSGHub的架构设计。

我们欢迎并鼓励用户在使用CSGHub的过程中,通过GitHub发起Issue来进行问题讨论或对CSGHub开源项目进行代码贡献,共同促进平台的持续发展和改善。

什么是模型?

定义

在机器学习和自然语言处理领域,模型是一个经过训练的数学表示,用于执行某一特定任务,如文本生成、情感分析、机器翻译等。模型通过分析大量数据学习到输入与输出之间的关系。

CSGHub中的模型

CSGHub提供了一个丰富的模型库,包含预训练的模型,用户可以直接用来进行推理,或在此基础上进行微调。CSGHub模型完全兼容Hugging Face的工具体系,您可以使用Hugging Face的Transformers库支持多种架构,如GPT、BERT、T5等,适用于多种任务:

  • 文本分类: 例如情感分析
  • 命名实体识别: 识别文本中的特定实体
  • 文本生成: 基于输入生成新的文本
  • 翻译: 将一种语言翻译成另一种语言

如何使用模型?

用户可以通过简单的API接口加载预训练模型。例如,使用Python代码:

from transformers import pipeline

# 创建情感分析管道
classifier = pipeline('sentiment-analysis')

# 使用模型进行推理
result = classifier("我爱Huggingface!")
print(result)

什么是数据集?

定义

数据集是一组收集到的数据,用于训练和评估机器学习模型。在自然语言处理领域,数据集通常由文本、标签组成,如句子、文章、标注的情感等。

CSGHub中的数据集

CSGHub的数据集库提供了多种公开可用的数据集,涵盖广泛的主题和任务。用户可以下载、加载并在自己的模型训练中使用。这些数据集可能包括:

  • 文本分类数据集: 用于训练情感分析模型
  • 翻译对照数据集: 用于训练翻译模型
  • 问答数据集: 供问答系统使用
  • 对话系统数据集: 用于训练聊天机器人

如何使用数据集?

用户可以使用Hugging Face的datasets库轻松加载数据集。以下是加载并查看数据集的示例:

from datasets import load_dataset

# 加载情感分析数据集
dataset = load_dataset("imdb")

# 查看数据集的结构
print(dataset)

什么是Space应用?

定义

Space是CSGHub提供的一种快速构建和托管运行应用程序的服务,允许用户以互动方式展示其机器学习模型。用户可以创建Web应用程序来展示模型的能力,让其他人能够体验模型的实际效果。

CSGHub中的Space应用特性

  • 互动性: 提供用户与模型交互的界面
  • 简易部署: 用户只需上传代码和模型,CSGHub负责构建、部署和托管运行
  • 私有化: 用户可以在企业或者个人环境内使用

如何创建Space应用?

用户可以创建自己的Space,只需以下简单步骤:

  1. 登录您的CSGhub平台账号
  2. 点击右上角个人头像的“新建应用空间”按钮
  3. 选择应用类型(如Gradio或Streamlit)
  4. 填写所需的代码和配置文件
  5. 发布和使用

示例代码(Gradio)

import gradio as gr
from transformers import pipeline

classifier = pipeline('sentiment-analysis')

def predict_sentiment(text):
return classifier(text)

iface = gr.Interface(fn=predict_sentiment, inputs="text", outputs="label")
iface.launch()

什么是代码仓库?

定义

代码仓库是一个代码存储和版本控制的地方,通常用于管理项目代码、文档和其他资源。在CSGHub平台,代码仓库便于用户存储、分享和协作开发机器学习项目。

CSGHub中的代码仓库功能

  • 版本控制: 用户可以查看代码修改历史,回滚到先前版本
  • 协作开发: 支持多人合作开发,提高项目管理效率
  • 公开&私密: 用户可以选择将仓库设为公开或私密

如何使用代码仓库?

用户可以通过CSGHub的接口或者Web网页界面创建和管理代码仓库。操作步骤如下:

  1. 创建您的CSGhub平台账号
  2. 点击右上角个人头像的“新建代码仓库”按钮
  3. 填写仓库名称与描述
  4. 上传代码文件或文档

如果你有本地代码要上传,可以使用git命令:

git clone https://huggingface.co/username/repository_name
cd repository_name
# 添加你的代码文件
git add .
git commit -m "Initial commit"
git push

为什么要使用 CSGHub

在大模型技术高速发展、持续演进的时代,数据与模型已成为企业与个人最核心的数字资产。然而,工具链割裂、大文件传输低效、算力调度分散等问题,严重制约了 AI 创新的持续推进。CSGHub 已从“模型与数据托管仓库”升级为全链路、原生化的大模型资产与生命周期管理平台。

多维资产统一管理与可追溯

  • 一站式管理模型文件、数据集、代码仓库与应用 Space
  • 原生支持 Prompt 仓库和MCP(Model Context Protocol)仓库
  • 提供可视化模型树与资产关联关系图,支持派生路径与依赖追溯

全链路 LLMOps

  • 内置在线 Notebook,支持交互式开发
  • 一键挂载数据集并发起模型微调
  • 支持多框架模型评测(OpenCompass、EvalScope、lm-evaluation-harness)
  • 微调模型可一键发布为公共 API 或专属推理服务

一体化数据处理工具链

  • 支持从 MySQL、MongoDB 直接采集数据
  • 支持 Word、Excel 等多格式文件解析与转换
  • 提供可视化处理面板,内置清洗、去重与大模型辅助算子
  • 深度集成 Label Studio,实现多模态数据标注

生态兼容与存储加速

  • 兼容 Hugging Face SDK
  • 支持 Git、Web、CLI、Python SDK 多种研发流程
  • XNet 智能块加速引擎支持切块去重、秒级增量更新与并行下载

企业级安全与私有化部署

  • 支持无公网依赖的一键私有化部署
  • 支持对接企业 SSO 系统(如 Casdoor、Paraview)
  • 提供组织级细粒度权限控制与资产可见性隔离

全局资源调度与多源同步

  • 管理员控制台支持算力资源池监控与日志排查
  • 支持远端模型与数据集断点续传、一键同步至私有环境

CSGHub技术特点

底层高性能存储架构

  • 整合 Git Server、Git LFS 与对象存储 OSS,引入自研 XNet 存储后端。
  • 通过加密哈希与智能切块技术,实现高去重率与大规模并行传输能力。

云原生架构与高可靠调度

  • 支持 Docker Compose 与 Kubernetes Helm 标准化部署。
  • 核心调度迁移至 Volcano,引擎提升推理与微调任务可靠性。

广泛 AI 框架集成

  • 平台保持技术栈中立,通过插件化与容器化集成主流框架。
  • 推理侧:vLLM、SGLang、TGI、llama.cpp、KTransformers、MindIE
  • 微调与评测:主流开源工具链

现代化数据处理引擎

  • 基于 Apache Arrow 与 DuckDB 实现大规模数据秒级预览与检索。
  • DataFlow 结合 Celery 分布式任务队列,保障海量语料处理效率。

企业基础设施对接能力

  • 抽象化 SSO 接口设计,支持企业身份系统快速接入。
  • 支持私有云存储与算力资源池,实现混合云与私有化部署。

教程内容

本教程旨在从实操入门、快速部署、基础概念以及应用视角多维度全面地向您介绍CSGHub,以便您能够高效掌握利用CSGHub及大模型能力。即使您之前没有部署经验,本教程也帮助您快速上手。 针对更进阶的内容和高级功能,我们另外提供了面向高级用户和开发人员的文档,旨在提供详尽的说明和指导。

联系我们

使用过程中的任何问题, 您可以通过以下任何一种方式联系我们:

  1. Github发起Issue
  2. 扫描下方微信二维码,添加微信小助手回复“开源”或者“open source”入群,加入我们的微信讨论群
  3. 加入我们的Discord频道:OpenCSG Discord Channel
  4. 加入我们的Slack频道:OpenCSG Slack Channel

wechat discord slack