跳到主要内容

介绍

CSGHub新手指南旨在向用户提供全面的指导,快速学习如何使用CSGHub对大模型资产进行有效管理。

CSGHub与大模型

什么是CSGHub?

CSGHub是一个开源、可信的大模型资产管理平台,可帮助用户治理LLM和LLM应用生命周期中涉及到的资产(数据集、模型文件、代码等)。 CSGHub致力于提供一种专为大型模型原生设计,且能够私有化部署离线运行的资产管理解决方案。提供代码开源、可私有化部署的类Hugging Face平台功能,以类似GitLab管理源代码、OpenStack Glance管理虚拟机镜像、Harbor管理容器镜像以及 Sonatype Nexus 管理制品的方式,实现对LLM资产的管理。

您可通过访问CSGHub开源项目页面 https://github.com/OpenCSGs/CSGHub 或传神社区官方网站 https://opencsg.com 来获取更多详情和最新消息。

我们欢迎并鼓励用户在使用CSGHub的过程中,通过GitHub发起Issue来进行问题讨论或对CSGHub开源项目进行代码贡献,共同促进平台的持续发展和改善。

什么是模型?

定义

在机器学习和自然语言处理领域,模型是一个经过训练的数学表示,用于执行某一特定任务,如文本生成、情感分析、机器翻译等。模型通过分析大量数据学习到输入与输出之间的关系。

CSGHub中的模型

CSGHub提供了一个丰富的模型库,包含预训练的模型,用户可以直接用来进行推理,或在此基础上进行微调。CSGHub模型完全兼容Hugging Face的工具体系,您可以使用Hugging Face的Transformers库支持多种架构,如GPT、BERT、T5等,适用于多种任务:

  • 文本分类: 例如情感分析
  • 命名实体识别: 识别文本中的特定实体
  • 文本生成: 基于输入生成新的文本
  • 翻译: 将一种语言翻译成另一种语言

如何使用模型?

用户可以通过简单的API接口加载预训练模型。例如,使用Python代码:

from transformers import pipeline

# 创建情感分析管道
classifier = pipeline('sentiment-analysis')

# 使用模型进行推理
result = classifier("我爱Huggingface!")
print(result)

什么是数据集?

定义

数据集是一组收集到的数据,用于训练和评估机器学习模型。在自然语言处理领域,数据集通常由文本、标签组成,如句子、文章、标注的情感等。

CSGHub中的数据集

CSGHub的数据集库提供了多种公开可用的数据集,涵盖广泛的主题和任务。用户可以下载、加载并在自己的模型训练中使用。这些数据集可能包括:

  • 文本分类数据集: 用于训练情感分析模型
  • 翻译对照数据集: 用于训练翻译模型
  • 问答数据集: 供问答系统使用
  • 对话系统数据集: 用于训练聊天机器人

如何使用数据集?

用户可以使用Hugging Face的datasets库轻松加载数据集。以下是加载并查看数据集的示例:

from datasets import load_dataset

# 加载情感分析数据集
dataset = load_dataset("imdb")

# 查看数据集的结构
print(dataset)

什么是Space应用?

定义

Space是CSGHub提供的一种快速构建和托管运行应用程序的服务,允许用户以互动方式展示其机器学习模型。用户可以创建Web应用程序来展示模型的能力,让其他人能够体验模型的实际效果。

CSGHub中的Space应用特性

  • 互动性: 提供用户与模型交互的界面
  • 简易部署: 用户只需上传代码和模型,CSGHub负责构建、部署和托管运行
  • 私有化: 用户可以在企业或者个人环境内使用

如何创建Space应用?

用户可以创建自己的Space,只需以下简单步骤:

  1. 登录您的CSGhub平台账号
  2. 点击右上角个人头像的“新建应用空间”按钮
  3. 选择应用类型(如Gradio或Streamlit)
  4. 填写所需的代码和配置文件
  5. 发布和使用

示例代码(Gradio)

import gradio as gr
from transformers import pipeline

classifier = pipeline('sentiment-analysis')

def predict_sentiment(text):
return classifier(text)

iface = gr.Interface(fn=predict_sentiment, inputs="text", outputs="label")
iface.launch()

什么是代码仓库?

定义

代码仓库是一个代码存储和版本控制的地方,通常用于管理项目代码、文档和其他资源。在CSGHub平台,代码仓库便于用户存储、分享和协作开发机器学习项目。

CSGHub中的代码仓库功能

  • 版本控制: 用户可以查看代码修改历史,回滚到先前版本
  • 协作开发: 支持多人合作开发,提高项目管理效率
  • 公开&私密: 用户可以选择将仓库设为公开或私密

如何使用代码仓库?

用户可以通过CSGHub的接口或者Web网页界面创建和管理代码仓库。操作步骤如下:

  1. 创建您的CSGhub平台账号

  2. 点击右上角个人头像的“新建代码仓库”按钮

  3. 填写仓库名称与描述

  4. 上传代码文件或文档

    如果你有本地代码要上传,可以使用git命令:

git clone https://huggingface.co/username/repository_name
cd repository_name
# 添加你的代码文件
git add .
git commit -m "Initial commit"
git push

为什么要使用CSGHub?

在当前这个大模型多元化迅速演进的时代,数据及模型已逐步成为企业与个人用户最关键的数字资产。尽管如此,现阶段所面临的一系列问题,诸如管理工具的分散、管理手段单一、单机化等,不仅为安全运营带来了潜在风险,也对企业在大模型技术的持续创新及应用能力的发展构成了障碍。

我们认为大模型将会成为推动信息技术革命的核心动力。因此,探索一种更为高效、安全且可靠的管理策略,以优化和保护核心资产——即模型、数据和大模型应用代码,成为个人与企业共同面对的重大课题。为此,CSGHub项目应运而生,旨在针对上述挑战提供切实可行的解决方案。

CSGHub可以为您带来以下能力:

  • 资产统一管理: 一站式Hub统一管理模型文件、数据集、大模型应用代码。
  • 研发生态兼容: 同时支持HTTPS和SSH协议的Git命令和Web界面操作,同时提供企业内完全兼容Hugging Face SDK的研发生态,确保不同用户均可方便使用。
  • 大模型能力扩展: 原生支持版本化管理、模型格式转化、数据自动预处理、数据集预览等功能。
  • 权限与安全: 支持与企业用户系统集成、支持资产可见范围设置、外内部接口鉴权设计,满足企业安全需求。
  • 私有化部署支持: 无互联网依赖、无云厂商依赖等外部依赖,可一键启动私有化部署。
  • 大模型原生设计: 支持自然语言交互、模型一键部署、Agent与Copilot App等资产管理。

CSGHub技术特点

CSGHub的技术特点如下:

  • CSGHub整合了多源Git Server、Git LFS大文件存储协议和对象存储OSS等技术,提供可靠的数据存储层、灵活的基础设施接入层和高兼容的研发工具支持。
  • 通过服务化的架构,CSGHub提供CSGHub Server后台服务和CSGHub Web Service的管理界面,普通用户可以快速使用Docker compose或Kubernetes Helm Chart启动服务,实现生产级的资产管理。具备自研能力的用户可利用CSGHub Server进行二次开发,将管理功能集成到外部系统或自定义高级功能。
  • CSGHub借助Apache Arrow和DuckDB等优秀开源项目,支持Parquet数据文件格式的预览,便于算法研究人员和爱好者进行本地化数据集管理。
  • CSGHub提供直观的Web界面和面向企业组织架构的权限设计,用户可通过Web UI实现版本控制管理、在线浏览和下载,也可以设置数据集和模型文件的可见范围,实现数据安全隔离,还可以对模型和数据集发起话题讨论。

教程内容

本教程旨在从实操入门、快速部署、基础概念以及应用视角多维度全面地向您介绍CSGHub,以便您能够高效掌握利用CSGHub及大模型能力。即使您之前没有部署经验,本教程也帮助您快速上手。 针对更进阶的内容和高级功能,我们另外提供了面向高级用户和开发人员的文档,旨在提供详尽的说明和指导。

联系我们

使用过程中的任何问题, 您可以通过以下任何一种方式联系我们:

  1. 在Github发起Issue
  2. 扫描下方微信二维码,添加微信小助手回复“开源”或者“open source”入群,加入我们的微信讨论群
  3. 加入我们的Discord频道:OpenCSG Discord Channel
  4. 加入我们的Slack频道:OpenCSG Slack Channel

wechat discord slack