Dataflow 部署指南
📘 概述
CSGHUB Dataflow 是 CSGHub 平台中的数据流管理与标注子系统,用于处理模型训练数据、标注任务、数据预处理与分发等流程。
通过 Helm Chart 部署,可以快速在 Kubernetes 环境中运行 Dataflow 及其依赖的 Label Studio、Redis、PostgreSQL、MongoDB 等组件。
本 Chart 既支持 一键安装全部依赖(内置模式),也支持 连接外部托管资源。
⚙️ 环境要求
| 项目 | 说明 |
|---|---|
| Kubernetes 版本 | v1.28+ |
| Helm 版本 | v3.12+ |
| 网络要求 | 集群节点需能访问 CSGHub 主服务(externalUrl) |
| 权限要求 | 具备创建命名空间、Service、PVC、Ingress 等资源的权限 |
| 集群要求 | 需要支持 ReadWriteMany 的存储卷 |
🧩 1. 准备工作
添加 CSGHub Chart 仓库
helm repo add csghub https://charts.opencsg.com/csghub
helm repo update
创建命名空间(可选)
kubectl create namespace csghub
🏗️ 2. 部署 Dataflow
基础安装(内置数据库与缓存)
如果你仅用于测试或开发环境,可直接使用默认配置:
-
externalUrlhelm get notes csghub -n csghub | grep -A 6 'Access your CSGHub'通过以上命令获取 CSGHub 访问地址。
-
执行部署操作
helm install dataflow csghub/dataflow \
--namespace csghub \
--create-namespace \
--set global.ingress.domain="example.com" \
--set externalUrl="<csghub externalUrl>" \
--set dataflow.postgresql.database="csghub_dataflow" \
--set labelStudio.postgresql.database="csghub_label_studio"
此方式会自动启动:
- Dataflow 主服务
- Label Studio 标注服务
- 内置 PostgreSQL、Redis、MongoDB
- 内置 NGINX Ingress 控制器