网络要求

1. 说明

CSGHUB 作为分布式云原生 AI 托管平台，网络是其稳定运行的核心支撑，主要承担以下核心职责：

集群节点间通信：保障 Kubernetes 集群各节点协同工作，支撑集群调度与管理
服务间调用：实现平台内部微服务的高效交互，保障业务流程顺畅衔接
数据传输：负责模型、数据集、容器镜像等大文件的上传与下载，直接影响业务效率
外部访问：支撑用户通过 Web 界面、API 接口访问平台，保障访问体验与稳定性
AI 任务通信：为 Dataflow、Runner、模型推理等 AI 相关任务提供通信支撑，保障任务正常执行

👉 网络性能直接决定以下关键指标，需重点关注：

任务执行效率：网络延迟、带宽直接影响 AI 任务、数据处理任务的完成速度
模型加载速度：大模型（GB~TB 级）的加载速度完全依赖网络传输能力
系统稳定性：网络波动、丢包会导致服务调用超时、Pod 重启、任务失败等问题

2. 网络架构分层

为保障网络架构的清晰性、可维护性与高性能，建议将平台网络划分为以下四层，各层独立承担对应职责，协同保障整体网络稳定：

2.1 节点间网络

核心用途：Kubernetes 集群各节点之间的通信，以及 Pod 调度与控制面的交互，是集群正常运行的基础。

核心要求：

项目	建议配置
带宽	≥ 1 Gbps（测试/开发环境）；≥ 10 Gbps（生产环境）
延迟	≤ 1 ms（同机房部署，确保节点间交互无延迟）
丢包率	接近 0（避免因丢包导致节点通信异常、任务中断）

2.2 Pod网络（CNI）

核心用途：实现 Pod 与 Pod 之间的通信，以及外部对 Pod 服务的网络访问，是平台微服务交互的核心载体。

核心要求：

选用稳定可靠的 CNI 插件，优先推荐以下两种：
- Calico：兼容性强、配置简单，适配大多数部署场景，稳定性突出
- Cilium：高性能、低延迟，支持 eBPF 加速，适合高并发、低延迟的 AI 场景
必须支持 NetworkPolicy 网络策略，实现 Pod 之间的安全隔离，保障平台网络安全。

2.3 存储网络

核心用途：为分布式存储（Ceph / Longhorn）、NFS / NAS、对象存储（S3）等存储服务提供通信支撑，保障数据读写的高效与稳定。

核心要求：

项目	建议配置
带宽	≥ 10 Gbps（保障大文件读写、数据集传输的效率）
网络隔离	建议独立 VLAN 部署，避免与其他网络业务抢占带宽，提升存储访问稳定性
延迟	越低越好，直接影响存储 IO 性能，进而影响 AI 训练、数据处理任务效率

2.4 外部访问网络

核心用途：支撑用户访问 Web UI、API 接口调用，以及模型、数据集的外部上传与下载，是平台与用户交互的入口。

核心组件：

Ingress/Gateway Controller：推荐使用 Nginx 或 EnvoyGateway，实现外部访问的路由转发、负载均衡与 SSL 终止
LoadBalancer / NodePort：根据部署规模选择，生产环境优先使用 LoadBalancer，保障外部访问的高可用

3. 不同场景网络要求

根据部署场景（测试/开发、中小规模生产、大规模生产/AI 场景）的差异，网络配置要求有所不同，以下为针对性建议：

3.1 测试/开发环境

适用场景：功能验证、本地开发、单人使用，对网络性能要求较低，优先保障可用性。

项目	要求
带宽	≥ 100 Mbps（满足基础的服务启动、小文件传输需求）
延迟	无严格要求，不影响基础功能使用即可
网络拓扑	单机或简单局域网即可，无需复杂架构

3.2 中小规模生产

适用场景：10~100 人团队使用，涉及模型/数据集管理、中等规模任务调度，需保障网络稳定性与基础性能。

项目	要求
节点带宽	≥ 1 Gbps（满足多节点协同、中等规模数据传输需求）
存储网络	≥ 10 Gbps（推荐），保障存储 IO 性能，避免拖慢业务进度
外网出口	≥ 100 Mbps，满足外部访问、模型下载等需求

3.3 大规模生产/AI场景

适用场景：多团队、多租户使用，涉及高频任务调度、AI 推理/训练、大规模数据集管理，对网络性能要求极高。

项目	要求
节点带宽	≥ 10 Gbps，满足多节点、高并发任务的通信需求
存储网络	≥ 10 ~ 25 Gbps，适配大规模数据集、大模型的读写需求
GPU 通信	推荐使用 RDMA 或 InfiniBand（可选），降低 GPU 间通信延迟，提升 AI 训练效率
外网出口	≥ 1 Gbps，满足多用户同时访问、大量模型/数据集上传下载需求

3.4 大文件传输优化

CSGHUB 平台涉及大量大文件传输，主要包括：GB~TB 级模型、大规模数据集、大型容器镜像，此类文件传输对网络压力较大，需重点优化。

3.5 优化建议

部署内网镜像仓库（如 Harbor），避免频繁从外网拉取容器镜像，节省外网带宽，提升拉取速度
优先使用对象存储（S3）存储模型、数据集，利用对象存储的高并发、高可用特性，优化大文件传输体验
避免跨地域部署，跨地域传输会导致延迟升高、带宽损耗，优先采用同机房部署

4. 端口要求

CSGHUB 各组件需开放对应端口，保障服务正常通信，具体端口配置如下（区分部署方式）：

组件	端口配置
Web / API / Git SSH	80 / 443 / 22（Kubernetes 部署可使用 NodePort：30080 / 30443 / 30022）
Casdoor（身份鉴权服务）	8000（仅 Docker 部署需开放此端口）
Csgship / Csgship API	8001 / 8002（仅 Docker 部署需开放此端口）
MinIO（对象存储服务）	9000（仅 Docker 部署需开放此端口）

5. 高性能网络建议（AI / 训练场景）

适用于分布式训练、大规模推理等对网络性能要求极高的 AI 场景，推荐采用以下高性能网络技术，提升任务执行效率：

技术	说明
RDMA	远程直接内存访问，跳过操作系统内核，实现低延迟、高带宽的内存间数据传输，大幅提升分布式任务效率
InfiniBand	高性能互联技术，延迟极低、带宽极高，适合大规模 GPU 集群、分布式训练场景
GPU Direct	实现 GPU 之间直接通信，无需通过 CPU 中转，降低 GPU 间数据传输延迟，提升 AI 训练速度

6. 带宽估算方法

根据平台业务需求，可通过以下公式估算所需带宽，避免带宽不足导致业务卡顿、任务失败：

6.1 模型下载带宽估算

带宽 ≈ 模型大小 × 并发下载数 / 目标下载时间

示例：

模型大小：10 GB
并发下载数：10 人同时下载
目标下载时间：60 秒

👉 所需带宽 ≈ 10 GB × 10 / 60 秒 ≈ 1.6 Gbps（建议预留一定冗余，按 2 Gbps 配置）

6.2 数据集传输带宽估算

带宽 ≈ 数据集大小 / 期望加载时间

说明：数据集加载速度直接影响 AI 训练、数据处理任务的启动效率，建议根据数据集大小和期望加载时间，合理估算带宽需求，预留 30% 左右冗余。

7. 常见问题与风险

网络异常会直接影响平台正常运行，以下为常见网络问题、表现及应对建议：

7.1 带宽不足

核心表现：

模型拉取速度慢，甚至出现拉取失败
Pod 启动缓慢，容器镜像拉取超时
AI 任务卡顿，数据传输中断

应对建议：升级带宽配置，部署内网镜像仓库、对象存储，优化大文件传输方式。

7.2 高延迟

核心表现：

服务间调用超时，接口响应缓慢
分布式任务失败，节点间通信异常
用户访问 Web UI 卡顿，操作延迟明显

应对建议：采用同机房部署，优化网络拓扑，避免跨地域传输，必要时采用 RDMA 等高性能网络技术。

7.3 网络不稳定

核心表现：

Pod 频繁重启，集群节点失联
存储访问异常，数据读写中断
任务执行过程中随机中断，日志出现网络超时报错

应对建议：检查网络设备（交换机、路由器），排查网络干扰，优化网络隔离配置，提升网络稳定性。

7.4 DNS 问题

核心表现：

平台服务无法访问，提示域名解析失败
API 调用失败，出现 DNS 解析超时
容器镜像拉取失败，无法解析镜像仓库域名

应对建议：配置稳定的 DNS 服务器，检查域名解析配置，确保域名解析生效，必要时配置本地 DNS 缓存。

8. 推荐网络拓扑

根据部署规模，推荐以下两种网络拓扑，兼顾可用性、性能与可扩展性：

8.1 简单架构（中小规模生产）

适用于 10~100 人团队，架构简单、部署成本低，满足中小规模业务需求：

flowchart TD
    A[Internet] --> B[LoadBalancer]
    B --> C[Ingress]
    C --> E[Node1]
    C --> F[Node2]
    C --> G[Node3]

8.2 高性能架构（推荐，大规模生产/AI场景）

适用于多团队、多租户，以及 AI 训练、大规模推理场景，兼顾高性能与高可用：

flowchart TD
    A[Internet] --> B[LoadBalancer]
    B --> C[Ingress]
    C --> E[Worker]
    C --> F[Worker]
    C --> G[Worker]
    E --> H["Storage(10Gbps+)"]
    F --> H
    G --> H

9. 总结建议

基础要求：测试/开发环境最低带宽 ≥ 100 Mbps，生产环境最低 ≥ 1 Gbps
生产推荐：节点带宽 ≥ 10 Gbps，存储网络 ≥ 10 Gbps，保障大文件传输与存储 IO 性能
存储网络优先级：必须保障高带宽、低延迟，建议独立 VLAN 部署，避免带宽抢占
AI 场景优化：推荐采用 RDMA、InfiniBand 等高性能网络技术，提升分布式训练、推理效率
部署原则：避免跨地域部署，优先同机房部署；配置内网镜像仓库、对象存储，优化网络资源利用
风险防控：定期检查网络状态，排查带宽、延迟、丢包等问题，预留带宽冗余，保障平台稳定运行

1. 说明​

2. 网络架构分层​

2.1 节点间网络​

2.2 Pod网络（CNI）​

2.3 存储网络​

2.4 外部访问网络​

3. 不同场景网络要求​

3.1 测试/开发环境​

3.2 中小规模生产​

3.3 大规模生产/AI场景​

3.4 大文件传输优化​

3.5 优化建议​

4. 端口要求​

5. 高性能网络建议（AI / 训练场景）​

6. 带宽估算方法​

6.1 模型下载带宽估算​

6.2 数据集传输带宽估算​

7. 常见问题与风险​

7.1 带宽不足​

7.2 高延迟​

7.3 网络不稳定​

7.4 DNS 问题​

8. 推荐网络拓扑​

8.1 简单架构（中小规模生产）​

8.2 高性能架构（推荐，大规模生产/AI场景）​

9. 总结建议​

1. 说明

2. 网络架构分层

2.1 节点间网络

2.2 Pod网络（CNI）

2.3 存储网络

2.4 外部访问网络

3. 不同场景网络要求

3.1 测试/开发环境

3.2 中小规模生产

3.3 大规模生产/AI场景

3.4 大文件传输优化

3.5 优化建议

4. 端口要求

5. 高性能网络建议（AI / 训练场景）

6. 带宽估算方法

6.1 模型下载带宽估算

6.2 数据集传输带宽估算

7. 常见问题与风险

7.1 带宽不足

7.2 高延迟

7.3 网络不稳定

7.4 DNS 问题

8. 推荐网络拓扑

8.1 简单架构（中小规模生产）

8.2 高性能架构（推荐，大规模生产/AI场景）

9. 总结建议