跳到主要内容

网络要求

1. 说明

CSGHUB 作为分布式云原生 AI 托管平台,网络是其稳定运行的核心支撑,主要承担以下核心职责:

  • 集群节点间通信:保障 Kubernetes 集群各节点协同工作,支撑集群调度与管理
  • 服务间调用:实现平台内部微服务的高效交互,保障业务流程顺畅衔接
  • 数据传输:负责模型、数据集、容器镜像等大文件的上传与下载,直接影响业务效率
  • 外部访问:支撑用户通过 Web 界面、API 接口访问平台,保障访问体验与稳定性
  • AI 任务通信:为 Dataflow、Runner、模型推理等 AI 相关任务提供通信支撑,保障任务正常执行

👉 网络性能直接决定以下关键指标,需重点关注:

  • 任务执行效率:网络延迟、带宽直接影响 AI 任务、数据处理任务的完成速度
  • 模型加载速度:大模型(GB~TB 级)的加载速度完全依赖网络传输能力
  • 系统稳定性:网络波动、丢包会导致服务调用超时、Pod 重启、任务失败等问题

2. 网络架构分层

为保障网络架构的清晰性、可维护性与高性能,建议将平台网络划分为以下四层,各层独立承担对应职责,协同保障整体网络稳定:

2.1 节点间网络

核心用途:Kubernetes 集群各节点之间的通信,以及 Pod 调度与控制面的交互,是集群正常运行的基础。

核心要求:

项目建议配置
带宽≥ 1 Gbps(测试/开发环境);≥ 10 Gbps(生产环境)
延迟≤ 1 ms(同机房部署,确保节点间交互无延迟)
丢包率接近 0(避免因丢包导致节点通信异常、任务中断)

2.2 Pod网络(CNI)

核心用途:实现 Pod 与 Pod 之间的通信,以及外部对 Pod 服务的网络访问,是平台微服务交互的核心载体。

核心要求:

  • 选用稳定可靠的 CNI 插件,优先推荐以下两种:
    • Calico:兼容性强、配置简单,适配大多数部署场景,稳定性突出
    • Cilium:高性能、低延迟,支持 eBPF 加速,适合高并发、低延迟的 AI 场景
  • 必须支持 NetworkPolicy 网络策略,实现 Pod 之间的安全隔离,保障平台网络安全。

2.3 存储网络

核心用途:为分布式存储(Ceph / Longhorn)、NFS / NAS、对象存储(S3)等存储服务提供通信支撑,保障数据读写的高效与稳定。

核心要求:

项目建议配置
带宽≥ 10 Gbps(保障大文件读写、数据集传输的效率)
网络隔离建议独立 VLAN 部署,避免与其他网络业务抢占带宽,提升存储访问稳定性
延迟越低越好,直接影响存储 IO 性能,进而影响 AI 训练、数据处理任务效率

2.4 外部访问网络

核心用途:支撑用户访问 Web UI、API 接口调用,以及模型、数据集的外部上传与下载,是平台与用户交互的入口。

核心组件:

  • Ingress/Gateway Controller:推荐使用 Nginx 或 EnvoyGateway,实现外部访问的路由转发、负载均衡与 SSL 终止
  • LoadBalancer / NodePort:根据部署规模选择,生产环境优先使用 LoadBalancer,保障外部访问的高可用

3. 不同场景网络要求

根据部署场景(测试/开发、中小规模生产、大规模生产/AI 场景)的差异,网络配置要求有所不同,以下为针对性建议:

3.1 测试/开发环境

适用场景:功能验证、本地开发、单人使用,对网络性能要求较低,优先保障可用性。

项目要求
带宽≥ 100 Mbps(满足基础的服务启动、小文件传输需求)
延迟无严格要求,不影响基础功能使用即可
网络拓扑单机或简单局域网即可,无需复杂架构

3.2 中小规模生产

适用场景:10~100 人团队使用,涉及模型/数据集管理、中等规模任务调度,需保障网络稳定性与基础性能。

项目要求
节点带宽≥ 1 Gbps(满足多节点协同、中等规模数据传输需求)
存储网络≥ 10 Gbps(推荐),保障存储 IO 性能,避免拖慢业务进度
外网出口≥ 100 Mbps,满足外部访问、模型下载等需求

3.3 大规模生产/AI场景

适用场景:多团队、多租户使用,涉及高频任务调度、AI 推理/训练、大规模数据集管理,对网络性能要求极高。

项目要求
节点带宽≥ 10 Gbps,满足多节点、高并发任务的通信需求
存储网络≥ 10 ~ 25 Gbps,适配大规模数据集、大模型的读写需求
GPU 通信推荐使用 RDMA 或 InfiniBand(可选),降低 GPU 间通信延迟,提升 AI 训练效率
外网出口≥ 1 Gbps,满足多用户同时访问、大量模型/数据集上传下载需求

3.4 大文件传输优化

CSGHUB 平台涉及大量大文件传输,主要包括:GB~TB 级模型、大规模数据集、大型容器镜像,此类文件传输对网络压力较大,需重点优化。

3.5 优化建议

  • 部署内网镜像仓库(如 Harbor),避免频繁从外网拉取容器镜像,节省外网带宽,提升拉取速度
  • 优先使用对象存储(S3)存储模型、数据集,利用对象存储的高并发、高可用特性,优化大文件传输体验
  • 避免跨地域部署,跨地域传输会导致延迟升高、带宽损耗,优先采用同机房部署

4. 端口要求

CSGHUB 各组件需开放对应端口,保障服务正常通信,具体端口配置如下(区分部署方式):

组件端口配置
Web / API / Git SSH80 / 443 / 22(Kubernetes 部署可使用 NodePort:30080 / 30443 / 30022)
Casdoor(身份鉴权服务)8000(仅 Docker 部署需开放此端口)
Csgship / Csgship API8001 / 8002(仅 Docker 部署需开放此端口)
MinIO(对象存储服务)9000(仅 Docker 部署需开放此端口)

5. 高性能网络建议(AI / 训练场景)

适用于分布式训练、大规模推理等对网络性能要求极高的 AI 场景,推荐采用以下高性能网络技术,提升任务执行效率:

技术说明
RDMA远程直接内存访问,跳过操作系统内核,实现低延迟、高带宽的内存间数据传输,大幅提升分布式任务效率
InfiniBand高性能互联技术,延迟极低、带宽极高,适合大规模 GPU 集群、分布式训练场景
GPU Direct实现 GPU 之间直接通信,无需通过 CPU 中转,降低 GPU 间数据传输延迟,提升 AI 训练速度

6. 带宽估算方法

根据平台业务需求,可通过以下公式估算所需带宽,避免带宽不足导致业务卡顿、任务失败:

6.1 模型下载带宽估算

带宽 ≈ 模型大小 × 并发下载数 / 目标下载时间

示例:

  • 模型大小:10 GB
  • 并发下载数:10 人同时下载
  • 目标下载时间:60 秒

👉 所需带宽 ≈ 10 GB × 10 / 60 秒 ≈ 1.6 Gbps(建议预留一定冗余,按 2 Gbps 配置)

6.2 数据集传输带宽估算

带宽 ≈ 数据集大小 / 期望加载时间

说明:数据集加载速度直接影响 AI 训练、数据处理任务的启动效率,建议根据数据集大小和期望加载时间,合理估算带宽需求,预留 30% 左右冗余。

7. 常见问题与风险

网络异常会直接影响平台正常运行,以下为常见网络问题、表现及应对建议:

7.1 带宽不足

核心表现:

  • 模型拉取速度慢,甚至出现拉取失败
  • Pod 启动缓慢,容器镜像拉取超时
  • AI 任务卡顿,数据传输中断

应对建议:升级带宽配置,部署内网镜像仓库、对象存储,优化大文件传输方式。

7.2 高延迟

核心表现:

  • 服务间调用超时,接口响应缓慢
  • 分布式任务失败,节点间通信异常
  • 用户访问 Web UI 卡顿,操作延迟明显

应对建议:采用同机房部署,优化网络拓扑,避免跨地域传输,必要时采用 RDMA 等高性能网络技术。

7.3 网络不稳定

核心表现:

  • Pod 频繁重启,集群节点失联
  • 存储访问异常,数据读写中断
  • 任务执行过程中随机中断,日志出现网络超时报错

应对建议:检查网络设备(交换机、路由器),排查网络干扰,优化网络隔离配置,提升网络稳定性。

7.4 DNS 问题

核心表现:

  • 平台服务无法访问,提示域名解析失败
  • API 调用失败,出现 DNS 解析超时
  • 容器镜像拉取失败,无法解析镜像仓库域名

应对建议:配置稳定的 DNS 服务器,检查域名解析配置,确保域名解析生效,必要时配置本地 DNS 缓存。

8. 推荐网络拓扑

根据部署规模,推荐以下两种网络拓扑,兼顾可用性、性能与可扩展性:

8.1 简单架构(中小规模生产)

适用于 10~100 人团队,架构简单、部署成本低,满足中小规模业务需求:

flowchart TD
A[Internet] --> B[LoadBalancer]
B --> C[Ingress]
C --> E[Node1]
C --> F[Node2]
C --> G[Node3]

8.2 高性能架构(推荐,大规模生产/AI场景)

适用于多团队、多租户,以及 AI 训练、大规模推理场景,兼顾高性能与高可用:

flowchart TD
A[Internet] --> B[LoadBalancer]
B --> C[Ingress]
C --> E[Worker]
C --> F[Worker]
C --> G[Worker]
E --> H["Storage(10Gbps+)"]
F --> H
G --> H

9. 总结建议

  • 基础要求:测试/开发环境最低带宽 ≥ 100 Mbps,生产环境最低 ≥ 1 Gbps
  • 生产推荐:节点带宽 ≥ 10 Gbps,存储网络 ≥ 10 Gbps,保障大文件传输与存储 IO 性能
  • 存储网络优先级:必须保障高带宽、低延迟,建议独立 VLAN 部署,避免带宽抢占
  • AI 场景优化:推荐采用 RDMA、InfiniBand 等高性能网络技术,提升分布式训练、推理效率
  • 部署原则:避免跨地域部署,优先同机房部署;配置内网镜像仓库、对象存储,优化网络资源利用
  • 风险防控:定期检查网络状态,排查带宽、延迟、丢包等问题,预留带宽冗余,保障平台稳定运行