网络要求
1. 说明
CSGHUB 作为分布式云原生 AI 托管平台,网络是其稳定运行的核心支撑,主要承担以下核心职责:
- 集群节点间通信:保障 Kubernetes 集群各节点协同工作,支撑集群调度与管理
- 服务间调用:实现平台内部微服务的高效交互,保障业务流程顺畅衔接
- 数据传输:负责模型、数据集、容器镜像等大文件的上传与下载,直接影响业务效率
- 外部访问:支撑用户通过 Web 界面、API 接口访问平台,保障访问体验与稳定性
- AI 任务通信:为 Dataflow、Runner、模型推理等 AI 相关任务提供通信支撑,保障任务正常执行
👉 网络性能直接决定以下关键指标,需重点关注:
- 任务执行效率:网络延迟、带宽直接影响 AI 任务、数据处理任务的完成速度
- 模型加载速度:大模型(GB~TB 级)的加载速度完全依赖网络传输能力
- 系统稳定性:网络波动、丢包会导致服务调用超时、Pod 重启、任务失败等问题
2. 网络架构分层
为保障网络架构的清晰性、可维护性与高性能,建议将平台网络划分为以下四层,各层独立承担对应职责,协同保障整体网络稳定:
2.1 节点间网络
核心用途:Kubernetes 集群各节点之间的通信,以及 Pod 调度与控制面的交互,是集群正常运行的基础。
核心要求:
| 项目 | 建议配置 |
|---|---|
| 带宽 | ≥ 1 Gbps(测试/开发环境);≥ 10 Gbps(生产环境) |
| 延迟 | ≤ 1 ms(同机房部署,确保节点间交互无延迟) |
| 丢包率 | 接近 0(避免因丢包导致节点通信异常、任务中断) |
2.2 Pod网络(CNI)
核心用途:实现 Pod 与 Pod 之间的通信,以及外部对 Pod 服务的网络访问,是平台微服务交互的核心载体。
核心要求:
- 选用稳定可靠的 CNI 插件,优先推荐以下两种:
- Calico:兼容性强、配置简单,适配大多数部署场景,稳定性突出
- Cilium:高性能、低延迟,支持 eBPF 加速,适合高 并发、低延迟的 AI 场景
- 必须支持 NetworkPolicy 网络策略,实现 Pod 之间的安全隔离,保障平台网络安全。
2.3 存储网络
核心用途:为分布式存储(Ceph / Longhorn)、NFS / NAS、对象存储(S3)等存储服务提供通信支撑,保障数据读写的高效与稳定。
核心要求:
| 项目 | 建议配置 |
|---|---|
| 带宽 | ≥ 10 Gbps(保障大文件读写、数据集传输的效率) |
| 网络隔离 | 建议独立 VLAN 部署,避免与其他网络业务抢占带宽,提升存储访问稳定性 |
| 延迟 | 越低越好,直接影响存储 IO 性能,进而影响 AI 训练、数据处理任务效率 |
2.4 外部访问网络
核心用途:支撑用户访问 Web UI、API 接口调用,以及模型、数据集的外部上传与下载,是平台与用户交互的入口。
核心组件:
- Ingress/Gateway Controller:推荐使用 Nginx 或 EnvoyGateway,实现外部访问的路由转发、负载均衡与 SSL 终止
- LoadBalancer / NodePort:根据部署规模选择,生产环境优先使用 LoadBalancer,保障外部访问的高可用
3. 不同场景网络要求
根据部署场景(测试/开发、中小规模生产、大规模生产/AI 场景)的差异,网络配置要求有所不同,以下为针对性建议:
3.1 测试/开发环境
适用场景:功能验证、本地开发、单人使用,对网络性能要求较低,优先保障可用性。
| 项目 | 要求 |
|---|---|
| 带宽 | ≥ 100 Mbps(满足基础的服务启动、小文件传输需求) |
| 延迟 | 无严格要求,不影响基础功能使用即可 |
| 网络拓扑 | 单机或简单局域网即可,无需复杂架构 |
3.2 中小规模生产
适用场景:10~100 人团队使用,涉及模型/数据集管理、中等规模任务调度,需保障网络稳定性与基础性能。
| 项目 | 要求 |
|---|---|
| 节点带宽 | ≥ 1 Gbps( 满足多节点协同、中等规模数据传输需求) |
| 存储网络 | ≥ 10 Gbps(推荐),保障存储 IO 性能,避免拖慢业务进度 |
| 外网出口 | ≥ 100 Mbps,满足外部访问、模型下载等需求 |
3.3 大规模生产/AI场景
适用场景:多团队、多租户使用,涉及高频任务调度、AI 推理/训练、大规模数据集管理,对网络性能要求极高。
| 项目 | 要求 |
|---|---|
| 节点带宽 | ≥ 10 Gbps,满足多节点、高并发任务的通信需求 |
| 存储网络 | ≥ 10 ~ 25 Gbps,适配大规模数据集、大模型的读写需求 |
| GPU 通信 | 推荐使用 RDMA 或 InfiniBand(可选),降低 GPU 间通信延迟,提升 AI 训练效率 |
| 外网出口 | ≥ 1 Gbps,满足多用户同时访问、大量模型/数据集上传下载需求 |
3.4 大文件传输优化
CSGHUB 平台涉及大量大文件传输,主要包括:GB~TB 级模型、大规模数据集、大型容器镜像 ,此类文件传输对网络压力较大,需重点优化。
3.5 优化建议
- 部署内网镜像仓库(如 Harbor),避免频繁从外网拉取容器镜像,节省外网带宽,提升拉取速度
- 优先使用对象存储(S3)存储模型、数据集,利用对象存储的高并发、高可用特性,优化大文件传输体验
- 避免跨地域部署,跨地域传输会导致延迟升高、带宽损耗,优先采用同机房部署
4. 端口要求
CSGHUB 各组件需开放对应端口,保障服务正常通信,具体端口配置如下(区分部署方式):
| 组件 | 端口配置 |
|---|---|
| Web / API / Git SSH | 80 / 443 / 22(Kubernetes 部署可使用 NodePort:30080 / 30443 / 30022) |
| Casdoor(身份鉴权服务) | 8000(仅 Docker 部署需开放此端口) |
| Csgship / Csgship API | 8001 / 8002(仅 Docker 部署需开放此端口) |
| MinIO(对象存储服务) | 9000(仅 Docker 部署需开放此端口) |
5. 高性能网络建议(AI / 训练场景)
适用于分布式训练、大规模推理等对网络性能要求极高的 AI 场景,推荐采用以下高性能网络技术,提升任务执行效率:
| 技术 | 说明 |
|---|---|
| RDMA | 远程直接内存访问,跳过操作系统内核,实现低延迟、高带宽的内存间数据传输,大幅提升分布式任务效率 |
| InfiniBand | 高性能互联技术,延迟极低、带宽极高,适合大规模 GPU 集群、分布式训练场景 |
| GPU Direct | 实现 GPU 之间直接通信,无需通过 CPU 中转,降低 GPU 间数据传输延迟,提升 AI 训练速度 |
6. 带宽估算方法
根据平台业务需求,可通过以下公式估算所需带宽,避免带宽不足导致业务卡顿、任务失败:
6.1 模型下载带宽估算
带宽 ≈ 模型大小 × 并发下载数 / 目标下载时间
示例:
- 模型大小:10 GB
- 并发下载数:10 人同时下载
- 目标下载时间:60 秒
👉 所需带宽 ≈ 10 GB × 10 / 60 秒 ≈ 1.6 Gbps(建议预留一定冗余,按 2 Gbps 配置)
6.2 数据集传输带宽估算
带宽 ≈ 数据集大小 / 期望加载时间
说明:数据集加载速度直接影响 AI 训练、数据处理任务的启动效率,建议根据数据集大小和期望加载时间,合理估算带宽需求,预留 30% 左右冗余。
7. 常见问题与风险
网络异常会直接影响平台正常运行,以下为常见网络问题、表现及应对建议:
7.1 带宽不足
核心表现:
- 模型拉取速度慢,甚至出现拉取失败
- Pod 启动缓慢,容器镜像拉取超时
- AI 任务卡顿,数据传输中断
应对建议:升级带宽配置,部署内网镜像仓库、对象存储,优化大文件传输方式。
7.2 高延迟
核心表现:
- 服务间调用超时,接口响应缓慢
- 分布式任务失败,节点间通信异常
- 用户访问 Web UI 卡顿,操作延迟明显
应对建议:采用同机房部署,优化网络拓扑,避免跨地域传输,必要时采用 RDMA 等高性能网络技术。
7.3 网络不稳定
核心表现:
- Pod 频繁重启,集群节点失联
- 存储访问异常,数据读写中断
- 任务执行过程中随机中断,日志出现网络超时报错
应对建议:检查网络设备(交换机、路由器),排查网络干扰,优化网络隔离配置,提升网络稳定性。
7.4 DNS 问题
核心表现:
- 平台服务无法访问,提示域名解析失 败
- API 调用失败,出现 DNS 解析超时
- 容器镜像拉取失败,无法解析镜像仓库域名
应对建议:配置稳定的 DNS 服务器,检查域名解析配置,确保域名解析生效,必要时配置本地 DNS 缓存。
8. 推荐网络拓扑
根据部署规模,推荐以下两种网络拓扑,兼顾可用性、性能与可扩展性:
8.1 简单架构(中小规模生产)
适用于 10~100 人团队,架构简单、部署成本低,满足中小规模业务需求:
flowchart TD
A[Internet] --> B[LoadBalancer]
B --> C[Ingress]
C --> E[Node1]
C --> F[Node2]
C --> G[Node3]
8.2 高性能架构(推荐,大规模生产/AI场景)
适用于多团队、多租户,以及 AI 训练、大规模推理场景,兼顾高性能与高可用:
flowchart TD
A[Internet] --> B[LoadBalancer]
B --> C[Ingress]
C --> E[Worker]
C --> F[Worker]
C --> G[Worker]
E --> H["Storage(10Gbps+)"]
F --> H
G --> H
9. 总结建议
- 基础要求:测试/开发环境最低带宽 ≥ 100 Mbps,生产环境最低 ≥ 1 Gbps
- 生产推荐:节点带宽 ≥ 10 Gbps,存储网络 ≥ 10 Gbps,保障大文件传输与存储 IO 性能
- 存储网络优先级:必须保障高带宽、低延迟,建议独立 VLAN 部署,避免带宽抢占
- AI 场景优化:推荐采用 RDMA、InfiniBand 等高性能网络技术,提升分布式训练、推理效率
- 部署原则:避免跨地域部署,优先同机房部署;配置内网镜像仓库、对象存储,优化网络资源利用
- 风险防控:定期检查网络状态,排查带宽、延迟、丢包等问题,预留带宽冗余,保障平台稳定运行