V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
mingtdlb
V2EX  ›  Local LLM

多台 GPU 之间怎么组网互联?

  •  1
     
  •   mingtdlb · 4 小时 30 分钟前 · 772 次点击

    比如要部署 deepseek 满血版,总不能用一台跑对吧,那比如有三台 SXM 版的 8 卡 A100 的 GPU 服务器

    好奇问一下,想学习学习

    第 1 条附言  ·  2 小时 52 分钟前

    为什么想了解这个,GPU太贵了,单节点可能都要几十上百万,集群才考虑组网,实践的机会更少了。

    现在招人都要求有经验的,不像以前能从初级开始干,有机会从实践中学习。

    15 条回复    2026-04-21 22:09:53 +08:00
    makictos
        1
    makictos  
    PRO
       4 小时 20 分钟前   ❤️ 2
    每台机器插八个 cx7 400g 网卡,然后三台机器走 48 口交换机做互联
    minami
        2
    minami  
       3 小时 46 分钟前 via Android
    关键字:NvLink 、NvSwitch 、InfiniBand
    ptstone
        3
    ptstone  
       3 小时 27 分钟前
    网卡互联根本行不通,pcie5 的速度都不够,至少 1Tb/s 这种才能考虑
    liaohongxing
        4
    liaohongxing  
       3 小时 23 分钟前
    有个 gpustack 的项目,据说可以组集群。

    https://github.com/gpustack/gpustack
    stoneabc
        5
    stoneabc  
       3 小时 18 分钟前
    @ptstone ...现在主流集群参数面组网都是走网卡,有啥行不通的
    catazshadow
        6
    catazshadow  
       3 小时 16 分钟前 via Android
    @stoneabc 延迟要炸的
    geekvcn
        7
    geekvcn  
       3 小时 2 分钟前
    目前都是 IB 网卡或者雷电网桥,总之带宽越高越好,以太网也行但是效率堪忧
    thevita
        8
    thevita  
       3 小时 2 分钟前
    单台机内 nvlink
    跨机器 RDMA 呗

    网络并不是对等的, nvlink 带宽和延迟肯定都要好于网络, 所以尽量把 all-to-all 的通信放单个 node 内(比如 TP )
    跨 node 通信也需要深度的优化,通过各种 pipeline overlapped 来隐藏延迟

    不是搞这个的,仅仅是个人粗浅的理解
    mingtdlb
        9
    mingtdlb  
    OP
       2 小时 59 分钟前
    @ptstone #3 gpu 是 smx 的,单节点内 nvlink 没问题,但集群的话,按 1 楼哥 @makictos 说的那样 那个是专用卡?然后走 rdma ( ib 或 rocev2 )。

    刚问了下 Gemini ,大概意思服务器安装网卡驱动
    ib 的话:需要在一个节点上运行 Subnet Manager (OpenSM) 来管理网络拓扑和分配 LID ,就没了
    RoCEv2 的话:配上 ip ,还要优化网络,然后是主机这边 rdma 相关的配置

    这么看下来,加上现在有 AI 的辅助,gpu 服务器的集群的部署也没很难?😂
    roygong
        10
    roygong  
       2 小时 43 分钟前 via iPhone
    Infiniband 是一个专门的硬件,有了就可以跨机跑模型
    geekvcn
        11
    geekvcn  
       2 小时 41 分钟前
    @mingtdlb 连接不要用光缆,用铜缆直通,有专门的直连铜缆,缺点是长度受限仅适用于机器都在单机柜里。不用光缆是因为光电转换会引入额外的开销和延时
    neteroster
        12
    neteroster  
       2 小时 37 分钟前
    除了硬件还要考虑并行,dp, ep, tp 啥的,各种调优,infra 没那么简单的
    Muniesa
        13
    Muniesa  
       2 小时 32 分钟前 via Android
    sglang:在 96 个 H100 GPU 上部署具有 PD 解耦和大规模专家并行性的 DeepSeek
    https://www.lmsys.org/blog/2025-05-05-large-scale-ep/
    stoneabc
        14
    stoneabc  
       2 小时 23 分钟前
    @catazshadow 没那么夸张,现在万卡集群不用 IB 直接走 roce 的都一堆,都是成熟方案了
    catazshadow
        15
    catazshadow  
       13 分钟前
    @stoneabc 真这么夸张,本来推理几十 tps 用了网卡可能就十几 tps 了
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3260 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 43ms · UTC 14:22 · PVG 22:22 · LAX 07:22 · JFK 10:22
    ♥ Do have faith in what you're doing.