V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
suke119
0D
V2EX  ›  程序员

2026 大模型部署框架终极选型指南

  •  
  •   suke119 ·
    wangsrGit119 · 4 小时 51 分钟前 · 860 次点击
    懒人看板:

    总结:
    云端高性能选 TensorRT-LLM ,云端灵活性选 vLLM ,Agent 场景选 SGLang ,Mac 用户闭眼选 oMLX ,本地试错选 Ollama ,手机端选 MLC LLM ,国产算力选 LMDeploy 。
    9 条回复    2026-04-10 15:15:42 +08:00
    Curtion
        1
    Curtion  
       4 小时 42 分钟前
    这是哪个 ai 总结的哦,把 Ollama 放进去了,但既没有 LM Studio 也没有 llama.cpp, 到底按什么分类算的。
    jetsung
        2
    jetsung  
       4 小时 39 分钟前
    llama.cpp 呢?
    jimrok
        3
    jimrok  
       3 小时 14 分钟前
    有没有适合端侧的框架,可以处理个人的知识库数据,深度信息还可以从云端更新知识库。
    suke119
        4
    suke119  
    OP
       3 小时 3 分钟前
    @Curtion @jetsung 没放 llama cpp 以及 lm studio 是出于 大众的常识和方便程度而言,对于普通真实想要使用的人而言 要么快速上手 要么极致性能生产使用。如果换个角度 比如 测试模型或者 调试啥的 在 iot 设备等上 那最方便的还是 llama cpp.
    suke119
        5
    suke119  
    OP
       3 小时 0 分钟前
    @jimrok 端侧一般说的是边缘设备,但是你的想法应该是个人私有本地使用,这种其实 ollama+graphrag 是最佳的,因为我们自己用最重要的是 准确,性能其实没必要多好的
    jetsung
        6
    jetsung  
       2 小时 55 分钟前
    @suke119 ...不是。LLAMA.CPP 怎么也说不得不能快速上手吧?

    sudo -i
    V=b7885
    curl -LO https://github.com/ggml-org/llama.cpp/releases/download/$V/llama-$V-bin-ubuntu-x64.tar.gz
    rm -rf /usr/local/llama
    tar -zxvf llama-$V-bin-ubuntu-x64.tar.gz
    mv llama-$V /usr/local/llama
    rm -rf llama-$V-bin-ubuntu-x64.tar.gz

    ln -sf /usr/local/llama/* /usr/local/bin/
    ExplodingDragon
        7
    ExplodingDragon  
       2 小时 51 分钟前
    ollama / LM Studio 本质还是 llama.cpp ,而且你这个不是框架/引擎对比吗,没太大参考价值
    ExplodingDragon
        8
    ExplodingDragon  
       2 小时 47 分钟前
    回复快了 ( ollama 不适合,自从搞了所谓的 cloud 后新模型适配很慢了,还有 lm studio 是闭源的并且也是 llama.cpp ,不如直接用 llama.cpp ; 至于说使用复杂度,你都提到了 vllm 了,llama.cpp 那不是更简单,现在 llama.cpp 也可以去拉 hf 的模型了
    suke119
        9
    suke119  
    OP
       2 小时 23 分钟前
    @jetsung @ExplodingDragon 你把角度放到专业和非专业上,专业的人员对于配置 vllm 或者 llama cpp 而言没什么区别,但是 考虑到部署是绝不会用 llama cpp 的,然后再回到非专业人员上,命令行都不懂,直接下载个 exe 安装多方便
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5101 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 09:39 · PVG 17:39 · LAX 02:39 · JFK 05:39
    ♥ Do have faith in what you're doing.