RAG 难以让人满意啊

archxm · 2026-04-17T01:39:02Z

文档是日常工作的运维知识点。比如设置 ssh 免密登陆、设置 sudo 权限、git 的常用操作、等等。暂时用这些文档来，后续想把公司业务流程放进去。先后试了 obsidian 和 anythingllm ，都不能达到目的。我想要的是：我输入一个关键词，它能找到相关文档。当然，这是初步需求。后续需求，大概是，进行适当联想和总结。现状是，比如我让它给我找 ssh 内容，压根就不准。我想，现在这些 ai 产品，大概率就是骗投资的。类似秦国时期的商鞅变法，先做宣传：谁把这根柱子从西门搬到东门，谁就得 10 根金条。这种蠢事，就很容易得到宣传，先把气氛搞起来。我认为，如今的 ai ，或者说：大模型，确实是可以提升生产力的。但是，这玩意盈利模式，不清晰。结局就是，普遍做做样子，东西搞出来，投资人满意，赏你个三瓜两枣。但是实际使用，很难用。最近公司不太忙，待会我找个 python 库，再搭一个看看。

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

文档是日常工作的运维知识点。
- 比如设置 ssh 免密登陆、设置 sudo 权限、git 的常用操作、等等。
- 暂时用这些文档来，后续想把公司业务流程放进去。
先后试了 obsidian 和 anythingllm ，都不能达到目的。
我想要的是：我输入一个关键词，它能找到相关文档。
当然，这是初步需求。
后续需求，大概是，进行适当联想和总结。
现状是，比如我让它给我找 ssh 内容，压根就不准。
我想，现在这些 ai 产品，大概率就是骗投资的。
类似秦国时期的商鞅变法，先做宣传：
- 谁把这根柱子从西门搬到东门，谁就得 10 根金条。
- 这种蠢事，就很容易得到宣传，先把气氛搞起来。
我认为，如今的 ai ，或者说：大模型，确实是可以提升生产力的。
但是，这玩意盈利模式，不清晰。
- 结局就是，普遍做做样子，东西搞出来，投资人满意，赏你个三瓜两枣。
- 但是实际使用，很难用。
最近公司不太忙，待会我找个 python 库，再搭一个看看。

51 条回复 • 2026-04-17 14:43:49 +08:00

YanSeven

5 小时 6 分钟前

agent 可能更合适一点了现在，譬如检索。顶尖的 agent ，譬如 claude code ，codex 已经很精确了。底层也不复杂，不需要什么向量数据库。

fennu2333

4 小时 56 分钟前

你的需求似乎也不复杂，不想用太多 token 的话向量数据库混合索引的简单 naive rag ，愿意用 token 的话好好组织文件结构用 agentic 搜索应该问题都不大

archxm

4 小时 55 分钟前

@YanSeven 我用的本地模型，试了 qwen 和 llama ，感觉 llama 稍微好点。但整体还是难以让人满意。
比如，我文档里，有 logrotate.md ，介绍了日志压缩的一些知识点，logrotate 的一些配置。我在问答里，要求找日志压缩，它告诉我说我库里没这方面的内容。

archxm

4 小时 53 分钟前

@fennu2333 需求当然简单，但这是初始需求，先探索一下，后续会把业务文档放进去，那个就量大了。
文档不用能外面的 ai ，数据不能外传，所以用的本地模型，暂时用的小模型，比如 3b 这种。
其实我这种需求，直接用 es 做索引不就行了吗，试一试 LLM 是因为，这不感觉它挺强的吗，必然要尝试新技术。

sunzhuo

4 小时 52 分钟前

notebooklm 试了吗？我用过完全没有幻觉。

meteor957

4 小时 46 分钟前 via Android

数据最好是结构化的，chunk 切分合理。我发现召回的 chunk 和文档整体的关联也很困难，比如人物的第一次出场是第几章。

Actrace

4 小时 40 分钟前

试试 vxai.link ？

clemente

4 小时 36 分钟前

rag 是为了省成本的用法.

coder01

4 小时 33 分钟前

腾讯的 ima 呢？

Edwardlyz

4 小时 24 分钟前

试试 Engram 吧，等等 deepseek

elevioux

4 小时 22 分钟前

其实吧，现在 LLM 的上下文已经足够，为什么要切呢，直接喂整页就好了。只要 LLM 能根据问题，定位到所需的一页或几页即可。

nomansky

4 小时 20 分钟前

还不如先调用 bash mcp 'grep -i ssh*.md' 一波，

zhaoziling

4 小时 16 分钟前

@archxm 你这种情况，我碰到过类似的，你没法用外面的 AI ，本地模型又是比较小的，只能自己累一点搞复杂一点，首先你的数据是否有结构化的可能，不然不好弄，自己能总结出来或者喂一部分典型样例给 AI 让 AI 总结出来，然后用 AI 对数据进行结构化处理，再整体转成向量化数据库，用的时候配合余弦相似度和元数据索引，效果还可以，向量化用的模型需要你自己好好挑一下，国内有几款比国外的更适配中文

woshishui2022

4 小时 8 分钟前

用本地搭建的 3b 小模型的使用效果；来评价现在的商用大模型？
再固执的程序员也得承认 AI 有用，而且代码写的很好吧；时代已经来了，抗拒也没用啊

lu5je0

3 小时 57 分钟前

看了半天，你用的本地 3b 模型。你搁着拿着自己焊的三轮车评价保时捷呢

archxm

3 小时 54 分钟前

@sunzhuo notebooklm 是谷歌的吧？我想试，但提示说我所在区域不支持使用。再次询问谷歌 ai ，说让我在外区重新注册账号，太麻烦了，不现实，再说公司内部文档，不方便透露出去，不能调用外部 api

archxm

3 小时 53 分钟前

@elevioux 不做模型嵌入是吧？

Livid

MOD

PRO

3 小时 52 分钟前

archxm

3 小时 52 分钟前

@woshishui2022 总得有个深入浅出吧？难道我一开始就花 10 几万，买台高端机器，部署 35b 的大模型吗？

Livid

MOD

PRO

3 小时 50 分钟前

NLEmbedding + Gemma4 的效果，全部跑在本地 Mac 上。

GPLer

3 小时 50 分钟前

都不说 claude 、gpt 、gemini 御三家了，要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧，3b 测了跟没测有什么区别。😅

archxm

3 小时 49 分钟前

@lu5je0 公司电脑弱，用的 3b ，感觉 qwen 不如 llama 。
家里的高配电脑能跑 35b ，昨晚也试了，总体感觉也是，不堪用。

GPLer

3 小时 49 分钟前

@archxm 你的观点是 RAG 不行，我的观点是 3B 不行，没人说一定要一开始就大投入，但你不应该因为 3B 不行就说 RAG 不行。

archxm

3 小时 48 分钟前

@Livid #18 厉害了，大佬研究的挺深的

GPLer

3 小时 48 分钟前

@archxm 新出的 qwen3.6-35b 再试试？

cat9life

3 小时 45 分钟前

@archxm #19 哥们，越争辩越暴漏了你真的不了解。3b 连测试的必必要性都没有。Livid 建议的 Gemm4 27b 感觉各方面就很均衡

archxm

3 小时 45 分钟前

@Livid #20
@GPLer #21 我也就 20 几个 markdown ，都是日常 linux 的运维经验，每个文档也就 3k 左右，这个数据量，3b 也该够了吧？实际上，家里电脑跑 27b 似乎也是效果一般。

archxm

3 小时 43 分钟前

@cat9life 家里电脑可以跑 27b ，晚上再试

GPLer

3 小时 39 分钟前

@archxm 3b 模型只能日常对话，基本上没有实用价值，数据量和模型大小没有直接关系，跟上下文长度以及长文本能力有关，3b 也许长文本能力还行，但是模型能力不行也没用。
27b 风评还是不错的，如果效果一般可能是 RAG 配置问题，可以先不用 RAG ，试试都放到一个文件夹里，然后用 opencode 等 agent 平台配置模型，然后将目录所在位置告诉它，测试这种情况下的问答效果，速度会慢很多，但是大模型自己探索后应该能答对，如果这样子可以，后面可以让模型写个 skills ，将检索的技巧做成技能。

qppq54s

3 小时 36 分钟前

确实难以让人满意，后面真能让人满意了估计又会迎来一波 ai 的爆发

GPLer

3 小时 34 分钟前

@GPLer 另外目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ，如果要测试最好在这三个里选，测试下来稠密模型效果比激活参数小的 MoE 模型好很多。

archxm

3 小时 31 分钟前

@qppq54s 整体看，我是看好 ai 的，确实能提高生产力，比搜索引擎方便。
但如果想要对 ai 进行二次加工，我觉得还是有很多活要干的。

fkmc

3 小时 31 分钟前

fastgpt 云服务先体验下

chioplkijhman

3 小时 19 分钟前

我用向量召回+重排，效果也不好。我也在怀疑 RAG

dsd2077

PRO

2 小时 52 分钟前 via Android

楼主看看这个，这是我们自己实现的 RAG 系统，采用向量+FTS 双重检索，准确率非常的高。更别说那些大厂做的产品了。

sampeng

2 小时 44 分钟前 via iPhone

obsidian+claude code 。大力出奇迹

deepbytes

2 小时 28 分钟前 via iPhone

只要你学得够慢，你就不用学。
ai 时代发展前期，迭代太快，像龙虾之后又来个爱马仕，再迭代 2 个月，再出个占用更低内存，不用 token ，全依赖本地模型，你怎么办……

Lemonadeccc

2 小时 24 分钟前

感觉再过几个月 rag 也没啥用了

huaweii

2 小时 18 分钟前 via Android

rag 的核心是 chunck/sectionization 和 embedding 。

都是需要根据实际使用场景定制才有好的召回效果。当然更灵活的是 agentic rag 但是一样需要定制。

不在乎隐私的试试 notion 。

obsidian 和 anythingllm 这种你要把它们当成一个项目开发的大框架，仔细配置和定制，才能有你这种复杂的使用效果。

coefu

1 小时 38 分钟前

RAG 有门槛的，要一些工程优化的手段。准不准的关键在 rerank 。当然了，细节上肯定是有语义丢失的，要想更精准，还是要新东西支持。RAG 本身就是个过渡方案。一两年之后，还有没有人继续用都是个问题。

给你介绍几个路线，免得被说嘴炮了：
1 ，又多又准，又省资源的路线： https://github.com/EverMind-AI/MSA ，这个技术可以将知识放到内存，省显存方案

2 ，又快又准： https://github.com/mempalace/mempalace ，启动 token O(1) 级别的快，还能记的准。

1 ，难一点，2 ，简单一点。

hefish

1 小时 34 分钟前

我用 maxkb ，社区版。

laminux29

1 小时 31 分钟前

RAG 这种需求非常难做。

如果想把所有文档全量导入 AI ，现有 AI 没有这么大的上下文窗口。前面有人提到 Google 的 NotebookLLM 效果好，是因为它的窗口比其他主流 AI 大，但也只是大一些。当文档数量超出某个数量级，它也会出现问题。

如果做剪枝，比如提取关键字、向量化、分块、甚至引入复杂的搜索引擎与工作流，都容易出现丢失信息与精度不够的问题。

这种情况下，要确保精度，只能学习人类，把文档一页一页地拆解，拆解后的内容与规范文档一段一段地喂给 AI ，这样做虽然精度足够了，但 tokens 与任务完成时间又会爆炸。如果不介意浪费 tokens ，不介意任务运行时间，可以使用这条途径。

Lykos

1 小时 17 分钟前

@GPLer #31 大佬，跑这三个模型，大概要什么配置啊？

Suger828

1 小时 16 分钟前

@dsd2077 图片看不到

zxjxzj9

1 小时 6 分钟前

现在真的应该用 RAG 的是那种超长上下文模型的内部研究. 就目前的个人来说 RAG 确实是上不去下不来,因为 rerank 和嵌入太费劲了,对个人用户来说投入太大.如果公司的文档有个目录,还不如让 ai 直接理解目录层级的语义来 grep 搜索,比 RAG 好用多了.

merkle2222

1 小时 2 分钟前

本来就是有这个缺陷,先做一轮 gerp + 数据清洗,效果会很大提升。

Godykc

50 分钟前

做过跟楼主一样的事，本地 ollama 跑了个 8b 的 qwen 搞 rag
实际是这玩意连函数调用都不支持，效果当然跟智障没啥区别
所以得先搞定模型再谈后面的

dsd2077

PRO

45 分钟前

@Suger828 #44 我这里看起来是正常的也

GPLer

44 分钟前

@Lykos 我自己有一张 3090 24g ，35b 和 27b Q4 用 Ollama 勉强能跑，但是上下文开不高，还是推荐 5090 32g 或 4090 48g ，另外 mac m5 max 64g 版本也是不错的选择，算下来整机成本大概 3w ~ 4w 左右，再往上家用就太贵了。

本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ，但是 qwen 官方量化的 q4 有问题，权重和 fp8 一样大，只能等 qwen3.6 27b 再看看了。

目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型，48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文，非代码类任务用用还行。

---

另外如果不要求长上下文的话，27b 模型 16g + gguf 极限量化应该也能跑，35b 模型内存+显存混合使用应该也能跑，不过我没试过，所以不做推荐

---

丐的方案也有，比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ，但是这些方案要么太老要么功耗太高又没质保，并且我没试过，所以就不推荐了。

HENQIGUAI

31 分钟前

@archxm #27 你要是这么点文档数量的话根本没必要上 RAG,徒增复杂度，还不如直接拼接成一个完整的 markdown 然后直接上传给 gemini 或者 notebooklm 就完事了

Censhuang

16 分钟前 via iPhone

老哥的工程化能力不够，简单的还是不行。今年有个大学要求低算力资源+离线+低参数模型+知识图谱搜索。那你说说这大学怕不是来许愿的。