1
YanSeven 5 小时 6 分钟前 agent 可能更合适一点了现在,譬如检索。顶尖的 agent ,譬如 claude code ,codex 已经很精确了。底层也不复杂,不需要什么向量数据库。
|
2
fennu2333 4 小时 56 分钟前 你的需求似乎也不复杂,不想用太多 token 的话向量数据库混合索引的简单 naive rag ,愿意用 token 的话好好组织文件结构用 agentic 搜索应该问题都不大
|
3
archxm OP @YanSeven 我用的本地模型,试了 qwen 和 llama ,感觉 llama 稍微好点。但整体还是难以让人满意。
比如,我文档里,有 logrotate.md ,介绍了日志压缩的一些知识点,logrotate 的一些配置。我在问答里,要求找日志压缩,它告诉我说我库里没这方面的内容。 |
4
archxm OP @fennu2333 需求当然简单,但这是初始需求,先探索一下,后续会把业务文档放进去,那个就量大了。
文档不用能外面的 ai ,数据不能外传,所以用的本地模型,暂时用的小模型,比如 3b 这种。 其实我这种需求,直接用 es 做索引不就行了吗,试一试 LLM 是因为,这不感觉它挺强的吗,必然要尝试新技术。 |
5
sunzhuo 4 小时 52 分钟前 notebooklm 试了吗?我用过完全没有幻觉。
|
6
meteor957 4 小时 46 分钟前 via Android 数据最好是结构化的,chunk 切分合理。我发现召回的 chunk 和文档整体的关联也很困难,比如人物的第一次出场是第几章。
|
8
clemente 4 小时 36 分钟前
rag 是为了省成本的用法.
|
9
coder01 4 小时 33 分钟前 腾讯的 ima 呢?
|
10
Edwardlyz 4 小时 24 分钟前
试试 Engram 吧,等等 deepseek
|
11
elevioux 4 小时 22 分钟前 其实吧,现在 LLM 的上下文已经足够,为什么要切呢,直接喂整页就好了。只要 LLM 能根据问题,定位到所需的一页或几页即可。
|
12
nomansky 4 小时 20 分钟前
还不如先调用 bash mcp 'grep -i ssh*.md' 一波,
|
13
zhaoziling 4 小时 16 分钟前 @archxm 你这种情况,我碰到过类似的,你没法用外面的 AI ,本地模型又是比较小的,只能自己累一点搞复杂一点,首先你的数据是否有结构化的可能,不然不好弄,自己能总结出来或者喂一部分典型样例给 AI 让 AI 总结出来,然后用 AI 对数据进行结构化处理,再整体转成向量化数据库,用的时候配合余弦相似度和元数据索引,效果还可以,向量化用的模型需要你自己好好挑一下,国内有几款比国外的更适配中文
|
14
woshishui2022 4 小时 8 分钟前
用本地搭建的 3b 小模型的使用效果;来评价现在的商用大模型?
再固执的程序员也得承认 AI 有用,而且代码写的很好吧;时代已经来了,抗拒也没用啊 |
15
lu5je0 3 小时 57 分钟前 看了半天,你用的本地 3b 模型。你搁着拿着自己焊的三轮车评价保时捷呢
|
16
archxm OP @sunzhuo notebooklm 是谷歌的吧?我想试,但提示说我所在区域不支持使用。再次询问谷歌 ai ,说让我在外区重新注册账号,太麻烦了,不现实,再说公司内部文档,不方便透露出去,不能调用外部 api
|
18
Livid MOD PRO |
19
archxm OP @woshishui2022 总得有个深入浅出吧?难道我一开始就花 10 几万,买台高端机器,部署 35b 的大模型吗?
|
20
Livid MOD PRO |
21
GPLer 3 小时 50 分钟前 都不说 claude 、gpt 、gemini 御三家了,要测试大模型能力好歹部署个满血的 glm-5.1 、minimax 2.7 、deepseek v3.2 吧,3b 测了跟没测有什么区别。😅
|
27
archxm OP |
29
GPLer 3 小时 39 分钟前 @archxm 3b 模型只能日常对话,基本上没有实用价值,数据量和模型大小没有直接关系,跟上下文长度以及长文本能力有关,3b 也许长文本能力还行,但是模型能力不行也没用。
27b 风评还是不错的,如果效果一般可能是 RAG 配置问题,可以先不用 RAG ,试试都放到一个文件夹里,然后用 opencode 等 agent 平台配置模型,然后将目录所在位置告诉它,测试这种情况下的问答效果,速度会慢很多,但是大模型自己探索后应该能答对,如果这样子可以,后面可以让模型写个 skills ,将检索的技巧做成技能。 |
30
qppq54s 3 小时 36 分钟前 确实难以让人满意,后面真能让人满意了估计又会迎来一波 ai 的爆发
|
31
GPLer 3 小时 34 分钟前 @GPLer 另外 目前家用最强的模型 gemma4 31b 、qwen3.5 27b 、qwen3.6 35b_a3b ,如果要测试最好在这三个里选,测试下来稠密模型效果比激活参数小的 MoE 模型好很多。
|
33
fkmc 3 小时 31 分钟前
fastgpt 云服务 先体验下
|
34
chioplkijhman 3 小时 19 分钟前 我用向量召回+重排,效果也不好。我也在怀疑 RAG
|
35
dsd2077 PRO |
36
sampeng 2 小时 44 分钟前 via iPhone obsidian+claude code 。大力出奇迹
|
37
deepbytes 2 小时 28 分钟前 via iPhone
只要你学得够慢,你就不用学。
ai 时代发展前期,迭代太快,像龙虾之后又来个爱马仕,再迭代 2 个月,再出个占用更低内存,不用 token ,全依赖本地模型,你怎么办…… |
38
Lemonadeccc 2 小时 24 分钟前
感觉再过几个月 rag 也没啥用了
|
39
huaweii 2 小时 18 分钟前 via Android rag 的核心是 chunck/sectionization 和 embedding 。
都是需要根据实际使用场景定制才有好的召回效果。当然更灵活的是 agentic rag 但是一样需要定制。 不在乎隐私的试试 notion 。 obsidian 和 anythingllm 这种你要把它们当成一个项目开发的大框架,仔细配置和定制,才能有你这种复杂的使用效果。 |
40
coefu 1 小时 38 分钟前 RAG 有门槛的,要一些工程优化的手段。准不准的关键在 rerank 。 当然了,细节上肯定是有语义丢失的,要想更精准,还是要新东西支持。RAG 本身就是个过渡方案。一两年之后,还有没有人继续用都是个问题。
给你介绍几个路线,免得被说嘴炮了: 1 ,又多又准,又省资源的路线: https://github.com/EverMind-AI/MSA ,这个技术可以将知识放到内存,省显存方案 2 ,又快又准: https://github.com/mempalace/mempalace ,启动 token O(1) 级别的快,还能记的准。 1 ,难一点,2 ,简单一点。 |
41
hefish 1 小时 34 分钟前
我用 maxkb ,社区版。
|
42
laminux29 1 小时 31 分钟前 RAG 这种需求非常难做。
如果想把所有文档全量导入 AI ,现有 AI 没有这么大的上下文窗口。前面有人提到 Google 的 NotebookLLM 效果好,是因为它的窗口比其他主流 AI 大,但也只是大一些。当文档数量超出某个数量级,它也会出现问题。 如果做剪枝,比如提取关键字、向量化、分块、甚至引入复杂的搜索引擎与工作流,都容易出现丢失信息与精度不够的问题。 这种情况下,要确保精度,只能学习人类,把文档一页一页地拆解,拆解后的内容与规范文档一段一段地喂给 AI ,这样做虽然精度足够了,但 tokens 与任务完成时间又会爆炸。如果不介意浪费 tokens ,不介意任务运行时间,可以使用这条途径。 |
45
zxjxzj9 1 小时 6 分钟前 现在真的应该用 RAG 的是那种超长上下文模型的内部研究. 就目前的个人来说 RAG 确实是上不去下不来,因为 rerank 和嵌入太费劲了,对个人用户来说投入太大.如果公司的文档有个目录,还不如让 ai 直接理解目录层级的语义来 grep 搜索,比 RAG 好用多了.
|
46
merkle2222 1 小时 2 分钟前
本来就是有这个缺陷,先做一轮 gerp + 数据清洗,效果会很大提升。
|
47
Godykc 50 分钟前
做过跟楼主一样的事,本地 ollama 跑了个 8b 的 qwen 搞 rag
实际是这玩意连函数调用都不支持,效果当然跟智障没啥区别 所以得先搞定模型再谈后面的 |
49
GPLer 44 分钟前
@Lykos 我自己有一张 3090 24g ,35b 和 27b Q4 用 Ollama 勉强能跑,但是上下文开不高,还是推荐 5090 32g 或 4090 48g ,另外 mac m5 max 64g 版本也是不错的选择,算下来整机成本大概 3w ~ 4w 左右,再往上家用就太贵了。
本来 24g 显存显卡最合适的是用 vllm 跑 27b q4 ,但是 qwen 官方量化的 q4 有问题,权重和 fp8 一样大,只能等 qwen3.6 27b 再看看了。 目前公司里用 A6000 48g 和 4090 48g 在用 vllm 私有化部署模型,48g 显存部署 fp8/q8 精度上下文能拉满原生 256k 上下文,非代码类任务用用还行。 --- 另外如果不要求长上下文的话,27b 模型 16g + gguf 极限量化应该也能跑,35b 模型内存+显存混合使用应该也能跑,不过我没试过,所以不做推荐 --- 丐的方案也有,比如 v100 32g x4 、2080ti 22g x2 、3090 24g x2 、m1 ultra 128g 、m2 ultra 128g/256g ,但是这些方案要么太老要么功耗太高又没质保,并且我没试过,所以就不推荐了。 |
50
HENQIGUAI 31 分钟前
@archxm #27 你要是这么点文档数量的话根本没必要上 RAG,徒增复杂度,还不如直接拼接成一个完整的 markdown 然后直接上传给 gemini 或者 notebooklm 就完事了
|
51
Censhuang 16 分钟前 via iPhone
老哥的工程化能力不够,简单的还是不行。今年有个大学要求低算力资源+离线+低参数模型+知识图谱搜索。那你说说这大学怕不是来许愿的。
|