V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  slowgen  ›  全部回复第 5 页 / 共 28 页
回复总数  555
1  2  3  4  5  6  7  8  9  10 ... 28  
2025 年 2 月 15 日
回复了 lucien94xxx 创建的主题 Local LLM Deepseek R1 671B 本地部署计算机硬件配置?
什么并发要求?
https://x.com/carrigmat/status/1884244369907278106 6000 美元,用双路 epyc + 24 通道 ddr5 跑 q8 规格,6~8 token/s ,实际功耗不到 400w ,当然随着上下文越大每秒 token 数会下降,而且不出意外并发只有 1 。

然后最近又出了一个更多快好省的方案 KTransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
https://www.reddit.com/r/LocalLLaMA/comments/1ilzcwm/671b_deepseekr1v3q4_on_a_single_machine_2_xeon/

将闲置的专家从内存中卸载、将核心专家放入显存而边缘专家放入内存,和 23 年年底上海交大那个 PowerInfer 思路很像,充分利用 CPU 和 GPU 的资源,按照上面的 cpu 方案加几块卡就够了。


需求不急的话可以等一波,先用着各种供应商提供的 api ( together.aifireworks.ai 等)
2025 年 2 月 15 日
回复了 raw0xff 创建的主题 Local LLM 想让本地运行的大语言模型可联网该怎么做?
https://docs.openwebui.com/features/ 这个集成了搜索,源码里集成了好几家搜索引擎,免费的话用的是 duckduckgo 的 https://github.com/open-webui/open-webui/blob/2017856791b666fac5f1c2f80a3bc7916439438b/backend/open_webui/retrieval/web/duckduckgo.py#L12 ,在容器里配个 http_proxy/https_proxy 或者丢海外部署就好了。
2025 年 2 月 3 日
回复了 importmeta 创建的主题 Node.js 吐槽一下 Nest.js 太复杂了
Nestjs 封装是有点过度了,既然是 TypeScript 这种语言加上 Node 的 runtime ,很多东西是可以做减法的。
我用的时候就做了很多减法,比如:
service 全部用 static 函数,就不需要注入了,要 mock 直接 class.method = function(){},要是非 static 的就 class.prototype.method 重新赋值来覆盖;
Providers 直接不用,官方案例简直是神经病连 HttpClient 都封装一层,它以为自己在用.NET 上吗,还不如开个文件在里面定义个常量然后导出,不也是全局唯一的吗;
Guards 也放弃,哪来那么多策略,直接在 Middleware 里简单鉴权就行了,复杂的我宁愿单独写一个 api 网关;
Modules 只拿来做业务模块区分,里面只引入控制器;

现在,我直接换 hono 了,搞个 module 文件夹自己分层就好了
2025 年 2 月 3 日
回复了 leenhawk2 创建的主题 程序员 安卓 16 支持 Linux 子系统了
连 Linux 子系统都支持了,按这个发展说不定再迭代几个版本就把 Chrome OS 给合并完了,然后放弃 Chrome OS
2025 年 2 月 1 日
回复了 scienhub 创建的主题 程序员 腾讯云的 nodejs sdk 安装后 85M
@datou 看走眼了,还以为只用了腾讯云的 cos 。要是用 deno 的话在代码目录就可以没有 node_modules 了,眼不见为净。

to 楼主,node 项目我以前用 pkg 打成二进制放容器里的,整个 Docker 镜像压缩后只有 60~70MB 左右,还挺好用
2025 年 2 月 1 日
回复了 scienhub 创建的主题 程序员 腾讯云的 nodejs sdk 安装后 85M
已经不用 Node 了,现在小项目在选 Deno 和 Bun 。Bun 在 1.2 内置了 S3 和 Postgres 客户端,可以给项目做不少减法 https://bun.sh/blog/bun-v1.2
2025 年 1 月 30 日
回复了 bwijn 创建的主题 Python scrapy 的 item 队列把内存挤爆
scrapy 出来的时候还没什么 serverless 的概念,都是靠堆机器的方式来增加抓取规模,但是它的 IO 和计算没有分离,必然造成你现在这个局面。
一旦你加入队列来把 IO 和计算分离之后,你会发现你也用不上什么 scrapy 自己的东西了。
除非你的清洗是视频转码之类的众生平等的耗时任务,如果是单纯搞搞字符串之类的,可以使用 cloudflare worker 把计算部分分离出去,甚至把 IO 部分也可以分离出去( IO 等待不计时,deno deploy 也是)。
2025 年 1 月 8 日
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
@dongfanga 不好说,等产品出来了有评测对比才知道。Mac 跑大模型的劣势就是到目前为止还用不上 NPU ,白白浪费了性能,纯 GPU 在那算,跑激活参数越大的模型越吃亏,72B 就已经很慢了
2025 年 1 月 7 日
回复了 yhtbiy 创建的主题 NVIDIA RTX 5090,1999 美元,各位老哥准备入手嘛
https://nvidianews.nvidia.com/news/nvidia-puts-grace-blackwell-on-every-desk-and-at-every-ai-developers-fingertips GB10 更有看头,跑本地大模型专用,128G 统一内存,3000 美元起售,5 月开卖,不知道国内搞到的成本要多少
2025 年 1 月 6 日
回复了 passon 创建的主题 美酒与美食 茶叶有没有科技
茶水发霉与否,不是和细菌繁殖条件相关的吗?我做的冷泡茶基本上放冰箱 2 周还能喝,保证容器干净就行。
Cloudflare Workers 连冷启动都没有,而且 IO 等待的耗时不计在内,只算 CPU 时间,比 Serverless 好太多了
2024 年 12 月 24 日
回复了 bk20177 创建的主题 买买买 2024 年马上结束了,今年买的最值得的东西是什么
迪卡侬山地车 EXPL500 ,重新激发了对运动的喜爱,经常骑出去溜圈,身体健康了很多
@kaichen 你这个链接里恰巧说明了 Qwen2.5.1-Coder-7B-Instruct 这个 7B 的模型即使在 8bit 量化下也非常接近 gpt4 啊
2024 年 11 月 6 日
回复了 Jak 创建的主题 Android OPPO 授权体验店购买一加 13 的垃圾体验
后续结果不错,恭喜楼主了,送三无充电宝就是送炸弹,就算是自己要丢掉也要放那种处理有害垃圾的桶,丢街边的垃圾桶万一太阳照射下高温起火了也是很可怕的事情。

1:充电宝强制 3C 认证了
自 2023 年 8 月 1 日起,对锂离子电池和电池组、移动电源实施 3C 认证管理;自 2024 年 8 月 1 日起,未获得 3C 认证证书和标注认证标志的,不得出厂、销售、进口或者在其他经营活动中使用。

2:充电宝有国标
https://std.samr.gov.cn/gb/search/gbDetailed?id=71F772D82450D3A7E05397BE0A0AB82A
https://openstd.samr.gov.cn/bzgk/gb/newGbInfo?hcno=7256184719B195F1E60A1610156A1C76

里面明确提到了必须印刷的信息、材料的阻燃等级、环境适应性里不得爆炸和起火。

这些年也有不少充电宝起火和爆炸的新闻,不符合标准的充电宝连飞机都上不去,我对待电池相关产品一直都是小心翼翼的,生怕家里有电池鼓包起火,所以非常理解楼主。
2024 年 11 月 5 日
回复了 dafen7 创建的主题 程序员 最低成本本地运行 70B 模型, V 友有哪些建议
@dafen7 mac book pro 能跑 70B 吗?能
带宽不足吗?不足,所以速度慢
慢多少?带宽是 Ultra 的多少,速度就是 Ultra 的多少,看 https://github.com/ggerganov/llama.cpp/discussions/4167 可以发现带宽就是首要的决定因素,而且模型越大,带宽瓶颈需求就越大,特别是 70B 这个体量,传输都不够了,算得再快都没用
2024 年 11 月 5 日
回复了 Jak 创建的主题 Android OPPO 授权体验店购买一加 13 的垃圾体验
送三无充电宝和送炸弹有什么区别,肯定要较真啊,不保留好证据万一起火爆炸时起诉都麻烦
2024 年 11 月 4 日
回复了 dafen7 创建的主题 程序员 最低成本本地运行 70B 模型, V 友有哪些建议
P40 很垃圾的,10 张 P40 加一起速度还没到 M2 Ultra 的 1/3
2024 年 10 月 31 日
回复了 babyedi31996 创建的主题 程序员 本地部署大语言模型哪家强?
@LaTero 是的,更多的优质数据训练出来的模型就是底大一级压死人,roll 到好的回答的几率高很多。但是大的模型对硬件的要求也很高,本地难部署,期待未来会有个更好的架构,基础模型是个智商和学习能力都很强的白纸,然后选择外挂要用到的知识库进行对话,那样就爽了。
2024 年 10 月 31 日
回复了 babyedi31996 创建的主题 程序员 本地部署大语言模型哪家强?
@babyedi31996 我当时是买官方翻新的,不到 4.5w 。现在肯定不买,按刚出的 M4 Max 内存带宽推断 M4 Ultra 内存带宽应该能超过 1000GB/s 了,跑推理的速度比 M2 Ultra 要快 1/4 ,不急的话还可以等官方翻新 + 员工优惠叠加更便宜。教育优惠貌似不能在 studio 上使用
1  2  3  4  5  6  7  8  9  10 ... 28  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2645 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 43ms · UTC 11:02 · PVG 19:02 · LAX 04:02 · JFK 07:02
♥ Do have faith in what you're doing.