V2EX › slowgen 的所有回复 › 第 1 页 / 共 28 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 2 3 4 5 6 7 8 9 10 ... 28

❮

❯

3 月 27 日

回复了 BeijingBaby 创建的主题 › Node.js › 2026 年， node 写后端你用的 nestjs, fastify, honojs 还是其他？

看你自己技术品味。

喜欢 Java 系：用 Nest.js 。印象中 Nest.js 是 Node 中第一个出现的纯 TypeScript 的后端框架，在早期可以用它得到比较好的类型提示的收益，现在收益不大，而且 TypeScript 和 Java 在运行阶段有本质的不同，Nest.js 属于过度设计了，很多操作脱裤子放屁。所以我后面把 Nest.js 的项目都迁移到 Hono 了，顺便迁移到 Deno 减少了很多依赖。

喜欢 Laravel/Ruby On Rails：用 AdonisJS 。它前几个版本一直没有拥抱 TypeScript ，现在的版本拥抱了。

想要部署在 edge 得到弹性伸缩和打不死：选 Hono 。可以跑在 Cloudflare Worker 上，Cloudflare 不死你就不死，连服务器都不用维护，减少了非常多的攻击面。

想要服务端渲染做 SEO：选 Deno 的 Fresh 。讲真 Node 从 v16 到现在的更新一点都不吸引人，大家都是套 V8 ，Deno 在生产可靠性比 Bun 好，API 比 Node 友好，非常适合做减法，哪怕是纯后端我现在也都是用 Deno 跑…哦不对，我新开的项目都去用 Go 了，逃（

3 月 27 日

回复了 lw10645 创建的主题 › 骑行 › 山地车 or 公路车？

@mewking 对，轮子和缝隙是平行，轮胎宽度不够骑上去就容易打滑。除了高低缝隙，井盖也是危险项，突起的边缘和那种川字型铺设在骑行道前进方向的排水井盖，公路车的轮子卡进去的概率也很高。

3 月 25 日

回复了 eviladan0s 创建的主题 › 信息安全 › Apifox 遭受供应链攻击

乐，建议结合 https://0.51bbc.workers.dev/t/1159283 一起看

3 月 25 日

回复了 lw10645 创建的主题 › 骑行 › 山地车 or 公路车？

要么山地车，要么瓜车。

1500 价位：
坎普（ CAMP ） GX300 近期低价在 1600 元左右，可以在什么值得买上面看下攻略；
佳沃 JAVA ALBA ，1599 元

“不会有太烂的路”是个迷惑项，绿道的凸起形成高低缝、砖头铺的路裂开有高低砖都可能让公路车摔一下，过节放烟花捆烟花的那个铁丝随便丢在水道也可能扎爆公路车的胎。

我去年骑了 7000+公里，单次骑 30km 、50km 、80km 的河边水道线路，用山地车骑的有 5000+公里从没出过事，但是骑迪卡侬 Riverside 900 这个 38C 胎的都被高低缝摔过 2 次、绿道滑过 2 次。

3 月 25 日

回复了 xitler 创建的主题 › 程序员 › [纯吐槽]没想到 minimax 会这么难用

官方算力不够所以可能降智了，说不定 together.ai 和 fireworks.ai 这种自己部署的会好一点，毕竟海外不缺算力。
我是自建的，用了 4 张 H20 跑 MiniMax M2.5 的 FP8 量化，挺好用的，无限 token 给了我很大想象力。再低成本一点可以 2 张 RTX Pro 6000 跑 NVFP4 ，或者等 M5 Ultra 出来，不要买 M5 之前的版本因为 prefill 慢。

3 月 24 日

回复了 guke1991 创建的主题 › 分享创造 › 程序员又头铁，尝试写仙侠小说了，求骂醒

简介和黄金三章都毫无吸引力，在第 200 字还没一个吸引人的点，接下来的章节很难看下去

3 月 21 日

回复了 CalciumIon 创建的主题 › 程序员 › 看到中转造假的文章，作为中转系统 New API 作者真的很心寒

任何正经项目都可以被拿去魔改，这个避免不了，New API 只是因为 LLM 热度太高撞枪口上了。
我自己就在部署 New API ，用来聚合自己在服务器上部署的不同的 vLLM / SGLang 还是很方便的。

2 月 25 日

回复了 rmrf 创建的主题 › 程序员 › 这个推理速度也太快了吧！ chatjimmy.ai 比查 db 都快啊！

@mewking code 的能力差不多（仅针对我的 Go 和 TypeScript 需求），agent 的话 Qwen3-Coder-Next 差一点。
最近在搞创意类的东西，Step-3.5-Flash 的创意非常差，MiniMax M2.5 好很多。

现在的模型根本测不完……今天凌晨 Qwen3.5 中等型号发布，Qwen3.5-35B-A3B 直接打上一代 235B ，4bit 量化还几乎无损，太夸张了……去年还有很多项目是基于 235B 跑的，现在成本直接暴降了，等年底这个尺寸的模型不知道又能暴打什么了。

试想一下今年年初的 Qwen3.5-397B-A17B 水平的模型明年被 35B 尺寸的模型打，还被刻到本贴的芯片里，直接上万 token/s 输出的话，都不敢想能拿来做什么。

2 月 24 日

回复了 Astralume 创建的主题 › 生活 › 厨艺不精，养锅太难，友们推荐一个不粘锅吧（也欢迎推荐其他厨房好物）

煎东西粘锅肯定是温度不够，温度不够的原因大概率是因为没吸干肉表面的水分，有水进去温度就不够容易粘，而且也不容易发生美拉德反应（毕竟水温上限也就 100 度）。
或者你参考冷煎法： https://www.bilibili.com/video/BV1jUmbBFEhZ 反向利用粘的特性，煎好的那一面自己会脱落，然后就可以翻面了，非常简单。

2 月 24 日

回复了 Astralume 创建的主题 › 生活 › 厨艺不精，养锅太难，友们推荐一个不粘锅吧（也欢迎推荐其他厨房好物）

我以前也是用不粘锅，后面看了铁锅不沾的原理之后就都是用铁锅了，所谓的养锅都是物理化学没学好也不知道底层原理所以口口相传搞出来的，压根不需要养，大胆用洗洁精就完事了。https://www.bilibili.com/video/BV1yhpjeKETT/

2 月 22 日

回复了 rmrf 创建的主题 › 程序员 › 这个推理速度也太快了吧！ chatjimmy.ai 比查 db 都快啊！

这才第一款，刻了个老得不行的 LLama3.1 8B ，要知道去年 Qwen3 30B A3B 2507 系列和 GPT-OSS-20B 系列在对话任务上就很能打了（对话模式下写 Go 的准确性很高）。

如果它能塞下 Qwen3-Coder-Next 这个 80B 的模型，甚至 196B 的 Step-3.5-Flash ，整机定价低于 3 万都算白菜价了（对比苹果官翻的 M2 Ultra 192GB ）。这个时候应该考虑的是当 token 成本趋于 0 的时候用来干什么了。

1 月 29 日

回复了 summerLast 创建的主题 › Local LLM › 30B 尺寸哪个小模型编码能力会好一些

GLM-4.7-Flash

1 月 21 日

回复了 yifangtongxing28 创建的主题 › Local LLM › 个人玩 ai，显卡最低起步是 5080 嘛？

@yifangtongxing28 大显存 + 凑多张，比如 4 张 4090 魔改的 48G ，或者 4 张 5090 32G ，或者 RTX PRO 6000 96G 。
算力差不多就够用了，举个例子，5 秒总帧数 81 帧的 480x480 视频，在 M2 Ultra 要 1 小时，一张 2080ti 22g 要 120 秒，一张 7900XTX 也是 120 秒左右，一张 5090 就只需 20 多秒，一张 H20 也是 20 多秒。
但是如果你要做 1080x720 分辨率的视频，差距就更大了，因为一张卡的显存可能会爆，比如你用 LTX2 这个能同时生成声音的模型，一张卡也不够用了，除非用社区的量化方案。不同量化程度的方案出来的画质也不一样，需要自己去评估的。
我现在做短剧，一人用一张 H20 ，做 5 秒的精细镜头，单张显卡的显存占用就来到了 70G 。

1 月 21 日

回复了 yifangtongxing28 创建的主题 › Local LLM › 个人玩 ai，显卡最低起步是 5080 嘛？

16g 在 AI 眼里是电子垃圾，你这个价格买两张 2080ti 22g 或者 7900xtx 24g 都更好，能退就退了。不信邪的话去 autodl 租个 4090 或者 5090 跑 comfyui 生成 720p 规格，一秒 15 帧，持续 5 秒的视频，看 nvidia-smi 显存占用。

目前买 API 便宜的只针对 LLM 和图片类，要是玩视频那是贵上天的，重度使用要么租卡要么自己买卡。

1 月 15 日

回复了 after1990s 创建的主题 › Local LLM › intel b60 48G 可以买吗

这个售价飘了，不如 2 张 AMD 的 7900XTX

2025 年 12 月 21 日

回复了 Mohanson 创建的主题 › 分享创造 › 新书 <Learn me a solana> 写完了, 从码字大师复归常人，评论区留下 solana 地址, 我来发纪念币庆祝一下~

A4YJGZtiFZJywxC3vmK7aJngFJWCotVLbfFQ5TgvaAwx 感谢

2025 年 12 月 3 日

回复了 fingers 创建的主题 › 问与答 › AI 分析视频的底层逻辑是什么，成本有多高？

https://yiyan.baidu.com/blog/zh/posts/ernie-4.5-vl-28b-a3b-thinking/ 自己部署一个玩呗

2025 年 12 月 3 日

回复了 street000 创建的主题 › Node.js › Anthropic 收购 Bun

其实是不太利好 Deno 的一集，Deno 那个 compile 只是把代码无脑合并成一个文件（连压缩都没，注释还保留着）再嵌入 Deno 里，Bun 的 compile 虽然也是合并代码后嵌入到 Bun ，但是还可以 minify + bytecode ，比 Deno 小个几十 MB 。

虽然 Bun 的稳定性一般，但是拿来做客户端工具太爽了，不去和 Deno 、Node 在服务端领域竞争的话没对手

2025 年 12 月 3 日

回复了 cnhongwei 创建的主题 › Local LLM › 各位 AI 大佬，请教一下私有化部署 AI 模型的问题?

去 https://chat.qwen.ai/ 和 https://chat.z.ai/ 选择带 V 型号的模型，把脱敏或者不重要的图片丢进去问，如果能满足需求就可以按照这些模型大小买硬件。

OCR 能力可以体验 https://huggingface.co/spaces/tencent/HunyuanOCR ( https://huggingface.co/tencent/HunyuanOCR ) 和 https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo ( https://huggingface.co/PaddlePaddle/PaddleOCR-VL ) ，不到 1B ，是个电脑都能跑。

5w 以内能买的性价比最高就是 192GB 的官方翻新的 Mac Studio Apple M2 Ultra (24 核 CPU + 60 核的 GPU)那款，跑个 gpt-oss-120B 和 Qwen3-Next-80B-A3B 都很轻松，再跑一个带视觉能力的模型就可以了，2 个模型同时加载也不会爆显存，一起干活挺快的，难度高点就跑 Qwen3-VL-235B-A22B 。192GB 统一内存的好处是未来出了新模型大概率也能跑，不像 4090 48GB,5090 32GB 这种要凑多卡容易爆预算加爆显存。

AMD 的 Max+ 395 这些的瓶颈在于内存带宽，太弱鸡了，能跑但是跑不快，速度只有 M2 Ultra 的 1/3 ，也就跑个 Qwen3-VL-30B-A3B ，如果你体验下来能满足的话，倒也不是不行。

2025 年 11 月 21 日

回复了 wenerme 创建的主题 › 程序员 › LLAMA CPP 比 Ollama 快得多

ollama 就是个废物，在 r/LocalLLaMA 都被喷了好多回了，精准控制参数贼麻烦，还不如直接去 llama-server 看参数 https://github.com/ggml-org/llama.cpp/tree/master/tools/server

而且现在 llama.cpp 自带的 webui 也挺好用的，越来越强大了，缺点就是多个模型加载有点麻烦，要开多个命令。
在 mac 上用 llama.cpp 是最方便的，去 release 页下载编译好的文件就好了，只有 15MB ，追新模型很方便。
举个例子：我跑 gpt-oss-120b 模型，开中等级别推理，这个命令就搞定

/Users/admin/llama/build/bin/llama-server \
-m /Volumes/RC20/lmstudio-community/gpt-oss-120b-GGUF/gpt-oss-120b-MXFP4-00001-of-00002.gguf \
--host 0.0.0.0 \
--port 50505 \
-fa on \
-np 4 \
-ub 2048 -b 2048 \
-c 131072 \
--presence-penalty 1.1 \
--n-gpu-layers 99 \
--jinja \
--alias openai/gpt-oss-120b \
--chat-template-kwargs '{"reasoning_effort": "medium"}' \
--temp 1.0 \
--top-p 1.0 \
--top-k 0

Windows 上同理，下载对应的文件解压就用

Linux 上也很方便，N 卡的话直接 cuda13 驱动一装，docker 配置一下 nvidia 作为 runtime 完事

docker run --gpus all \
-v /home/slowgen/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf:/models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-p 12345:12345 \
ghcr.io/ggml-org/llama.cpp:server-cuda \
-m /models/Qwen3-Coder-30B-A3B-Instruct-UD-Q4_K_XL.gguf \
-c 40960 \
-np 4 \
--jinja \
--n-gpu-layers 99 \
--temp 0.7 \
--min-p 0.0 \
--top-p 0.8 \
--top-k 20 \
--presence-penalty 1.05 \
--port 12345 \
--host 0.0.0.0 \
--mlock \
-mg 0

1 2 3 4 5 6 7 8 9 10 ... 28

❮

❯