本地部署 qwq 32b 回答很笨是什么原因

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

This topic created in 403 days ago, the information mentioned may be changed or developed.

昇腾 300i DUO 服务器部署的，显存占用快 160G ，回答问题还挺快的，占用率在 70%+，但是不太会写代码，跟网页版差别巨大。

本地部署

显存占用

回答速度

8 replies • 2025-03-21 17:03:16 +08:00

shelken

Mar 19, 2025 via iPhone

量化的版本了吧

YsHaNg

Mar 20, 2025

https://docs.unsloth.ai/basics/tutorial-how-to-run-qwq-32b-effectively

AndrewHenry

Mar 20, 2025

量化版本吗？调调温度什么的

8675bc86

Mar 20, 2025

@AndrewHenry @shelken @YsHaNg
modelscope download --model Qwen/QwQ-32B
用的是这个，温度和其他设置好像没多大的作用。

又试了一下这个：modelscope download --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B

比上面的那个好一点，也是啰里八嗦，很蠢。

YsHaNg

Mar 20, 2025

@8675bc86 unsloth 的建议是给 ollama 的不知道你的模型加载器是什么

8675bc86

Mar 21, 2025

@YsHaNg 我用的华为那一套 mindie 。

8675bc86

Mar 21, 2025

@YsHaNg 前端用的 openwebui ，在界面配置的温度等配置。

YsHaNg

Mar 21, 2025 via iPhone

@8675bc86 那这建议可能不太适用你得找华为的人