1
tool2dx 22 小时 12 分钟前 via Android
预感今年的本地小模型要全面崛起了。
|
2
Tink PRO mlx 量化的好像也出来
|
3
ethusdt 22 小时 0 分钟前 有没有可能这些测试题都被硬编码进去了,就像之前 9.11 比大小和草莓几个 r 这种问题,之前会被硬编码进模型。
|
4
gpt5 21 小时 58 分钟前 这个问题被传播太广了,估计已经进题库了。
|
5
xiaoz 21 小时 57 分钟前
一个单一片面的问题不能说明什么吧,不用死磕一个问题,个人观点。
|
6
OctopusGO 21 小时 55 分钟前
嗯嗯
|
8
gkiwi 21 小时 39 分钟前
qwen3.5-27b 也可以,如果可以再缩小 10 倍,估计未来很多都可以本地运行低级任务 + 远程的高级任务
|
10
tomclancy 21 小时 35 分钟前
能解开道德限制吗?之前 gemma3 道德限制比 Gemini 都邪门
|
11
FakerLeung 21 小时 31 分钟前
这是题库了
|
12
DonaldY 21 小时 30 分钟前
刚试了 qwen3.6-plus ,回答还是错的。
At just 50 meters (about 164 feet), you should definitely walk. Here's why: ⏱️ Faster overall: Starting the car, backing out, driving 50m, finding a spot, and parking will almost certainly take longer than a 30–40 second walk. ⛽ Saves fuel & reduces wear: Short trips like this are highly inefficient for combustion engines. They don't reach optimal operating temperature, which increases fuel consumption, oil dilution, and long-term wear. (Even in an EV, it's unnecessary energy use.) 🌍 Zero emissions: Walking for 50 meters has no carbon footprint. 💡 Practical tip: Unless you're carrying heavy equipment, have mobility limitations, or it's actively pouring rain, walking is the smarter choice. Grab your supplies, enjoy the short stroll, and save your car the pointless start-stop cycle. Your wallet, engine, and the environment will thank you. 🚶♂️🚗💨 |
14
silypie 21 小时 23 分钟前
deepseek 之前不行,现在也可以了,感觉针对性训练过
|
16
villivateur 21 小时 15 分钟前
|
17
eroneko 21 小时 14 分钟前
本地部署的 qwen3.5 a35b 都可以,估计已经进题库了
|
18
Livid MOD OP PRO @villivateur 你试的是 4b 模型。如果试试 31b 模型呢?
|
19
villivateur 21 小时 10 分钟前
@Livid 搞不定,显存只有 12GB ,难受
|
20
AlbertGuo 20 小时 50 分钟前
26b 不太行。而且有时能说出来有时不行。
|
21
zololiu 20 小时 49 分钟前
|
23
archxm 20 小时 44 分钟前
能不能打 dota ?
|
24
AlbertGuo 20 小时 42 分钟前
31b 不开思考就不行了。
ollama run gemma4:31b --think=false >>> I want to wash my car, the car wash is 50m away, should I walk or drive? You should **walk**. Here is why: 1. **Efficiency:** By the time you start the engine, shift into gear, drive 50 meters, and find a place to park or queue, you could have already walked there. 2. **Logic:** If you drive the car to the wash, you have to leave it there to pay or move it through the system. If you walk, you can check the line, pay first, or prepare your supplies without idling the engine. 3. **Environmental impact:** Idling a car for a distance as short as 50 meters is inefficient for the engine and wastes fuel. **The only exception:** If you are towing a trailer or have a passenger with mobility issues, then obviously, drive. Otherwise, it's a 1-minute walk! |
25
hanswu 20 小时 40 分钟前
GPT 开思考
Walk. At 50 meters, walking is faster once you include getting in, starting the car, and parking again. It is also easier and a bit ridiculous in a good way to drive that distance. Only drive if: the weather is awful you need to move the car there for the wash itself the car is not currently at the wash location and must be brought over If the car is already with you and needs to end up at the wash, the real answer is: drive the car there, but you personally are not “choosing driving over walking” for convenience. |
26
florentino 20 小时 27 分钟前
@dacapoday 内存压缩啊,我看压缩效率很高: https://github.com/TheTom/turboquant_plus , 这个还是根据谷歌论文自己实现的,谷歌内部实现要是开源出来,估计效率应该更高
|
27
SilentOrFight 20 小时 17 分钟前
@DonaldY #12 我在 opencode 上的 qwen3.6 plus 很快正确回答啊
|
28
liuliuliuliu PRO @archxm
``` Dota2 冠军 OG 如何被 AI 碾压? OpenAI 论文给答案 2019-12-14 20:57 在人工智能 OpenAI Five 面前,OG 不堪一击。五个人类组成的战队,此前全程毫无悬念地以 0:2 败下阵来,两局加在一起,OG 只推掉了两座外塔。 ``` 关键字:2019 年, OpenAI, dota2 冠军 |
29
zololiu 19 小时 58 分钟前
|
30
DonaldY 19 小时 54 分钟前
@SilentOrFight 我在百炼上用的,深度思考模式。
|
31
wzw 19 小时 52 分钟前
有没有可能, 是有类似数据进去了, 所以思考到了, 再问一个类似的问题?
|
32
spacezip 18 小时 13 分钟前
这问题豆包除夕当天连夜进库。。。。
|
34
gkiwi 17 小时 52 分钟前
@Livid #9 遇到过。我是 4090 24G ,openclaw+qwen3.5-27b ,context 256K 太大了,一个 session 运行越久就越容易超时卡住。后来尝试了 context 32K 就很容易触发上下文 compact ,单个问答会更久,但不容易卡住超时。最好就是新建 session 缓解。再卡住就重启 openclaw gateway 了。。
|
35
AoEiuV020JP 16 小时 55 分钟前
快只能说明针对性训练过了, 有没有人开发个同类型的陷阱题验证一下, 当出题老师的应该擅长这些,
|
37
zololiu 16 小时 2 分钟前
|
38
liu731 PRO 48GB M4 Pro 运行不起来,扎心~
|
39
fredweili 15 小时 59 分钟前
不能说明什么,也许还是过拟合
|
40
archxm 15 小时 28 分钟前
@liuliuliuliu ai 在 apm 上作弊了。限制了 apm ,也就是每分钟操作,但没限制住每秒的。那次比赛,好像有几秒,ai 操作达到 3 千的 瞬时 apm 。
你看最近几年,这玩意就不热了,为啥,因为确实难。 ai 作为游戏玩伴,肯定需要赋予一些人性的。不然,瞬时 apm 爆发,那优势太大了。 |
41
silencelixing 14 小时 59 分钟前 via Android
这是多少 G 的 mac 运行的啊,我的 m4 16g 根本跑不起来
|
43
webcape233 14 小时 54 分钟前 via iPhone
千问 3.5 9b 8bit 量化都能正确回答这个问题
|
45
Hermitist 14 小时 45 分钟前
@Livid 我用了 qwen3.5-35(跑在 macbook air M5 32G 内存机器上), 可以做到 35tokens/s, 降速也能做到 15-25tokens/s, 内存大概在 75-90%, 我感觉完全可以本地用上了.
![]() |
46
RocksLee 12 小时 50 分钟前
本地运行。
Qwen3.5 35B 通过 Qwen3.5 27B 通过 Qwen3.5 9B 不通过 Gemma4 31B 通过 Gemma4 26B 通过 Gemma4 e4B 不通过 |
47
ImINH 12 小时 45 分钟前
@ethusdt 大模型没有硬编码的逻辑,都是向量,原因应该是小模型本来就是蒸馏出来的,只要基础模型能解决这个问题,上下文不长的问题,就自然小模型可以解决。
|
48
mogutouer 12 小时 14 分钟前
这条问题太多人问了,所以新模型用新资料训练 100%能答出来
|
50
zzutmebwd 11 小时 20 分钟前 via Android
我发现类似规模 moe 的表现差 dense 差很多,对 nv 这种显存小算力高的还是 dense 好,对于 mlx 或者 amd ai max 这种堆显存的还是 moe 。我是两张 4080s 32g ,准备跑 31b 原版看能不能塞下,不行就 fp8 ,作为家庭服务模型使用
|
51
ccsexyz 11 小时 18 分钟前 测试了一个洗车问题的变体,Gemma 4 失败了,Gemini 3.1 Pro 没问题。
Prompt: 我家汽车漆面划伤了,我要去离家 50 米的汽修店补漆,我应该步行还是骑自行车去? |
54
firemeteor 10 小时 23 分钟前 via Android
这种小模型能写代码吗?
|
55
projectjiaqi00 10 小时 17 分钟前
你们都是什么配置电脑能参考下都可以跑 31B 的?你们是刚买的还是?分享下配置参考下
|
56
touzi PRO gemma4:e4b m1 的 32g 速度很快, 单从速度上看完全可以日常使用. 但是洗车问题没跑过去...
|
57
JoshTheLegend 7 小时 38 分钟前
难说到底是想通了还是训狗训出来了
|