上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。
今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。
可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。
1
gpt5 4 小时 7 分钟前
我也很明显感受到了它现在经常颠三倒四
|
2
yougo 3 小时 53 分钟前
https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
|
3
hitrip 3 小时 45 分钟前
不一定是永久降智,有时候是环境 bug 引起的
|
5
nc 3 小时 40 分钟前
A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
|
6
FqwKVgsv 3 小时 33 分钟前
非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
|
8
whoosy 3 小时 29 分钟前
升级到 2.1.104 版本再试试,昨天已经变聪明了
|
9
potatowish 3 小时 5 分钟前 via iPhone
api 也降智? 价格还是一样的
|
10
fredweili 2 小时 36 分钟前
opus 贵的多,就用 sonnet
|
11
yuruizhe 1 小时 45 分钟前
降智是什么意思?
|
12
66beta 1 小时 37 分钟前
很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
|
13
EthanZC 1 小时 33 分钟前
算力不够,就这样,无解
|
15
deplives 1 小时 24 分钟前
是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
|
16
gpt5 1 小时 21 分钟前
网页版和 cli 上都明显感受到了降智
|
18
teaguexiao 1 小时 0 分钟前
最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
|