V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yarkyaonj
V2EX  ›  Claude Code

claude code 降智被实锤了

  •  
  •   yarkyaonj · 4 小时 10 分钟前 · 2877 次点击

    上周 Claude Opus 4.6 在 BridgeBench 的幻觉基准测试中排名第 2 ,准确率达 83.3%。

    今天 Claude Opus 4.6 重新测试后,在排行榜上跌至第 10 ,准确率仅 68.3%。

    可以确认 Claude Opus 4.6 的推理水平降低,确实被削弱了。

    图片

    https://imgur.com/a/u7Np8Wk

    18 条回复    2026-04-13 12:01:54 +08:00
    gpt5
        1
    gpt5  
       4 小时 7 分钟前
    我也很明显感受到了它现在经常颠三倒四
    yougo
        2
    yougo  
       3 小时 53 分钟前
    https://aistupidlevel.info/ 这里有实时的版本 昨天一度降到比 sonnet 还蠢。我已经因为服务质量申请全额退款 并且不会再考虑 claude code 订阅
    hitrip
        3
    hitrip  
       3 小时 45 分钟前
    不一定是永久降智,有时候是环境 bug 引起的
    yarkyaonj
        4
    yarkyaonj  
    OP
       3 小时 44 分钟前
    @hitrip 全球用户都反映有降智现象,现在又有数据实锤
    nc
        5
    nc  
       3 小时 40 分钟前
    A\估计在训练新模型,临时降智一下,GPU 优先给训练。A\在基础设施投资这块完全比不上 OpenAI ,公司内部两个团队在疯狂抢 GPU 。
    FqwKVgsv
        6
    FqwKVgsv  
       3 小时 33 分钟前
    非常非常明显的感觉到 claude 降智了 甚至我有时候说的问题的意思都没搞懂 得给它解释意思解释了半天
    yarkyaonj
        7
    yarkyaonj  
    OP
       3 小时 30 分钟前
    @nc 问题是这对已经付费的用户很不公平,付了一个月或者一年钱,结果半途降智
    whoosy
        8
    whoosy  
       3 小时 29 分钟前
    升级到 2.1.104 版本再试试,昨天已经变聪明了
    potatowish
        9
    potatowish  
       3 小时 5 分钟前 via iPhone
    api 也降智? 价格还是一样的
    fredweili
        10
    fredweili  
       2 小时 36 分钟前
    opus 贵的多,就用 sonnet
    yuruizhe
        11
    yuruizhe  
       1 小时 45 分钟前
    降智是什么意思?
    66beta
        12
    66beta  
       1 小时 37 分钟前
    很明显,让它从一个页面上抓取一些数据都抓不全,不过别难过,gemini 也这个吊样。如果是自己出钱,建议大家去试试国产 AI
    EthanZC
        13
    EthanZC  
       1 小时 33 分钟前
    算力不够,就这样,无解
    yarkyaonj
        14
    yarkyaonj  
    OP
       1 小时 32 分钟前
    @yuruizhe 就是变笨了,智商下降的意思
    deplives
        15
    deplives  
       1 小时 24 分钟前
    是的,最近很明显能感觉出来。opus 甚至很多时候不如 sonnet 了
    gpt5
        16
    gpt5  
       1 小时 21 分钟前
    网页版和 cli 上都明显感受到了降智
    zerovoid
        17
    zerovoid  
       1 小时 4 分钟前
    @yuruizhe #11 就跟下棋一样,比如平时高手能算到 50 步以后的局势,现在只能算到 10 步以后,那大家肯定能感觉出来这个高手变笨了。
    teaguexiao
        18
    teaguexiao  
       1 小时 0 分钟前
    最近确实感受到了。之前用 Opus 处理复杂的多文件重构任务,能一次把上下文全理清楚;最近同样的任务开始频繁出现循环、重复修改的情况。用 API 调用也是一样的表现,不是客户端的问题。现在形成习惯了:重要任务配合 Sonnet 一起用,Sonnet 做大部分工作,Opus 只负责高层设计和少量关销节点。怪的是这样反而更稳定了。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3676 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 24ms · UTC 05:02 · PVG 13:02 · LAX 22:02 · JFK 01:02
    ♥ Do have faith in what you're doing.