V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
SingeeKing
10.19D

搞了个相当复杂的最优化问题去考验大模型,然后御三家的大模型全军覆灭

  •  
  •   SingeeKing ·
    PRO
    · 2 days ago · 1151 views

    这是题目原文

    获得补签卡有两种方式
    - 600 记忆币兑换 1 张
    - 6*0.91 元购买 1 张
    
    获得会员有几种方式
    - 10800 记忆币兑换 372 天
    - 4000 记忆币兑换 93 天
    - 2000 记忆币兑换 31 天
    - 168*0.91 元购买 372 天(赠送 6000 记忆币)
    - 60*0.91 元购买 93 天(赠送 2000 记忆币)
    - 30*0.91 元购买 31 天(赠送 1000 记忆币)
    
    获得记忆币有几种方式
    - 163*0.91 元购买 16000 个
    - 88*0.91 元购买 8000 个
    - 50*0.91 元购买 4000 个
    - 25*0.91 元购买 1800 个
    - 12*0.91 元购买 800 个
    - 8*0.91 元购买 500 个
    - 163 元购买 17600 个  
    - 88 元购买 8800 个  
    - 50 元购买 4400 个  
    - 25 元购买 1980 个  
    - 12 元购买 880 个  
    - 8 元购买 550 个
    
    ---
    
    我的账户里目前已经有了 4767 个记忆币
    
    我现在需要买至少 999 天会员 + 1 张补签卡,帮我计算一个最优解(最省钱的方案)
    
    另外,应当保证会员天数在满足要求的情况下尽可能少、剩余的记忆币尽可能多
    
    除了标准的「最低金额解」,可以再额外给我一些非最低金额解但是「更划算」的解
    
    • GPT-5.5 xhigh:没能给出真正更划算的解,经过一次提示后成功了
    • Gemini 3.1 Pro:没能给出真正最便宜的解(经过两次提示仍然未成功)
    • Claude Opus 4.7:既没能给出最便宜又没能给出真正划算的解,然后耗时还是最长的、价格也是最贵的 = =

    这是我最终选定的答案:

    • 最便宜解:272.20 元 -> 1023 天,167 币
    • 最划算解:305.76 元 -> 1116 天,5367 币

    整体我最满意的还是 GPT ;因为至少「最小金额」这个纯数学问题解决的相当不错(剩下两家连这个都没算对 - 哪怕穷举都能解决的问题),而「更划算的」毕竟主观了一点,GPT 给的方案大体是对的,不过犯了个错误,因为苛求「会员天数尽可能少」,而选择了用 4000*3 去兑换了三次季会员而不是更划算的 10800 直接兑换年会员

    Gemini 直接就给出了「最划算解」,却没有真正算对「最便宜解」

    最离谱的就是 Claude ,把我选定的「最划算解」当成了「最便宜解」,然后额外给了我一堆 400+ 的价格的方案。。

    Supplement 1  ·  2 days ago

    X 上的小伙伴给了 DeepSeek V4 Pro 的结果 —— 与 Gemini 水平相当,都是给出了一个较低但不对的「最便宜解」和正确的(符合我预期的)「最划算解」

    11 replies    2026-04-26 18:15:47 +08:00
    SingeeKing
        1
    SingeeKing  
    OP
    PRO
       2 days ago
    测试环境:
    - GPT 用的 Codex Desktop
    - Claude 用的 Claude Code
    - Gemini 用的网页版

    三者都有 Python 环境的访问能力、且真的调用了 Python 做了计算

    扰动除了工具自带的系统提示词外应该就是我本地配置的 AGENTS.md 了,但应该影响不大(我是为了解决我实际问题而不是专门做模型评测的)
    mooyo
        2
    mooyo  
       2 days ago
    claude code 4.6 1m context 直接问的结果是 看起来对了一半?
    mooyo
        3
    mooyo  
       2 days ago
    @mooyo 开 thinking + max effort
    mooyo
        4
    mooyo  
       2 days ago
    @mooyo #3 prompt 是你的题目原文没有其他额外添加
    SingeeKing
        5
    SingeeKing  
    OP
    PRO
       2 days ago
    @mooyo #2 这就是我描述的:最离谱的就是 Claude ,把我选定的「最划算解」当成了「最便宜解」—— 它完全没给出 272.20 的解,也没有给出其它几个处于 272.20-300 之间的解
    mooyo
        6
    mooyo  
       2 days ago
    @SingeeKing #5 乐,claude 最近降智确实挺明显的
    dimlau
        7
    dimlau  
       1 day ago
    gemini-3-flash-preview (直接问,直接答):

    ###

    | 指标 | 方案一 (最省钱) | 方案二 (最推荐) |
    | -------------- | -------------------------------- | ------------------------------------------ |
    | **总现金投入** | **273.00 元** | **305.76 元** |
    | **会员总天数** | 1023 天 | 1023 天 |
    | **剩余记忆币** | 167 | 4167 |
    | **性价比评估** | 资源几乎全部耗尽,仅为达成目的。 | 现金增幅极小,结余极其厚实,适合长期生存。 |

    **最后的一个小提醒:** 所有的补签卡,请务必使用**记忆币**兑换,而不要直接用人民币购买。在 0.91 折扣体系下,1 张卡用人民币买是 5.46 元;而在会员赠币体系下,600 币的实际成本大约只有 4 元左右。
    dimlau
        8
    dimlau  
       1 day ago
    有 python 工具但它没用……
    wssjy1234
        9
    wssjy1234  
       1 day ago
    免费网页版的 Gemini 思考模型
    维度,方案一:最省钱,方案二:最高性价比
    现金支出,273.00 元 (最低),305.76 元
    总会员天数,1023 天,1116 天
    剩余记忆币,167 个,5367 个
    推荐理由,满足需求的最低现金门槛,额外花费极少,收益极大化
    sillydaddy
        10
    sillydaddy  
       1 day ago   ❤️ 2
    因为「划算」本身就没有明确的定义。「剩余的记忆币尽可能多」也是一个没有任何意义的提示,因为记忆币本身就可以看作是钱,那要达到「最低花费」必然要最大限度消耗已有的记忆币。
    xenme
        11
    xenme  
       1 day ago via iPhone
    都给了 agent ,调用了 python 所以最低价找到了,对于最划算理解有偏差没找到。让他分析了下最划算,虽然剩余币更多,但是花费的时间从 1023 天涨到了 1116 天,agent 优先考虑的时间时间最少下的最便宜解

    所以给 agent 更详细定义后应该不是问题。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3953 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 80ms · UTC 00:49 · PVG 08:49 · LAX 17:49 · JFK 20:49
    ♥ Do have faith in what you're doing.