Skip to main content

第三方评测称 Claude Opus 4.6 幻觉率大幅上升,排名从第二跌至第十AI 评测平台 BridgeMind 发布测试结果称,Claude Opus 4.6 在 BridgeBench 幻觉基准测试中的准确率从上周的 83.3%(排名第 2)下降至 68.3%(排名第 10),降幅约 15 个百分点

  1. 第三方评测称 Claude Opus 4.6 幻觉率大幅上升,排名从第二跌至第十

    AI 评测平台 BridgeMind 发布测试结果称,Claude Opus 4.6 在 BridgeBench 幻觉基准测试中的准确率从上周的 83.3%(排名第 2)下降至 68.3%(排名第 10),降幅约 15 个百分点。推测认为模型推理能力遭到削弱,原因不明。

    BridgeBench 公布的榜单显示,同期头部模型的准确率普遍在 80% 以上。BridgeMind 建议用户在新版本正式发布前暂缓部署,目前 Anthropic 尚未对上述测试结果作出回应。

    BridgeMind

    🌸 在花频道茶馆讨论投稿通道