发布日期:2026-03-10 23:28 点击次数:86

龙虾太火,扫数东谈主都思一试。但真到了上手措施就会迎来第一谈“拦路虎”—— 急急急,究竟哪个模子最符合 OpenClaw 啊??
365建站客服QQ:800083652知谈你急,龙虾之父亲身赶来支招了:可以保重这个因吹斯汀的榜单。
榜单名为 PinchBench,专为龙虾而生,从告捷率、速率、价钱等维度评估各人大模子对 OpenClaw 的适配进度。(划重心,如故及时更新那种)
这个榜单其实本年 2 月底就出现了,但当今却更火了 ——
这内部不啻有龙虾之父保举的功劳,更要紧的原因是咱中国模子的进展照实出色。
前排国产模子含量好高啊
老成龙虾的一又友都知谈,这选模子然而一件大事。毕竟龙虾这玩意儿一吃 token 耗钱,二又不成太慢影响用户体验。
换言之,东谈主东谈主都在价钱和速率之间忙绿走钢丝。
而 PinchBench 要作念的,即是径直告诉你谜底 —— 它按照告捷率、速率、价钱这三个基本维度对各人模子进行排名,是以哪个模子更擅长什么基本都一目了然。
伸开剩余85%截止本文发稿前,榜单具体情况如下 —— 举座而言,中国模子在告捷率和速率方面都有不俗进展,价钱方面则稍逊。
比告捷率,除了第别称谷歌 Gemini 3 Flash,第二、第三名都出自国内。
第别称(Gemini 3 Flash):告捷率 95.1%
第二名(MiniMax M2.1):告捷率 93.6%
第三名(Kimi K2.5):告捷率 93.4%
何况谨慎没,MiniMax 用的还不是它家最新模子 MiniMax M2.5。
(注:MiniMax M2.5 于春节技巧上线,leyu官方主打“让无尽开动复杂 Agent 在经济上可行”。)
比速率,国产模子 MiniMax M2.5 更是一举出奇 Gemini、Llama 等模子,登上榜首。
其时发布时,MiniMax M2.5 就在 SWE-Bench Verified 测试中,完成任务的速率较上一代 M2.1 进步了 37%,端到端开动时分缩小至 22.8 分钟,与 Claude Opus 4.6 握平。
而 Claude Opus 4.6 的最新排名是 30(M2.1 是第 22)。
不外在价钱方面,国产模子和 OpenAI、谷歌模子比较则短缺上风。
排第一的 GPT-5-nano(专为轻量级、高性价比场景狡计),输入价钱低至 0.05 好意思元 / 百万 tokens,输出价钱低至 0.40 好意思元 / 百万 tokens。
而国产模子中最低廉的 MiniMax M2.1,牛牛输入价钱为 2.1 元 / 百万 tokens(约 0.3 好意思元 / 百万 tokens),输出价钱为 8.4 元 / 百万 tokens(约 1.2 好意思元 / 百万 tokens)。
平均下来,后者的价钱险些是前者的 3 倍。
空洞来看,若是要在告捷率和价钱之间得回最好均衡,底下这张图可以看成参考。
左上角的方框也曾圈选出了还可以的模子 —— 一共 8 个,其中有 4 个还都是中国模子。
Anyway,在这份专为龙虾而生的 Benchmark 中,国产模子的含量照实很高,何况在某些单项上进展出色。
那么问题来了,这榜单靠谱吗?背后的筛选机制又是什么?
来看 PinchBench 的先容。
谁是 PinchBench?
浅陋来说,PinchBench 并不是某家大厂推出的圭臬 Benchmark,而是来自一支作念 Agent 基础设施的创业团队。
团队名为 Kilo AI,由 GitLab 前取悦首创东谈主兼 CEO Sid Sijbrandij 投资并参与创立,曾推出爆火“氛围编程”器具 Kilo Code。
岁首龙虾爆火后,他们又趁势推出了基于 OpenClaw 构建的全托管智能体平台 KiloClaw。
而跟着 KiloClaw 一皆发布的,就有 PinchBench 这个智能体框架评测器具。
PinchBench 主要被用来测试不同大模子在真正使命流中的实行智商,和传统大模子 Benchmark(比如常识问答、数学推理)不同,其定位更接近“Agent 智商测试”—— 不单看模子会不会回应问题,而是看模子能不成完成一整件事。
{jz:field.toptypename/}当前它大意包含 23 个真正任务的测试,包括但不限于:
查询并整理府上
写邮件或生成论述
调用 API 完成操作
……
在评分机制上,PinchBench 袭取的是自动化查抄 +LLM 评审的组合表情:
一部分任务有明确的自动查抄剧本,举例是否生成正确文献、是否完成指定操作等;另一部分任务则会由 LLM Judge 来判断驱逐质地。
最终统计的中枢倡导即是咱们上头提到的 Success Rate(任务完成率)、Speed(完成速率)、Cost(推理老本)。
由于评测表情偏向真正任务经由,值得谨慎的是,在 PinchBench 的名次榜上,你会看到一个有兴味的风景 ——
更大的模子并非老是制胜之谈。
换言之,那些偏 Agent 优化或推理效果更高的模子,排名反而比传统主流大模子更靠前。
这少许亦然 PinchBench 最近在圈子里被常常商榷的原因之一。
BTW,PinchBench 当前如故迷漫开源的,用户也可以在平台上自行开动或添加新任务。
若是以后不知谈怎样选模子,不妨我方动手一试。
开头:IT之家
发布于:北京市