双模型 Rubric 评估对比 · Bot-Online-Model vs welm4.5

① 一句话结论

welm4.5_vlm 全面小幅领先，属同档位、非代际差距。均分 7.66 vs 7.44（+0.22），通过率 72.3% vs 70.8%，且分数更稳（σ ±2.22 vs ±2.28）。差距主要来自分布两端——welm 满分更多、低分尾巴更短；能力上 welm 强在语言生成 / 创作（编程、影视、文学、翻译）， Bot 反而强在规则与事实密集（体育、交通、法律、中医）。两者共同短板：计算换算、原因分析、隐式需求捕捉。

② 总览指标

Bot-Online-Model

均分7.44

Rubric 通过率70.8%

Tier1 占比 (7-10)65.9%

标准差 σ±2.28

满分(10) 数量71

0 分数量11

welm4.5_vlm

均分7.66 ↑

Rubric 通过率72.3% ↑

Tier1 占比 (7-10)69.2% ↑

标准差 σ±2.22 ↓

满分(10) 数量87 ↑

0 分数量8 ↓

③ 分数分布差距集中在两端：welm 满分更多、低分尾巴更短

④ 分档对比Tier1=7~10 / Tier2=4~6 / Tier3=1~3 / Tier4=0

分档	Bot 数量	Bot 占比	welm 数量	welm 占比	Δ占比
Tier1 (7-10) 优	329	66%	346	69%	+3%
Tier2 (4-6) 中	145	29%	134	27%	−2%
Tier3 (1-3) 差	14	3%	12	2%	−1%
Tier4 (0) 崩	11	2%	8	2%	−3 个

⑤ 分领域差值仅取 N≥10 的领域 · 绿=welm更强 / 橙=Bot更强

⑥ 主要意图对比按样本量排序 · N≥15

意图	N	Bot 均分	welm 均分	Δ

最大头「事实查询」(134 样本) welm 7.84 vs 7.36，是 welm 总分领先的主要来源；两者在「计算换算」「原因分析」上同时偏弱。

⑦ Rubric 维度通过率按 Dimension 维度 · 越长越好

welm 在「指令遵循」(85% vs 78%)、「格式」(87% vs 84%) 上提升最明显；两者「信息完整性」均偏低(≈50%)，是共同短板。
按 Necessity：显式需求 Explicit welm 93% vs Bot 89%；隐式需求 Implicit 两者均仅 ≈68-69%——抓不住没说出口的需求是共同瓶颈。