双模型 Rubric 评估横向对比

Bot-Online-Model(499 样本) vs welm4.5_vlm(500 样本)· 500 个文本意图任务 · LLM-as-Judge Rubric 评估
Bot-Online-Model welm4.5_vlm Δ = welm − Bot(正=welm更好)

① 一句话结论

welm4.5_vlm 全面小幅领先,属同档位、非代际差距。均分 7.66 vs 7.44(+0.22),通过率 72.3% vs 70.8%,且分数更稳(σ ±2.22 vs ±2.28)。 差距主要来自分布两端——welm 满分更多、低分尾巴更短;能力上 welm 强在语言生成 / 创作(编程、影视、文学、翻译), Bot 反而强在规则与事实密集(体育、交通、法律、中医)。两者共同短板:计算换算、原因分析、隐式需求捕捉。

② 总览指标

Bot-Online-Model

均分7.44
Rubric 通过率70.8%
Tier1 占比 (7-10)65.9%
标准差 σ±2.28
满分(10) 数量71
0 分数量11

welm4.5_vlm

均分7.66 ↑
Rubric 通过率72.3% ↑
Tier1 占比 (7-10)69.2% ↑
标准差 σ±2.22 ↓
满分(10) 数量87 ↑
0 分数量8 ↓

③ 分数分布差距集中在两端:welm 满分更多、低分尾巴更短

④ 分档对比Tier1=7~10 / Tier2=4~6 / Tier3=1~3 / Tier4=0

分档Bot 数量Bot 占比welm 数量welm 占比Δ占比
Tier1 (7-10) 优32966%34669%+3%
Tier2 (4-6) 中14529%13427%−2%
Tier3 (1-3) 差143%122%−1%
Tier4 (0) 崩112%82%−3 个

⑤ 分领域差值仅取 N≥10 的领域 · 绿=welm更强 / 橙=Bot更强

⑥ 主要意图对比按样本量排序 · N≥15

意图NBot 均分welm 均分Δ
最大头「事实查询」(134 样本) welm 7.84 vs 7.36,是 welm 总分领先的主要来源;两者在「计算换算」「原因分析」上同时偏弱。

⑦ Rubric 维度通过率按 Dimension 维度 · 越长越好

welm 在「指令遵循」(85% vs 78%)、「格式」(87% vs 84%) 上提升最明显;两者「信息完整性」均偏低(≈50%),是共同短板。
按 Necessity:显式需求 Explicit welm 93% vs Bot 89%;隐式需求 Implicit 两者均仅 ≈68-69%——抓不住没说出口的需求是共同瓶颈。