双模型 Rubric 评估横向对比
Bot-Online-Model(499 样本) vs welm4.5_vlm(500 样本)· 500 个文本意图任务 · LLM-as-Judge Rubric 评估
Bot-Online-Model
welm4.5_vlm
Δ = welm − Bot(正=welm更好)
① 一句话结论
welm4.5_vlm 全面小幅领先,属同档位、非代际差距。
均分
7.66 vs 7.44
(+0.22),通过率 72.3% vs 70.8%,且分数更稳(σ ±2.22 vs ±2.28)。 差距主要来自
分布两端
——welm 满分更多、低分尾巴更短;能力上 welm 强在
语言生成 / 创作
(编程、影视、文学、翻译), Bot 反而强在
规则与事实密集
(体育、交通、法律、中医)。两者共同短板:计算换算、原因分析、隐式需求捕捉。
② 总览指标
Bot-Online-Model
均分
7.44
Rubric 通过率
70.8%
Tier1 占比 (7-10)
65.9%
标准差 σ
±2.28
满分(10) 数量
71
0 分数量
11
welm4.5_vlm
均分
7.66 ↑
Rubric 通过率
72.3% ↑
Tier1 占比 (7-10)
69.2% ↑
标准差 σ
±2.22 ↓
满分(10) 数量
87 ↑
0 分数量
8 ↓
③ 分数分布
差距集中在两端:welm 满分更多、低分尾巴更短
④ 分档对比
Tier1=7~10 / Tier2=4~6 / Tier3=1~3 / Tier4=0
分档
Bot 数量
Bot 占比
welm 数量
welm 占比
Δ占比
Tier1 (7-10) 优
329
66%
346
69%
+3%
Tier2 (4-6) 中
145
29%
134
27%
−2%
Tier3 (1-3) 差
14
3%
12
2%
−1%
Tier4 (0) 崩
11
2%
8
2%
−3 个
⑤ 分领域差值
仅取 N≥10 的领域 · 绿=welm更强 / 橙=Bot更强
⑥ 主要意图对比
按样本量排序 · N≥15
意图
N
Bot 均分
welm 均分
Δ
最大头「事实查询」(134 样本) welm 7.84 vs 7.36,是 welm 总分领先的
主要来源
;两者在「计算换算」「原因分析」上同时偏弱。
⑦ Rubric 维度通过率
按 Dimension 维度 · 越长越好
welm 在「指令遵循」(85% vs 78%)、「格式」(87% vs 84%) 上提升最明显;两者「信息完整性」均偏低(≈50%),是共同短板。
按 Necessity:显式需求 Explicit welm 93% vs Bot 89%;隐式需求 Implicit 两者均仅 ≈68-69%——
抓不住没说出口的需求
是共同瓶颈。