指标名称 | 指标说明 |
---|---|
准确率 (%) | 规则打分模式下,忽略停用词后,正确预测(标注与预测完全匹配)的样本数与总样本数的比例 |
F1分数 (%) | 规则打分模式下,忽略停用词后,精确率和召回率的调和平均数 |
ROUGE-1 (%) | 忽略停用词后,将模型生成的结果和标准结果按unigram拆分后,计算出的召回率 |
ROUGE-2 (%) | 忽略停用词后,将模型生成的结果和标准结果按bigram拆分后,计算出的召回率 |
ROUGE-L (%) | 忽略停用词后,衡量了模型生成的结果和标准结果的最长公共子序列,并计算出召回率 |
BLEU-4 (%) | 忽略停用词后,用于评估模型生成的句子和实际句子的差异的指标,值为unigram,bigram,trigram,4-grams的加权平均 |
指标名称 | 指标说明 |
---|---|
裁判员模型打分标准差 | 裁判员大模型对模型生成结果打分的标准差(不含无效打分) |
裁判员模型打分平均值 | 裁判员大模型对模型生成结果打分的平均值(不含无效打分) |
裁判员模型打分中位数 | 裁判员大模型对模型生成结果打分的中位数(不含无效打分) |