BLEU 指标是NLP中机器翻译/⽂本摘要等任务常⽤的评价指标。它是基于精确率(Precision)来设计的。NLP中有个重要的概念是n-gram,指⼀个语句⾥⾯连续的n个单词组成的⽚段;BLEU-n其实就是基于n-gram的评价指标。
rouge-N(1/2/L)-f:百分⽐。ROUGE通过将模型⽣成的摘要或者回答与参考答案(⼀般是⼈⼯⽣成的)进⾏⽐较计算,得到对应的得分。Rouge-N实际上是将模型⽣成的结果和标准结果按N-gram拆分后,计算召回率。
Perplexity :困惑度,可以用来衡量大语言模型预测一个语言样本的能力,一个模型推理时的Perplexity数值越低,准确率也就越高,代表模型表现越好,反之亦然。
Training Loss:训练集每个batch的损失。