在上个地方打工的时候,我读过许多研究所谓“自动评价”的文章。这类文章大体上说是想训练一个模型,能够代替人类对实验结果打分(rating),最后实现自动标注数据或者提供一个可以微分的评价函数。他们评估这类评估模型的方式,是对于一组实验结果,计算人类给出的分数与模型给出的分数的 Pearson correlation coefficient。如果相关系数比之前的模型要大,他们就宣称这是”outperfrom the existing baselines”。
这样的评估方式至少有两个问题,首先相关系数只检验两个变量之间线性关系的强度,并且对变量自己的分布也有要求(但这通常不会影响什么)。问题不仅是“它们的关系是线性的吗”,而是“线性的就是好的吗”;其次人类的打分结果是有限的,应该视为总体中的一个样本。相关系数之间不能直接比较大小,稍微正常一点的评价方式是进行 Fisher z test。这样的文章实在太多了,一篇接一篇就这么莫名其妙地研究下去。。。。。。
我不喜欢研究这种问题,因为这类模型显然是带着人类偏见,而且实验数据非常鄙陋,其实是个很可笑的东西。模型运算里面出现的数值,是人类意见的累积或衰减,并没有融合和产生新的东西。模型的误差表面上来源于数学建模的不准确,本质是因为每个个体意见的不可调和。