鹅膏派对

在上个地方打工的时候，我读过许多研究所谓“自动评价”的文章。这类文章大体上说是想训练一个模型，能够代替人类对实验结果打分(rating)，最后实现自动标注数据或者提供一个可以微分的评价函数。他们评估这类评估模型的方式，是对于一组实验结果，计算人类给出的分数与模型给出的分数的 Pearson correlation coefficient。如果相关系数比之前的模型要大，他们就宣称这是”outperfrom the existing baselines”。

这样的评估方式至少有两个问题，首先相关系数只检验两个变量之间线性关系的强度，并且对变量自己的分布也有要求（但这通常不会影响什么）。问题不仅是“它们的关系是线性的吗”，而是“线性的就是好的吗”；其次人类的打分结果是有限的，应该视为总体中的一个样本。相关系数之间不能直接比较大小，稍微正常一点的评价方式是进行 Fisher z test。这样的文章实在太多了，一篇接一篇就这么莫名其妙地研究下去。。。。。。

我不喜欢研究这种问题，因为这类模型显然是带着人类偏见，而且实验数据非常鄙陋，其实是个很可笑的东西。模型运算里面出现的数值，是人类意见的累积或衰减，并没有融合和产生新的东西。模型的误差表面上来源于数学建模的不准确，本质是因为每个个体意见的不可调和。

chiccs's Blog

Time is Scarce, Life is Short

Leave a Reply Cancel reply