在上个地方打工的时候,我读过许多研究所谓“自动评价”的文章。这类文章大体上说是想训练一个模型,能够代替人类对实验结果打分(rating),最后实现自动标注数据或者提供一个可以微分的评价函数。他们评估这类评估模型的方式,是对于一组实验结果,计算人类给出的分数与模型给出的分数的 Pearson correlation coefficient。如果相关系数比之前的模型要大,他们就宣称这是”outperfrom the existing baselines”。
这样的评估方式至少有两个问题,首先相关系数只检验两个变量之间线性关系的强度,并且对变量自己的分布也有要求(但这通常不会影响什么)。问题不仅是“它们的关系是线性的吗”,而是“线性的就是好的吗”;其次人类的打分结果是有限的,应该视为总体中的一个样本。相关系数之间不能直接比较大小,稍微正常一点的评价方式是进行 Fisher z test。这样的文章实在太多了,一篇接一篇就这么莫名其妙地研究下去。。。。。。
一个人在搜索框写下一串文字,不意味着已经想好自己需要什么样的内容。生理的欲望驱使他想要寻找,表达能力约束他查找的范围,查找到的结果强化他的认知的狭隘,使得他确信找到的就是想要的,其实他自己一开始不知道能够得到什么样的结果。一个模型由社会语言书写,假定输入必有去处,简单的是一个列表,复杂的是一个体系(taxonomy,比如 a taxonomy of web queries),“没有去处”也是一个假设的结果。所以说它们是一个和数值对应的索引,一个分类问题。几个模型的结果加权平均,也属于某种分类,因为权重就是用数值表达的选择(这是说模型表达结果的能力也是有限的,尽管通常用浮点数进行计算,但浮点数不是实数,如果以后出现能够做指数级运算的机器,这种表达能力的问题可能就会显现出来)。因为双方各自具有的局限性,一次检索的过程其实也是模型设计者对使用者“施暴”的过程。就好像你走进一家商店,想要买一件东西,售货员告诉你“这里没有这件东西,但我们有另外一件东西似乎很符合你的要求”。现在的问题是,使用一种方式为每件事物表达它们固有的欲望,而不是分辨它们自己到底是什么。