在上个地方打工的时候,我读过许多研究所谓“自动评价”的文章。这类文章大体上说是想训练一个模型,能够代替人类对实验结果打分(rating),最后实现自动标注数据或者提供一个可以微分的评价函数。他们评估这类评估模型的方式,是对于一组实验结果,计算人类给出的分数与模型给出的分数的 Pearson correlation coefficient。如果相关系数比之前的模型要大,他们就宣称这是”outperfrom the existing baselines”。
这样的评估方式至少有两个问题,首先相关系数只检验两个变量之间线性关系的强度,并且对变量自己的分布也有要求(但这通常不会影响什么)。问题不仅是“它们的关系是线性的吗”,而是“线性的就是好的吗”;其次人类的打分结果是有限的,应该视为总体中的一个样本。相关系数之间不能直接比较大小,稍微正常一点的评价方式是进行 Fisher z test。这样的文章实在太多了,一篇接一篇就这么莫名其妙地研究下去。。。。。。
一个人在搜索框写下一串文字,不意味着已经想好自己需要什么样的内容。生理的欲望驱使他想要寻找,表达能力约束他查找的范围,查找到的结果强化他的认知的狭隘,使得他确信找到的就是想要的,其实他自己一开始不知道能够得到什么样的结果。一个模型由社会语言书写,假定输入必有去处,简单的是一个列表,复杂的是一个体系(taxonomy,比如 a taxonomy of web queries),“没有去处”也是一个假设的结果。所以说它们是一个和数值对应的索引,一个分类问题。几个模型的结果加权平均,也属于某种分类,因为权重就是用数值表达的选择(这是说模型表达结果的能力也是有限的,尽管通常用浮点数进行计算,但浮点数不是实数,如果以后出现能够做指数级运算的机器,这种表达能力的问题可能就会显现出来)。因为双方各自具有的局限性,一次检索的过程其实也是模型设计者对使用者“施暴”的过程。就好像你走进一家商店,想要买一件东西,售货员告诉你“这里没有这件东西,但我们有另外一件东西似乎很符合你的要求”。现在的问题是,使用一种方式为每件事物表达它们固有的欲望,而不是分辨它们自己到底是什么。
我非常不喜欢评论中国的股市,一是因为我很少投资A股,所以这个市场基本与我无关——也许冷静下来的时候我会购买上海家化(SH:600315)和中兴通讯(SZ:000063)的股票,后者不是因为这家公司有许多潜力,而是同情他们的遭遇;或者在港股市场购买一些比亚迪(1211.HK)的股票以及股息率高的银行股。二是因为这个市场上有许多的“证券警察”到处巡逻:也许是游荡在交易软件评论区的狂热散户,也许是上市公司公关部,也许是媒体,甚至是部门。他们都在等待一个意见不同的人作为靶子,攻击然后猛烈地输出自己的观点,试图在某个范围内确立自己的威势,影响投资者的判断。用孔子的话来形容,就是“意必固我”。然而长期来看,往往事与愿违。因为价格涨跌最后还是由经济学而不是嘴决定的。如果以我自己的看法,我只会认为是市场不够大,不能激浊扬清,就像大数定律只有样本数足够多的时候才有意义,样本数少的时候只能使用 t 分布或者 bootstrapping 之类。
最近有一些类似 Gender, race and blahblah biases in GPT-3 generated contents 之类的文章,作者们通过给语言模型输入与身份、职业相关的语句(例如“A teacher is a __”)引导语言模型输出具有性别、种族之类敏感特征的结果(例如 “A teacher is a man/woman who teaches”),之后统计结果中特征的分布比例,一旦发现不是 50%-50% 这样的平均分配,作者便大发雷霆,要求语言模型的设计者承担“政治不正确”的首要责任。还要狗尾续貂般地提出一个认为可以缓解症状的公式,并做几个实验说服自己,在文末宣示自己的胜利。很显然这样的“政治正确修正公式”一定是经验的而不是先验的,因为只要具有目标特征的训练数据分布得偏颇一些,他们的实验不会得到任何有意义的结果。若干年以后,作者们也可能因为结果的变化而成为被攻击的对象,最终研究课题会变成一场比拼 “which language model is less racist” 的闹剧。于是乎,一些学术会议要求的 ethical code 并不能阻止政治不正确的风险存在,因为模型的任务在于表达而不是成为正确,相反它们只是一种作者们自我表达的说明和解释。