在滇池边学习插花

Even a statistical language model can “prompt” (i)

鹅膏派对

在上个地方打工的时候,我读过许多研究所谓“自动评价”的文章。这类文章大体上说是想训练一个模型,能够代替人类对实验结果打分(rating),最后实现自动标注数据或者提供一个可以微分的评价函数。他们评估这类评估模型的方式,是对于一组实验结果,计算人类给出的分数与模型给出的分数的 Pearson correlation coefficient。如果相关系数比之前的模型要大,他们就宣称这是”outperfrom the existing baselines”。

这样的评估方式至少有两个问题,首先相关系数只检验两个变量之间线性关系的强度,并且对变量自己的分布也有要求(但这通常不会影响什么)。问题不仅是“它们的关系是线性的吗”,而是“线性的就是好的吗”;其次人类的打分结果是有限的,应该视为总体中的一个样本。相关系数之间不能直接比较大小,稍微正常一点的评价方式是进行 Fisher z test。这样的文章实在太多了,一篇接一篇就这么莫名其妙地研究下去。。。。。。

我不喜欢研究这种问题,因为这类模型显然是带着人类偏见,而且实验数据非常鄙陋,其实是个很可笑的东西。模型运算里面出现的数值,是人类意见的累积或衰减,并没有融合和产生新的东西。模型的误差表面上来源于数学建模的不准确,本质是因为每个个体意见的不可调和。

水书

关于相关性之结构(v):形式信息需求

河池

“blue ranker” (h-rm1).

花都

关于相关性之结构(iv):社会语言

树界

关于相关性之结构(iii)

关于相关性之结构(ii)

沼津(13)

关于相关性之结构(i)

地衣海洋回忆

所谓的”neural MRF”

“随机检索”可以帮助淘宝阻止拼多多的商业扩张吗?