在滇池边学习插花

Even a statistical language model can “prompt” (i)

鹅膏派对

在上个地方打工的时候,我读过许多研究所谓“自动评价”的文章。这类文章大体上说是想训练一个模型,能够代替人类对实验结果打分(rating),最后实现自动标注数据或者提供一个可以微分的评价函数。他们评估这类评估模型的方式,是对于一组实验结果,计算人类给出的分数与模型给出的分数的 Pearson correlation coefficient。如果相关系数比之前的模型要大,他们就宣称这是”outperfrom the existing baselines”。

这样的评估方式至少有两个问题,首先相关系数只检验两个变量之间线性关系的强度,并且对变量自己的分布也有要求(但这通常不会影响什么)。问题不仅是“它们的关系是线性的吗”,而是“线性的就是好的吗”;其次人类的打分结果是有限的,应该视为总体中的一个样本。相关系数之间不能直接比较大小,稍微正常一点的评价方式是进行 Fisher z test。这样的文章实在太多了,一篇接一篇就这么莫名其妙地研究下去。。。。。。

我不喜欢研究这种问题,因为这类模型显然是带着人类偏见,而且实验数据非常鄙陋,其实是个很可笑的东西。模型运算里面出现的数值,是人类意见的累积或衰减,并没有融合和产生新的东西。模型的误差表面上来源于数学建模的不准确,本质是因为每个个体意见的不可调和。

水书

关于相关性之结构(v):形式信息需求

地下暗流

寒冷,非常的寒冷。这样的感觉通常来自一个病人,例如浑身感染了大肠杆菌而无治疗。但确信的是来自内心,来自表皮,来自身体,无法控制。呼吸仅仅证明存在,微弱刚好被鼻子端走,更深的呼吸反而如同自己在空气里溺水。我只能蜷缩在床的一角,盖上很厚的被子,倚靠两个枕头搭成的软墙,艰难地磨蹭感受合适的角度使自己能够继续呼吸,无力诅咒造成这一切的原因只希望他们都好不要妄动。闭上眼睛,冥想漆黑超然的一切。此刻我仿佛就是瞬息的全宇宙,瞬息的全宇宙便是我。一切来自于我,但我要从漆黑中摸索,终结某种来自虚无的没有事先声请的劫掠,使自己得救。渐渐皮肤有了一些温热,下半部分还是寒冷。它冲突却没有界限,黑暗中有许多射线,不流动,笔直,坚硬,细。自己则被抛掷在原点以外做无能的观察者。我挣扎着凭借这时尚能想起的旧物的记忆,对所爱之人的温存的想象,勉强抓住了那条真实的指向,那个真实的词语,让自己的眼睛在整个夜幕下面披上那条舒适的黑色毛毯。想起一首诗

Why Bother

Because right now there is someone

Out there with

a wound in the exact shape

of your words.

(from <The Second O of Sorrow>,  by Sean Thomas Dougherty)