关于相关性之结构(iv):社会语言
按照时髦的术语说,一个模型大概也蕴含一种“向度”,或者一个价值判断,由模型的设计者施加在输入模型的限定范围的事物之上。价值判断的影响有大有小,比如不同的短视频平台的推荐内容偏好不同,有的“商业”一些,有的“草根”一些,用户看到的内容风格和倾向就明显不同,这是浅显的例子。又比如说 Plackett-Luce 排序,排序结果按分数所占的比例洗牌,大者恒强,只是还给弱者一些排在前面的小机会。当然完全随机的排序不可接受,所以以这种方式看待 P-L,这是一种公平和效率的取舍。有一些模型蕴含的价值判断非常微弱,比如统计语言模型,因为 bag-of-words 或者 n-gram 的理念是将整体事物的任何部分都看作有意义的个体,否则无意义的符号难以组合成有意义的内容。如此就更不必说一些企业所引领的“技术风潮”对价值观的影响,尽管他们的口号永远是诸如“不作恶”等等——这不是说技术有政治,而是说它们作为“语言”会影响逻辑和品味。
凡模型必有描述的目标,可能是因为描述模型的语言都具有主语、宾语、谓语的成分,没有目标不能成为谓语而终止描述的状态。所以说模型是人表达的观念,有先验的成分,也有经验的成分。区分一个模型是先验的还是经验的,可以通过检查对于同一组输入,在经过一段时间或者一些空间的变化之后,无论模型如何训练和调整,输出的结果是否发生了改变。有的人认为神经网络模型的结构是一种先验知识,但要注意的是,只有对神经网络进行赋值即确定权重之后,这个模型的表达才具有含义。
最近有一些类似 Gender, race and blahblah biases in GPT-3 generated contents 之类的文章,作者们通过给语言模型输入与身份、职业相关的语句(例如“A teacher is a __”)引导语言模型输出具有性别、种族之类敏感特征的结果(例如 “A teacher is a man/woman who teaches”),之后统计结果中特征的分布比例,一旦发现不是 50%-50% 这样的平均分配,作者便大发雷霆,要求语言模型的设计者承担“政治不正确”的首要责任。还要狗尾续貂般地提出一个认为可以缓解症状的公式,并做几个实验说服自己,在文末宣示自己的胜利。很显然这样的“政治正确修正公式”一定是经验的而不是先验的,因为只要具有目标特征的训练数据分布得偏颇一些,他们的实验不会得到任何有意义的结果。若干年以后,作者们也可能因为结果的变化而成为被攻击的对象,最终研究课题会变成一场比拼 “which language model is less racist” 的闹剧。于是乎,一些学术会议要求的 ethical code 并不能阻止政治不正确的风险存在,因为模型的任务在于表达而不是成为正确,相反它们只是一种作者们自我表达的说明和解释。