一个人在搜索框写下一串文字,不意味着已经想好自己需要什么样的内容。生理的欲望驱使他想要寻找,表达能力约束他查找的范围,查找到的结果强化他的认知的狭隘,使得他确信找到的就是想要的,其实他自己一开始不知道能够得到什么样的结果。一个模型由社会语言书写,假定输入必有去处,简单的是一个列表,复杂的是一个体系(taxonomy,比如 a taxonomy of web queries),“没有去处”也是一个假设的结果。所以说它们是一个和数值对应的索引,一个分类问题。几个模型的结果加权平均,也属于某种分类,因为权重就是用数值表达的选择(这是说模型表达结果的能力也是有限的,尽管通常用浮点数进行计算,但浮点数不是实数,如果以后出现能够做指数级运算的机器,这种表达能力的问题可能就会显现出来)。因为双方各自具有的局限性,一次检索的过程其实也是模型设计者对使用者“施暴”的过程。就好像你走进一家商店,想要买一件东西,售货员告诉你“这里没有这件东西,但我们有另外一件东西似乎很符合你的要求”。现在的问题是,使用一种方式为每件事物表达它们固有的欲望,而不是分辨它们自己到底是什么。
最近有一些类似 Gender, race and blahblah biases in GPT-3 generated contents 之类的文章,作者们通过给语言模型输入与身份、职业相关的语句(例如“A teacher is a __”)引导语言模型输出具有性别、种族之类敏感特征的结果(例如 “A teacher is a man/woman who teaches”),之后统计结果中特征的分布比例,一旦发现不是 50%-50% 这样的平均分配,作者便大发雷霆,要求语言模型的设计者承担“政治不正确”的首要责任。还要狗尾续貂般地提出一个认为可以缓解症状的公式,并做几个实验说服自己,在文末宣示自己的胜利。很显然这样的“政治正确修正公式”一定是经验的而不是先验的,因为只要具有目标特征的训练数据分布得偏颇一些,他们的实验不会得到任何有意义的结果。若干年以后,作者们也可能因为结果的变化而成为被攻击的对象,最终研究课题会变成一场比拼 “which language model is less racist” 的闹剧。于是乎,一些学术会议要求的 ethical code 并不能阻止政治不正确的风险存在,因为模型的任务在于表达而不是成为正确,相反它们只是一种作者们自我表达的说明和解释。