很多 word embedding 模型在训练的时候都做这样的事情:首先给每个词指定一个随机向量,然后根据总体损失函数的向量场更新词向量。如果用 word as point 的观点,这就是说词代表的点在 一个 n 维流形做有限次的跃迁。
另一方面,假定这些 word embedding 模型是收敛的。原则上说,对于任意的初始值,词向量在训练后都能保持内积,也就是说对于任意的两个词向量它们的内积是不变的。其次,对于不同的初值,词的向量表示很有可能也是不同的。这是由于词汇空间和流形不等势造成的稀疏性。对一个给定的初值向量的某些分量施加一个无穷小的微扰,得到的结果应该是相同的。因此这暗示:
现在,PLM 的假设 “a term at each position can propagate its occurrence at that position to other positions within the same document through a proximity-based density function” (Lv and Zhai, 2009) 是内蕴的。一个词对应 上的一个点,沿着测地线到达另一个点,产生语素变换的损失。所谓的 “virtual document” 就是在指定距离处的有限点集。用“word as a point”这个强假设,代替原文中有点勉强的假设,还是比较划算的,因为可以定义内积和距离。
proximity-based kernel function for propagation 是关于路径的损失密度函数。也许可以写成路径积分,也许不是测地线。反正就是类似的意思。