很多 word embedding 模型在训练的时候都做这样的事情:首先给每个词指定一个随机向量,然后根据总体损失函数的向量场更新词向量。如果用 word as point 的观点,这就是说词代表的点在 一个 n 维流形做有限次的跃迁。
另一方面,假定这些 word embedding 模型是收敛的。原则上说,对于任意的初始值,词向量在训练后都能保持内积,也就是说对于任意的两个词向量它们的内积是不变的。其次,对于不同的初值,词的向量表示很有可能也是不同的。这是由于词汇空间和流形不等势造成的稀疏性。对一个给定的初值向量的某些分量施加一个无穷小的微扰,得到的结果应该是相同的。因此这暗示: