奈落落

Posted on 2019-05-312019-06-01 by chiccs

这一篇不讲武功，只讲想法。

前几天看了一篇 NIPS 2017 的文章<Deep Hyperspherical Learning>。很显然，作者也想到了 $S^{n-1}$ 上的内积和测地线的性质。看到这篇文章的第二节的前两段的时候，我觉得自己不用再写这些东西，直接抱大腿、用现成的模型就行。但作者紧接着只是介绍自己提出的 SphereConv 这个卷积层。

（这个作者在 NIPS 2018 又有一篇文章 <Learning towards Minimum Hyperspherical Energy>。作者又想了一个电子分布能量的概念，其实就是类比电场的多体问题的稳态解。然而这种东西只是一种根据问题的语义自定义的场而不是空间本身的性质。）

很多从无到有的事情还是要自己做。

很多 word embedding 模型在训练的时候都做这样的事情：首先给每个词指定一个随机向量，然后根据总体损失函数的向量场更新词向量。如果用 word as point 的观点，这就是说词代表的点在一个 n 维流形做有限次的跃迁。

另一方面，假定这些 word embedding 模型是收敛的。原则上说，对于任意的初始值，词向量在训练后都能保持内积，也就是说对于任意的两个词向量它们的内积是不变的。其次，对于不同的初值，词的向量表示很有可能也是不同的。这是由于词汇空间和流形不等势造成的稀疏性。对一个给定的初值向量的某些分量施加一个无穷小的微扰，得到的结果应该是相同的。因此这暗示：

n 维流形上的每个点都对应一个词汇空间的元素。

紧接着做出连续性假设：

每个词汇空间的元素在 n 维流形上对应的点集都是连续的，或是不相交连续点集的并。

这就是说：

每个词在 n 维流形上都具有非零 (Lebesgue) 测度。

Leave a Reply Cancel reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.