有了“测地线”的概念,就可以在 上解释一些模型的行为,比如位置语言模型 (Positional Language Model)。
read more...
- 现在,PLM 的假设 “a term at each position can propagate its occurrence at that position to other positions within the same document through a proximity-based density function” (Lv and Zhai, 2009) 是内蕴的。一个词对应 上的一个点,沿着测地线到达另一个点,产生语素变换的损失。所谓的 “virtual document” 就是在指定距离处的有限点集。用“word as a point”这个强假设,代替原文中有点勉强的假设,还是比较划算的,因为可以定义内积和距离。
- proximity-based kernel function for propagation 是关于路径的损失密度函数。也许可以写成路径积分,也许不是测地线。反正就是类似的意思。
一些查询扩展(query expansion)的方法也可以用这个套路解释,但意义不大。PLM 还是基于词的多项分布, 用的是计数测度,所以当时来看,结果没有提高很多,很正常。
所以接下来,就是利用 的性质得到更好的估计。过段时间再写。