为了描述文档中词的分布,之前的研究者提出了很多的语言模型(比如 N-gram)。
一方面来说,这些模型只是近似地描述了一类分布,所以通过求解这类模型得到的分布只能说是基于对应的语言模型假设下最佳的结果。
另一方面,实践中经常会遇到这类情况,我们选定了一个语言模型来描述特定的文档集合的词的分布。但是有时候,工程人员并不完全依照这些模型的经典形式,而是喜欢在模型里面加入一些微扰项作为某种“分布在当前数据集上的偏移”,以便取得更好的结果。 这种现象反映了语言模型作为信息检索的核心的某些深层次问题。