关于相关性之结构(ii)
read more...
举个不太恰当的例子。伟大的作家,譬如陀思妥耶夫斯基、托尔斯泰、鲁迅、福克纳和马尔克斯,他们的作品像一面镜子,严肃的读者会为镜中的自己而自惭形秽。但是作家所写的东西有些是真实的有些是想象的,尽管读者真心忏悔,但是读者不能认为作家写的就是自己,否则就容易陷入被害妄想症,和这人任何行动上的蛛丝马迹过不去。每个人、社会实体或者企业现在所承担的事实都是自身历史和当前的汇总,并由参与者主观能动地显现的结果,不是个体所能轻易制造的。我在写点东西的时候,并不在意反映的世界是真还是假,但我清楚虚拟与真实存在一条界线。每件事物都有自己的形状,虚拟逼近真实的进步固然令人激动,但在未来的某个阶段,具有边界感会更令人可喜。最近十年世界各地风起云涌的“平权运动”并没有领悟到这点,所以最终他们拯救了自己,也毁灭了自己。
机器学习理论引入信息检索的本质好处是它可以在很大程度上回答什么样的检索问题是可学习的,而且这些可学习的问题在现实生活中有相当广泛的应用。几乎所有的检索模型都可以被改写成一个机器学习的问题(这是不是一句废话呢?有些严肃读者可以思考TFIDF和BM25应该如何被改写为一个机器学习问题,这和以前某个外国人写过的一篇很无聊地把TFIDF/BM25写成概率模型的小文章有关)。机器学习理论遇到问题的时候,那些应用它的检索模型也会跟着遭殃。除此以外,还存在许多不能回答的以及不可学习的检索问题。“不可学习”不是说这个问题没救了,而是说解决它的办法另有类型。
什么是相关性的结构?是它产生的原因,它的范围,它的副作用和影响它的副作用。而不仅仅只是“语义匹配”:那是“术”而不是“道”。天下有道的时候,玩弄各种各样的术是有趣的。无道的时候,术就会泛滥,失去它们作用的界限。