Comment on recent progress of ad-hoc entity retrieval

1.An Empirical Study of Learning to Rank for Entity Search (Jing Chen, Chenyan Xiong, Jamie Callan)

这篇文章用 learning to rank 的方法，把之前一些表现比较好的模型的分数拿出来学习权重，然后返回新的混合的分数。

说实话，这篇文章让我挺失望的。这种基于 LTR 的办法纯属是下三滥的鸡肋套路，对本领域的研究几乎没有任何帮助（Empirical 也要讲道理啊！！拿分数当特征，真的不知道意义何在，而且很多模型其实都是基于类似的语言模型，很有过拟合的嫌疑，最后模型完全变成调参数的框架），因为我们可以随便编造出一堆简单的检索模型（比如对每个域都指派一个不同参数的 Language Model 构造的检索模型），然后用 LTR 以后照样可以提高性能，但是这样的性能提升是有限度的。当然，我也非常理解，因为这几位作者和 Learning to rank 的研究者圈子关系密切，所以用这样的方法论思考是很自然的事情。

这篇文章用的是 Balog 的 DBpedia 测试数据集的第一版，质量比较差。之后在第二版数据（DBpedia-Entity v2: A Test Collection for Entity Search）里面，这个方法一下就被打回原形了，和一些当前比较好的方法相比没有明显的提高甚至有所下降。

不知道第一作者是不是急着要文章毕业。假如我文章不够不能毕业，我也不会发这种文章凑数。。。

虽然不待见这篇文章，但是考虑到这个领域的文章实在太少，所以能投出去其实也算个好事，毕竟众人拾柴火焰高

2.Entity Search Based on the Representation Learning Model With Different Embedding Strategies (Shijia E, Yang Xiang)

首先第一作者鄂世嘉的姓挺少见的，看样子似乎是满族，也有可能是汉族鄂氏（我总感觉每个满族人都是以前的皇族（爱新觉罗？？？）。。。。小的给贝勒爷请安了）。

这篇文章其实应该归类到知识库问答（Knowledge Based Question Answering）这类文章中，因为 ad hoc entity search 主要还是发展传统信息检索在新的结构化数据上的方法论，KBQA 则是各种奇技淫巧崭新方法的竞技场。这篇文章用的是 KBQA 里面比较常见的方法（其实就是 Facebook 之前一篇文章里面的方法。。。），学习查询和实体的表示，然后计算他们的相似度。

这篇文章方法并没有很大的突破，所以拉低了它的档次。文章的实验部分比较可疑（按照 ad-hoc entity retrieval 这个领域的标准来看），只用了 ListSearch 和 INEX-LD 两个数据集，按道理应该用上全部四个数据集，不知道是否是因为结果不佳还是时间不够还是作者“觉得”这两个已经足够有代表性。这篇文章用的也是 Balog 第一版的数据，如果换上新的测试数据集可能会被打回原形。

这个领域的数据集的标注数据特别少，一般只有几百条，并且有一定的数据集依赖性（比如说 INEX-LD 里面都是关键词组成的查询， QALD2 里面都是符合文法的正规查询，如果打乱这些不同“风格”的查询组成新的测试数据集，很可能会影响模型的性能）。所以深度学习是否能真的学到什么，个人持怀疑态度。

这篇文章还是有一定的价值，起码指了一条新路。博主的评论风格一般比较狂暴，所以看上去好像我全盘否定了这篇文章，但其实不是，因为我知道 IR 的研究工作量是其他领域的十倍以上，像我这样慢手慢脚的猪仔真的很难生存。。。。。

我觉得大部分的文章都没有理解 entity search 和 traditional information retrieval 的区别在哪里，所以导致方法论有偏差，一味想去拟合文本中词的分布。其实照这个思路发展下去，总有一天会出现这样的文章：我们只要给每个词一个权重，然后找一台超级计算机疯狂运算几个月拟合结果，出来的结果一定是 state of the art 。。。。。

chiccs's Blog

Time is Scarce, Life is Short

Comment on recent progress of ad-hoc entity retrieval

Leave a Reply Cancel reply