奈落落

这一篇不讲武功,只讲想法。

前几天看了一篇 NIPS 2017 的文章<Deep Hyperspherical Learning>。很显然,作者也想到了 S^{n-1} 上的内积和测地线的性质。看到这篇文章的第二节的前两段的时候,我觉得自己不用再写这些东西,直接抱大腿、用现成的模型就行。但作者紧接着只是介绍自己提出的 SphereConv 这个卷积层。

(这个作者在 NIPS 2018 又有一篇文章 <Learning towards Minimum Hyperspherical Energy>。作者又想了一个电子分布能量的概念,其实就是类比电场的多体问题的稳态解。然而这种东西只是一种根据问题的语义自定义的而不是空间本身的性质。)

很多从无到有的事情还是要自己做。

超重当

有了“测地线”的概念,就可以在 S^{n-1} 上解释一些模型的行为,比如位置语言模型 (Positional Language Model)。

白山桃

U,V \in S^{n-1},求连接 UV 的测地线(geodesic)的长度。

扇沟流

有很多的检索模型,都使用这样的策略:首先使用一种简单的检索模型(比如 LM, BM25 和 TF-IDF)找出最接近 query 的前 N 个结果(比如 top 100/500/1000),然后再使用自己的模型重新对这些结果打分并排序(rerank)。

琴月

V  在 S^{n-1} 均匀分布,U 是其上的固定点, U \cdot V \sim ?

TREC CAR 2018 随想

结果如何?直接看图吧。

今年春节的时候就想开发一个比去年更好的方法。一直被阻拦,只能断断续续地做实验。在 cikm 交稿之后,离 trec 的 deadline 只剩一两周的时候匆忙继续。发现了 Wikipedia article information 可以增强性能。总算有东西可以提交。

这个 task 有几个比较奇特的地方:

一是输入输出格式比较复杂,要自己用 trec-car-tools 从 cbor 里面读取每个 query path。这两年还有区分 query 的类型,比如 outlines(文章标题), hierarchical(最具体的章节路径)。输出的时候要加上 “enwiki:” 或者 “tqa”这样的前缀。 说实话不能理解为什么要这么折腾。

二是这个任务的 evaluation 其实是有偏差的 (biased)。 评估方式分三种 Automatic, manual 和 lenient。Automatic 就是用维基百科的章节路径当作 query,然后章节里面包含的段落当作 ground truth。 manual 和 lenient 是按照 trec 标准的人工评测。 个人发现 SDM 类的模型经过充分的调参以后可以在 automatic 上取得 state-of-the-art 的结果,但是 manual 和 lenient 的评测结果和其他方法比就还有差距。 这其实反映了统计语言模型和 neural ranking model 对 concept salience 的假设是不一样的。

三是我这次用 Wikipedia article 的信息作为一个特征输入,由于程序的一个 bug,这个部分全部输出为0,结果竟然还比没有集成这个特征的原始模型提升了至少 15%。这起码说明能找到对应 Wikipedia article 的段落更有可能成为答案。我感觉 Laura 可能已经发现了这个问题,后续的数据集应该会变得更加 Wikipedia-free。

反正结果就是这样,这次其他的队伍用了很多成熟的 learning to rank 的方法,再加上一些 hand-crafted feature 和 query expansion mechnism(比如 RM3。。。)。取得好的结果是意料之中。恭喜。

我十月份申请的美签居然还在 administrative processing!  最后没去参加 trec。只好给 Laura 发邮件解释原因,给 hilton 发邮件取消房间,交 no-show charge,取消机票。我很讨厌处理这种琐事,这次耗尽了所有精力。 us visa office seems to believe that the higher education a Chinese get, the more dangerous is he or she to the United States. This is truly ridiculous and racist. 另外美国香港领事馆是我见过的服务态度最恶劣的领事馆,只能说人在做天在看。非常失望,这辈子都不考虑去美国。

总的来说今年的这件事算是彻底的失败了。但这不是我的失败,也不是我的耻辱。我只是在有限的时间里做了自己能做的所有事情。有些阻碍不是我能跨越的,有些装睡的人不是我能叫醒的。如果一百年以后的哪天我死了,我的墓碑上也许会有一句话:此人此生光明磊落。

Comment on EYRE’18

EYRE’18 就是 “1st International Workshop on EntitY REtrieval (EYRE ’18)”

因为我那天在都灵睡过头了,错过了一些 presentation,所以只谈几个我感兴趣的。

1. Graph Analytical Re-ranking for Entity Search. Takahiro Komamizu

文章和之前评论的内容差不多,我甚至有点怀疑作者是看了我的评论才把这个方法叫做 “Personalized Pagerank based score distribution”。这个方法是否本质有效,不想说了,最近心情不好。

(说点不好听的吧,这其实是我三年前玩过的东西,研究我的 github 项目的人会发现,我的框架里面总有一个 createGraph 模块,就是给这个东西用的。为什么我没写文章讲这件事呢?自己想想吧)

Anyway, consider entities together 是有价值的想法。

2.Annotating Domain-Specific Texts with Babelfy: A Case Study. Michael Färber, Kristian Noullet and Boulos El Asmar

对文章内容不评价。讲一些趣闻:年初我参加 ECIR2018 找 Adam Jatowt 尬聊 NTCIR AKG 的时候看到 Michael 也在旁边,当时还以为他是 Adam 的学生,抢占了他几分钟时间,真是抱歉。。。个人看好这个小帅哥,感觉他是个比较踏实的人。

3.Graph-based Reranking Approach for DBpedia Entity Search. Bo Ma, Yating Yang, Tonghai Jiang, Xi Zhou and Lei Wang

我个人认为,作者提出来的方法本质是借鉴 Discounted Cumulative Gain 的思想来 rerank 所有结果。当然,他在 slides 里面说 “more links, more important”这种解释也还算说得过去,其实和 DCG 的思想是一样的。不过比较讽刺的是这个模型在 QALD2 和 SemSearch 上的结果很差,有点违背了他的解释。

为什么大部分模型都会有 “results are dataset specific” 的情况呢? 不想说了,最近心情不好。

update 2019/03. 最近考虑了一下,感觉更像是从 pagerank 这类基于重要性的模型中得到灵感。NDCG 作为一种评价方式和 pagerank 有一些形式上的相同,这反而让我觉得有些意思。

4.Exploring Summary-Expanded Entity Embeddings for Entity Retrieval. Shahrzad Naseri, John Foley, James Allan and Brendan T. O’Connor

训练了一个 word-entity 的 embedding,embedding 的分数和 FSDM 的分数加权平均。不想说什么。

 

我觉得最不高兴的点就是这些人好像根本没有注意到 term-based retrieval model 的地位。另外好像也没读我的 ECIRICTIR 的文章,更别说引用了。(这并不是说我的文章有多么好或多么重要,而是在你准备做相关的研究的时候至少应该看看最近这个领域的人在谈论什么。)

总的来说这次研讨会的 entity search 部分就像一个大型民科自嗨现场,没有特别有效的进展。不过 Prof. Gong Cheng 花了很多时间尽力让这个会议变得正式和专业,作为开拓者劳苦功高,什么都干不了的小弟在此表示衷心感谢和敬意。期待下次变得更好。

Information need & supply

For a fixed  retrieval model that satisfies users’ information need to some extent

Margin: a unit of incremental data size may increase the “dimension” of the data, which makes it more difficult for the model to handle. Thus non-positive margin.

 

For a fixed data producing model that provides “information supply”.

Margin: a unit of incremental data size may increase the “dimension” of the data. In this situation, a new “basis” can be used to generate more “new deep” data. Thus non-negative margin.

 

Intersection: the best performance(utility) bound for a fixed retrieval model and data generator.