大蛇薙

“流形检索”提要。

鬼烧

所谓“策略随机检索” (Strategic Random Retrieval)

 

七十五式改

A toy retrieval model (H-RM0).

轹铁

LambdaRank,与星形集的上同调。

罪咏

最近信息检索社群的研究动向之一是所谓交互式检索的方法论(interactive/conversational/online + retrieval/learning to rank/blahblahblah.. )。简单来说,就是从用户的角度来考虑检索问题,因此系统的设计和评价方式需要从用户的实际行为和反馈出发,而不是通过假设单方面推进检索的过程。

 

奈落落

这一篇不讲武功,只讲想法。

前几天看了一篇 NIPS 2017 的文章<Deep Hyperspherical Learning>。很显然,作者也想到了 S^{n-1} 上的内积和测地线的性质。看到这篇文章的第二节的前两段的时候,我觉得自己不用再写这些东西,直接抱大腿、用现成的模型就行。但作者紧接着只是介绍自己提出的 SphereConv 这个卷积层。

(这个作者在 NIPS 2018 又有一篇文章 <Learning towards Minimum Hyperspherical Energy>。作者又想了一个电子分布能量的概念,其实就是类比电场的多体问题的稳态解。然而这种东西只是一种根据问题的语义自定义的而不是空间本身的性质。)

很多从无到有的事情还是要自己做。

超重当

有了“测地线”的概念,就可以在 S^{n-1} 上解释一些模型的行为,比如位置语言模型 (Positional Language Model)。

扇沟流

有很多的检索模型,都使用这样的策略:首先使用一种简单的检索模型(比如 LM, BM25 和 TF-IDF)找出最接近 query 的前 N 个结果(比如 top 100/500/1000),然后再使用自己的模型重新对这些结果打分并排序(rerank)。

琴月

V  在 S^{n-1} 均匀分布,U 是其上的固定点, U \cdot V \sim ?

TREC CAR 2018 随想

结果如何?直接看图吧。

今年春节的时候就想开发一个比去年更好的方法。一直被阻拦,只能断断续续地做实验。在 cikm 交稿之后,离 trec 的 deadline 只剩一两周的时候匆忙继续。发现了 Wikipedia article information 可以增强性能。总算有东西可以提交。

这个 task 有几个比较奇特的地方:

一是输入输出格式比较复杂,要自己用 trec-car-tools 从 cbor 里面读取每个 query path。这两年还有区分 query 的类型,比如 outlines(文章标题), hierarchical(最具体的章节路径)。输出的时候要加上 “enwiki:” 或者 “tqa”这样的前缀。 说实话不能理解为什么要这么折腾。

二是这个任务的 evaluation 其实是有偏差的 (biased)。 评估方式分三种 Automatic, manual 和 lenient。Automatic 就是用维基百科的章节路径当作 query,然后章节里面包含的段落当作 ground truth。 manual 和 lenient 是按照 trec 标准的人工评测。 个人发现 SDM 类的模型经过充分的调参以后可以在 automatic 上取得 state-of-the-art 的结果,但是 manual 和 lenient 的评测结果和其他方法比就还有差距。 这其实反映了统计语言模型和 neural ranking model 对 concept salience 的假设是不一样的。

三是我这次用 Wikipedia article 的信息作为一个特征输入,由于程序的一个 bug,这个部分全部输出为0,结果竟然还比没有集成这个特征的原始模型提升了至少 15%。这起码说明能找到对应 Wikipedia article 的段落更有可能成为答案。我感觉 Laura 可能已经发现了这个问题,后续的数据集应该会变得更加 Wikipedia-free。

反正结果就是这样,这次其他的队伍用了很多成熟的 learning to rank 的方法,再加上一些 hand-crafted feature 和 query expansion mechnism(比如 RM3。。。)。取得好的结果是意料之中。恭喜。

我十月份申请的美签居然还在 administrative processing!  最后没去参加 trec。只好给 Laura 发邮件解释原因,给 hilton 发邮件取消房间,交 no-show charge,取消机票。我很讨厌处理这种琐事,这次耗尽了所有精力。 us visa office seems to believe that the higher education a Chinese get, the more dangerous is he or she to the United States. This is truly ridiculous and racist. 另外美国香港领事馆是我见过的服务态度最恶劣的领事馆,只能说人在做天在看。非常失望,这辈子都不考虑去美国。

总的来说今年的这件事算是彻底的失败了。但这不是我的失败,也不是我的耻辱。我只是在有限的时间里做了自己能做的所有事情。有些阻碍不是我能跨越的,有些装睡的人不是我能叫醒的。如果一百年以后的哪天我死了,我的墓碑上也许会有一句话:此人此生光明磊落。