A Bite of Ristorante Acanto Milano

在都灵度过不甚满意的两天,坐火车来到米兰。

在米兰的第一天晚上在一家中餐馆解决晚饭。一盘老干妈回锅肉,一盘老干妈炒饭,一盘老干妈口水鸡,收费21 欧。。。反正我快吃吐了。

第二天早上,去米兰大教堂和周边。大陆假期已无余额,广场上只有零零落落的港人和台湾仔。排队坐电梯的时候看到了 MC Jin and his wife (???),也许是认错了。

暴走一上午,回到酒店睡到傍晚。醒来,仍然是孑然一身。美食与爱不可辜负,此时没有爱,应有美食相伴。打算找个好点的餐厅吃饭。想起《厨王争霸》有一季中国厨师 vs 意大利厨师 里面有一集,来自“米兰鱼吧”的厨师很有个性,实力深不可测,好像是那一季里面唯一能在中国赛区取胜的意大利厨师。可惜我想不起“米兰鱼吧”对应的意大利文是什么了。。。作罢。打开 tripAdvisor 随便找了家附近有米其林一个餐盘标记的餐厅(也就是 “good cooking” 的意思)

于是我来到了 Ristorante Acanto Milano,感谢服务员阿姨很有礼貌地接待了我这个强行 walk in 的家伙(高级餐厅一般要预约的)。

模仿我的人都是我的影子

这一年发现了一个有趣的现象。每次开会,描述我的方法,之后的几星期,偶尔能看到隔壁桌上出现了一些和我说的东西非常类似的文章。一开始没有在意这些事情,因为现在 IR 的思路实在太受限制,撞车是经常发生的事情。看这几年的文章,感觉大家都一副办法不多的样子:要么自己创造数据集,既当裁判又当运动员;要么就是靠 “change problem setting” 曲折求生。(顺便说一下,CIKM18 那篇研究 “Entity Attribute Identification” 的文章的作者,你们也许应该阅读一下或者引用 “CUIS team for NTCIR-13 AKG task” ,原因自己想。想到第三作者曾经对困境中的我给与了无私的帮助,并且这篇文章用更好的框架描述了这种方法,just let it go)

然后呢,就是渐渐看到“XX+smoothing”、“XX+type information”、“XX+data augmentation+LTR” 之类的新文章出现。虽然这些文章在方法上和我的那一套东西可能有明显的区别,但是如此相似的方法论着实让我心生忧虑。怪自己过于平庸,只能想到这些烂大街的东西,而且还手慢总是做不出来。

看懂了我想说什么的人可能会觉得作者神经病。但是作者想说的是,

 

是时候去寻找自己想要的尊重和真实了。

Comment on EYRE’18

EYRE’18 就是 “1st International Workshop on EntitY REtrieval (EYRE ’18)”

因为我那天在都灵睡过头了,错过了一些 presentation,所以只谈几个我感兴趣的。

1. Graph Analytical Re-ranking for Entity Search. Takahiro Komamizu

文章和之前评论的内容差不多,我甚至有点怀疑作者是看了我的评论才把这个方法叫做 “Personalized Pagerank based score distribution”。这个方法是否本质有效,不想说了,最近心情不好。

(说点不好听的吧,这其实是我三年前玩过的东西,研究我的 github 项目的人会发现,我的框架里面总有一个 createGraph 模块,就是给这个东西用的。为什么我没写文章讲这件事呢?自己想想吧)

Anyway, consider entities together 是有价值的想法。

2.Annotating Domain-Specific Texts with Babelfy: A Case Study. Michael Färber, Kristian Noullet and Boulos El Asmar

对文章内容不评价。讲一些趣闻:年初我参加 ECIR2018 找 Adam Jatowt 尬聊 NTCIR AKG 的时候看到 Michael 也在旁边,当时还以为他是 Adam 的学生,抢占了他几分钟时间,真是抱歉。。。个人看好这个小帅哥,感觉他是个比较踏实的人。

3.Graph-based Reranking Approach for DBpedia Entity Search. Bo Ma, Yating Yang, Tonghai Jiang, Xi Zhou and Lei Wang

我个人认为,作者提出来的方法本质是借鉴 Discounted Cumulative Gain 的思想来 rerank 所有结果。当然,他在 slides 里面说 “more links, more important”这种解释也还算说得过去,其实和 DCG 的思想是一样的。不过比较讽刺的是这个模型在 QALD2 和 SemSearch 上的结果很差,有点违背了他的解释。

为什么大部分模型都会有 “results are dataset specific” 的情况呢? 不想说了,最近心情不好。

update 2019/03. 最近考虑了一下,感觉更像是从 pagerank 这类基于重要性的模型中得到灵感。NDCG 作为一种评价方式和 pagerank 有一些形式上的相同,这反而让我觉得有些意思。

4.Exploring Summary-Expanded Entity Embeddings for Entity Retrieval. Shahrzad Naseri, John Foley, James Allan and Brendan T. O’Connor

训练了一个 word-entity 的 embedding,embedding 的分数和 FSDM 的分数加权平均。不想说什么。

 

我觉得最不高兴的点就是这些人好像根本没有注意到 term-based retrieval model 的地位。另外好像也没读我的 ECIRICTIR 的文章,更别说引用了。(这并不是说我的文章有多么好或多么重要,而是在你准备做相关的研究的时候至少应该看看最近这个领域的人在谈论什么。)

总的来说这次研讨会的 entity search 部分就像一个大型民科自嗨现场,没有特别有效的进展。不过 Prof. Gong Cheng 花了很多时间尽力让这个会议变得正式和专业,作为开拓者劳苦功高,什么都干不了的小弟在此表示衷心感谢和敬意。期待下次变得更好。