暴虎冯河

子謂顏淵曰:「用之則行,舍之則藏,唯我與爾有是夫!」

子路曰:「子行三軍,則誰與?」

子曰:「暴虎馮河,死而無悔者,吾不與也。必也臨事而懼,好謀而成者也。」

夜话

Min Flag
痛苦中被迫浮现的字
用有限的时间做无限的事

Min Flag
竖一杆大旗让勇士们绝地起义
精彩的程度让场下观众都全体起立

——— MINSTA <Min Flag>

 

1. 唱过什么歌

最近去参加了学校图书馆和研究生院办的研究海报展览。22幅海报里面,只有我这张海报是来自工程学院的学科,其他都是生物医学社科。参加活动只是走走过场没什么可说的。虽然已经尽力把海报做到“让傻逼也能看懂”的程度,毕竟隔行如隔山,很多IR的精髓难以向普通观众描述。有趣的是图书馆的主管看了海报以后很激动,这两天打了好几通电话想找我做项目。具体来说,就是根据论文的摘要把每篇论文打上标签,这些标签构成一个 Type Taxonomy。这其实是一个简单的 Type Taxonomy classification 问题,之前的知乎“看山杯”和最近 sigir 18 e-commerce workshop 都提到了非常类似的任务。简单的字符级别当作输入的神经网络或者 fasttext 之类现成的分类器就能有合理的结果。(当然我之前想过一个结构平滑的办法,但是老板一贯地觉得我的方法 “cannot publish”,等到 ictir 和  e-commerce workshop 狂发邮件催稿的时候已经来不及了) 我的“研究”能够启发普通人解决一些耗费人力的工作,略感欣慰。 另外,图书馆的工作氛围很轻松,这里的人像是中文大学的“中产阶级”,衣着还算讲究,说话比较有礼貌。不像工程学院的不少人一副又猥琐又没礼貌的样子,走路的时候遇到人总是把头低下去好像囚犯见到监狱的工作人员。

从中学到大学到现在,我遇到了一些hater. 因为我总是用简单的方式揭示他们的愚蠢,总是用愚蠢的方法超越他们的想象。现在 haters 都在期待我延毕或者混不下去滚蛋,这辈子他们也许能看到本人失败一到两次。我在一个比较恶劣的环境下工作,research topic 的局限性明显很难发展,没有同行,计算资源有限,ra很难帮到。如果我哪天受不了拿个硕士学位走人,我也能骄傲地面对我的过去:没有抱大腿认爹,没有靠关系,独立完成,完全原创而不是东拉西扯一堆东西打包。

我的“entity retrieval 三部曲”还剩最后一篇文章没发表,在过去的两篇里面,我让那些快要进棺材的模型可以借着 knowledge graph 的风潮续命,炒了一盘冷饭。至于最后一篇做到了什么程度,不想评价。写完以后打算继续做 TREC Complex Answer Retrieval。今年 sigir 有篇文章讲到了这个task,还引用了我的文章当作baseline吊打。我才发现原来去年我们除了一个不战而胜的第一还有一个第二名(Deepanway, in the end we win a lot and get cited ……. you can write it in your cv now)。其实我那时对 sequential dependence model 的理解和实现都是错的,居然还有这样的成绩。 今年就用结构平滑 bring back the glory 吧.

 

2. ecir 2018

今年三月底去法国的格勒诺布尔参加了 ECIR 2018. 这次会议我认为有几个动向值得注意:

1、高度重视模型的可复现性,国内有一篇在 squad 数据集上做问答的文章因为作者拒绝透露实现细节被参会者口诛笔伐,大家认为这种不可复现的文章应该直接拒稿。

2、信息检索的隐私和公平性问题,这是开幕式上 keynote speaker 的发言主题。

3、结构主义的苗头:这次会议有一些打着 “path aware”, “hierarchical”这样旗号的文章,依托 Knowledge Graph 的结构做一些简单的工作,总的来说结果都不是很好。其实这类方法都可以拓展到一般的语料库上面。

4、neural IR 的发展。其实IR现在最需要发展的是收集标注数据的方法论。最近几个会议上有好几个这方面背景的 keynote speaker ,可惜响应的人很少,因为数据都在大公司手里,而且数据归属权受到法律约束,不能明目张胆地收集和研究。如果再不重视这个问题的话,大家都得完蛋。。。

 

最后,我很幸运遇见了一个女生,我们算是半个同行。相信我们都会找到自己的路。我们还会再见。你在车站送给我的小瓶子还留着:)

Recent thoughts on entity retrieval

This area needs more publications to demonstrate its essence and boundary. I am tired of being asked “what is the difference between ad-hoc entity retrieval and (knowledge based) question answering ?” or “Is what you have done similar to Siri that can answer users’ questions ?”

I emphasized the term “structure-aware” in my previous papers on entity retrieval. From my perspective, a typical entity retrieval framework shall degenerate into a document retrieval model if it has no structure to utilize.

The research on entity retrieval is, to some extent, the research on document retrieval in the context of a certain kind of knowledge structure  (e.g. knowledge graph, rdf, wikipedia articles …).