Cast a cold Eye
On Life, on Death.
Horseman, pass by!– W. B. Yeats
生与死 冷冷一瞥
骑士策马 向前!
Cast a cold Eye
On Life, on Death.
Horseman, pass by!– W. B. Yeats
生与死 冷冷一瞥
骑士策马 向前!
Full Text at ACM Digital Library: https://dl.acm.org/citation.cfm?id=3234963
github: https://github.com/linxinshi/EntityRetrievalPAS
我的文章 “Entity Retrieval in the Knowledge Graph with Hierarchical Entity Type and Content” 被 ICTIR 2018 这个会议接收了。
这是我的 “entity retrieval trilogy” 的第二篇。相比第一篇,这篇文章把之前的方法扩展到 Markov Random Field 上,使得 sequential dependence model 也可以使用结构平滑。另外把维基百科的文章解析成一个树状的形式,仍然使用结构平滑来计算查询和文章的相关程度(考虑一个从根到叶子的路径,最后的结果比整篇文章用 bag of words 表示的结果要好,这其实说明文本中有相当多的信息都被传统的语言模型忽略掉了)。这种推广并不是很难,但这篇文章是想强调在不同的结构化信息来源中信息检索模型可以通过以路径为中心的统一框架来寻找答案。“路径”的概念被推广到一个单纯的序列,序列中的相邻元素不一定是在具体的结构(比如 knowledge graph/type taxonomy)中相连的。只要使用者认为把它们组合在一起是有意义的,就可以使用结构平滑。另外结构平滑还可以用在其他更复杂的模型当中。
这篇文章还有一个细节是我把 BM25F 拿来当 baseline。之前这个模型在 dbpedia-entity v2 上取得了最好的成绩,导致这个领域的同行有一段时间意志消沉,觉得之前提出的模型都成了废柴。本人这次把它的固定参数版本单独拎出来吊打了一遍又一遍,to vent for my peer researchers。。。(原来使用的是 coordinate ascent 来学习参数,但是仍然和我的模型有差距)
最后感谢我们家 Sam 的劳动,各位 reviewer 还有 chair Grace & Fabrizio。
免责声明:因为资料来源有限而且可能有错漏,本文内容仅供参考。若要引用请自行修正,本人不对由此产生的任何社会影响负责。
微博上有很多饮食自媒体人出没,三教九流。这里讨论的“微博美食博主”是指那些经常放出做菜教程的博主。比如几年前比较火的“薄灰”、到现在打出名气的“美食家大雄”、“厨男王一刀”、“李子柒”等等。(顺便说一下,除了“薄灰”以外,以上提到的这几个账号好像都和一个叫“鲜城”的饮食自媒体营销号关系密切,所以某种意义上说这些人更像是“厨艺演员”而不是那种一边持家一边直播日常生活的普通人。)
这些美食博主的工作流大概有三个阶段:
第一阶段主要是每周按时放出一些比较热门的家常菜的教程,这个阶段博主一般会展示自己作为“厨艺素人”不断成长的状态,以便拉近自己和观众的距离,获得好感。
第二阶段主要是巩固自己的粉丝群体,并且开始针对特定人群推出一些专题性的内容,比如“留学生做菜系列”、“学生早餐系列”之类。接着流量增大的机会,也会开始推销一些自己的产品,比如厨具之类的。一般博主会宣称这类东西是好朋友推出来的工厂尾货或者瑕疵品,现在低价甩卖。其实随便在淘宝上比较一下同类产品就能发现这些东西并不能便宜多少,而且售后是一个很大的问题。大概就是省下了售后的钱。
第三阶段主要是著书立说、开淘宝店或者开始办一些访谈类节目提升自己的形象。淘宝店卖的东西从书到原料都有。
这类美食博主的宣传动机或者诉求一般有:
1、自己做饭有乐趣和满足感
2、自己做饭比较安全,外面餐馆的餐饮卫生堪忧
3、自己淘宝店卖的原材料是乡下亲戚种的,不加农药,纯天然(一般还会放上手捧蔬菜的真人照片展示农民的憨厚老实。。。。。。。)
总的来说这些动机都多少有一些反食品工业的倾向,这是我一直觉得比较荒谬的地方。这是食品工业的发展和矛盾变化的体现。早期生产力不发达的时候,人们可能会对食品工业的生产力产生一种崇拜敬畏的心态,就如同古代中国某些地方的“耕牛崇拜”。现在需求基本满足以后,在对“工业社会的反思”这样一种背景下,食品工业反而成为一种反人道反天然的存在。并且生产力的发展使得个人产生以一己之力挑战食品工业的心态,而这“一己之力”,就是这些美食博主所追求的“天然”。比较典型的就是“厨男王一刀”和“李子柒”,这两个账号的内容基本都是展示在类似农村的环境下,自己采集材料和烹调,做出来某种食物。其实这种烹调的环境是十分肮脏的,但是“一己之力”和“天然”的概念被最大限度的强化,使得受众暂时忘记食品安全的顾虑,沉醉在自媒体带来的虚幻的田园之乐当中。
当然如果观众能从这些自媒体当中学到一些烹调的技巧用来改善自己的生活,这是最好的。至于其他的东西,见仁见智,各取所需。
为了描述文档中词的分布,之前的研究者提出了很多的语言模型(比如 N-gram)。
一方面来说,这些模型只是近似地描述了一类分布,所以通过求解这类模型得到的分布只能说是基于对应的语言模型假设下最佳的结果。
另一方面,实践中经常会遇到这类情况,我们选定了一个语言模型来描述特定的文档集合的词的分布。但是有时候,工程人员并不完全依照这些模型的经典形式,而是喜欢在模型里面加入一些微扰项作为某种“分布在当前数据集上的偏移”,以便取得更好的结果。 这种现象反映了语言模型作为信息检索的核心的某些深层次问题。
子謂顏淵曰:「用之則行,舍之則藏,唯我與爾有是夫!」
子路曰:「子行三軍,則誰與?」
子曰:「暴虎馮河,死而無悔者,吾不與也。必也臨事而懼,好謀而成者也。」
Min Flag
痛苦中被迫浮现的字
用有限的时间做无限的事Min Flag
竖一杆大旗让勇士们绝地起义
精彩的程度让场下观众都全体起立——— MINSTA <Min Flag>
1. 唱过什么歌
最近去参加了学校图书馆和研究生院办的研究海报展览。22幅海报里面,只有我这张海报是来自工程学院的学科,其他都是生物医学社科。参加活动只是走走过场没什么可说的。虽然已经尽力把海报做到“让傻逼也能看懂”的程度,毕竟隔行如隔山,很多IR的精髓难以向普通观众描述。有趣的是图书馆的主管看了海报以后很激动,这两天打了好几通电话想找我做项目。具体来说,就是根据论文的摘要把每篇论文打上标签,这些标签构成一个 Type Taxonomy。这其实是一个简单的 Type Taxonomy classification 问题,之前的知乎“看山杯”和最近 sigir 18 e-commerce workshop 都提到了非常类似的任务。简单的字符级别当作输入的神经网络或者 fasttext 之类现成的分类器就能有合理的结果。(当然我之前想过一个结构平滑的办法,但是老板一贯地觉得我的方法 “cannot publish”,等到 ictir 和 e-commerce workshop 狂发邮件催稿的时候已经来不及了) 我的“研究”能够启发普通人解决一些耗费人力的工作,略感欣慰。 另外,图书馆的工作氛围很轻松,这里的人像是中文大学的“中产阶级”,衣着还算讲究,说话比较有礼貌。不像工程学院的不少人一副又猥琐又没礼貌的样子,走路的时候遇到人总是把头低下去好像囚犯见到监狱的工作人员。
从中学到大学到现在,我遇到了一些hater. 因为我总是用简单的方式揭示他们的愚蠢,总是用愚蠢的方法超越他们的想象。现在 haters 都在期待我延毕或者混不下去滚蛋,这辈子他们也许能看到本人失败一到两次。我在一个比较恶劣的环境下工作,research topic 的局限性明显很难发展,没有同行,计算资源有限,ra很难帮到。如果我哪天受不了拿个硕士学位走人,我也能骄傲地面对我的过去:没有抱大腿认爹,没有靠关系,独立完成,完全原创而不是东拉西扯一堆东西打包。
我的“entity retrieval 三部曲”还剩最后一篇文章没发表,在过去的两篇里面,我让那些快要进棺材的模型可以借着 knowledge graph 的风潮续命,炒了一盘冷饭。至于最后一篇做到了什么程度,不想评价。写完以后打算继续做 TREC Complex Answer Retrieval。今年 sigir 有篇文章讲到了这个task,还引用了我的文章当作baseline吊打。我才发现原来去年我们除了一个不战而胜的第一还有一个第二名(Deepanway, in the end we win a lot and get cited ……. you can write it in your cv now)。其实我那时对 sequential dependence model 的理解和实现都是错的,居然还有这样的成绩。 今年就用结构平滑 bring back the glory 吧.
2. ecir 2018
今年三月底去法国的格勒诺布尔参加了 ECIR 2018. 这次会议我认为有几个动向值得注意:
1、高度重视模型的可复现性,国内有一篇在 squad 数据集上做问答的文章因为作者拒绝透露实现细节被参会者口诛笔伐,大家认为这种不可复现的文章应该直接拒稿。
2、信息检索的隐私和公平性问题,这是开幕式上 keynote speaker 的发言主题。
3、结构主义的苗头:这次会议有一些打着 “path aware”, “hierarchical”这样旗号的文章,依托 Knowledge Graph 的结构做一些简单的工作,总的来说结果都不是很好。其实这类方法都可以拓展到一般的语料库上面。
4、neural IR 的发展。其实IR现在最需要发展的是收集标注数据的方法论。最近几个会议上有好几个这方面背景的 keynote speaker ,可惜响应的人很少,因为数据都在大公司手里,而且数据归属权受到法律约束,不能明目张胆地收集和研究。如果再不重视这个问题的话,大家都得完蛋。。。
最后,我很幸运遇见了一个女生,我们算是半个同行。相信我们都会找到自己的路。我们还会再见。你在车站送给我的小瓶子还留着:)
This area needs more publications to demonstrate its essence and boundary. I am tired of being asked “what is the difference between ad-hoc entity retrieval and (knowledge based) question answering ?” or “Is what you have done similar to Siri that can answer users’ questions ?”
I emphasized the term “structure-aware” in my previous papers on entity retrieval. From my perspective, a typical entity retrieval framework shall degenerate into a document retrieval model if it has no structure to utilize.
The research on entity retrieval is, to some extent, the research on document retrieval in the context of a certain kind of knowledge structure (e.g. knowledge graph, rdf, wikipedia articles …).
前段时间帮香港的一个朋友组网。需求就是要求卧室接通有线网,无线 wifi 信号覆盖整个房间,然后 ISP 的宽带接口在门口。宽带公司给的方案是从门口直接拉一条非常长的网线接到卧室,然后在卧室摆一个无线路由器。这个方案对房间的外观影响挺大的,而且路由器放在卧室不利 wifi 信号覆盖。 所以我就帮忙改造了一下,卧室旁边的插座插上电力猫,宽带入口经过一个双口交换机,一口接电脑,一口接电力猫。 在大厅放一个电力猫接无线路由器。
这个方案平稳运行了几个月。最近朋友反映网络非常慢,一开始我以为是 ISP 的问题,让他再等等看看,可是问题没有消失,我只好再去一趟。
手机接上 wifi 以后发现上网确实很慢。首先把电力猫和路由器全部断电重启,问题依旧。然后更换网线,问题依旧。接着对调电力猫位置,问题依旧。
于是测一下网速,发现一个现象:测下载速度的时候速率几乎为零,测上传速度的时候速率一直在 0 和 2Mbps 之间切换,如果看波形,就好像一串脉冲信号。 看了一下两个电力猫的工作灯,发现亮红灯,说明链路之间有很强的干扰,应该是信号经过了某个滤波器。 接着检查电力猫的位置,两个电力猫都和其他用电器插在各自的排插上面。估计是最近朋友又接上了新的用电器。 于是把电力猫拔下来,插在单独的墙插上面,再用长一点的网线连接路由器。最后问题解决。
所以电力猫最好直接并联在家庭电路的干路上,减少干扰。防雷排插、滤波排插(比如音响专用的插座)都可能会过滤网络信号。 香港这些 ISP 的方案虽然很愚蠢,但起码可以保证性能,保证不被用户投诉。在成本和技术能力有限的情况下,是最稳妥的方案。
拉杆箱的轮子可能是最容易被人忽视的部件,它对使用体验的影响却是最大的。
每个自用的拉杆箱,我基本上都会在用了一段时间以后把轮子换掉。原装的轮子一般来说质量都不太好,以塑料轮子居多。这反映在箱子在不平整的路面上行进时发出的噪音比较大,以及拉起来感觉生涩这两方面。
16寸以上的行李箱一般有四个轮架。常见的行李箱轮子配置方式有两种:万向轮和飞机轮。万向轮是指每个轮架只有一个轮子。飞机轮是指每个轮架有两个轮子,因此飞机轮又叫作双排轮。不过现在市场上经常把这两种轮子的称呼混淆在一起。
换轮子的方式有两种:换轮架和换轮子。换轮架需要把固定在行李箱上的轮架拆开,然后换上新的轮架,成本比较高,但是比较方便,因为轮架一般通过螺丝固定,只要一把螺丝刀就可以搞定。直接换轮子的方式需要先用锯子把固定在轮架上的轮子螺丝锯开,然后把断掉的螺丝和轮子一起拆掉,最后换上新的螺丝和轮子。
下面演示的是难度最高的案例:更换飞机轮的轮子,一共需要更换8个轮子。飞机轮每个轮架有两个轮子,因此需要比较长的对锁螺丝(在市场上比较难找)。
首先对准轮子内侧,把锯齿平行于螺丝横截面,把螺丝锯断
拆掉旧螺丝和轮子以后,换上新的螺丝和轮子,如果螺丝太长,需要在轮子内侧加上垫片。螺丝最好抹上润滑油。
螺丝一般选用对锁螺丝(螺丝截面直径一般是 5.8mm 或 6mm 。万向轮需要的螺丝长度一般在 40mm 以下,飞机轮至少需要 55mm 长的螺丝。购买之前需要精准测量,不合尺寸螺丝装不进轮子和轮架的开孔),最后用扳手固定即可。
前几天,因为在房间里做饭,我的雷柏V500机械键盘沾了一身的油污,味道很重。已经快一年没清洁键盘了,用拔键器把键帽全部拿掉一看,到处是肮脏的痕迹,如果用纸或棉签沾着酒精擦拭的话非常浪费时间,遂决定水洗键盘。
网上有很多人表示机械键盘“怕水”,进水必坏。其实机械键盘的结构并不是很复杂,每个轴的两个引脚被焊在电路板上,按下某个键时两个引脚导通并将信号传给芯片。所以清洗的关键就是不能让电路板短路,否则接上电脑的时候键盘会不停地发送按键信号。
除了拔键帽以外,还需要把键盘的螺丝都拧下来,拆开面板,然后开始水洗:用洗洁精刷一遍,然后冲水。接下来需要烘干面板和电路板,对家庭用户来说比较好的办法是使用衣柜式烘干机,放进去用高温档位将电路板的两个面分别对准出风口各烘干一个小时,每过半个小时拿出来用力甩干再放进去。注意必须要换面,否则会因为烘干不均匀,另一面仍然有水迹残留,导致连接电脑的时候会出现按键失灵、按键乱跳、键盘“自己打字”等情况(轴里面也会进水,所以有轴的那一面必须要保证烘干)。