Recent thoughts on entity retrieval

This area needs more publications to demonstrate its essence and boundary. I am tired of being asked “what is the difference between ad-hoc entity retrieval and (knowledge based) question answering ?” or “Is what you have done similar to Siri that can answer users’ questions ?”

I emphasized the term “structure-aware” in my previous papers on entity retrieval. From my perspective, a typical entity retrieval framework shall degenerate into a document retrieval model if it has no structure to utilize.

The research on entity retrieval is, to some extent, the research on document retrieval in the context of a certain kind of knowledge structure  (e.g. knowledge graph, rdf, wikipedia articles …).

Entity Retrieval via Type Taxonomy Aware Smoothing

Github: https://github.com/linxinshi/EntityRetrievalTAS

我的文章 “Entity Retrieval via Type Taxonomy Aware Smoothing”  被 ECIR 2018 这个会接受了

这算是我的第一篇正式的比较有意义的论文。之前几个月因为参加相关比赛的原因,投了 NTCIR 13 和 TREC 两个会议,但是比赛文章毕竟档次要低一些。我参加的两个比赛最后都以只有我一个人参赛不战而胜告终(然后组织者只好请我去演讲)。。。可见目前实体相关领域的研究比较冷清

Ad-hoc Entity Retrieval 可以看作是文档检索任务在结构化数据上的发展。 实体(entity) 就是客观世界存在的物体。目前的知识数据库(比如 DBpedia, Freebase)通常用 主语-谓语-宾语 (Subject-Predicate-Object, SPO triple)这样的三元组来描述实体(比如说 Virginia-isPartOf-UnitedStates)。中间的谓语通常叫作关系(relation),每个数据库都有自己的一套固定的谓语。 Ad-hoc Entity Retrieval 任务的输入是用户的查询,输出就是数据库里面的实体。 比如问“中国首都”,系统返回“北京”这个实体以及它的所有在数据库里面的信息。

很多文档检索的方法也可以用在实体检索任务上。这篇文章主要的创新点是让语言模型(Language Model)里面的狄利克雷平滑(Dirichlet Smoothing)可以在分类系统上(比如维基百科的标签系统)找到更多的和查询有关的信息,从而帮助返回更精确的结果。

坦白说这篇文章的结果不好。虽然 mlm-tc 那两列的提升很吓人,但我觉得主要是因为 mlm 本身能力有限并且每个域的权值是固定的,没有调整。最后不需要在会上演讲,只是展示海报

投稿的时候没时间做更多的实验(比如说推广到 Sequential Dependence Model 上面,这些都写到下一篇文章了)。不过我的目的只是想抛砖引玉,让信息检索这个领域的研究者可以重新审视语料库的结构对检索结果的影响,而不是天天想着用神经网络拟合文档的词的分布或者搞一些乱七八糟的 embedding 模型。所以个人觉得还是达到了我想要的效果。另外也想用这篇文章致敬信息检索大师、语言平滑的专家 Chengxiang Zhai…..

最后感谢各位大佬评审…….虽然看不到名字,但是从评论内容就可以猜出是谁,因为这个领域人很少…….小弟以后会多引用各位大佬的大作的……..请多关照…………

夕语

读本科的时候,有个学生会主席经常向我们炫耀,“我从宿舍走到教学楼,一路上都会有人和我打招呼”,也经常指点我们,“这个是XX主席,这个是某某书记”。

听说他毕业以后,去欧洲卖路由器了。不管以后能不能飞黄腾达,起码这个起点并不如他所想象的那样辉煌。

NASDAQ:AMD 基本面分析 2017

声明:本文内容仅供参考。因消息来源有限,可能存在错误。因为阅读本文后进行相关投资引起的损益,本人不负任何责任

本文承接之前博主写的这篇文章,继续分析超微半导体 (Advanced Micro Devices) 这家企业的表现。 最近 AMD 刚发布第三季度财报,表现尚可,本文不谈现金流、资产负债和损益表,只想从 AMD 的业务出发进行分析。对一家正在复兴的企业来说,不谈方向而是去谈那几个刚刚从负变正的财务数字和什么“第四季度的利润率”,简直就是在放屁。

NASDAQ:AMD 中国市场基本面简略分析 2016

从过去那篇文章到现在差不多快一年时间,AMD 的股价一直处在动荡的形势下,其中有多次达到了本人预测的 15 – 20 美元区间,但是持续时间较短。股价的主要表现有

1、每逢财报发布前一定快速蹿升,财报发布后立刻大跌 10% 以上

2、做空的机构较多,特别是华尔街的高盛、花旗这两家投资银行,为了抹黑 AMD 的业绩和成长潜力,无所不用其极

3、散户较多,每次一有风吹草动,反应剧烈,时常有情绪化的抛售现象,一般过两三天后有所恢复

4、即便动荡,每个固定间隔的时间窗口的最低股价一直有上升的趋势

许多人一定很奇怪,同是竞争对手,为什么英伟达的股价是 AMD 的十几倍以上?主要原因在于

1、英伟达在前几年农企衰弱的时候占据了大部分的市场

2、英伟达的显卡被广泛用于搭建深度学习的硬件设施

3、英伟达的愿景是成为提供人工智能服务的企业

现在人工智能概念被华尔街炒得很热,所以英伟达的股价有众多机构护驾。个人认为英伟达这样的布局是非常危险的。

相反,AMD 一直被当作工业股,也就是一家提供生产工具和生产力(这里指的是政治经济学里面的概念)的企业,很难得到机构的青睐。

虽然机构的参与一直是某只股票成长性的重要因素,但归根结底,股价能不能涨还是要看企业自身的实力和未来,这里略作分析:

1、人工智能的概念虽然很火爆,但实际上现在除了计算机视觉相关领域有较多应用外,其他领域的应用都基本无法达到实用水平。事实上,这是技术本身的原因造成的而不是硬件性能不足。总的来说,这个领域的需求根本无法支撑供给,这个泡沫预计三至五年内会被戳破,到时候所有鼓吹人工智能的企业都会自食其果。

2、虚拟现实(VR)是一个有很强现实意义的技术。 AMD 的显示业务一直在努力打通旗下产品和 VR 的联系,个人预计 VR 在三年内会开始普及,届时 VR 相关产品可为 AMD 带来非常充足的现金流

3、AMD 主导的 OpenCL 框架经过多年的发展,现在已经有被各大深度学习框架接受的趋势,已经有若干重量级产品开始支持 AMD 显卡对神经网络的加速运算。并且,在 NVIDIA 的硬件定价越来越高的情况下,价格低廉且性能不错的 AMD 显卡更有可能被考虑。(详见 Gihub 上的 ROCm 项目,目前已有 Caffe, Tensorflow, MxNet 等框架的移植项目,由 AMD 官方人员维护)

4、新的 Fusion 框架主导的嵌入式芯片预计可以打开一部分的笔记本和 HTPC 市场

5、Ryzen 系列 CPU 大获成功,在性价比和销量方面事实上已经彻底超越了 Intel 的系列产品,而华尔街的人还在睁眼说瞎话,真的非常可笑。

最后谴责高盛和花旗等长期恶意做空 AMD 的机构,长期利用监管漏洞和媒体勾结,散布流言蛊惑人心。这么贪婪迟早会被人民丢进地狱里面烧成灰。另一方面,这反映了 AMD 在公关方面的不足。英伟达和英特尔如果出事,华尔街都是一副大事化小小事化了的口径。要是换成 AMD 出事,他们巴不得投资者把所有股票都按白菜价贴给他们,然后农企马上进入破产清算程序。个人建议 AMD 应该组建一个更好的公关团队来应对目前相当不友善的投资环境,并且在必要的时候利用监管规则反击。

最近几天 AMD 的股价跌了 20%以上,预计恐慌情绪还要持续一周左右。其实对这种市场弹性很大的股票要有比较强的投资精神而不是投机精神,否则每天都会活在恐惧之中,而这正是做空者想要看到的。

最后按照惯例做股价预测。短期预测,春节前最高到达 14.5 美元左右。 长线继续看到 15 – 20 美元左右。

对 C.J. YAO 的评价

C.J Yao 是国内的一个时装设计师(不知道的可以去找她的微博账号。。。),前几年偶然关注到她,最近借着几个综艺节目火起来了。

国内的时装设计可以说是惨不忍睹。究其原因,主要是从业人员的文化程度普遍不高,并且偏科现象又很严重。我发现国内搞“艺术”和“设计”的人好像都不怎么学习数学和物理。空间感、尺寸都掌握不好,明显不能做好衣服的几何形状;更何况使用新的面料的时候,如果不对材质的物理性质有深入理解的话,很难能拿捏剪裁的程度。在这种底层细节都做不好的情况下,再去谈“创意”、“文化”这些概念就显得特别空泛。所以,这些“设计师”只好不停的去看各种国外的秀,然后山寨别人的设计,但又总是抓不住重点。

C.J Yao 的衣服真的不能算好看。个人觉得她家的衣服材质比较单调,配色挺奇怪的,感觉是一种故意和周围环境形成反差的思路。版型偏长,腰部空间宽大,就像一个人喜欢坐在椅子上翘起二郎腿,用膝盖撑起衣服,然后久而久之慢慢把衣服撑大的那种感觉。但是整体看上去有板有眼,规整又让人觉得放松,能表现出设计师的想法和个性,这是我比较欣赏的一点。

这个品牌的淘宝店的出镜模特总是画着一副很奇怪的淡妆,配着奇怪的发型,像鬼一样,表示接受不能。

最喜欢的还是最近出的帽子,不然我这个性别还能喜欢什么呢,博主又不是女装大佬。。。

Comment on recent progress of ad-hoc entity retrieval

1.An Empirical Study of Learning to Rank for Entity Search (Jing Chen, Chenyan Xiong, Jamie Callan)

这篇文章用 learning to rank 的方法,把之前一些表现比较好的模型的分数拿出来学习权重,然后返回新的混合的分数。

说实话,这篇文章让我挺失望的。这种基于 LTR 的办法纯属是下三滥的鸡肋套路,对本领域的研究几乎没有任何帮助(Empirical 也要讲道理啊!!拿分数当特征,真的不知道意义何在,而且很多模型其实都是基于类似的语言模型,很有过拟合的嫌疑,最后模型完全变成调参数的框架),因为我们可以随便编造出一堆简单的检索模型(比如对每个域都指派一个不同参数的 Language Model 构造的检索模型),然后用 LTR 以后照样可以提高性能,但是这样的性能提升是有限度的。当然,我也非常理解,因为这几位作者和 Learning to rank 的研究者圈子关系密切,所以用这样的方法论思考是很自然的事情。

这篇文章用的是 Balog 的 DBpedia 测试数据集的第一版,质量比较差。 之后在第二版数据 (DBpedia-Entity v2: A Test Collection for Entity Search)里面,这个方法一下就被打回原形了,和一些当前比较好的方法相比没有明显的提高甚至有所下降。

不知道第一作者是不是急着要文章毕业。假如我文章不够不能毕业,我也不会发这种文章凑数。。。

虽然不待见这篇文章,但是考虑到这个领域的文章实在太少,所以能投出去其实也算个好事,毕竟众人拾柴火焰高

2.Entity Search Based on the Representation Learning Model With Different Embedding Strategies  (Shijia E, Yang Xiang)

首先第一作者鄂世嘉的姓挺少见的,看样子似乎是满族,也有可能是汉族鄂氏(我总感觉每个满族人都是以前的皇族(爱新觉罗???)。。。。小的给贝勒爷请安了)。

这篇文章其实应该归类到知识库问答 (Knowledge Based Question Answering)这类文章中,因为 ad hoc entity search 主要还是发展传统信息检索在新的结构化数据上的方法论,KBQA 则是各种奇技淫巧崭新方法的竞技场。 这篇文章用的是 KBQA 里面比较常见的方法(其实就是 Facebook 之前一篇文章里面的方法。。。),学习查询和实体的表示,然后计算他们的相似度。

这篇文章方法并没有很大的突破,所以拉低了它的档次。文章的实验部分比较可疑(按照 ad-hoc entity retrieval 这个领域的标准来看),只用了 ListSearch 和 INEX-LD 两个数据集,按道理应该用上全部四个数据集, 不知道是否是因为结果不佳还是时间不够还是作者“觉得”这两个已经足够有代表性。  这篇文章用的也是 Balog 第一版的数据,如果换上新的测试数据集可能会被打回原形。

这个领域的数据集的标注数据特别少,一般只有几百条,并且有一定的数据集依赖性(比如说 INEX-LD 里面都是关键词组成的查询, QALD2 里面都是符合文法的正规查询,如果打乱这些不同“风格”的查询组成新的测试数据集,很可能会影响模型的性能)。所以深度学习是否能真的学到什么,个人持怀疑态度。

这篇文章还是有一定的价值,起码指了一条新路。博主的评论风格一般比较狂暴,所以看上去好像我全盘否定了这篇文章,但其实不是,因为我知道 IR 的研究工作量是其他领域的十倍以上,像我这样慢手慢脚的猪仔真的很难生存。。。。。

我觉得大部分的文章都没有理解 entity search 和 traditional information retrieval 的区别在哪里,所以导致方法论有偏差,一味想去拟合文本中词的分布。 其实照这个思路发展下去,总有一天会出现这样的文章:我们只要给每个词一个权重,然后找一台超级计算机疯狂运算几个月拟合结果,出来的结果一定是 state of the art 。。。。。

对中国有嘻哈的评价

说实话某嘻哈节目演到现在已经和以前的娱乐选秀节目没任何差异,我已经看不出任何和说唱有关的东西。站队的粉丝,微博上冒出来一堆“专业点评”,爆料和互相攻击,诸如此类。 如果只是把说唱当成推动节目进行的“规则”,目的还是造星和靠话题赚钱的话,我觉得把这些表现还不成熟的地下rapper推向大众是一件很危险的事情。可能会失控并在一年后开始说唱更长的寒冬。

年轻人的困惑

“爱上一匹野马,可我的家里没有草原”

现在的女孩子真的太现实了。。。。。接触过几个女孩子,没讲几句就旁敲侧击地谈到钱了,总是让我觉得以后是不是男同胞相亲的时候要把存折贴脸上才行呢。

年轻的女同胞希望刚交往的男友帅气有钱,颜值可以低点,但起码要有辆宝马吧(二手不要,要新的!。。。当然也有道理毕竟二手宝马到处漏油),但是年轻的男同胞往往还在上学或者刚工作。。。去哪弄这么多钱。 然后女同胞很失望,把这个破男友甩了,转身投奔富二代和老年土豪。 可怜的小男生很生气,发誓一定要牛逼,将来有钱了包养年轻的女大学生。。。。然后这就形成了一个恶性循环

打破这个循环的方法:1、期待年轻人不要谈恋爱    2、期待大家不要那么浮躁,有点耐心,选配偶像在投资潜力股   3、大家都降低标准

有的人会说要看“共同爱好”这类精神现象,个人现在对这种已经很绝望了,双方物质基础或者对物质的期望差别很大的情况下谈这个基本等于放屁。。。像我这种已经读到博士的人,看大部分人谈吐都如庖丁解牛,他们没有任何东西能引起我的好奇。有时候还是更喜欢关注生活本身,在一起过日子过得有意思才是最好的。

洗鼻盐的选择

声明:本人非持牌医师,本文内容仅供参考,如果因尝试以下方法造成的人身伤害,本人不负任何责任。

对轻度鼻敏感人群来说,洗鼻盐水的作用只是清除鼻腔内的脏东西。对重度鼻敏感人群来说,盐水的温度应该稍高一些,使得毛细血管略微舒张,浓度应该大一些,使得鼻腔内的水(鼻涕的成分之一)能够渗出一部分,从而减缓鼻塞等症状。

0、洗鼻盐水的温度:轻度鼻敏感人群冷水和温水皆可。重度鼻敏感人群最好用温水,以自己可以接受的温度为宜。

1、市场上售卖的洗鼻盐:主要成分是小苏打和精盐。优点是用量确定,配制出来的盐水浓度较低(接近生理盐水0.9%的浓度),比较柔和,对于轻度鼻敏感人群比较适用。

2、不含碘的食盐:买不到洗鼻盐的时候,用食盐代替是允许的。配制出来的盐水相比洗鼻盐配制的盐水会呛鼻一些。

配制的时候要注意用量,按个人经验,对于400毫升左右的洗鼻壶,一般情况下加入的盐不要超过1/4塑料汤匙。对于重度鼻敏感人群,用量不要超过1/2汤匙。

用这种盐水洗鼻以后可能会出现长时间流鼻涕的情况,这可能是因为盐水浓度较高,使得鼻腔内的水逆浓度梯度渗出。如果感觉难受,可以弯腰并且头朝下,这样大部分盐水会沿着鼻孔流出来。

重度鼻敏感患者建议自己用不含碘的食盐配制,效果可能会好一些。

3、含有螺旋藻的食盐(云盐):在云南旅行时候尝试了一下,似乎有奇效,但不好验证。短时间应急可以,长时间最好不要用,因为食盐含碘而且螺旋藻可能会发霉。。。如果要用请一定干燥保存,不要让容器碰到水

4、新疆盐湖的低钠盐:略有异味,无功无过,只能应急。

5、海盐和岩盐:颗粒大,杂质多,不可用。

6、平时可以把盐放在一个专门的罐子里,保持容器干燥。

7、含碘的食盐可以应急用,不建议长期用

Under the Shadow of Deep Learning

深度学习的概念现在已经是十分火爆了,这种终极的基于优化和统计的函数拟合技术已经征服了计算机科学大部分领域,以至于所有的人都希望自己从事的领域能和神经网络攀上一些关系。成功的人,叫做“XX领域最早使用XX网络的那一批”,久而久之,成了被瞻仰的理由;班门弄斧,应用失败的人,也可以给自己贴上先烈的标签,在机构或者公司里,用壮阔的经历和动人的眼泪谋得一官半职。

我周围的很多人,已经依靠这件宝贝获得了很多的利益。和他们在一起,听他们谈论起各种调整网络结构的技巧以及“会议见闻”的时候,难免会感受到一些压力。在科研机构里面,多发文章才能证明自己的生存能力,才可能获取更多的资源,才更有底气和面子(不管是对同性还是异性。。。)。默默无闻的人,总是被扫进记忆的垃圾桶——即使最终他们忍受了应得的苦难,发现了另外的宝藏,难免带着一身恶臭,不能见人。

在厦门大学,我选了庄宝煌教授的大学物理课程。庄是一个可以熟练地用本质的数学语言描述物理现象的人,也是一个喜欢在大众面前发表各种奇谈怪论的有趣人物。他可以连续数十个昼夜研究黎曼猜想(也许只是他眼中的黎曼猜想:)),也可以在课堂上解读七绝连环诗并且给全物理系的同事发邮件炫耀自己的成果。不过印象最深的还是他一直告诫我们要“随大流”。

对于科学来说,最重要的一直是可解释性,所有的部分都应该像玻璃一样拥有可以触碰的透明。

最近带了两个来自印度的研究助理,他们需要实现一些有点过时而且复杂的信息检索模型,并在有一些混乱的海量文本数据上测试自己的成果。要完成这样的工作需要耐心,特别是对于两位“深度学习爱好者”来说。 他们很尽职,不过在交谈的时候我时刻可以感受到他们对于应用前沿技术的憧憬。

不想耽误别人的青春,也不想浪费自己的时间。我在最后一周做出了一些改变,在可以接受的重要部分使用了一些让他们兴奋的东西。于是他们很开心地在第二天表示已经完成所有部分,在跑数据了。。。。(如果早点发现的话我会让老板扣光他们的工资!!!:))

其实信息检索模型在应用神经网络面对的最大问题是维度爆炸和语义拟合,所以我们都不知道能走多远。。。