Entity Retrieval via Type Taxonomy Aware Smoothing

Github: https://github.com/linxinshi/EntityRetrievalTAS

我的文章 “Entity Retrieval via Type Taxonomy Aware Smoothing”  被 ECIR 2018 这个会接受了

这算是我的第一篇正式的比较有意义的论文。之前几个月因为参加相关比赛的原因,投了 NTCIR 13 和 TREC 两个会议,但是比赛文章毕竟档次要低一些。我参加的两个比赛最后都以只有我一个人参赛不战而胜告终(然后组织者只好请我去演讲)。。。可见目前实体相关领域的研究比较冷清

Ad-hoc Entity Retrieval 可以看作是文档检索任务在结构化数据上的发展。 实体(entity) 就是客观世界存在的物体。目前的知识数据库(比如 DBpedia, Freebase)通常用 主语-谓语-宾语 (Subject-Predicate-Object, SPO triple)这样的三元组来描述实体(比如说 Virginia-isPartOf-UnitedStates)。中间的谓语通常叫作关系(relation),每个数据库都有自己的一套固定的谓语。 Ad-hoc Entity Retrieval 任务的输入是用户的查询,输出就是数据库里面的实体。 比如问“中国首都”,系统返回“北京”这个实体以及它的所有在数据库里面的信息。

很多文档检索的方法也可以用在实体检索任务上。这篇文章主要的创新点是让语言模型(Language Model)里面的狄利克雷平滑(Dirichlet Smoothing)可以在分类系统上(比如维基百科的标签系统)找到更多的和查询有关的信息,从而帮助返回更精确的结果。

坦白说这篇文章的结果不好。虽然 mlm-tc 那两列的提升很吓人,但我觉得主要是因为 mlm 本身能力有限并且每个域的权值是固定的,没有调整。最后不需要在会上演讲,只是展示海报

投稿的时候没时间做更多的实验(比如说推广到 Sequential Dependence Model 上面,这些都写到下一篇文章了)。不过我的目的只是想抛砖引玉,让信息检索这个领域的研究者可以重新审视语料库的结构对检索结果的影响,而不是天天想着用神经网络拟合文档的词的分布或者搞一些乱七八糟的 embedding 模型。所以个人觉得还是达到了我想要的效果。另外也想用这篇文章致敬信息检索大师、语言平滑的专家 Chengxiang Zhai…..

最后感谢各位大佬评审…….虽然看不到名字,但是从评论内容就可以猜出是谁,因为这个领域人很少…….小弟以后会多引用各位大佬的大作的……..请多关照…………

汽车 P0134 故障码检测和排除

前段时间,我的车的发动机故障灯亮了,用 iOBD 查了一下,发现报故障码 P0134,消除故障码以后开了几十公里又亮灯,最后换了个氧传感器才解决。下面介绍该故障码的诊断和排除

P0134 对应的故障是 “氧传感器无响应” 或者 “氧传感器活性不足” (根据不同厂商的设定而变化),一般指发生在前氧传感器的故障。氧传感器根据进气系统中氧气的浓度返回对应的电压信号或者电流信号,行车电脑获取对应信号以后指挥发动机设定相应的燃烧参数。如果一段时间内信号无变化,行车电脑就会认为氧传感器出现故障,于是发动机故障灯亮,并且开始按照工厂的默认设置处理进气和燃烧。

简易诊断:

1、汽车点火以后,使用 OBD 诊断器并用 iOBD 这类软件连接,查看前氧传感器(一般位置是“组1,缸1”)的反馈电压或电流,如果没反应(信号无变化)基本确定是氧传感器开路或者氧传感器中毒

2、冷车启动一段时间后下车观察排气管是否有异味和黑烟(汽油味除外),如果有应考虑清洗或更换三元催化器(一般卖氧传感器的商家为了推卸责任,会让你清洗三元催化器,除非能闻到明显的异味并且更换氧传感器不能解决故障,否则尽量不要动这个部分)

3、空气流量计故障或者排气管漏气也会造成故障,但是可能性较小,不到万不得已不要考虑这种情况

4、清洗节气门一般不能解决这类故障

解决:

方案1(针对氧中毒):拆卸前氧传感器,配置饱和草酸溶液或柠檬酸溶液(个人建议水温稍高一点,大概 40 – 50 度左右。84消毒液“洁厕灵”也可以,但是我觉得可能会反应放出氯气…),在通风环境下浸泡氧传感器。浸泡大概半个小时以后取出,继续在酒精中浸泡十分钟左右,取出晾干,然后装车。记得金属物体千万不可长时间浸泡,否则可能会钝化,然后一觉醒来就会发现自己得到了一个黑乎乎的传感器,表面有一层非常致密的氧化层,就好像涂了漆一样…

方案2:直接更换氧传感器。 需要注意的是同一车型的不同排量版本对应的氧传感器可能是不一样的,有些高端的或者大排量的车型用的是电流型的传感器(比如奔驰部分型号、马自达睿翼 2.5L ),用 iOBD 查看反馈信号的时候返回的是电流而不是电压。购买配件之前应该问清楚。建议除非去4S店处理故障,否则应该自己买相应的氧传感器去修理厂更换。因为一般本地的配件供应商为了最大化利润,会首先供应兼容性较好的万金油配件,不能做到按车型对待,使用以后很容易产生不适应的问题。

方案3:如果使用更换法仍然不能解决故障,首先可以再用另外的配件更换几次尝试一下(很有可能是氧传感器不匹配),仍然不能解决的话就要考虑检查汽车的电路和排气系统。

另外补充一下,拆前氧传感器不是很难,但是最好要有专用的氧传感器套筒,否则要用老虎钳慢慢转动传感器头松开,比较麻烦。如果不熟的话带上配件去路边摊处理,价格大概和洗车差不多。故障解决完以后需要先消除故障码观察一段时间。

夕语

读本科的时候,有个学生会主席经常向我们炫耀,“我从宿舍走到教学楼,一路上都会有人和我打招呼”,也经常指点我们,“这个是XX主席,这个是某某书记”。

听说他毕业以后,去欧洲卖路由器了。不管以后能不能飞黄腾达,起码这个起点并不如他所想象的那样辉煌。

NASDAQ:AMD 基本面分析 2017

声明:本文内容仅供参考。因消息来源有限,可能存在错误。因为阅读本文后进行相关投资引起的损益,本人不负任何责任

本文承接之前博主写的这篇文章,继续分析超微半导体 (Advanced Micro Devices) 这家企业的表现。 最近 AMD 刚发布第三季度财报,表现尚可,本文不谈现金流、资产负债和损益表,只想从 AMD 的业务出发进行分析。对一家正在复兴的企业来说,不谈方向而是去谈那几个刚刚从负变正的财务数字和什么“第四季度的利润率”,简直就是在放屁。

NASDAQ:AMD 中国市场基本面简略分析 2016

从过去那篇文章到现在差不多快一年时间,AMD 的股价一直处在动荡的形势下,其中有多次达到了本人预测的 15 – 20 美元区间,但是持续时间较短。股价的主要表现有

1、每逢财报发布前一定快速蹿升,财报发布后立刻大跌 10% 以上

2、做空的机构较多,特别是华尔街的高盛、花旗这两家投资银行,为了抹黑 AMD 的业绩和成长潜力,无所不用其极

3、散户较多,每次一有风吹草动,反应剧烈,时常有情绪化的抛售现象,一般过两三天后有所恢复

4、即便动荡,每个固定间隔的时间窗口的最低股价一直有上升的趋势

许多人一定很奇怪,同是竞争对手,为什么英伟达的股价是 AMD 的十几倍以上?主要原因在于

1、英伟达在前几年农企衰弱的时候占据了大部分的市场

2、英伟达的显卡被广泛用于搭建深度学习的硬件设施

3、英伟达的愿景是成为提供人工智能服务的企业

现在人工智能概念被华尔街炒得很热,所以英伟达的股价有众多机构护驾。个人认为英伟达这样的布局是非常危险的。

相反,AMD 一直被当作工业股,也就是一家提供生产工具和生产力(这里指的是政治经济学里面的概念)的企业,很难得到机构的青睐。

虽然机构的参与一直是某只股票成长性的重要因素,但归根结底,股价能不能涨还是要看企业自身的实力和未来,这里略作分析:

1、人工智能的概念虽然很火爆,但实际上现在除了计算机视觉相关领域有较多应用外,其他领域的应用都基本无法达到实用水平。事实上,这是技术本身的原因造成的而不是硬件性能不足。总的来说,这个领域的需求根本无法支撑供给,这个泡沫预计三至五年内会被戳破,到时候所有鼓吹人工智能的企业都会自食其果。

2、虚拟现实(VR)是一个有很强现实意义的技术。 AMD 的显示业务一直在努力打通旗下产品和 VR 的联系,个人预计 VR 在三年内会开始普及,届时 VR 相关产品可为 AMD 带来非常充足的现金流

3、AMD 主导的 OpenCL 框架经过多年的发展,现在已经有被各大深度学习框架接受的趋势,已经有若干重量级产品开始支持 AMD 显卡对神经网络的加速运算。并且,在 NVIDIA 的硬件定价越来越高的情况下,价格低廉且性能不错的 AMD 显卡更有可能被考虑。(详见 Gihub 上的 ROCm 项目,目前已有 Caffe, Tensorflow, MxNet 等框架的移植项目,由 AMD 官方人员维护)

4、新的 Fusion 框架主导的嵌入式芯片预计可以打开一部分的笔记本和 HTPC 市场

5、Ryzen 系列 CPU 大获成功,在性价比和销量方面事实上已经彻底超越了 Intel 的系列产品,而华尔街的人还在睁眼说瞎话,真的非常可笑。

最后谴责高盛和花旗等长期恶意做空 AMD 的机构,长期利用监管漏洞和媒体勾结,散布流言蛊惑人心。这么贪婪迟早会被人民丢进地狱里面烧成灰。另一方面,这反映了 AMD 在公关方面的不足。英伟达和英特尔如果出事,华尔街都是一副大事化小小事化了的口径。要是换成 AMD 出事,他们巴不得投资者把所有股票都按白菜价贴给他们,然后农企马上进入破产清算程序。个人建议 AMD 应该组建一个更好的公关团队来应对目前相当不友善的投资环境,并且在必要的时候利用监管规则反击。

最近几天 AMD 的股价跌了 20%以上,预计恐慌情绪还要持续一周左右。其实对这种市场弹性很大的股票要有比较强的投资精神而不是投机精神,否则每天都会活在恐惧之中,而这正是做空者想要看到的。

最后按照惯例做股价预测。短期预测,春节前最高到达 14.5 美元左右。 长线继续看到 15 – 20 美元左右。

对 C.J. YAO 的评价

C.J Yao 是国内的一个时装设计师(不知道的可以去找她的微博账号。。。),前几年偶然关注到她,最近借着几个综艺节目火起来了。

国内的时装设计可以说是惨不忍睹。究其原因,主要是从业人员的文化程度普遍不高,并且偏科现象又很严重。我发现国内搞“艺术”和“设计”的人好像都不怎么学习数学和物理。空间感、尺寸都掌握不好,明显不能做好衣服的几何形状;更何况使用新的面料的时候,如果不对材质的物理性质有深入理解的话,很难能拿捏剪裁的程度。在这种底层细节都做不好的情况下,再去谈“创意”、“文化”这些概念就显得特别空泛。所以,这些“设计师”只好不停的去看各种国外的秀,然后山寨别人的设计,但又总是抓不住重点。

C.J Yao 的衣服真的不能算好看。个人觉得她家的衣服材质比较单调,配色挺奇怪的,感觉是一种故意和周围环境形成反差的思路。版型偏长,腰部空间宽大,就像一个人喜欢坐在椅子上翘起二郎腿,用膝盖撑起衣服,然后久而久之慢慢把衣服撑大的那种感觉。但是整体看上去有板有眼,规整又让人觉得放松,能表现出设计师的想法和个性,这是我比较欣赏的一点。

这个品牌的淘宝店的出镜模特总是画着一副很奇怪的淡妆,配着奇怪的发型,像鬼一样,表示接受不能。

最喜欢的还是最近出的帽子,不然我这个性别还能喜欢什么呢,博主又不是女装大佬。。。

Midea 美的 FS40-13C 电风扇更换电机

这台电风扇是别人送的,用了两年,前几天传出一股焦味,而且风扇不转了。 应该是电机里面的保险丝或者线圈烧了,索性直接换电机,淘宝的价格大概是 50 元左右。

首先断开所有电源。取下风扇的前挡板,拧下中心的旋钮就可以把风扇叶片拿出来。

  

接下来把裸露的四颗螺丝拧松,如果可以拧下来的话最好。拧松以后把后网往前拉就可以取下来

接着把风扇主机后面的一颗螺丝拧下来

   

然后把控制风扇旋转的卡子用力往上直到拔出

这个时候就可以把罩住电机的黑色防尘罩往后拉出来了,露出电机的全貌。 这里为了方便我把风扇直接拧下来拿在手上,只要拧松风扇支撑杆下部的旋钮就可以做到。

把风扇控制板(就是控制风速的面板)后面的螺丝全部拧下来,就可以看到电路板

   

接下来换新的电机。因为买的是原厂电机,所以线的颜色都一样,把同色的线按顺序替换掉就可以。首先把蓝色线的白色卡扣拔掉(用钳子),然后把新电机的蓝色线和电路板的电源线接上并固定住(原厂只用了一个金属圈固定这两条线,感觉比较危险,如果有条件应该用导线连接器代替)

最后把控制风速的三条线换上。原来的线只要稍微用力就可以拔出来,新的线把线头慢慢插进去就可以,旁边的金属凸起用来控制是否固定线头

装完以后照原样复原,然后开机就可以了。全程不需要焊接。

National 松下 窗式空调拆解清洗制冷片

最近发现房间的空调出风不太顺畅,机身有抖动,拆开滤网以后发现里面的制冷片有厚厚的一层的灰尘,所以决定拆开清理

首先要把空调的电源全部断开,包括空调控制板上的开关也要打到OFF

这台松下的窗式空调只有中间一个螺丝孔,用大的十字螺丝刀松开就可以

接下来要把面板揭下来,按住面板左右的两个孔,左右晃动,然后统一往左边或者右边移动,使得面板先脱离一边的卡扣。 然后继续让面板脱离另一边的卡扣,最后脱离上下的卡扣。

把面板拆下来以后先用抹布把制冷片表面的灰尘擦掉,然后喷1/3瓶的空调清洗剂,顺便用水冲洗面板并擦干。 最后把面板装回去,安上螺丝。等待10分钟左右,打开空调,开窗通风15分钟以上。

Comment on recent progress of ad-hoc entity retrieval

1.An Empirical Study of Learning to Rank for Entity Search (Jing Chen, Chenyan Xiong, Jamie Callan)

这篇文章用 learning to rank 的方法,把之前一些表现比较好的模型的分数拿出来学习权重,然后返回新的混合的分数。

说实话,这篇文章让我挺失望的。这种基于 LTR 的办法纯属是下三滥的鸡肋套路,对本领域的研究几乎没有任何帮助(Empirical 也要讲道理啊!!拿分数当特征,真的不知道意义何在,而且很多模型其实都是基于类似的语言模型,很有过拟合的嫌疑,最后模型完全变成调参数的框架),因为我们可以随便编造出一堆简单的检索模型(比如对每个域都指派一个不同参数的 Language Model 构造的检索模型),然后用 LTR 以后照样可以提高性能,但是这样的性能提升是有限度的。当然,我也非常理解,因为这几位作者和 Learning to rank 的研究者圈子关系密切,所以用这样的方法论思考是很自然的事情。

这篇文章用的是 Balog 的 DBpedia 测试数据集的第一版,质量比较差。 之后在第二版数据 (DBpedia-Entity v2: A Test Collection for Entity Search)里面,这个方法一下就被打回原形了,和一些当前比较好的方法相比没有明显的提高甚至有所下降。

不知道第一作者是不是急着要文章毕业。假如我文章不够不能毕业,我也不会发这种文章凑数。。。

虽然不待见这篇文章,但是考虑到这个领域的文章实在太少,所以能投出去其实也算个好事,毕竟众人拾柴火焰高

2.Entity Search Based on the Representation Learning Model With Different Embedding Strategies  (Shijia E, Yang Xiang)

首先第一作者鄂世嘉的姓挺少见的,看样子似乎是满族,也有可能是汉族鄂氏(我总感觉每个满族人都是以前的皇族(爱新觉罗???)。。。。小的给贝勒爷请安了)。

这篇文章其实应该归类到知识库问答 (Knowledge Based Question Answering)这类文章中,因为 ad hoc entity search 主要还是发展传统信息检索在新的结构化数据上的方法论,KBQA 则是各种奇技淫巧崭新方法的竞技场。 这篇文章用的是 KBQA 里面比较常见的方法(其实就是 Facebook 之前一篇文章里面的方法。。。),学习查询和实体的表示,然后计算他们的相似度。

这篇文章方法并没有很大的突破,所以拉低了它的档次。文章的实验部分比较可疑(按照 ad-hoc entity retrieval 这个领域的标准来看),只用了 ListSearch 和 INEX-LD 两个数据集,按道理应该用上全部四个数据集, 不知道是否是因为结果不佳还是时间不够还是作者“觉得”这两个已经足够有代表性。  这篇文章用的也是 Balog 第一版的数据,如果换上新的测试数据集可能会被打回原形。

这个领域的数据集的标注数据特别少,一般只有几百条,并且有一定的数据集依赖性(比如说 INEX-LD 里面都是关键词组成的查询, QALD2 里面都是符合文法的正规查询,如果打乱这些不同“风格”的查询组成新的测试数据集,很可能会影响模型的性能)。所以深度学习是否能真的学到什么,个人持怀疑态度。

这篇文章还是有一定的价值,起码指了一条新路。博主的评论风格一般比较狂暴,所以看上去好像我全盘否定了这篇文章,但其实不是,因为我知道 IR 的研究工作量是其他领域的十倍以上,像我这样慢手慢脚的猪仔真的很难生存。。。。。

我觉得大部分的文章都没有理解 entity search 和 traditional information retrieval 的区别在哪里,所以导致方法论有偏差,一味想去拟合文本中词的分布。 其实照这个思路发展下去,总有一天会出现这样的文章:我们只要给每个词一个权重,然后找一台超级计算机疯狂运算几个月拟合结果,出来的结果一定是 state of the art 。。。。。

纽约之王 II

一觉醒来原来自己不在纽约

好梦容易破裂 月有阴晴圆缺

少数风景活跃在黑夜

就像出卖自己的人是为了商业

喜欢在天桥上望着脚下川流不息

风迎面吹来我更感到寂寥

如此大的城市总能遇到形形色色的人

却没有谁能对话我的灵魂

地铁隧道里的广告一帧帧的播

每天重复的日子 眼睁睁的过

原来你我都是寻找绿洲的骆驼

没有信念就会迷失在这片沙漠

—–幼稚园杀手 《城市里的素描》,略有改动

 

个人以为,这段是中国说唱史前三十年最伟大的 45 秒。 在以前的歌曲里面,很少见到嘻哈歌手深刻的自省。

一件小事

每两天我都会到操场跑步,一次大概慢跑 4~6公里,耗时25~40分钟左右。

最近遇上一个女孩子,和我跑步的时间差不多。她跑得挺猛的,一次大概要跑6公里左右,步幅大,步频快,而且在外道,跑的时候长发飘飘,很符合张国荣在“今夜不设防”里面说过的,那种他钟意的“运动家”类型的女孩子。我在内道慢慢跟过她,略有一点吃力。当然我只是跑跑步减减肥锻炼一下身体,没必要和别人较劲。(上次有头肥猪好像受了刺激非要跟我,果断提速拉爆他。告诉你,大哥不是好惹的

To be real,我也挺喜欢这种类型的女孩子。但是头一两次就去搭讪感觉太过刻意和猥琐。所以今天是第三次,我期待了好久,准时地在那个时间下到操场,正好她也刚到,在看手机。

她看见了我,转身进了旁边的健身房,去玩跑步机了。

这就是命。

有时候,在那些偶然或者刻意的时刻,想和你说话的人,可能只是有一点青春的共鸣,并不是想上你。