最近信息检索社群的研究动向之一是所谓交互式检索的方法论(interactive/conversational/online + retrieval/learning to rank/blahblahblah.. )。简单来说,就是从用户的角度来考虑检索问题,因此系统的设计和评价方式需要从用户的实际行为和反馈出发,而不是通过假设单方面推进检索的过程。
read more...
- 以唯物史观看待(强调这点是因为,也可以有不同的角度认为这是某几个“大佬”以个人意志带动的潮流。),这种研究兴趣的迁移是对当前自然语言处理研究的被动回应和规避:传统的信息检索研究大多和 NLP 研究一样,是在离线的数据集上评价模型。由于神经网络强大的学习能力,以及信息检索和自然语言处理的相关性,现在信息检索确实有被自然语言处理的研究狂潮淹没的隐忧或危机。IR 社群亟需重新发掘信息检索的特异性,以示区别。因此交互性作为搜索引擎最显著的特征之一便被提上日程。
- 交互性检索是对多个已有方向的自然扩展。以信息供给(information supply)的角度,离线数据集的标注成本实在惊人并且存在道德风险,而用户行为数据丰富而有趣。通过学习用户行为再服务用户再收集数据,产生的“乘数效应”显然是比通过学习少数标注数据再服务用户的方法要大得多。另外,这也是 “searching as learning” 观点的延伸,只是强监督信号变成了弱监督信号。
- 现在的信息检索研究缺乏强有力的数学基础:许多最近的研究的表述方式,除了用结果说话的“炼金术”以外,就是一些高中级别的概率统计知识加上一点微积分,再加上作者自己想象的故事,最后再添上用海量实验结果堆砌的所谓“实验分析”。如果这一点不被解决,我不觉得能有什么很重要的进展。