无法在这个位置找到: /shuoguai/header.htm
返回首页您现在的位置: 主页 > www.2222by.com > 文章内容

Google 如何管理庞大的搜索结果排序规则集合?

作者: admin 来源: 未知 时间: 2016-11-26 阅读: 在线投稿
Google的production系统并没有采用Machine Learning Rank方法,而是使用手工调整的模型。关于这个问题的最早讨论可能出现在Kosmix联合创始人Anand Rajaraman的两篇博文里[1,2]。Anand Rajaraman的消息则来源于Peter Norvig。Peter Norvig是Google的Director of Research,也是著名人工智能教材Artificial Intelligence: A Modern Approach的第二作者。

我至今还没有在任何一家搜索引擎公司工作过,本来不太适合回答这个问题。不过看了Anand Rajaraman那两篇讨论后,在发呆时它们偶尔会出现在我时空穿梭的思维中。下面记录的就是时空穿梭中形成的一些思维碎片,欢迎对情况更了解的同学指正。

首先需要考虑的是,为什么Google不采用Machine Learning Rank方法。Anand Rajaraman就此谈了很多方面,但比较有说服力的有两点:

1)多数机器学习模型都基于一个假设,生成数据的是一个稳定的随机过程,或者说,和过去积累的训练数据集和离线测试数据集相比,未来数据不会有什么显著变化。但搜索需要面对快速变化的互联网,未来搜索引擎上用户认可的结果以及可能出现的查询都有可能和过去不同,并不符合上述的假设。在这种机器学习不可靠的状态下,也许人肉学习更可信赖一点。

2)不管采用的数据集是用户点击形成的,还是领域专家标注形成的,以下这种情况都有可能大量出现:当把候选结果提交给用户或领域专家时,最符合要求的查询结果可能因为排位太后,总是得不到用户点击或领域专家标注,由此形成的数据集作训练集训练模型,会造成恶性循环,最好的结果永远排不到前边。这种情况下,让工程师们人肉调整模型或许反而更可靠一点。

但是这两点实际上也经不起仔细推敲。因为得到模型后,总得有个测试数据集来检验模型的效果,只要这个测试数据集包含上述的问题,不管是用机器学习方法,还是人肉调整模型,最终的效果都是一样的。实际上,人肉的主要作用也许不在于模型的调整过程,而在于模型的评估过程。Google评价模型的优劣,应该不是只有一个标准,而是有几个甚至几十个标准,需要综合平衡来决定选取哪个模型上线,由人工分析精心挑选的几十个指标,应该能从很大程度上克服Anand Rajaraman提到的这两个问题。而机器学习方法显然更适合在单目标的情况下工作。

所以,整个的工作过程也许是先在整个参数空间搜索得到几个或几十个候选模型,然后用预设的几个或几十个指标人工对他们进行综合分析评估。[3]中提供了一个参数空间搜索的方法,当然,它是以NDCG最优为目标搜索的,我们可以在几十个指标中选取两三个最重要的指标,以优化其中任意一个为目标来搜索,以减小搜索代价。

=====================================================================

看了骆逸的讨论,以及前几天在Quora上看到的类似问题的讨论[4],需要修正一下我的讨论。

首先,Google为什么不采用Learning to Rank方法?对此我暂时还坚持上面的观点。这个和骆逸以及Quora上的讨论并无矛盾,并且可以相互补充。

其次,Google是如何手工调整参数的?Quora的讨论明确指出Google工程师的确会手工修改参数的值。如果是这样,我上面提到的[3]中的方法就不太符合,因为那很大程度上还是一个自动调参数的方法。综合Quora上的解答以及本问题中提到的MS研究人员的说法,以及对Learning to Rank的了解,[5]中的方法也许最接近Google的排序方法,因为该方法: 1) 是基于规则的; 2) 是类似adaboost的ensemble learning方法,性能有保证; 3) 生成的模型有很好的可解释性,便于工程人员理解与手工调整。

=====================================================================

[1] anand.typepad.com/dataw
[2] anand.typepad.com/dataw
[3] portal.acm.org/citation
[4] quora.com/Why-is-machin
[5] arxiv.org/PS_cache/arxi
上一篇:存 2 万进余额宝,每天收益 2 块钱去买彩票,这样靠谱吗? 下一篇:没有了

相关阅读

发表文章

最新评论

更多评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
友情提示: 登录后发表评论,可以直接从评论中的用户名进入您的个人空间,让更多网友认识您。
无法在这个位置找到: /shuoguai/footer.htm