2006年10月,在线电影租借公司Netflix宣布启动一项名为Netflix大奖的竞赛,任何团队如能实现在预测人们喜爱的影片方面比Netflix自带的推荐引擎高出10%,就可以拿到100万美元的大奖。这项颇具挑战的比赛吸引了5万多个计算机科学家团队参与角逐。今天,终于有一个团队(实际上是此前四个队伍的合并)宣布(link),它已经构建出将原引擎性能提高10.05%的系统。
从现在开始,他们将接受为期一个月的审查,如果通过的话,它将不仅仅意味着名利以及Netflix性能的提升,还将标志着网络推荐技术将迎来一个重要转折点。
这个叫做BellKor’s Pragmatic Chaos的小组由AT&T、雅虎研究部以色列分部、奥地利Commendo研究咨询公司及蒙特利尔Pragmatic Theory的研究人员组成。
今年一月的时候,我们曾经深入探究了Netflix大奖,对能否有人在2009年完成目标提出了展望(link)。在文章中,我们还讨论了《纽约时报》版的比赛资料,在这份资料中,我们了解到Nexflix现有的推荐引擎Cinematch同Netflix 60%的租借影片都有关系。Cinematch系统擅长预测“长尾”电影,这些老片子可能没有多少人知道,却受到了网站70%用户的青睐。Cinematch的效率在不断提升后于2006年进入稳定状态,网站面向外界开发者推出的百万大奖便引来了成千上万名工程师和网站粉丝们的关注。
原理
如何判断推荐功能是否得到提高?Netflix向参赛者匿名提供某些用户评分较高影片的数据,而后各个小组构建算法,来根据过去的情况预测其他客户会偏爱哪些电影。BellKor’s Pragmatic Chaos小组表示,它现在可以猜出人们更喜爱哪些影片,成功率比Cinematch高出10%。
像《大人物拿破仑》这样人们爱恨参半的电影,情况是很难判断的。机器几乎无从判断一个人会不会喜爱这部电影(link)。
大多数角逐Netflix大奖的预测推荐系统据说都和Cinematch相差无几,所以我们在一月份的文章中提出,除了这些不断的重复以外,会不会出现改进10%的重大突破呢?
有人认为,推荐技术有潜力在规模上超过搜索技术。在一篇写于一年半前、深受我们推崇的文章中,推荐引擎Strands的首席科学家里克·汉加特纳博士写道(link):
在短期内,搜索引擎将会越来越多地加入简单的推荐技术,以处理接近的查询词(例如,“您要找的是这个,根据类似查询/其他人的搜索,你可能要寻找的是这个。”)但从长期来说,推荐行业会越做越大,而比起搜索行业和搜索技术,推荐技术会更加地无孔不入。
(译者:pavel)

