Bengxy
Little steps lead to great distances.

标签:Rank

Learning with Biased Feedback - 算法、偏差、马太与发现性

漫谈个性化场景下算法带来的Bias和马太效应。

在个性化算法大行其道的今天,人们在主流App上所接触的信息背后总有一套个性化算法在运作。个性化算法从海量的数据中,找到我们感兴趣的新闻、合适的商品、喜欢的音乐视频等。

从用户的隐式反馈(用户量、点击率、存留、回访)等指标上看,算法的效果振奋人心。毫无疑问的是,算法提升了人们获取信息的效率,我们不需要在一叠报纸中找自己关注的热点事件,也不需要在商场跑断腿。有了算法的帮助,合适的东西总是出现在App的第一坑位。

这是一件细思极恐的事情,算法知道我们的喜好,并决定了我们所见的内容。以至于许多算法”外行“提出了这样的问题[1]"Will AI Takeover Human?"

短期内我们不用担心美剧《West World》里AI起义推翻人类的事情,毕竟目前的Artificial Stupidity[2](人工愚蠢)距离那样的技术水平还太过遥远:D。不过我们或许应该担心:Will AI decide Human Mind?

CTR预估模型发展历程

CTR预估在搜索、推荐、广告等业务中一直是核心算法。而特征组合(Cross Feature)是CTR模型中的重头戏。本文主要梳理了自个性化技术广泛使用以来,CTR预估中带Cross Feature的若干经典模型。

聊一聊Query的改写

在目前的搜索环境中,通常根据item的文本进行分词,建立倒排索引,供用户检索。

这种方法检索速度快,逻辑实现简单灵活,同时搜索出的结果可解释性较强。但是,在这种场景下,对检索词的匹配程度要求较高。