Bengxy
Little steps lead to great distances.

标签:Machine Learning

Learning with Biased Feedback - 算法、偏差、马太与发现性

漫谈个性化场景下算法带来的Bias和马太效应。

在个性化算法大行其道的今天,人们在主流App上所接触的信息背后总有一套个性化算法在运作。个性化算法从海量的数据中,找到我们感兴趣的新闻、合适的商品、喜欢的音乐视频等。

从用户的隐式反馈(用户量、点击率、存留、回访)等指标上看,算法的效果振奋人心。毫无疑问的是,算法提升了人们获取信息的效率,我们不需要在一叠报纸中找自己关注的热点事件,也不需要在商场跑断腿。有了算法的帮助,合适的东西总是出现在App的第一坑位。

这是一件细思极恐的事情,算法知道我们的喜好,并决定了我们所见的内容。以至于许多算法”外行“提出了这样的问题[1]"Will AI Takeover Human?"

短期内我们不用担心美剧《West World》里AI起义推翻人类的事情,毕竟目前的Artificial Stupidity[2](人工愚蠢)距离那样的技术水平还太过遥远:D。不过我们或许应该担心:Will AI decide Human Mind?

How Does Batch Normalization Help Optimization

2018年NIPS的这篇文章[1]主要讲Batch Normalization(BN)为什么能在提升算法效果。

众所周知,在各类场景下BN都能显著提升算法效果,这也是如今BN大行其道的原因。尽管如此,学术界对于BN为什么能提效还未有深刻的探讨。目前流行的观点认为,BN通过控制各个神经网络层的输入分布,从而降低Internal Covariate Shift(ICS)。

而这篇文章证明,让各层输入的分布稳定和BN提效并没有很大的关联。真正让BN起作用的是BN让优化的landscape更加平滑,从而带来了稳定的梯度,允许模型更快收敛。

ICS表示由上一层神经网络带来的输入数据分布的改变。传统上,我们认为ICS降低了模型精度,而BN通过降低ICS来提升training的performance。

关于Optimization Landscape如下图,右侧是更加平滑的梯度曲面,这篇文章[2] 是讲Skip-Connection的,其中的图可以描述光滑曲面的特点。

optimize-landsapce

CTR预估模型发展历程

CTR预估在搜索、推荐、广告等业务中一直是核心算法。而特征组合(Cross Feature)是CTR模型中的重头戏。本文主要梳理了自个性化技术广泛使用以来,CTR预估中带Cross Feature的若干经典模型。

Forward and Back Propagation of CNN

CNN卷积层的Forward Propagation(FP)和Back Propagation(BP)与Deep Net全连层相比略有不同。卷积核在输入层上的平移使得Input值x发生变化,因此计算时需要定位卷积核位置。通过for循环可以暴力的让卷积核在Input层上平移,但如果想要用更更快的矩阵计算则需要一些额外的技巧。

GMM高斯混合模型和EM算法

GMM高斯混合模型和EM算法

有许多讲高斯混合模型Gaussian Mixed Model(GMM)的文章,但很多都是一上来就套理论,讲公式。但对于机器学习的新人来说就比较难理解:受到什么样启发我们提出GMM?GMM适用哪些场景?以及GMM的理论支撑EM是如何保证GMM收敛的?

因此我整理了自己在学GMM时候的困惑以及一些理解。