澳门贵宾厅_澳门贵宾厅从最大似然估计开始,你需要打下的机器学习基石

中国围棋网2018年01月12日 08时01分32秒
62

原标题:从最大似然估计开始,你需要打下的机器学习基石

概率论是机器学习与深度学习的基础知识,很多形式化的分析都是以概率的形式进行讨论。而这些讨论或多或少都离不开最大似然估计,因为它是参数估计的基础之一,也是构建模型的基石。在本文中,我们从最大似然估计到贝叶斯推理详细地讨论了机器学习的概率论基石,并希望能为读者的预习与复习提供优秀的参考资源。


什么是参数?


在机器学习中,我们经常使用一个模型来描述生成观察数据的过程。例如,我们可以使用一个随机森林模型来分类客户是否会取消订阅服务(称为流失建模),或者我们可以用线性模型根据公司的广告支出来预测公司的收入(这是一个线性回归的例子)。每个模型都包含自己的一组参数,这些参数最终定义了模型本身。


我们可以把线性模型写成 y = mx + c 的形式。在广告预测收入的例子中,x 可以表示广告支出,y 是产生的收入。m 和 c 则是这个模型的参数。这些参数的不同值将在坐标平面上给出不同的直线(见下图)。


参数值不同的三个线性模型。


因此,参数为模型定义了一个蓝图。只有将参数选定为特定值时,才会给出一个描述给定现象的模型实例。


最大似然估计的直观解释


最大似然估计是一种确定模型参数值的方法。确定参数值的过程,是找到能最大化模型产生真实观察数据可能性的那一组参数。


上述的定义可能听起来还是有点模糊,那么让我们通过一个例子来帮助理解。


假设我们从某个过程中观察了 10 个数据点。例如,每个数据点可以代表一个学生回答特定考试问题的时间长度(以秒为单位)。这 10 个数据点如下图所示:


我们观察到的 10 个(假设的)数据点。


我们首先要决定哪个模型最适合描述生成数据的过程,这一步至关重要。至少,我们应该对使用哪种模型有一个不错的想法。这个判断通常来自于一些领域内专家,但我们不在这里讨论这个问题。


对于这些数据,我们假设数据生成过程可以用高斯分布(正态分布)进行充分描述。对以上数值目测一番就可以得知,高斯分布是合理的,因为这 10 个点的大部分都集中在中间,而左边和右边的点都很少。(因为我们只使用了 10 个数据点,做出这样的草率决定是不明智的,但考虑到我是用某个确定的分布函数生成这些数据点,我们就凑合着用吧)。


回想一下高斯分布有两个参数:均值μ和标准差σ。这些参数的不同值会对应不同的曲线(就像上面的直线一样)。我们想知道「哪条曲线最可能产生我们观察到的数据点」?(见下图)。用最大似然估计法,我们会找到与数据拟合得最好的 μ、σ 的值。



10 个数据点和可能得出这些数据的高斯分布。f_1 是均值为 10、方差为 2.25(方差等于标准偏差的平方)的正态分布,也可以表示为 f_1N(10, 2.25)。其它曲线为 f_2N(10, 9)、f_3N(10, 0.25)、f_4N(8,2.25)。最大似然的目标是找到最有可能生成已知观察数据分布的参数值。


我生成这 10 个数据的真实分布是 f_1~N(10, 2.25),也就是上图中的蓝色曲线。


计算最大似然估计


现在我们对最大似然估计有了直观的理解,我们可以继续学习如何计算参数值了。我们找到的参数值被称为最大似然估计(maximum likelihood estimates,MLE)。


我们同样将用一个例子来演示这个过程。假设这次有三个数据点,我们假设它们是从一个被高斯分布充分描述的过程生成的。这些点是 9、9.5 和 11。那么如何用最大似然估计逼近这个高斯分布的参数 μ 和 σ 呢?


我们要计算的是同时观察到所有这些数据的概率,也就是所有观测数据点的联合概率分布。因此,我们需要计算一些可能很难算出来的条件概率。我们将在这里做出第一个假设,假设每个数据点都是独立于其他数据点生成的。这个假设能让计算更容易些。如果事件(即生成数据的过程)是独立的,那么观察所有数据的总概率就是单独观察到每个数据点的概率的乘积(即边缘概率的乘积)。


从高斯分布中生成的单个数据点 x 的(边缘)概率是:


在表达式 P(x; μ, σ) 中的分号是为了强调在分号后的符号都是概率分布的参数。所以千万不要把这个与条件概率相混淆。条件概率一般会用竖线来表达,比如说 P(A| B)。


在我们的例子中,同时观察到这三个数据点的总(联合)概率是:


我们只要找出能够让上述表达式最大化的μ、σ值就可以了。


如果你在数学课上学过微积分,那么你可能会意识到有一种技巧可以帮助我们找到函数的最大值(和最小值)。我们所要做的就是求出函数的导数,把导函数设为零然后重新变换方程,使其参数成为方程的未知数。然后就这样,我们将得到参数的 MLE 值。我将串讲一下这些步骤,但我假设读者知道如何对常用函数进行微分。


对数似然函数


标签:澳门贵宾厅,澳门贵宾厅官网,澳门贵宾厅娱乐

本文链接:http://www.weiqi.cc/developer/123472.html 转载请注明出处