线性回归和逻辑回归

线性回归

利用大量的样本

通过有监督的学习，学习到由x到y的映射f，利用该映射关系对未知的数据进行预估，因为y为连续值，所以是回归问题。

单变量情况

q+xe=K 囗

多变量情况

二维空间的直线，转化为高维空间的平面

Living area (feet2) #bedroorns Price (1000Ss) 2104 400 1600 2400 369 1416 232 540 ho (x) = 00 + + 02X2 ho (x) = = oTx

线性回归的表达式

机器学习是数据驱动的算法，数据驱动=数据+模型，模型就是输入到输出的映射关系。

模型=假设函数（不同的学习方式）+优化

假设函数

线性回归的假设函数（表示截距项，，方便矩阵表达）：

向量形式（都是列向量）：

优化方法

监督学习的优化方法=损失函数+对损失函数的优化

损失函数

如何衡量已有的参数θ的好坏？

利用损失函数来衡量，损失函数度量预测值和标准答案的偏差，不同的参数有不同的偏差，所以要通过最小化损失函数，也就是最小化偏差来得到最好的参数。

映射函数：

损失函数：

J 冖一 + 一 2m

解释：因为有m个样本，所以要平均，分母的2是为了求导方便

损失函数：凸函数

解析式的求解过程

我们需要最小化目标函数，关心取什么值的时候，目标函数取得最小值，而目标函数连续，那么一定为目标函数的驻点，所以我们求导寻找驻点。

求导可得：

Чот ХТ -(ОТХТХО-ОТХТу-уТХО+уТу

最终我们得到参数的解析式：

o = (XTX)lXTy

线性回归之梯度下降求解

求出代价函数关于的θ偏导（即梯度），最后按照梯度反方向来更新θ。公式推导如下：

逻辑回归

Logistic回归的主要用途

寻找危险因素：寻找某一疾病的危险因素等
预测：根据模型，预测在不同的自变量情况下，发生某病或某种情况的概率有多大
判别：实际上跟预测有些类似，也是根据模型，判断某人属于某病或属于某种情况的概率有多大，也就是看一下这个人有多大的可能性是属于某病

常规步骤

Regression问题的常规步骤为：

寻找h函数（即hypothesis）
构造J函数（损失函数）
想办法使得J函数最小并求得回归参数（θ）

构造预测函数h

从名字来理解逻辑回归.在逻辑回归中,逻辑一词是logistics的音译字,并不是因为这个算法是突出逻辑的特性.

至于回归,我们前一段讲到回归任务是结果为连续型变量的任务,logistics regression是用来做分类任务的,为什么叫回归呢?那我们是不是可以假设,逻辑回归就是用回归的办法来做分类的呢.

假设刚刚的思路是正确的,逻辑回归就是在用回归的办法做分类任务,那有什么办法可以做到呢,此时我们就先考虑最简单的二分类,结果是正例或者负例的任务.

按照多元线性回归的思路,我们可以先对这个任务进行线性回归,学习出这个事情结果的规律,比如根据人的饮食,作息,工作和生存环境等条件预测一个人”有”或者”没有”得恶性肿瘤,可以先通过回归任务来预测人体内肿瘤的大小,取一个平均值作为阈值,假如平均值为y,肿瘤大小超过y为恶心肿瘤,无肿瘤或大小小于y的,为非恶性.这样通过线性回归加设定阈值的办法,就可以完成一个简单的二分类任务.如下图:

at'S looni 5-0 weu'qen

上图中,红色的x轴为肿瘤大小,粉色的线为回归出的函数的图像,绿色的线为阈值.

预测肿瘤大小还是一个回归问题,得到的结果(肿瘤的大小)也是一个连续型变量.通过设定阈值,就成功将回归问题转化为了分类问题.但是,这样做还存在一个问题.

我们上面的假设,依赖于所有的肿瘤大小都不会特别离谱,如果有一个超大的肿瘤在我们的例子中,阈值就很难设定.加入还是取平均大小为阈值,则会出现下图的情况:

从上边的例子可以看出,使用线性的函数来拟合规律后取阈值的办法是行不通的,行不通的原因在于拟合的函数太直,离群值(也叫异常值)对结果的影响过大,但是我们的整体思路是没有错的,错的是用了太”直”的拟合函数,如果我们用来拟合的函数是非线性的,不这么直,是不是就好一些呢?

原来的判别函数我们用线性的y = wx, 逻辑回归的函数呢,我们目前就用sigmod函数,函数如下:

ho(x) = g(0Tx) =

函数hθ(x) 的值有特殊的含义，它表示结果取1的概率，因此对于输入x分类结果为类别1和类别0的概率分别为：

P(y=01x;O)=l-h0(x) P(y=lIx;0)=h0 冖匕

构造损失函数J

由上式可得似然函数：

对数似然函数为：

冖冖 (l x)0q | 。一冖冖。 ~ 冖 | 1) + 冖。 )X)%I 、。一 (l)'f)R Ⅱ 冖 0 一 7 、。一 Ⅱ 冖 0 一 ~

最大似然估计就是求使取最大值时的θ，将

1 m

因为乘了一个负的系数-1/m，所以取最小值时的θ为要求的最佳参数。可用梯度下降求解。

梯度下降法求损失函数最小值

3 戸一斗ン C 耳心一斗 2