火眼®数据科学建模平台



聚焦大数据+算法模型:语义理解,图谱关系,机器学习,时序预测

让业务流程变得更加个性化,并最大化数据价值
中国高校SAS数据分析大赛2018宣讲会-华南赛区巡讲

达人专栏丨从线性回归到逻辑回归

发表时间:2020-03-03 20:00

上次已经讲到使用线性回归来解决分类问题,其实还不是很完整,还是把分类问题当成了回归问题来处理,这次我们先转化为一个标准的分类问题。



转化为分类问题

在讲线性回归的时候,我们预测的是房子的价格本身,而如果我们只是预测高房价还是低房价,我们预测的应该是这个分类类别本身,而不是预测房价。对于和之前一样的5个样本,高房价的样本为红点,对应y值为1,低房价的样本为蓝点,对应y值为0:



我们预测的模型如上图,还是和前面的文章一样,特征在x1的后边的预测为高房价,否则为低房价。


而这时如果加入一个比较偏离的样本,如下:



还是跟前面的文章一样,模型会受到这个新加入的点影响很大。但是实际上,这个点应该对模型影响很小才对,因为它已经远远偏离的分类的决策边界,也就是说它属于高房价的特征非常明显。所谓分类的决策边界应该是在x1附近,因为这附近的点很容易分类错误。(决策边界这个词一直觉得很好很形象)


那怎么才能保证模型在分类决策边界附近敏感,而对远离决策边界的样本不敏感呢?


答案当然是有的,就是逻辑函数!


逻辑回归


逻辑函数的形状如这样:



这个刚好就是满足我们刚刚的想法,对于上图,其决策边界为x=0,因为x在0值附近,y值变化最大,而越远离0值,变化越小。(注意:这里说的变化,是指对应点的曲线梯度)


加上我们的样本数据看看:



很明显,那些偏离决策边界的点对应模型的影响是很小的。在决策边界右边的预测为高房价,在左边的预测为低房价。


显然,相对于线性回归,使用逻辑回归来解决分类问题是非常有优越性的!


会员登录
登录
我的资料
留言
回到顶部