中国高校SAS数据分析大赛2018宣讲会-华南赛区巡讲

达人专栏丨从线性回归到逻辑回归

上次已经讲到使用线性回归来解决分类问题,其实还不是很完整,还是把分类问题当成了回归问题来处理,这次我们先转化为一个标准的分类问题。



转化为分类问题

在讲线性回归的时候,我们预测的是房子的价格本身,而如果我们只是预测高房价还是低房价,我们预测的应该是这个分类类别本身,而不是预测房价。对于和之前一样的5个样本,高房价的样本为红点,对应y值为1,低房价的样本为蓝点,对应y值为0:



我们预测的模型如上图,还是和前面的文章一样,特征在x1的后边的预测为高房价,否则为低房价。


而这时如果加入一个比较偏离的样本,如下:



还是跟前面的文章一样,模型会受到这个新加入的点影响很大。但是实际上,这个点应该对模型影响很小才对,因为它已经远远偏离的分类的决策边界,也就是说它属于高房价的特征非常明显。所谓分类的决策边界应该是在x1附近,因为这附近的点很容易分类错误。(决策边界这个词一直觉得很好很形象)


那怎么才能保证模型在分类决策边界附近敏感,而对远离决策边界的样本不敏感呢?


答案当然是有的,就是逻辑函数!


逻辑回归


逻辑函数的形状如这样:



这个刚好就是满足我们刚刚的想法,对于上图,其决策边界为x=0,因为x在0值附近,y值变化最大,而越远离0值,变化越小。(注意:这里说的变化,是指对应点的曲线梯度)


加上我们的样本数据看看:



很明显,那些偏离决策边界的点对应模型的影响是很小的。在决策边界右边的预测为高房价,在左边的预测为低房价。


显然,相对于线性回归,使用逻辑回归来解决分类问题是非常有优越性的!


商务合作
BD@ibbd.net
简历投递
fuwu@ibbd.net
关于迪奥
产品中心
联系我们
行业应用
公司简介
新闻动态
人才招聘
自然语言理解
场景文字识别
文档OCR识别
金融行业
政府&公共事业
零售行业
020-29179586
工作日:9:30-18:30
广州市天河区华观路田头岗二路一横街起点国际三层
能源行业
文本数据挖掘