中国高校SAS数据分析大赛2018宣讲会-华南赛区巡讲

达人专栏丨使用线性回归来解决分类问题

所谓分类问题其实也很好理解,例如把不同颜色的球分离开来。我们前面已经讲过使用线性回归来预测房价,这是回归问题,那我们是否能使用线性回归来实现分类呢?


很多讲机器学习的文章或者书,其实都没有讲清楚为什么不能直接使用线性回归来解决分类问题,但是这又是比较容易对初学者造成困惑的。要是面试问这样一个问题的话,可能很多人都答不上来,因为很多人只是会调用API。


使用线性回归来做分类问题


回到预测房价的问题上,例如如下是一个线性回归模型:



如果定一个阀值,我们就可以把房价分成高房价和低房价两类,如下:



上图,红色点是大家认为的高房价,而蓝色点是低房价。从预测上说,我们是从特征上开始的,如上图,大于x1的就可以预测为高房价,而小于x1的就可以预测为低房价,看起来能很好的工作。不过如果我们加入一个特别的高房价样本,如下:


多了一个高房价(红色点)样本之后,使用线性回归建模会得到一个新的模型,如图中的红色直线,受这个点的影响很大,整个模型和原来差异很大,即便只是增加了一个样本。这时和房价阀值交点在x2上,预测变成了大于x2为高房价,反之为低房价,这时就产生了一个错误的预测。


在比较好的情况下,加入这样一个样本,模型应该跟原来差不多才是比较好的。


可见,线性回归并不是不能用于分类问题,但是如果直接套用,所得的模型比较敏感,在应用的时候,效果可能并不会很好。


商务合作
BD@ibbd.net
简历投递
fuwu@ibbd.net
关于迪奥
产品中心
联系我们
行业应用
公司简介
新闻动态
人才招聘
自然语言理解
场景文字识别
文档OCR识别
金融行业
政府&公共事业
零售行业
020-29179586
工作日:9:30-18:30
广州市天河区华观路田头岗二路一横街起点国际三层
能源行业
文本数据挖掘