火眼®数据科学建模平台



聚焦大数据+算法模型:语义理解,图谱关系,机器学习,时序预测

让业务流程变得更加个性化,并最大化数据价值
中国高校SAS数据分析大赛2018宣讲会-华南赛区巡讲

达人专栏丨使用线性回归来解决分类问题

发表时间:2020-02-20 20:00

所谓分类问题其实也很好理解,例如把不同颜色的球分离开来。我们前面已经讲过使用线性回归来预测房价,这是回归问题,那我们是否能使用线性回归来实现分类呢?


很多讲机器学习的文章或者书,其实都没有讲清楚为什么不能直接使用线性回归来解决分类问题,但是这又是比较容易对初学者造成困惑的。要是面试问这样一个问题的话,可能很多人都答不上来,因为很多人只是会调用API。


使用线性回归来做分类问题


回到预测房价的问题上,例如如下是一个线性回归模型:



如果定一个阀值,我们就可以把房价分成高房价和低房价两类,如下:



上图,红色点是大家认为的高房价,而蓝色点是低房价。从预测上说,我们是从特征上开始的,如上图,大于x1的就可以预测为高房价,而小于x1的就可以预测为低房价,看起来能很好的工作。不过如果我们加入一个特别的高房价样本,如下:


多了一个高房价(红色点)样本之后,使用线性回归建模会得到一个新的模型,如图中的红色直线,受这个点的影响很大,整个模型和原来差异很大,即便只是增加了一个样本。这时和房价阀值交点在x2上,预测变成了大于x2为高房价,反之为低房价,这时就产生了一个错误的预测。


在比较好的情况下,加入这样一个样本,模型应该跟原来差不多才是比较好的。


可见,线性回归并不是不能用于分类问题,但是如果直接套用,所得的模型比较敏感,在应用的时候,效果可能并不会很好。


会员登录
登录
我的资料
留言
回到顶部