中国高校SAS数据分析大赛2018宣讲会-华南赛区巡讲

达人专栏丨使用线性回归来解决分类问题

所谓分类问题其实也很好理解，例如把不同颜色的球分离开来。我们前面已经讲过使用线性回归来预测房价，这是回归问题，那我们是否能使用线性回归来实现分类呢？

很多讲机器学习的文章或者书，其实都没有讲清楚为什么不能直接使用线性回归来解决分类问题，但是这又是比较容易对初学者造成困惑的。要是面试问这样一个问题的话，可能很多人都答不上来，因为很多人只是会调用API。

使用线性回归来做分类问题

回到预测房价的问题上，例如如下是一个线性回归模型：

如果定一个阀值，我们就可以把房价分成高房价和低房价两类，如下：

上图，红色点是大家认为的高房价，而蓝色点是低房价。从预测上说，我们是从特征上开始的，如上图，大于x1的就可以预测为高房价，而小于x1的就可以预测为低房价，看起来能很好的工作。不过如果我们加入一个特别的高房价样本，如下：

多了一个高房价（红色点）样本之后，使用线性回归建模会得到一个新的模型，如图中的红色直线，受这个点的影响很大，整个模型和原来差异很大，即便只是增加了一个样本。这时和房价阀值交点在x2上，预测变成了大于x2为高房价，反之为低房价，这时就产生了一个错误的预测。

在比较好的情况下，加入这样一个样本，模型应该跟原来差不多才是比较好的。

可见，线性回归并不是不能用于分类问题，但是如果直接套用，所得的模型比较敏感，在应用的时候，效果可能并不会很好。

文章分类：在线学院

分享到：

商务合作

BD@ibbd.net

简历投递

fuwu@ibbd.net

关于迪奥

产品中心

联系我们

行业应用

公司简介

新闻动态

人才招聘

自然语言理解

场景文字识别

文档OCR识别

金融行业

政府&公共事业

零售行业

020-29179586

工作日：9:30-18:30

广州市天河区华观路田头岗二路一横街起点国际三层

能源行业

文本数据挖掘