- 这节,我们来看一下分类问题:
- 哪些邮件是垃圾邮件/正常邮件?
- 我们先说二元分类:
因变量(dependant variable)可能属于的两个类:
- negative class 负向类
- positive class 正向类
则因变量:$y \in {0,1}$,其中0表示负向类,1表示正向类。
分类问题建模
线性回归建模
- 我们先尝试用线性回归的方法来建模:
- 取阈值为0.5,貌似预测的结果不错;但若训练集中有一个更大的数据(一个很靠右的训练点),这样直线拟合的更趋缓一些:
那么我们再使用0.5做阈值就不行了。
- 这是因为线性回归模型预测的值可以超越[0,1]的范围,并不适合解决这样的问题。
所以我们引入一个新的模型: 逻辑回归,该模型的输出范围始终在0,1之间。