9 机器学习应用建议

2017-09-04

优化选择

评估训练得到的假设Hypothesis;
数据分成训练集和测试集，通常用70%的数据作为训练集，用剩下30%的数据作为测试集;
训练集和测试集均要含有各种类型的数据;

通常要对数据进行“洗牌”：randomly shuffle，保证数据的均匀分布，然后再分成训练集和测试集。

对测试集运用该模型，我们有两种方式计算误差：

还可以计算错误分类的比率，对于每一个测试集实例，计算：

使用交叉验证集来帮助选择模型：

1训练集拆分：
- 使用60%的数据作为训练集;
- 使用39%的数据作为交叉验证集;
- 使用39%的数据作为测试集;
2 使用训练集训练出10个模型;
3 用10个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）;
4 选取代价函数值最小的模型;
5 用步骤4中选出的模型对测试集计算得出推广误差（代价函数的值）;

将训练集和交叉验证集的代价函数误差与多项式的次数绘制在同一张图表上来帮助分析：

1 d较小时，训练集和交叉验证集误差近似，且误差均比较大，随着d增加而同时减少;
2 当d增大时，交叉验证集误差呈现先减小后增大的趋势，转折点是我们的模型开始过拟合训练数据集的时候。
3 d增大，训练集误差一直减少，直到过拟合;
交叉验证集误差较大，我们如何判断是偏倚还是偏差呢？
- 1 训练集误差和交叉验证集误差近似时： bias偏倚/低拟合;
- 2 交叉验证集误差远大于训练集误差时： variance偏差/过拟合 ;

一般会使用一些归一化方法来防止过拟合。但是我们可能会归一化的程度太高或太小了：

选择一系列的想要测试的$\lambda$ 值，通常是0-10之间的呈现2倍关系的值（如：0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共12个）。
选择$\lambda$ 的方法为：

也可以同时将训练集和交叉验证集模型的代价函数误差与$\lambda$ 的值绘制在一张图表上.

学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量（m）的函数绘制的图表。
- 当训练较少行数据的时候，训练的模型将能够非常完美地适应较少的训练数据，但是训练出来的模型却不能很好地适应交叉验证集数据或测试集数据。

使用较小的神经网络，类似于参数较少的情况，容易导致高偏倚/低拟合，但计算代价较小;
使用较大的神经网络，类似于参数较多的情况，容易导致高偏差/过拟合，虽然计算代价比较大，但是可以通过归一化手段来调整而更加适应数据。;
通常选择较大的神经网络并采用归一化处理会比采用较小的神经网络效果要好。;
对于神经网络中的隐藏层的层数的选择，通常从一层开始逐渐增加层数，为了更好地作选择，可以把数据分为训练集、交叉验证集和测试集，针对不同隐藏层层数的神经网络训练神经网络，然后选择交叉验证集代价最小的神经网络。