机器学习数据集划分方法

在机器学习模型建立过程中，需要用部分数据去训练，然后为了检验模型效果需要测试数据进行测试，那么改如何划分数据集呢

留出法

留出法思想很简单直接，就是按比例进行分配，一般训练数据:测试数据在 2：1–4：:之间。

特点：简单，快速，但不适合较小的数据集

将数据集分成K等份，用其中的K-1份进行训练，1份进行测试，并进行轮换（共K次），最后返回K次误差的平均值和方差。

假设数据集共M个数据，若M==K 则称为留一法

适合数据量较小时使用，但运算量巨大。

其实就是放回抽样，每次从数据集中抽出一份加入到训练集，然后将其放回去（可以被抽到多次），抽N次之后，得到N个数据，剩下没被抽到的作为测试集。（数学证明，会有约1/3的数据未被抽到）。

适合小数据量，保证了足够的训练数据，同时也留出了足够的测试数据。