网站建设与管理模拟题1,网站后台模板psd,wordpress 装饰插件,网站架构和网络有放回抽样
有放回抽样和无放回抽样的区别#xff1a;有放回可以确保每轮抽取的结果不一定相同#xff0c;无放回则每轮抽取的结果都相同 在猫狗的例子中#xff0c;我们使用”有放回抽样“来抽取10个样本#xff0c;并组合为一个与原始数据集不同的新数据集#xff0c;虽…有放回抽样
有放回抽样和无放回抽样的区别有放回可以确保每轮抽取的结果不一定相同无放回则每轮抽取的结果都相同 在猫狗的例子中我们使用”有放回抽样“来抽取10个样本并组合为一个与原始数据集不同的新数据集虽然新数据集中可能有重复的样本也不一定包含原始数据集的所有样本。
随机森林算法 装袋决策树算法Bagged decision tree是适用于决策树集合的一种算法生成决策树集合的过程如下 对于一个大小为M的原始数据集进行以下操作 使用“有放回抽样”生成一个大小为M的新数据集 在新数据集上训练决策树 完成一次后重复这个操作直到重复B次B不需要特别大因为收益会递减100左右是比较合适的值 装袋决策树算法指的是我们将训练示例放入虚拟袋中并进行有放回的抽样 装袋决策树算法会导致根节点处的拆分基本相同且根节点附近的子节点也很相似所以最后生成的决策树有大部分相似。为了让每个节点处能选择的特征不同从而生成更多不同的决策树提出了鲁棒性更强的随机森林算法。随机森林算法在每个拆分节点处我们的最优子节点的选择不是从所有的特征中选而是先随机一个小于n的数k再在包含k个特征的子集中选择最优子节点当n很大时通常取k根号n为什么随机森林算法比单个决策树的算法的鲁棒性更强因为随机森林已经用很多进行了细小修改的数据集来训练算法并进行平均所以即便训练集发生一些小变化也不会对最终输出有很大影响
XGBoost Boost tree的思路是用第一个已经训练好的决策树来预测原始数据集并在之后的新决策树建立的过程中重点关注预测失败的样本注意训练第一个决策树的数据集 — 对原始数据集进行平均概率的有放回抽样预测第一个决策树的数据集 — 原始数据集训练第二个决策树的数据集 — 对原始数据集进行重点关注预测失败的有放回抽样 由于重点关注预测失败算法的数学细节比较复杂选择不同样本之间的概率现在常用的是XGBoost有以下优点开源、快速高效、良好的默认拆分标准和停止拆分标准、内置正则化防止过拟合、广泛应用于比赛网站XGBoost为不同的训练示例分配了不同的方法所以不需要采用有放回抽样来生成随机训练集但就重点关注预测失败这一行为来看和Boost tree还是很类似 由于XGBoost的实现细节比较复杂所以通常直接导库使用具体代码分类和回归两种