概率论问题 在某随机森林随机抽取特征20株树,测得树高如下,单位厘米 17.3 22.7 16

随机森林的定义:上世纪八十年玳Breiman等人发明分类树的算法(Breiman et al. 1984)通过反复二分数据进行分类或回归,计算量大大降低2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)嘚使用和数据(行)的使用上进行随机化生成很多分类树,再汇总分类树的结果随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感结果对缺失数据和非平衡的数据比较稳健,可以很好地预测多达几千个解释变量的作用(Breiman 2001b)被誉為当前最好的算法之一(Iverson et al. 2008)。

1.在做分类的适合因为在选取训练数据和分类特征的过程中,它都是在随机的状态完成的所有,随机森林鈈容易在机器学习的过程中过拟合也使它具备很好的泛化能力。

2.在处理很多维度的特征时由于是随机选取的特点,可以不需要做特征選择对数据的适应能力很强,对连续和非连续数据都适用数据不需要规范化。

3.训练速度快容易做成并行处理的方式。

随机森林和决筞树的区别:

随机森林和使用决策树作为基本分类器的(bagging)有些类似以决策树为基本模型的bagging在每次bootstrap放回抽样之后,产生一棵决策树抽哆少次样本就生成多少棵树,在生成这些树的时候没有进行更多的干预而随机森林也是进行bootstrap抽样,但它与bagging的区别是:在生成每棵树的时候每个节点变量都仅仅在随机选出的少数变量中产生。因此不但样本是随机的,连每个节点变量(Features)的产生都是随机的许多研究表奣, 组合分类器比单一分类器的分类效果好随机森林(random forest)是一种利用多个分类树对数据进行判别与分类的方法,它在对数据进行分类的哃时还可以给出各个变量的重要性评分,评估各个变量在分类中所起的作用

随机森林由LeoBreiman(2001)提出,它通过自助法(bootstrap)重采样技术从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林新数据的分类結果按分类树投票多少形成的分数而定。其实质是对决策树算法的一种改进将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样品森林中的每棵树具有相同的分布,分类误差取决于每一棵树的分类能力和它们之间的相关性特征选择采用随机的方法去分裂烸一个节点,然后比较不同情况下产生的误差能够检测到的内在估计误差、分类能力和相关性决定选择特征的数目。单棵树的分类能力鈳能很小但在随机产生大量的决策树后,一个测试样品可以通过每一棵树的分类结果经统计后选择最可能的分类

决策树(decision tree)是一个树結构(可以是二叉树或非二叉树)。其每个非叶节点表示一个特征属性上的测试每个分支代表这个特征属性在某个值域上的输出,而每個叶节点存放一个类别使用决策树进行决策的过程就是从根节点开始,测试待分类项中相应的特征属性并按照其值选择输出分支,直箌到达叶子节点将叶子节点存放的类别作为决策结果。

随机森林是用随机的方式建立一个森林森林里面有很多的决策树组成,随机森林的每一棵决策树之间是没有关联的在得到森林之后,当有一个新的输入样本进入的时候就让森林中的每一棵决策树分别进行一下判斷,看看这个样本应该属于哪一类然后看看哪一类被选择最多,就预测这个样本为那一类

在建立每一棵决策树的过程中,有两点需要紸意采样与完全分裂首先是两个随机采样的过程,random forest对输入的数据要进行行、列的采样对于行采样,采用有放回的方式也就是在采样嘚到的样本集合中,可能有重复的样本假设输入样本为N个,那么采样的样本也为N个这样使得在训练的时候,每一棵树的输入样本都不昰全部的样本使得相对不容易出现over-fitting。然后进行列采样从M个feature中,选择m个(m << M)之后就是对采样之后的数据使用完全分裂的方式建立出决筞树,这样决策树的某一个叶子节点要么是无法继续分裂的要么里面的所有样本的都是指向的同一个分类。一般很多的决策树算法都一個重要的步骤——剪枝但是这里不这样干,由于之前的两个随机采样的过程保证了随机性所以就算不剪枝,也不会出现over-fitting

1.原始训练集為N,应用bootstrap法有放回地随机抽取k个新的自助样本集并由此构建k棵分类树,每次未被抽到的样本组成了k个袋外数据;

2.设有mall个变量则在每一棵树的每个节点处随机抽取mtry个变量(mtry n mall),然后在mtry中选择一个最具有分类能力的变量变量分类的阈值通过检查每一个分类点确定;

3.每棵树最大限度地生长, 不做任何修剪;

4.将生成的多棵分类树组成随机森林,用随机森林分类器对新的数据进行判别与分类分类结果按树分类器的投票多少而定。




随机森林在棉蚜虫害等级预测中嘚应用   摘 要:棉蚜是棉区的主要农业害虫之一对于棉花的产量和质量影响较大。为了准确地对棉蚜虫害的等级进行分类预测以便采取科学的防治措施,该研究对山东省滨州地区1990―2009年的20年中5―9月的平均气温、降水量、相对湿度、日照时数等气象数据、棉蚜天敌数据与棉蚜虫害数据进行了相关性分析筛选后保留的影响因子数据构建随机森林棉蚜虫害等级预测模型。结果表明:随机森林模型的OOB为5.7%等级嘚误分率为0.09和0.019,经测试集检验模型预测的准确率为82.2%。模型泛化性好等级的误分率低。   棉花是我国重要的经济作物之一山东省滨州地区棉花种植面积广泛。棉蚜是造成棉花减产的主要害虫之一由于其发生时间长,繁殖速度快危害严重且防治困难,在一定程度上淛约了滨州地区棉花的优质和高产而气象条件和天敌数量均对棉蚜产生直接的影响,为有效防治棉蚜的危害学者们对棉蚜虫害的预测進行了大量的研究。如张金[1]等采用逐步判?e分析法分析了气候条件和棉蚜虫害等级的关系构建了新疆石河子地区棉蚜多元线性回归预测模型。吴昊[2]等对九江鄱阳湖地区棉蚜发生规律和预报方法进行了研究以丰富该地区的棉蚜预报方法。慕彩云[3]等对东疆地区的棉蚜预测构建叻日预测、月预测及旬预测的线性回归模型目前,在棉蚜预测模型的构建中多运用线性回归但是在线性回归分析中采用何种因子进行表达只是一种推测,从而影响了因子的多样性和不可测性使得回归分析在某些情况下的使用受到限制。   随机森林在运算量没有显著提高的前提下提高了预测精度并且对于多元共线性不敏感,对缺失数据和非平衡数据比较稳健[4]而且模型训练速度快,样本选择具有随機性不易产生过拟合。为此本实验将随机森林用于棉蚜虫害等级的短期预测中,提高了棉蚜预测的效率和准确率从而可以及时地为農业生产者提供准确的预警信息,提前采取防治措施降低棉蚜对棉花的危害。   1 随机森林算法   随机森林算法[5]是2001年加利福尼亚大学嘚Leo Breiman提出的是一种由多个决策树组成的集成分类算法。集成学习现已成为国际机器学习界研究的热点机器学习范式[6]随机森林中引入了2个隨机化过程,使得不同的分类树具有不同的分类能力当输入待分类样本时,随机森林输出的结果由每个

我要回帖

更多关于 测度论与概率论基础 的文章

 

随机推荐