能将eclat管理学决策树算法例题导入weka中吗

机器学习 · R语言包大全(共99个包)
本文译自日Torsten Hothorn整理的《CRAN Task View: Machine Learning & Statistical Learning》,英文原文链接:https://cran.r-project.org/web/views/MachineLearning.html
计算科学与统计学的交叉领域,我们通常称之为机器学习。有很多R语言包都可以实现机器学习相关的思想和方法。我们将这些R包大致分类整理如下:
神经网络与深度学习,Neural Networks and Deep Learning,8个包
递归划分,Recursive Partitioning,14个包
随机森林,Random Forests,12个包
正则化和收缩法,Regularized and Shrinkage Methods,25个包
推进和梯度下降,Boosting and Gradient Descent,9个包
支持向量机与核函数,Support Vector Machines and Kernel Methods,5个包
贝叶斯方法,Bayesian Methods,2个包
遗传算法优化,Optimization using Genetic Algorithms,3个包
关联规则,Association Rules,2个包
模糊规则系统,Fuzzy Rule-based Systems,2个包
模型选择与验证,Model selection and validation,6个包
其他程序,Other procedures,3个包
综合的包,Meta packages,4个包
统计学习要素,Elements of Statistical Learning ,1个包
用户图形界面,GUI,1个包
其他,2个包
神经网络与深度学习
Neural Networks and Deep Learning
关于R语言深度学习,可回复“深度学习”查看统计咨询公众号前期的文章《Deep Learning in R · R语言深度学习》。
nnet:单隐藏层神经网络
RSNNS:提供接口连接到斯图加特神经网络模拟器(Stuttgart Neural Network Simulator, SNNS),该模拟器由斯图加特大学开发,详情可查看官网:http://www.ra.cs.uni-tuebingen.de/SNNS/
FCNN4R:提供接口连接到C++编写的开源库(Fast Compressed Neural Network, FCNN),该库可用于人工神经网络的计算 ,详情可查看官网:http://fcnn.sourceforge.net/
rnn:递归神经网络
darch:限制玻尔兹曼机、深度信念网络
deepnet:前馈神经网络、限制玻尔兹曼机、深度信念网络、堆叠自动编码机
RcppDL:去噪自动编码机、堆叠去噪自动编码机、限制玻尔兹曼机、深度信念网络
h2o:前馈神经网络、深度自动编码机
Recursive Partitioning
rpart:回归、分类、生存分析等的树状结构模型,被推荐进行分类回归树分析(Classification and Regression Tree, CART)
tree:同rpart
RWeka:t提供接口连接到怀卡托智能分析环境(Waikato Environment for Knowledge Analysis, Weka),该软件拥有丰富的分类算法,包括J4.8、C4.5、M5等,详情可查看官网:http://www.cs.waikato.ac.nz/ml/weka/
Cubist:基于距离校正规则的回归模型(类似树模型)
C50:C5.0分类树、基于规则的模型、以及重抽样功能
party:无偏变量选择递归分类算法、统计停止准则递归分类算法;Functionctree() 函数是基于非参条件推断过程判断因变量和各自变量间的独立性的;mob()函数可以进行参数分类模型;拥有强大的用于可视化二叉树的功能
vcrpart:树状变系数模型
LogicReg:Logic回归树
maptree:树状图的可视化工具
REEMtree:纵向数据随机效应树模型
RPMM:混合效应模型的分类算法
partykit:用于树模型的预测和可视化
evtree:结合partykit实现最优树模型的选择
LTRCtrees:生存资料的树模型,包括左删失、区间删失、右删失
Random Forests
randomForest:经典的随机森林回归和分类算法
ipred:对回归、分类、生存分析等进行集成学习(bagging)
party:除了上面递归划分中的提到的功能,也能进行基于条件推断过程的的随机森林算法
randomForestSRC:对回归、分类、生存分析等进行Breiman随机森林算法
quantregForest:百分位数回归随机森林算法
LogicForest:对上面递归划分中提到的Logic回归树进行的森林算法拓展
varSelRF:以变量筛选为主的随机森林算法
Boruta:同varSelRF
ranger:提供接口连接到C++进行随机森林分析
Rborist:同ranger
RLT:强化学习树(Reinforcement Learning Trees, RLT)
wsrf:提供与传统的随机变量抽样变量筛选技术不同的,以变量附权进行变量子空间筛选的方法
正则化和收缩法
Regularized and Shrinkage Methods
关于LASSO算法,可回复“LASSO”查看统计咨询公众号前期的文章《LASSO的前世今生》和《从罚函数出发剖析岭回归和LASSO回归》。
lasso2:在回归模型参数估计时进行条件限制
lars:同上
grplasso:进行lasso算法的同时对成组的参数进行更新,即成组lasso
grpreg:实现很多成组惩罚模型,包括成组MCP和成组SCDA
glmpath:对广义线性模型和Cox模型进行L1正则化路径分析
elasticnet:弹性网正则化路径分析
glmnet:完整lasso和弹性网正则化路径分析,适用于线性模型、logistic回归模型、多分类回归模型等
penalized:采用lasso(L1)和ridge(L2)惩罚回归模型,适用于广义线性模型和Cox模型等
biglasso:基于L1惩罚的高斯和logistic模型,当所需内存过大时,可用该包
RXshrink:识别和展示收缩路径,并决定收缩的合适程度
ahaz:基于lasso惩罚的半参数可加风险模型
relaxo:线性回归模型的Lasso收缩,可称为放松lasso
penalizedLDA: 基于可选择的LASSO惩罚产生稀疏解决方案的Fisher线性判别分析
pamr:用于基因表达分析的缩小中心分类器
earth:多元自适应回归样条
penalizedSVM:通过支持向量机在惩罚模型中的克隆选择进行变量筛选(SCAD或L1惩罚)
hda:多种形式的惩罚判别分析
rda:同hda
sda:同hda
LiblinearR:提供接口连接到LIBLINEAR库
ncvreg:采用坐标下降算法基于SCDA和MCP回归惩罚拟合线性和logistic回归模型
bigRR:高通量岭回归(如:含有许多自变量)和异方差效应模型
bmrm:正则风险最小化的约束法
hdm:基于非高斯和异方差残差的Lasso,低维度组份的Lasso回归,估计干预效应的高维度设置
SIS:对广义线性模型和Cox模型进行确定独立性筛选
推进和梯度下降
Boosting and Gradient Descent
gbm:多种形式的梯度推进
xgboost:采用有效树模型作为基础学习器的基于树模型的推进算法,支持用户自定义函数
bst:推进优化的铰链损失算法
GAMBoost:采用推进算法拟合广义可加模型
mboost:广义线性模型、可加模型、非参数模型的推进框架拓展
CoxBoost:基于似然函数推进的Cox模型
GMMBoost:基于似然函数推进的混合模型
gamboostLSS:GAMLSS(Generalised Additive Models for Location Scale and Shape Functions)模型的推进算法
gradDescent:多种基于梯度下降处理回归任务的学习算法
支持向量机与核函数
Support Vector Machines and Kernel Methods
e1071: svm()函数提供接口连接到LIBSVM库
kernlab:为核学习算法提供灵活的框架,包括SUMs、RVMs、及其他科学系算法
klaR:提供接口连接到SVMlight,实现1对多的分类
rdetools:对核特征空间的相关维度进行估计,也可进行模型的选择和预测
gmum.r:提供接口连接到LIBSVM和SVMLight
贝叶斯方法
Bayesian Methods
BayesTree:贝叶斯可加回归树,最终的模型是由许多较弱学习器组成的,但跟随机森林部分提到的集成思想不一样
tgp.MXM:贝叶斯不稳定性、半参数非线性回归、树状高斯过程(包括贝叶斯CART和线性模型)
遗传算法优化
Optimization using Genetic Algorithms
rgp:基于遗传算法的优化策略
rgenoud:同rgp
Rmalschains:局部搜索链的文化基因算法,是一种特殊的进化算法,结合采用局部搜索真实价值参数优化的稳定遗传算法
Association Rules
arules:为有效处理稀疏二元数据提供数据结构,实现Apriori和Eclat算法的关联规则,包括频数项集挖掘、最大频数项集、最近频数项集
opusminer:提供接口连接到C++的OPUS挖掘算法,在自足项集下使用杠杆或者增益实现有效寻找交易数据的关键关联
模糊规则系统
Fuzzy Rule-based Systems
frbs:实现从回归和分类数据中学习模糊规则系统的许多标准方法
RoughSets:提供全面的方法实现粗糙集理论(rough set theory, RST)和模糊集理论(fuzzy rough set theory, FRST)
模型选择与验证
Model selection and validation
e1071: 见支持向量机与核函数部分,该包的tune()函数可进行超参数调整
ipred:见随机森林部分,该包的errorest()函数可进行误差率估计
svmpath:对支持向量机的代价参数C进行选择
ROCR:可进行ROC分析和其他的可视化技术,包括候选分类变量的比较等
hdi:实现许多稳定的选择方法,也为高维模型提供很多推断过程
stabs:实现许多稳定的选择方法
Other procedures
evclass:采用Dempster-Shafer质量函数对验证模型的不稳定分类进行证据性分类的量化
OneR:提供拓展型诊断函数的分类算法,该函数对缺失数据和定量数据具有较好解决方法
spa:联合基于特征的和基于图形的数据对某些因变量进行预测
Meta packages
caret: 提供许多函数建立预测模型,包括参数调整、变量重要性测量,跟并行算法(MPI、NWS等)可以结合使用
mlr:提供一个高级的接口连接到许多统计和机器学习包
SuperLearner:同mlr
h2o:通用的机器学习平台, 可以进行许多流行的算法,包括随机森林、GBM、GLM(带有弹性网正则化)、深度学习(前馈多层网络)等
统计学习要素
Elements of Statistical Learning
ElemStatLearn:来自Trevor Hastie、Robert Tibshirani和Jerome Friedman主编的书籍《The Elements of Statistical Learning: Data Mining, Inference, and Prediction》的数据集、函数和例子等,该书集可以通过统计咨询公众号首页【资源共享】【免费书籍】菜单获取。
用户图形界面
rattle:一个R语言数据挖掘的图形用户界面GUI
CORElearn:实现相对较广的机器学习算法,包括最邻近算法、树模型、随机森林、特征选择方法等
rminer:提供接口连接到其他R语言包实现学习算法,也可以计算许多模型性能指标
责任编辑:
声明:该文观点仅代表作者本人,搜狐号系信息发布平台,搜狐仅提供信息存储空间服务。
今日搜狐热点R语言编程环境的安装和运行
1.基础知识
R主页http://www.r-project.org/获得R语言。在R 的安装程序中只包含了8 个基础模块,其他外在模块可以通过CRAN 获得(http://cran.r-project.org)。8个基础模块可用search()发现。
CRAN在R综合资料上获得,点击CRAN连接。可在CRAN上找到针对Windows,Linux以及Mac OS X的预编译二进制安装文件。
R的安装目录/usr/lib/R/library。
2.R语言帮助功能
R提供了大量的帮助功能。
help.start()
打开帮助文档首页。第1节、第2节是R语言软件包的结构。
?foo 或者help("foo")
查看函数foo的帮助(引号可以省略)
help.search("foo")或??foo
以foo为关键词搜索本地帮助文档
example("foo")
函数foo的使用实例(引号可以省略)
RSiteSearch("foo")
以foo为关键词搜索internet在线文档和邮件列表存档
apropos("foo", mode="function")
列出名称中含有foo的所有可用函数
列出当前已加载包中所有系统示例数据集,可在编程中使用。
vignette()
列出当前已安装包中所有vignette文档
vignette("foo")
为主题foo显示指定的vignette文档
R.home('bin') R的安装目录
Vignette是有关一个软件包的重要介绍文档,Sweave编译生成LaTeX文件再生成PDF文档。
3.R语言的工作空间
工作空间(workspace)就是当前R的工作环境,储存着所有用户定义的对象(向量、矩阵、函数、数据框、列表)。当前的工作目录(working directory)是R用来读取文件和保存结果的默认目录。可以使用函数getwd()来查看当前的工作目录,或使用函数setwd()设定当前的工作目录。
savehistory("myfile")
保存输入的命令历史到文件myfile中(默认值为.Rhistory)
loadhistory("myfile")
载入一个命令历史文件(默认值为.Rhistory)
save.image("myfile")
保存工作空间到文件myfile中(默认值为.RData)
save(objectlist, file="myfile")
保存指定对象到文件myfile中
load("myfile")
读取一个工作空间到当前会话中(默认值为.RData)
列出当前工作空间中的对象
显示或设置当前选项
history(#)
显示最近使用过的#个命令(默认值为25)
rm(objectlist)
删除一个对象。可防止混淆。
R语言命令结果的图形输出。虽然sink()可重定向文本输出,但它对图形输出没有影响。要重定向到图形文件输出,使用下面的函数即可。最后使用dev.off()可将输出返回到终端。
pdf("filename.pdf")
重定向到PDF文件
win.metafile("filename.wmf")
Windows图元文件
png("filename.png")
jpeg("filename.jpg")
bmp("filename.bmp")
postscript("filename.ps")
PostScript文件
在执行dev.off()后,结果将显示在屏幕上。这一次,没有文本或图形输出保存到文件中。
4.软件包CRAN
R语言是开源工具,能通过一个称为Comprehensive R Archive Network(CRAN)的公共库共享新的软件包。CRAN已经有超过7000个文档完善的包可供使用,增强了R语言的吸引力。在UNIX操作系统运行R语言,更受到一些应用者的欢迎,例如《R高性能编程》的作者。因为存在软件包只能在UNIX系统运行。例如:bigmemory。
5.R语言软件包的安装
有许多R函数可以用来管理包。第一次安装一个包,使用命令install.packages()。举例来说,不加参数执行install.packages()将显示一个CRAN镜像站点的列表,选择其中一个镜像站点之后,将看到所有可用包的列表,选择其中的一个包即可进行下载和安装。如果知道自己想安装的包的名称,可以直接将包名作为参数提供给这个函数。例如,包gclus中提供了创建增强型散点图的函数。可以使用命令install.packages("gclus")来下载和安装它。一个包仅需安装一次。但和其他软件类似,包经常被其作者更新。使用命令update.packages()可以更新已经安装的包。要查看已安装包的描述,可以使用installed.packages()命令,这将列出安装的包,以及它们的版本号、依赖关系等信息。
包的安装是指从某个CRAN镜像站点下载它并将其放入库中的过程。要在R会话中使用它。
6.R语言程序中软件包的加载
&library()
从硬盘中加载包。若要使用已经安装的包,单还没把它加载到内存,则用library()函数加载这个包。R是否可以处理大数据问题。程序员往往需要处理来自互联网、气候学、遗传学等研究领域的海量数据。由于R在内存中存储对象,往往会受限于可用的内存量。举例来说,2G内存Windows PC上可以轻松地处理含有1000万个元素的数据集(100个变量×100 000个观测)。在一台4G内存的iMac上,通常可以不费力地处理含有上亿元素的数据。但是也要考虑到两个问题:数据集的大小和要应用的统计方法。R可以处理GB级到TB级的数据分析问题,但需要专门的手段。
列出软件包的所有函数,
&library(help=mvtnorm)
&help(package=mvtnorm)
7.安装rJava软件包
(1)R语言配置rJava软件包环境
Sys.setenv(JAVA_HOME='C:/Program Files/Java/jdk1.6.0_33/jre')
rJava是一个R语言和Java语言的通信接口,通过底层JNI实现调用,允许在R中直接调用Java的对象和方法。
rJava还提供了Java调用R的功能,是通过JRI(Java/R Interface)实现的。JRI现在已经被嵌入到rJava的包中,现在rJava包,已经成为很多基于Java开发R包的基础功能组件。在JRI的方案中,JVM加载RVM,调用过程性能几乎无损耗,因此是非常高效连接通道,是R和Java通信的首选开发包。
(2)windows配置Java runtime enviorment
控制面板-&系统-&环境变量
java runtime envir0nment安装目录
windows 10版本 :此电脑-& 打开设置
8.函数read.xlsx()的参数
read.xlsx(file, sheetIndex, sheetName=NULL, rowIndex=NULL,startRow=NULL, endRow=NULL, colIndex=NULL,as.data.frame=TRUE, header=TRUE, colClasses=NA,keepFormulas=FALSE, encoding="unknown", ...)
file文件读取的路径
sheetIndex在工作簿中表示的表索引的数字
sheetName工作簿中表示的表索引的名称
rowIndex/colIndex 为空则提取所有行/列数据,数字向量指定想要提取的行/列
as.data.framea logical value indicating if the result should be coerced into a data.frame. If FALSE, the result is a list with
one element for each column.
headerT or F,指定读取表格的第一行是否包含变量名称。缺省值是包括
colClassesFor read.xlsx a character vector that represent the class of each column. Recycled as necessary, or if the character vector is named,
unspecified values are taken to be NA. For read.xlsx2 see readColumns.
keepFormulasa logical value indicating if Excel formulas should be shown as text in R and
not evaluated before bringing them in.
encoding设定字符串编码格式
startRow/endRow指定要开始/结束读取数据的行数
9.安装金融程序包
1.quantmod
#可下载雅虎财经数据
#时间序列建立
3.timeDate
发现R语言系统中有多少金融数据分析程序包,可用search()命令。
[22] "Autoloads"
"package:base"
[19] "package:utils"
"package:datasets"
"package:methods"
[16] "package:stats"
"package:graphics"
"package:grDevices" [13] "package:xlsx"
"package:xlsxjars"
"package:rJava"
[10] "package:forecast"
"package:timeDate"
"package:zoo"
[7] "package:fBasics"
"package:timeSeries" "package:xts"
[4] "package:fUnitRoots" "package:urca"
"package:fGarch"
[1] ".GlobalEnv"
"package:rugarch"
"package:parallel"
R语言同其他语言一样,在软件启动时,为我们提供了7个核心包。
.R函数的执行
&source(".R")
#执行.R程序
11.常用软件包
1、数据挖掘的聚类
常用的包: fpc,cluster,pvclust,mclust
基于划分的方法: kmeans, pam, pamk, clara
基于层次的方法: hclust, pvclust, agnes, diana
基于模型的方法: mclust
基于密度的方法: dbscan
基于画图的方法: plotcluster, plot.hclust
基于验证的方法: cluster.stats
2、数据挖掘的分类
常用的软件包:
rpart,party,randomForest,rpartOrdinal,tree,marginTree,
maptree,survival
决策树: rpart, ctree
随机森林: cforest, randomForest
回归, Logistic回归, Poisson回归: glm, predict, residuals
生存分析: survfit, survdiff, coxph
3、数据挖掘的关联规则与频繁项集
常用的包:
arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则
DRM:回归和分类数据的重复关联模型
APRIORI算法,广度RST算法:apriori, drm
ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat
4、数据挖掘的序列模式
常用的包: arulesSequences
SPADE算法: cSPADE
5、经济统计时间序列
常用的包: timsac,xts,zoo
时间序列构建函数: ts(),as.xts()
分解: decomp, decompose, stl, tsr
常用: Base R, nlme
方差分析: aov, anova
概率密度分析: density
假设检验: t.test, prop.test, anova, aov
线性混合模型:lme
主成分分析和因子分析:princomp
方差分析对应的是Kruskal-Wallis秩和检验(R: kruskal.test)
T检验对应的是Wilcoxon符号秩和检验(R: wilcox.test)
7、可视化图表
条形图: barplot
散点图: dotchart
直方图: hist
概率密度图: densityplot
箱形图: boxplot。观察数据的分布
QQ (quantile-quantile) 图: qqnorm, qqplot, qqline
Bi-variate plot: coplot
Parallel coordinates: parallel, paracoor, parcoord
热图, contour: contour, filled.contour
其他图: stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot,
assocplot, mosaicplot
保存的图表格式: pdf, postscript, win.metafile, jpeg, bmp, png
8、数据操作
缺失值:na.omit
变量标准化:scale
变量转置:t
样本抽样选择:sample
堆栈:stack, unstack
其他:aggregate, merge, reshape
9、数据挖掘软件Weka的接口
RWeka: 通过这个接口,可以在R中使用Weka的所有算法。
10.人工神经网络: nnet
11.支持向量机SVM:e1071
12. 核函数:kernlab
13.随机森林randomforest:randomForest
14.制作分位箱图:Hmisc
15.绘制图形:qplot,ggplot2,
R语言初学者指南的作者认为,R可以做你想象的任何事情,但是没有我的程序结构。
千里香榭丽舍大街,我愿人长久。
没有更多推荐了,Fly or die
《R语言与数据挖掘最佳实践和经典案例》阅读摘要
《R语言与数据挖掘最佳实践和经典案例》阅读摘要
Fly or die.—–sissp
统计学、机器学习、信息检索、模式识别、生物信息学
CRAN(cran.r-project.org)
《An introduction to R》
《R language definition》
Iris数据集
Bodyfat数据集
二者都包含在R包中
二、数据的导入与导出
R数据的保存与加载
Save(a,file=“./data/dumData.Rdata”)
load(“./data/dumData.Rdata”)
CSV文件的导入与导出
从SAS中导入数据
通过JDBC导入与导出数据
三、数据探索
查看数据,以iris数据集为例
维度,dim(iris)
名称,names(iris)
结构,str(iris)
属性,attributes(iris)
特定行数据,iris[1:5,],head(iris),tail(iris)
探索单个变量
单个数值型变量的分布情况可以使用函数summary()进行查看,分别为:最小值、最大值、平均值、中位数、第一四分位数、第三四分位数
平均值、中位数和极差可以分别使用函数mean()、median()、range()获取,四分位数和百分位数可以使用quantile()函数
三、数据探索 探索单个变量(续)
方差,var()
分布直方图,hist()
密度估计值,density()
频数,table()
饼图,pie()
条形图,barplot()
探索多个变量
协方差,cov()
相关系数,cor()
Aggregate()函数,计算统计数据
箱线图,boxplot()
散布图,plot(),使用with函数后可以省去iris$前缀s
三、数据探索
3D散布图,scatterplot3d包,Scatterplot3d()
交互3D散布图,rgl包,plot3d()
Graphics包
将图表保存到文件中
Bmp() jpeg() png() ptiff() pdf() postscript()
四、决策树与随机森林
Party包构建决策树
以iris数据集为例,采用ctree()函数建立决策树
Predictt()函数进行新数据的预测
rpart包构建决策树
函数rpart()构建决策树,用bodyfat数据集为例
函数predict()对新数据进行预测
randomForest包建立预测模型,两个限制:不能处理带缺失值的数据,分类属性水平划分数量最大值为32,
以iris数据集为例,训练一个随机森林,变量的重要性可以用函数importance()和varlmpPlot()获得,最后使用测试集对已经构建好的随机森林进行测试
五、回归分析
利用预测变量的一个线性组合函数来预测响应变量的统计分析方法
利用函数lm()做回归分析
画出散点图,分析统计量,建立回归模型
使用数据拟合一条逻辑曲线来预测事件发生的概率,可以由函数glm()建立逻辑回归(参数需要设置)
广义线性回归
通过使用一个连接函数关联线性模型与响应变量,并且考虑所有度量偏差对预测值的影响来建立线性回归
非线性回归
K-means聚类
将iris数据集移除species属性,再调用函数kmeans(),将聚类结果保存,绘制簇和中心
K-medoids聚类
使用函数pam()和pamk()进行聚类
与k-means聚类区别在于:k-means聚类选择簇中心表示聚类簇,而k-medoids聚类选择靠近簇中心的对象表示聚类簇,在含有离群点的情况下,k-medoids聚类的鲁棒性更好
基于中心点的划分PAM算法是k-medoids的经典算法,CLARA算法是对PAM算法的改进,当处理较大的数据集时,CLARA算法优于PAM算法,cluster包的pam(),clare()分别实现上述两个算法,fpc包提供函数pamk(),不需要给出聚类簇的个数根据最优平均阴影宽度进行划分
使用函数hclust()进行层次聚类
基于密度的聚类
基本思想是将密度相连的对象划分到同一个簇,优势在于可以发现任意开关的簇,并且对噪声数据不敏感,相比之下k-means算法更倾向于发现球状的且大小相近的簇
Fpc包中的DBSCAN算法为数值型数据提供了基于密度的聚类
七、离群点检测
单变量的离群点检测
通过函数boxplot.stats()实现,函数的返回结果中有一个‘out’的组件存储检测出的离群点
局部离群点因子检测-LOF
识别基于密度的局部离群点算法
缺点是只适用于数值型数据
函数lofactor()使用LOF算法计算局部离群点因子,该函数由DMwR包和dprep包提供
用聚类方法进行离群点检测
将数据进行划分,将那些没有被划分到任何簇的数据点视为离群点
时间序列数据的离群点检测
先使用函数stl()根据稳健回归对时间序列数据进行分解,然后进行离群点检测
基于局部加权的季节性趋势分解算法STL
八、时间序列分析与挖掘
R中的时间序列数据(构造)
时间序列分解
数据集AirPassengers,使用函数decompose()将数据集分解成不同的成分
一些包,如stats包中的stl,timsac包中的decomp函数,以及ast包中的函数tsr
时间序列预测
根据历史数据来预测未来事件,如基于股票过去的形势来预测开盘价
两个常用的时间序列预测模型为自回归移动平均模型ARMA和自回归综合移动平均模型ARIMA
八、时间序列分析与挖掘
时间序列聚类
动态时间规整DTW,找出两个时间序列之间的最优配置,R中的dtw包提供了实现
合成控制图(?)的时间序列数据
基于欧氏距离的层次聚类
基于DTW距离的层次聚类
时间序列分类
特征提取技术有奇异值分解SVD,离散傅里叶变换DFT,离散小波变换DWT,分段积累挖法PAA,连续重要点PIP,分段线性表示,以及符号表示
基于原始数据的分类,party包中的ctree()函数
基于特征提取的分类,离散小波变换(DWT)提取特征,然后建立分类模型,哈尔小波变换和离散傅里叶变换是常用的特征提取技术,,wavelets包用于实现离散小波变换
K-NN分类,找出与新实例最邻近的k个对象,再根据投票机制给该实例打上类标号,使用Arya和Mount’s ANN库
九、关联规则
关联规则表示两个项集之间的关联度或相关性,形式为A -& B,常见的度量是支持度、置信度和提升度,公式如下:
九、关联规则
Titanic数据集
包含在datasets包中的4维数据表
关联规则挖掘
一个经典算法是APRIORI,一种广度优先的逐层搜索算法,通过计数找到频繁项集,再从中推导出关联规则,Arulus包中的apriori函数实现
另一个算法是ECLAT算法,不需要计数,依据等价、深度优先搜索和集合交找到频繁项集,Arules包中的eclat()函数实现
在关联规则挖掘中,一个常见的问题是挖掘出来的规则中有很多是没有意义的,调节设置的参数值?
一般来说,当一条规则是另一条规则的超集时,前者和后者的提升值相等,或者前者的提升度更小,被认定为冗余规则
关联规则的可视化
常见的有散布图、泡泡图、有向图、平行坐标图,示例可以从CRAN上的arulesViz包中获取
十、文本挖掘
Twitter的文本检索
TwitterR包可以抓取Twitter上的推文(或XML包)
或者使用rdmTweets.Rdata数据集
将推文转换为数据框,然后转换为一个语料库
转换函数:tm_map()、asPlainTextDocument()、removeNumbers()、removePunctuation()、removeWords()、stemDocument()以及stripWwitespace()、removeURL()等
十、文本挖掘
可以通过snowball词干提取器来完成,需要用到Snowball、Rweka、rJava和Rwekajars包
词干补笔:stemCompletion()函数
建立词项-文档矩阵(tm包?)
TermDocumentMatrix()对语料库建立矩阵
频繁词项与关联
findFreqTerms()找出出现次数不少于10次的频项
findAssocs()找出关联度最高的词项
词云,wordcloud包
词项聚类,推文聚类
方法与第6章聚类类似
使用层次聚类,k-means和k-medoids算法
十一、社交网络分析
igrahp包,第10章中使用的twitter文本
双模式网络
房价指数的分析与预测
客户回复预测与效益最大化
内存受限的大数据预测模型
书中列出了R语言和常见数据挖掘结合实例,在每一章后有延伸阅读的材料,给出了相关程序包和一些介绍的材料的下载地址;
使用R语言的优点在于R包数量多,已实现算法的集成,简化开发过程。R语言可以简化实现数据挖掘算法和结果呈现,常用的算法都可以找到R包的支持,结果可视化呈现也是R语言的一大优势;
与大数据结合,因为R语言本身不具备大数据分析功能,可以采用先抽样统计建模、再对进行实际应用部署;另一种思路是借助现有的rhadoop、rhbase等包应用。
没有更多推荐了,

我要回帖

更多关于 weka中多元线性回归算法介绍 的文章

 

随机推荐