操作系统软件采用 Red Hat
及分布式计算采用Hadoop,
采用 Hive数据挖掘引擎采用 Spark R,预测结果保存在 HBase 中
采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算
采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务
采用 HBase 技术可以提供海量数据的高效发布。
3 大数据挖掘模型开发 数据采集存储模块:DPI、业务侧、网元侧数据通过文件接口方式發送到 Flume-NG 集群Flume-NG 通过 memory 数据传输方式,将接收到的数据实时的通过 hdfs 方式汇聚到大
数据清洗模块:通过编写 HQL 脚本对数据进行清洗、转换,形成特征宽表
数据挖掘模块:基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法,进行模型开发、模型评估、模型应用
分析结果发布:模型应用的结果集存储在HBase 中,首先需要在 HBase 中新建存储结果集的 HBase 表通过 Map Reduce 生成 HFile文件,然后通过 Bulk Load 方式入库数据的调用通过 HBase API 实现,数据的展现通过ECharts 技术实现
来源:Python数据科学
对于Pandas运行速度的提升方法之前已经介绍过很多回了,里面经常提及Dask很多朋友没接触过可能不太了解,今天就推荐一下这个神器
Pandas和Numpy大家都不陌生了,玳码运行后数据都加载到RAM中如果数据集特别大,我们就会看到内存飙升但有时要处理的数据并不适合RAM,这时候Dask来了
由于数据集较小無法比较时间,这里只介绍下使用方法具体可自己动手实践下。
关于机器学习的并行化执行由于内容较多,东哥会在另一篇文章展开这里简单说下一下dask-learn。
因此如果你将sklearn替换为dklearn,那么速度将会提升很多
本文参与,欢迎正在阅读的你也加入一起分享。