安利有几大系统是怎么做大数据的

平台需要进行 PB 级数据的读取、写叺需要进行数据挖掘模型的大规模运算,需要进行预测结果的发布对底层基础硬件的磁盘 IO 和运算速度要求很高,同时需要满足分布式、动态扩展的要求因此采用配置为 2 路 8 核CPU、128GB 内存、千兆网卡的x86架构 PC Server 服务器。

操作系统软件采用 Red Hat

及分布式计算采用Hadoop,

采用 Hive数据挖掘引擎采用 Spark R,预测结果保存在 HBase 中

采用 Hadoop 构建 PB 级大数据平台,提供海量数据存储和分布式计算

采用 Hive 做为数据清洗引擎,提供 PB级数据预处理、加工、整合服务

采用 HBase 技术可以提供海量数据的高效发布。

3 大数据挖掘模型开发 数据采集存储模块:DPI、业务侧、网元侧数据通过文件接口方式發送到 Flume-NG 集群Flume-NG 通过 memory 数据传输方式,将接收到的数据实时的通过 hdfs 方式汇聚到大

数据清洗模块:通过编写 HQL 脚本对数据进行清洗、转换,形成特征宽表

数据挖掘模块:基于特征宽表的数据建模采用 Spark R, 调用聚类、分类等算法,进行模型开发、模型评估、模型应用

分析结果发布:模型应用的结果集存储在HBase 中,首先需要在 HBase 中新建存储结果集的 HBase 表通过 Map Reduce 生成 HFile文件,然后通过 Bulk Load 方式入库数据的调用通过 HBase API 实现,数据的展现通过ECharts 技术实现


来源:Python数据科学

对于Pandas运行速度的提升方法之前已经介绍过很多回了,里面经常提及Dask很多朋友没接触过可能不太了解,今天就推荐一下这个神器

Pandas和Numpy大家都不陌生了,玳码运行后数据都加载到RAM中如果数据集特别大,我们就会看到内存飙升但有时要处理的数据并不适合RAM,这时候Dask来了

由于数据集较小無法比较时间,这里只介绍下使用方法具体可自己动手实践下。

关于机器学习的并行化执行由于内容较多,东哥会在另一篇文章展开这里简单说下一下dask-learn。

因此如果你将sklearn替换为dklearn,那么速度将会提升很多

本文参与,欢迎正在阅读的你也加入一起分享。

我要回帖

更多关于 安利有几大系统 的文章

 

随机推荐