有什么关于 Spark 的书spark书籍推荐 2016

收集些大数据书籍,有什么好的吗?【spark吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名:今日本吧第个签到,本吧因你更精彩,明天继续来努力!
本吧签到人数:0成为超级会员,使用一键签到本月漏签0次!成为超级会员,赠送8张补签卡连续签到:天&&累计签到:天超级会员单次开通12个月以上,赠送连续签到卡3张
关注:2,449贴子:
收集些大数据书籍,有什么好的吗?收藏
我刚刚接触大数据,想先基础的了解学习下,谁可以推荐下嘛?
你需要吗?
登录百度帐号推荐应用您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
[数据类书籍]spark性能优化指南.pdf 26页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值,立即自动返金币,充值渠道很便利
你可能关注的文档:
··········
··········
spark性能优化指南
SPARK性能优化指南
0、调优前言
a、在大数据计算领域 ,Spark
经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、
SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作 ,应用范围与前景非常广泛。在美团?大众点评 ,
同学在各种项目中尝试使用Spark。大多数同学 (包括笔者在内 ),最初开始尝试使用Spark的原因很简单 ,主要就是为了让大数据计算
作业的执行速度更快、性能更高。
b、然而 ,通过Spark开发出高性能的大数据计算作业 ,并不是那么简单的。如果没有对Spark作业进行合理的调优 ,Spark作业的执行速
度可能会很慢 ,这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此 ,想要用好Spark ,就必须对其进行合理的性能
c、Spark的性能调优实际上是由很多部分组成的 ,不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以
及数据情况 ,对Spark作业进行综合性的分析 ,然后进行多个方面的调节和优化 ,才能获得最佳性能。
d、笔者根据之前的Spark作业开发经验以及实践积累 ,总结出了一套Spark作业的性能优化方案。整套方案主要分为开发调优、资源调
优、数据倾斜调优、shuffle调优几个部分。
i、开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则 ,是高性能Spark作业的基础 ;
ii、数据倾斜调优 ,主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案 ;
iii、shuffle调优 ,面向的是对Spark的原理有较深层次掌握和研究的同学 ,主要讲解了如何对Spark作业的shuffle运行过程以及细节进
1、开发调优
a、Spark性能优化的第一步 ,就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。
b、开发调优 ,就是要让大家了解以下一些Spark基本开发原则 ,包括 :RDD lineage设计、算子的合理使用、特殊操作的优化等。
c、在开发过程中 ,时时刻刻都应该注意以上原则 ,并将这些原则根据具体的业务以及实际的应用场景 ,灵活地运用到自己的Spark作业
原则一 :避免创建重复的RDD
a、通常来说 ,我们在开发一个Spark作业时 ,首先是基于某个数据源 (比如Hive表或HDFS文件 )创建一个初始的RDD ;接着对这个
RDD执行某个算子操作 ,然后得到下一个RDD ;以此类推 ,循环往复 ,直到计算出最终我们需要的结果。在这个过程中 ,多个RDD会通
过不同的算子操作 (比如map、reduce等 )串起来 ,这个
“RDD串” ,就是RDD lineage ,也就是
“RDD的血缘关系链”。
b、我们在开发过程中要注意 :对于同一份数据 ,只应该创建一个RDD ,不能创建多个RDD来代表同一份数据。
c、一些Spark初学者在刚开始开发Spark作业时 ,或者是有经验的工程师在开发RDD lineage极其冗长的Spark作业时 ,可能会忘了自
己之前对于某一份数据
经创建过一个RDD了 ,从而导致对于同一份数据 ,创建了多个RDD。这就意味着 ,我们的Spark作业会进行多次
重复计算来创建多个代表相同数据的RDD ,进而增加了作业的性能开销。
d、一个简单的例子
* 需要对名为
“hello.txt”的HDFS文件进行一次map操作 ,再进行一次reduce操作。
* 也就是说 ,需要对一份数据执行两次算子操作。
* 错误的做法 :对于同一份数据执行多次算子操作时 ,创建多个RDD。
* 这里执行了两次textFile方法 ,针对同一个HDFS文件 ,创建了两个RDD出来 ,
* 然后分别对每个RDD都执行了一个算子操作。
* 这种情况下 ,Spark需要从HDFS上两次加载hello.txt文件的内容 ,
* 并创建两个单独的RDD ;第二次加载HDFS文件以及创建RDD的性能开销 ,
* 很明显是白白浪费掉的。
val rdd1 = sc.textFile(&hello.txt&)
正在加载中,请稍后...他的最新文章
他的热门文章
您举报文章:
举报原因:
原文地址:
原因补充:
(最多只允许输入30个字)大数据Spark企业级实战书籍推荐_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
大数据Spark企业级实战书籍推荐
阅读已结束,下载文档到电脑
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,方便使用
还剩7页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模块。此外,本书详细介绍了常见的实战问题,比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本,更能为初学者提供很大帮助。
本书适合大数据开发、运维等相关从业员学习参考。
其他购买方式?
- UCloud季昕华、Databricks连城,阿里胡熠,棒米科技武泽胜,腾讯肖磊\靳志辉\徐羽等联袂推荐!腾讯资深研发者的Spark实践,揭秘广告和推荐系统核心技术
- 腾讯专家首次分享Spark最佳实践
- 基于真实数据,用案例分析全面解读大数据应用设计
第 2 章 Spark基础
第 3 章 Spark工作机制
第 4 章 Spark内核讲解
第 5 章 Spark SQL与数据仓库
第 6 章 Spark流式计算
第 7 章 Spark图计算
第 8 章 Spark MLlib
附录 Scala语言参考
陈欢,腾讯资深程序员,15年编码经验,曾任职网络安全、互联网金融等部门,亲手从零建设了财付通业务的Spark集群,并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部,从事大数据分析工作。
林世飞,腾讯资深研究员,2005年加入腾讯,先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解,热衷知识传播和分享,曾获腾讯学院2009年年度优秀讲师。目前,他就职于社交与效果广告部,负责广告系统相关的研发工作。
本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金...
本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具—...
本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。...

我要回帖

更多关于 spark 图书推荐 的文章

 

随机推荐