有什么关于 Spark 的书spark书籍推荐 2016

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>学习 >>有什么关于 Spark 的书spark书籍推荐 2016

有什么关于 Spark 的书spark书籍推荐 2016

来源：蜘蛛抓取(WebSpider) 时间：2016-12-23 16:53 标签： spark 图书推荐

收集些大数据书籍，有什么好的吗？【spark吧】_百度贴吧
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&签到排名：今日本吧第个签到，本吧因你更精彩，明天继续来努力！
本吧签到人数：0成为超级会员，使用一键签到本月漏签0次！成为超级会员，赠送8张补签卡连续签到：天&&累计签到：天超级会员单次开通12个月以上，赠送连续签到卡3张
关注：2,449贴子：
收集些大数据书籍，有什么好的吗？收藏
我刚刚接触大数据，想先基础的了解学习下，谁可以推荐下嘛?
你需要吗？
登录百度帐号推荐应用您所在位置： &
&nbsp&&nbsp&nbsp&&nbsp
[数据类书籍]spark性能优化指南.pdf 26页
本文档一共被下载：
次 ,您可全文免费在线阅读后下载本文档。
下载提示
1.本站不保证该用户上传的文档完整性，不预览、不比对内容而直接下载产生的反悔问题本站不予受理。
2.该文档所得收入(下载+内容+预览三)归上传者、原创者。
3.登录后可充值，立即自动返金币，充值渠道很便利
你可能关注的文档：
··········
··········
spark性能优化指南
SPARK性能优化指南
0、调优前言
a、在大数据计算领域，Spark
经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、
SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作，应用范围与前景非常广泛。在美团?大众点评，
同学在各种项目中尝试使用Spark。大多数同学（包括笔者在内），最初开始尝试使用Spark的原因很简单，主要就是为了让大数据计算
作业的执行速度更快、性能更高。
b、然而，通过Spark开发出高性能的大数据计算作业，并不是那么简单的。如果没有对Spark作业进行合理的调优，Spark作业的执行速
度可能会很慢，这样就完全体现不出Spark作为一种快速大数据计算引擎的优势来。因此，想要用好Spark ，就必须对其进行合理的性能
c、Spark的性能调优实际上是由很多部分组成的，不是调节几个参数就可以立竿见影提升作业性能的。我们需要根据不同的业务场景以
及数据情况，对Spark作业进行综合性的分析，然后进行多个方面的调节和优化，才能获得最佳性能。
d、笔者根据之前的Spark作业开发经验以及实践积累，总结出了一套Spark作业的性能优化方案。整套方案主要分为开发调优、资源调
优、数据倾斜调优、shuffle调优几个部分。
i、开发调优和资源调优是所有Spark作业都需要注意和遵循的一些基本原则，是高性能Spark作业的基础；
ii、数据倾斜调优，主要讲解了一套完整的用来解决Spark作业数据倾斜的解决方案；
iii、shuffle调优，面向的是对Spark的原理有较深层次掌握和研究的同学，主要讲解了如何对Spark作业的shuffle运行过程以及细节进
1、开发调优
a、Spark性能优化的第一步，就是要在开发Spark作业的过程中注意和应用一些性能优化的基本原则。
b、开发调优，就是要让大家了解以下一些Spark基本开发原则，包括：RDD lineage设计、算子的合理使用、特殊操作的优化等。
c、在开发过程中，时时刻刻都应该注意以上原则，并将这些原则根据具体的业务以及实际的应用场景，灵活地运用到自己的Spark作业
原则一：避免创建重复的RDD
a、通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD ；接着对这个
RDD执行某个算子操作，然后得到下一个RDD ；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通
过不同的算子操作（比如map、reduce等）串起来，这个
“RDD串” ，就是RDD lineage ，也就是
“RDD的血缘关系链”。
b、我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD ，不能创建多个RDD来代表同一份数据。
c、一些Spark初学者在刚开始开发Spark作业时，或者是有经验的工程师在开发RDD lineage极其冗长的Spark作业时，可能会忘了自
己之前对于某一份数据
经创建过一个RDD了，从而导致对于同一份数据，创建了多个RDD。这就意味着，我们的Spark作业会进行多次
重复计算来创建多个代表相同数据的RDD ，进而增加了作业的性能开销。
d、一个简单的例子
* 需要对名为
“hello.txt”的HDFS文件进行一次map操作，再进行一次reduce操作。
* 也就是说，需要对一份数据执行两次算子操作。
* 错误的做法：对于同一份数据执行多次算子操作时，创建多个RDD。
* 这里执行了两次textFile方法，针对同一个HDFS文件，创建了两个RDD出来，
* 然后分别对每个RDD都执行了一个算子操作。
* 这种情况下，Spark需要从HDFS上两次加载hello.txt文件的内容，
* 并创建两个单独的RDD ；第二次加载HDFS文件以及创建RDD的性能开销，
* 很明显是白白浪费掉的。
val rdd1 = sc.textFile(&hello.txt&)
正在加载中，请稍后...他的最新文章
他的热门文章
您举报文章：
举报原因：
原文地址：
原因补充：
(最多只允许输入30个字)大数据Spark企业级实战书籍推荐_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
大数据Spark企业级实战书籍推荐
阅读已结束，下载文档到电脑
想免费下载更多文档？
定制HR最喜欢的简历
下载文档到电脑，方便使用
还剩7页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢本书是Spark实战指南，全书共分8章。前4章介绍Spark的部署、工作机制和内核，后4章分别通过实战项目介绍Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模块。此外，本书详细介绍了常见的实战问题，比如大数据环境下的配置设置、程序调优等。本书附带的一键安装脚本，更能为初学者提供很大帮助。
本书适合大数据开发、运维等相关从业员学习参考。
其他购买方式？
- UCloud季昕华、Databricks连城，阿里胡熠，棒米科技武泽胜，腾讯肖磊\靳志辉\徐羽等联袂推荐！腾讯资深研发者的Spark实践，揭秘广告和推荐系统核心技术
- 腾讯专家首次分享Spark最佳实践
- 基于真实数据，用案例分析全面解读大数据应用设计
第 2 章　Spark基础
第 3 章　Spark工作机制
第 4 章　Spark内核讲解
第 5 章　Spark SQL与数据仓库
第 6 章　Spark流式计算
第 7 章　Spark图计算
第 8 章　Spark MLlib
附录　Scala语言参考
陈欢，腾讯资深程序员，15年编码经验，曾任职网络安全、互联网金融等部门，亲手从零建设了财付通业务的Spark集群，并使之同时支持SQL、实时计算、机器学习等多种数据计算场景。他目前就职于腾讯社交与效果广告部，从事大数据分析工作。
林世飞，腾讯资深研究员，2005年加入腾讯，先后在无线产品、安全中心、搜索平台、开放平台、社交与效果广告部等部门从事开发和团队管理工作。他对网络安全、搜索引擎、数据挖掘、机器学习有一定了解，热衷知识传播和分享，曾获腾讯学院2009年年度优秀讲师。目前，他就职于社交与效果广告部，负责广告系统相关的研发工作。
本书首先介绍了Spark及其生态系统，接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金...
本书由 Spark 开发者及核心成员共同打造，讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具—...
本书介绍了Spark的基础知识，从利用Spark API来载入和处理数据，到将数据作为多种机器学习模型的输入。...

有什么关于 Spark 的书spark书籍推荐 2016

我要回帖

更多关于 spark 图书推荐的文章

随机推荐

有什么关于 Spark 的书spark书籍推荐 2016

我要回帖

更多关于 spark 图书推荐 的文章

随机推荐

更多关于 spark 图书推荐的文章