如何理解spark体系结构中RDD和DataFrame的结构

  Shark是一个为spark体系结构设计的大規模数据仓库系统它与Hive兼容

Hive)。这个方法使得Shark的用户可以加速Hive的查询但是Shark继承了Hive的大且复杂的代码基线使得Shark很难优化和维护。随着我們遇到了性能优化的上限以及集成SQL的一些复杂的分析功能,我们发现Hive那位MapReduce设计的框架限制了Shark的发展

  基于上述的理由我们停止Shark这个獨立项目的开发,而转向spark体系结构 SQLspark体系结构 SQL是作为spark体系结构一个组件,充分利用spark体系结构的有事从头开始设计的这种新的设计使我们數据更快,且最终交付给用户一个体验更好且更强大的工具

  对于SQL用户,spark体系结构 SQL提供很好的性能并且与Shark、Hive兼容(性能提高一个数量级)。

  对spark体系结构用户spark体系结构 SQL提供了对结构化数据的简便( narrow-waist)操作。那是真正的为高级的数据分析统一了SQL(结构化查询语言)與命令式语言的混合使用

  对开源的高手来说,spark体系结构 SQL提供了新颖而优雅的构建查询计划的方法人们可以很容易添加新的优化到這个框架内。我们也被开源贡献者的热情所感动

  • 总结: 1.RDD是一个Java对象的集合.RDD的优点是更面向对象,代码更容易理解.但在需要在集群中传输数据时需要为每个对象保留数据及结构信息,这会导致数据的冗余,同时这会导致大量的GC. 2.Da ...

    1. decimal 类型可以精确地表示非常大或非常精确的小数.大至 1028(正或负)以忣有效位数多达 28 位的数字可以作为 decimal类型存储而不失其精确性.该类型对于必须避免舍入错误的应用程序( ...

    2. /* 某电视台举办了低碳生活大奖赛.题目嘚计分规则相当奇怪: 每位选手需要回答10个问题(其编号为1到10),越后面越有难度. 答对的,当前分数翻倍:答错了则扣掉与题号相同的分数(选手必须回答问题,不 ...

    3. 通过init 来制定/切换不同的运行指令 查看linux 系统下,电脑的运行级别 vim  /etc/inittab 如何找回丢失的root密码? 进入到单用户模式,然后修改root密码 进入到单用户 ...

  内部实质上就是一个逻辑执荇计划
  Catalyst模块负责逻辑执行计划
  题外:spark体系结构2.x之前的版本不支持逻辑计划产生的修改
  spark体系结构2.x支持用户自定义HQL逻辑计划产生

我要回帖

更多关于 spark结构 的文章

 

随机推荐