spark map flatMap flatMapToPair mapPartitions 的区别和用途


· 百度知道合伙人官方认证企业

1【专注:Python+人工智能|Java大数据|HTML5培训】 2【免费提供名师直播课堂、公开课及视频教程】 3【地址:北京市昌平区三旗百汇物美大卖场2层微信公众號:yuzhitc】

你对这个回答的评价是?

map使用在一对一的转换flatMap使用在一对多的转换,比如学生和学号是一对一我们就用map,学生和所选课程是一對多我们就用flatMap

你对这个回答的评价是?

下载百度知道APP抢鲜体验

使用百度知道APP,立即抢鲜体验你的手机镜头里或许有别人想知道的答案。

我们可以看到数据的每一行在map之後产生了一个数组那么rdd存储的是一个数组的集合

同map函数一样:对每一条输入进行指定的操作,然后为每一条输入返回一个对象 
最后将所囿对象合并为一个对象

rdd的mapPartitions是map的一个变种它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样 
map的输入变换函数是应用于RDD中烸个元素而mapPartitions的输入函数是应用于每个分区。也就是把每个分区中的内容作为整体来处理的

我要回帖

 

随机推荐