java程序编写实现spark map的map阶段输出到不同节点的数据量统计并输出,计算出下一阶段不同节点拉取的数据量

小弟最近在做一个机器学习平台想通过前台选择数据源、算法、参数之类的东西,由后台程序提交到spark map集群上调用spark mapML库来跑出结果然后把结果返回之后在前台渲染出效果。实验室之前有搭spark map集群这两天看了一下java提交任务上去spark map集群的东西,似乎都是要先把东西打jar包再传服务器通过spark map-submit,这样跟需求就不符了懇求各位使用java调用过spark map的大侠答疑解惑。委实是之前没用过这方面的使用经验之前有找过一些代码如下。


}看了spark map的UI这个任务确实也提交上去叻但是idea的控制台一直重复地报这一段。
要是有大侠可以解决可以有偿,留联系方式就行

spark map 操作的几个步骤

 //对key进行分组处理但如果需要统计求和则最好不要这样处理 
 
 

 //获取rdd数据的交集 数据
 
 

 //计算统计 元素两两传入到reduce中然后计算统计
 
 
 //计算统计 元素两两传入到reduce中然后計算统计
 
 
 
 
 
 //将原来的RDD每一个行数据 变成一个数组,然后所有的数组数据存到一个总得RDD数组中
 
 
 
 //将原来的RDD每一个行数据 变成一个数组然后所有嘚数组数据存到一个总得RDD数组中
 
 
 



 // map 源中的每一个元素都进行一个函数操作,生成一个新的RDD 即每个元素进行一次转换
 
 
 
* 如果rdd中数据过多,则调鼡take获取一部分数据打印
 
 //对每一个元素进行过滤然后返回 ,false 的数据会被过滤掉
 

我要回帖

更多关于 spark map 的文章

 

随机推荐