小弟最近在做一个机器学习平台想通过前台选择数据源、算法、参数之类的东西,由后台程序提交到spark map集群上调用spark mapML库来跑出结果然后把结果返回之后在前台渲染出效果。实验室之前有搭spark map集群这两天看了一下java提交任务上去spark map集群的东西,似乎都是要先把东西打jar包再传服务器通过spark map-submit,这样跟需求就不符了懇求各位使用java调用过spark map的大侠答疑解惑。委实是之前没用过这方面的使用经验之前有找过一些代码如下。
}看了spark map的UI这个任务确实也提交上去叻但是idea的控制台一直重复地报这一段。
要是有大侠可以解决可以有偿,留联系方式就行
spark map 操作的几个步骤
//对key进行分组处理但如果需要统计求和则最好不要这样处理
//获取rdd数据的交集 数据
//计算统计 元素两两传入到reduce中然后计算统计
//计算统计 元素两两传入到reduce中然后計算统计
//将原来的RDD每一个行数据 变成一个数组,然后所有的数组数据存到一个总得RDD数组中
//将原来的RDD每一个行数据 变成一个数组然后所有嘚数组数据存到一个总得RDD数组中
// map 源中的每一个元素都进行一个函数操作,生成一个新的RDD 即每个元素进行一次转换
* 如果rdd中数据过多,则调鼡take获取一部分数据打印
//对每一个元素进行过滤然后返回 ,false 的数据会被过滤掉