recommendout是我mapreduce程序处理后的输出目录包括用户id,电影id经mapreduce计算处理得出的该电影对该用户的推荐度。mysql中的表movieRecommend的字段包括user_id,movie_id,rating没有设置主键。正常的结果是最终mysql中每个用户对每个商品有唯一的一个推荐度即(用户id+电影id)字段应该是unique的。但mapreduce和sqoop的job是定时多次执行的这样每次执行,recommendout目录中的sqoop 数据去重都会导入到mysql中造荿重复。
初次接触hadoop平台和其组件,请问这种问题是怎么解决的