sqoop如何解决减量sqoop 数据去重???

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>软件 >>sqoop如何解决减量sqoop 数据去重???

sqoop如何解决减量sqoop 数据去重???

来源：蜘蛛抓取(WebSpider) 时间：2018-11-13 02:50 标签： sqoop 数据去重

recommendout是我mapreduce程序处理后的输出目录包括用户id，电影id经mapreduce计算处理得出的该电影对该用户的推荐度。mysql中的表movieRecommend的字段包括user_id,movie_id,rating没有设置主键。正常的结果是最终mysql中每个用户对每个商品有唯一的一个推荐度即（用户id+电影id）字段应该是unique的。但mapreduce和sqoop的job是定时多次执行的这样每次执行，recommendout目录中的sqoop 数据去重都会导入到mysql中造荿重复。

初次接触hadoop平台和其组件，请问这种问题是怎么解决的

sqoop是可以配置job自动运行的能自动記录上次同步的时间，不过如果任务失败就不方便重跑了（这方面经验不足）

目前的做法是手动去配置一个固定的同步周期和--last-modify值，这样┅来就可能有sqoop 数据去重重复的问题（比如sqoop 数据去重漂移、或者任务失败重跑需要一个保险的覆盖范围）

解决思路大致是在同步时先允许sqoop 數据去重重复，之后再跑一个去重sql比如：

不过这样做太不优雅，因为这样操作会多出一张没有实际意义的增量表

这里增量导入的做法差不多，只是增量到同一张表里注意需要添加--hive-database以及--hive-table选项让新sqoop 数据去重能自动load到hive表里，标准解释如下：

之后使用窗口函数sql去重处理

当然这樣要求原表有主键以及准确非空的修改时间如果没有还是用真正的流式sqoop 数据去重同步来做吧（maxwell解析binlog->kafka->flume->hive）

[TOC] 最近在研究sqoop 数据去重采集相关的知識，需要用到Sqoop把关系型sqoop 数据去重库的sqoop 数据去重导入到Hive里这里记录下自己的...
原创减肥的那些事作者孟医师关注这个号的你可以说是相当有品味无处不在的蛋白质来自减肥的那...

使用sqoop将hive中的sqoop 数据去重导入关系型sqoop 數据去重库怎么去重

sqoop如何解决减量sqoop 数据去重???

使用sqoop将hive中的sqoop 数据去重导入关系型sqoop 数据去重库怎么去重

我要回帖

更多关于 sqoop 数据去重的文章

随机推荐

sqoop如何解决减量sqoop 数据去重???

使用sqoop将hive中的sqoop 数据去重导入关系型sqoop 数据去重库怎么去重

我要回帖

更多关于 sqoop 数据去重 的文章

随机推荐

更多关于 sqoop 数据去重的文章