有2000万数据下载?

2000万开房数据泄露 韩寒郎朗明星都有开房史_网易财经
2000万开房数据泄露 韩寒郎朗明星都有开房史
用微信扫码二维码
分享至好友和朋友圈
2000w开房数据泄露据报道,全国2000万流失,外泄的个人住店信息,包括姓名、性别、出生日期、身份证号、住址、手机号码、工作单位等信息,有人制成名为“2000W开房数据”的文件传到网络,网民以每天近4万次的频率下载。 2000w开房数据泄露这件事情在网上引起了热议,这86万的数据分布在2010年7月份到2013年1月份,8月到12月份酒店入住率最高,周一到周日七天,周日入住率居首。2000w开房数据泄露通过对姓氏进行分析,上海受害人中张姓第一、其次是王、陈,黄姓最少。在数据中重名率最高的是张磊、王磊、张勇、王勇、李俊、王斌等。不少网民调侃,又会有许多家庭因此而支离破碎了。2000w开房数据泄露许多人也因此而苦恼,不法分子可能筛选出18—35岁女性进行骚扰,更可怕的是,一旦破译邮箱密码,还可能获取受害人微博、微信账号,向好友行骗。甚至能入侵支付宝等其他关联账户,直接威胁资金安全。上海样本涉及人数全国居首在信息安全行业工作10多年的白领王金龙和张威是开房数据泄露的受害者,由于个人隐私信息被泄露,两人饱受垃圾短信和推销电话骚扰。为此,两人发起了全国首例诉讼维权。他们还组建了QQ群、论坛、微信公众号等,希望联络全国受害人一起维权。但在和这些受害人交流中,两人发现,许多人对个人信息泄露的具体危害并不了解。于是,两人利用业余时间,从黑客和不法分子的思路入手,试图分析他们是如何利用这些个人信息牟利,借此给广大受害人以警醒。多人受害和前女友开房被发现婚事黄了受害人李刚(化名)和王金龙一样,个人信息泄露后同样收到大量骚扰电话。“一打就是一天,用软件拦截都没用。拦了一个,又来个新的,很无奈。”他说,他甚至大半夜接到过一条短信,对方要求他往一个美国账户里汇200块钱,否则就一直骚扰他。受害人王亮(化名)更是悲催。他和女友本来已经谈婚论嫁,但女友通过查询“2000w开房数据”,发现他几年前几乎每周都有几个晚上到酒店开房,且每次只逗留两三个小时,于是,女友决定和他分手。而他解释的实情是,这只是他以前和前女友开房时留下的记录,没想到“陈芝麻烂谷子的事”给现在的生活造成这么大的困扰。在2000万个人信息中,经过过滤,去除一些无效或重复的信息,可以得到约1800余万条个人准确的身份信息,涉及上海户籍人口为86万多人。通过分析上海的86万个样本可以看出,男女比例分为61%和39%。在女性中,18-30女性占比达38%。通过对上海19个区县进行数据分析,对应每个区的数据分布情况,其中浦东新区占20%,其次是杨浦区和普陀区、黄浦区最少。韩寒偷情证据曝光竟是四角恋偷情同居这种现象已经比较普遍了,大多数人都觉得没什么大惊小怪的,但是婚外情就不一样了,婚外与异性同居便是偷情。韩寒赵卓娜曾陷“偷情门”,更让人意外的是,这场三角恋已升级为四角恋。据知情人爆料,韩寒劈腿赵卓娜、娱乐策划人独孤意苦追金丽华,目前金丽华正与韩寒协议离婚。而独孤意则称“韩寒与赵卓娜的婚外情事实俱在,证据确凿,不容抵赖”。娱乐圈的明星们,毕竟是名人。一举一动都受到外界的关注,哪怕是正常的恋人关系,若是被狗仔队拍到明星酒店开房玩偷情的场面,都让人苦不堪言!近日,网友盘点了偷情被曝光的大明星们。黎明黎明与舒淇分手后,传得最盛的便是与徐子珊的绯闻,但据知黎明的“真命天女”其实是出道时有“翻版舒淇”称号的。之后,黎明和乐基儿在友人的聚会碰头,由于两人早已认识,当时与男友刚分手的乐基儿和黎明,很快便从饮红酒的好友进展成密友。为避免恋情曝光,两人拍拖非常小心,大多是乐基儿搭的士往男方位于跑马地乐景园的豪宅。日,记者发现乐基儿在金钟工作完毕,便独自乘的士到男友寓所,并逗留至翌日才离开,据知女方经常留在男友寓所享受二人世界,故此已很少返回自己的寓所,记者曾向乐基儿居住的大厦管理员求证,他也表示近数月很少见乐基儿回来。黎明和乐基儿闺房纵欲被曝光,场面异常火爆,一时闹得沸沸扬扬,难堪之极。事发后,黎明也只好承认他们的恋爱关系。文章与“神秘女”看过《婚姻保卫战》的观众肯定不陌生,为剧中马伊琍与佟大为紧张的夫妻关系而揪心。现实生活里,这对男女同样遭遇尴尬的情事,有关文章和马伊琍婚姻出现问题的消息就不断传出,这对一直不被看好的姐弟恋,时常传出文章在外惹上了第三者。某日深夜,记者又一次见到了文章带神秘美女回公寓的场面。夏雨与神秘女夏雨袁泉已经结婚,但婚前就爆出夏雨有脚踩两只船的嗜好,某日,记者发现夏雨身边竟又出现了一位神秘美女,俩人不仅共进晚餐,而且相携回家,这位神秘美女并不是新面孔,五一节期间他就与夏雨秘密约会。阮经天曾与女友的闺蜜共处一室有关阮经天带美女开房的事情传的沸沸扬扬,目击者称发现阮经天在台中与友人饮酒作乐,随后竟带1名长发妹到裕元花园酒店开房间,待了约7小时才离开!小天后澄清:“她是我朋友的女友,我开的是有客厅的房间,我睡客厅。”还有这么老实的人吗?想想孤男寡女的在一起,谁相信阮经天不偷腥。估计只有傻女人许玮宁相信,恋爱中的女人就这么愚蠢。郎朗与巩新亮郎朗,国内最大牌的钢琴演奏家,也曾被媒体拍到酒店约会巩新亮,两人不仅出双入对,更是相拥拥抱,传来绯闻不断,不过,郎朗回应此传闻称两人只是朋友,郎妈更是表明不喜欢儿子找娱乐圈女星,看来,过郎妈这一关很难。陈晓东东的感情生活堪称传奇,张柏芝、裴唯莹、丹丹,三位前任女友均为绝色美女。不甘寂寞的陈晓东恋情继续,她和一个T恤搭热裤的女孩子约会,陈晓东防范式的与该神秘女子保持距离,两人闲聊一会后,女孩独自娴熟地驾晓东的别克离去,晓东好事将近了?蔡依林蔡依林,台湾超级天后,她与模特男友锦荣的甜蜜蜜约会,屡次被曝光。跨年夜蔡依林在高雄义大世界开唱,锦荣被民众发现戴着口罩,出现在她下榻的义大皇冠假日饭店大厅,等待共度甜蜜跨年夜。两人近来频频幽会,看来,锦荣深得蔡依林芳心,祝福他们!朱孝天李冰冰李冰冰现在贵为超级巨星,从当年的漂亮花瓶女星,经过多年的奋斗已成功升级,演技越来越精湛,事业大幅度提升。不过,当年她跟朱孝天酒店约会,事件一曝光,让她承受很大压力,这段绯闻最终也没有好结局。周杰伦周杰伦名气太响,当年跟侯佩岑约会跑到日本酒店,近年跟昆凌约会,更是日本、法国、马来西亚处处跑,酒店成了最佳约会场所,看来,周杰伦谈恋爱走神秘路线,约会地点多选在国外酒店,据说那样受干扰少。金城武金城武的感情生活扑朔迷离,曾被媒体拍到开车载着神秘女生,相随外出觅食,当时被偷拍到带神秘女子同游国外,看样子象一个日本女人,同赴外国酒店约会,当然是防范狗仔偷拍,不过,外界盛传金城武已隐婚多年,面对公众疑问,经纪人N次表示金城武还是单身,且神情激动地说“不可能,不可能”,只能说,不可能隐藏着种种可能。潘玮柏曾拜师于歌神张学友的潘玮柏,实属为一大情圣,有传每次和女友分手,都会哭个撕心裂肺,孰真孰假不得而知。潘玮柏带着口罩帽子,与一神秘女子出现在某酒店门口,该女子看似见识过狗仔队的无孔不入,一出门口就把放在潘玮柏肩头的手放下,潘帅则不忘整理口罩,临别之时不忘执手相送,看来,明知有狗仔偷拍,也挡不住异性的诱惑呀。张馨予吴卓羲“宅男女神”张馨予,她的身材很勾魂,波涛胸猛,F罩杯巨胸非常惹火,劲爆到何种程度?看看吴卓羲就知道了,他为了幽会爆乳女神,也管不了那么多,港媒就曾爆料张馨予秘密到香港酒店约会,吴卓羲忙前忙后,开心驾跑车载女友享受温柔。后来,一场床上爆乳自拍照曝光,更让恋情公开。
本文来源:新华网
责任编辑:王晓易_NE0011
用微信扫码二维码
分享至好友和朋友圈
加载更多新闻
热门产品:   
:        
:         
热门影院:
阅读下一篇
用微信扫描二维码
分享至好友和朋友圈2000万开房数据rar简介网上遍布,常住酒店的你担心了吗? - 法律法规网
2000万开房数据rar简介网上遍布,常住酒店的你担心了吗?
轶名 网络  
14:12:28  评论(/)
原标题:2000万开房数据rar简介网上遍布,常住酒店的你担心了吗?据媒体报道,多达2000万条数据的酒店开房数据库信息泄漏并被人传上了网,被泄漏的数据中,有你的开房记录吗?你会担心自己的隐私被泄漏吗?2013年10月,国内安全漏洞监测平台“乌云网”披露,自称是中国最大的酒店数据媒体报道,多达2000万条数据的酒店开房数据库信息泄漏并被人传上了网,被泄漏的数据中,有你的开房记录吗?你会担心自己的隐私被泄漏吗?2013年10月,国内安全漏洞监测平台“乌云网”披露,自称是中国最大的酒店数字客房服务商的浙江慧达驿站公司,因为安全漏洞问题,使与其有合作关系的大批酒店的开房记录在网上泄露。数天后,一个名为“2000w开房数据”的文件出现在网上,其中包含2000万条在酒店开房的个人信息,容量达1.7G。据该公司官网显示,该公司业务覆盖除西藏外的31个省市自治区的110多个城市,为4500多家星级和经济连锁酒店提供各种服务。开房数据中,开房时间介于2010年下半年至2013年上半年,包含姓名、*别、国籍、民族、身份证号、生日、地址、邮编、手机、固话、传真、邮箱、公司、住宿时间14个字段。今年35岁、在上海工作的王金龙是住店信息被泄露的受害者之一。他怎么也想不到,自己的命运被这起数据泄露事件改变。王金龙本来不姓王。原本姓什么,他不肯说。日前,在上海的一间茶馆里,王金龙讲述了几个月来自己的“憋屈”经历。听说泄露事件后,王金龙出于好奇,从网上简介了“2000w开房数据”。“一搜索,结果让我惊呆了,里面也有我的信息!”他告诉记者,之后不久,他开始频繁收到各种“精准的”营销电话,对方可以直接说出他的生日、家庭住址,甚至还知道他住的房子有多大,开的是SUV,而且具体是哪个品牌。甚至接到“猜猜我是谁”一类的诈骗电话。 tags:
2000w 开房数据简介,2000w开房数据csv,2000w 开房数据库,查开房记录 2000w,2000w 开房记录,2000w 开房数据,,某酒店2000w数据,2000w酒店数据简介,2000w开房数据遭泄露。2000w开房数据泄露,这意味着什么呢?
重庆被摔男童原原的父亲李生忠微博称原原已经能进食了。李生忠在微博上称,用勺子将稀饭放在原原的嘴巴前面,原原已经可以进食了。这真是个令人鼓舞的消息。原原被摔了已经有半个月了,到现在为止,我们才稍稍可以放
开房记录泄漏,对于很多人来讲都是没所谓的,可是对于另外一些年轻人来讲,却是一次外遇的泄漏,自己的另一半有没有过桃*的过去?他的隐私现在就有可能被查出来了。
昨天,刚被曝光时,这个查开房网的网址还是可以打开的,并且,可以查出许多开房客的个人隐私,如今,这个网站已经打不开了,点击的时候,显示这个。据提示,笔者分析,该网站提示这个的可能*有如下几点:1,有可能是
个人信息是禁止在网络上传播的,如个人姓名,生日,*别,更不要说是开房记录了。日前,许多家酒店宾馆等顾客的开房记录被指泄漏,昨天,更是有微博用户@股社区在网上曝光一个用来查开房记录的网站。这是一个什么样的网站呢?我们来看看。
作为提供酒店管理系统的网络技术提供商,慧达驿站公司自身的网络安全都做不好,又该如何为其他公司提供良好的服务呢?国内安全漏洞监测平台乌云(WooYun.org)近日发布报告,称如家、汉庭等大批酒店的开房记录被第三方
现在的乌龙事件太多了,打球会现乌龙球,这还不算最囧的,四川一男子带女友开房同居竟然也发生乌龙事件,自己开好了房欲与现女友同居,没想到一同来到宾馆正欲入住,一开门,却看见前女友穿着睡衣在床上躺着呢。凌晨
作为创始人,虽然仅持有阿里巴巴7%的股权,但马云一直大权在握,从未将一丝一毫的阿里巴巴控制权授予他人,正是因此,这也成了阿里巴巴上市最大的障碍。马云必须要掌握控制权,而如果上市,这将毫无可能。根据香港东
法律法规 / Laws
新闻资讯 / News
站长推荐:&>&baidu百度poi数据库google谷歌poi数据uk
baidu百度poi数据库google谷歌poi数据uk
上传大小:23.12MB
百度谷歌全国poi数据库,包含商家、学校、医院、加油站、景点、公交站、楼宇、社区等所有地图数据库
综合评分:4
{%username%}回复{%com_username%}{%time%}\
/*点击出现回复框*/
$(".respond_btn").on("click", function (e) {
$(this).parents(".rightLi").children(".respond_box").show();
e.stopPropagation();
$(".cancel_res").on("click", function (e) {
$(this).parents(".res_b").siblings(".res_area").val("");
$(this).parents(".respond_box").hide();
e.stopPropagation();
/*删除评论*/
$(".del_comment_c").on("click", function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_invalid/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parents(".conLi").remove();
alert(data.msg);
$(".res_btn").click(function (e) {
var parentWrap = $(this).parents(".respond_box"),
q = parentWrap.find(".form1").serializeArray(),
resStr = $.trim(parentWrap.find(".res_area_r").val());
console.log(q);
//var res_area_r = $.trim($(".res_area_r").val());
if (resStr == '') {
$(".res_text").css({color: "red"});
$.post("/index.php/comment/do_comment_reply/", q,
function (data) {
if (data.succ == 1) {
var $target,
evt = e || window.
$target = $(evt.target || evt.srcElement);
var $dd = $target.parents('dd');
var $wrapReply = $dd.find('.respond_box');
console.log($wrapReply);
//var mess = $(".res_area_r").val();
var mess = resS
var str = str.replace(/{%header%}/g, data.header)
.replace(/{%href%}/g, 'http://' + window.location.host + '/user/' + data.username)
.replace(/{%username%}/g, data.username)
.replace(/{%com_username%}/g, data.com_username)
.replace(/{%time%}/g, data.time)
.replace(/{%id%}/g, data.id)
.replace(/{%mess%}/g, mess);
$dd.after(str);
$(".respond_box").hide();
$(".res_area_r").val("");
$(".res_area").val("");
$wrapReply.hide();
alert(data.msg);
}, "json");
/*删除回复*/
$(".rightLi").on("click", '.del_comment_r', function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_comment_del/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parent().parent().parent().parent().parent().remove();
$(e.target).parents('.res_list').remove()
alert(data.msg);
//填充回复
function KeyP(v) {
var parentWrap = $(v).parents(".respond_box");
parentWrap.find(".res_area_r").val($.trim(parentWrap.find(".res_area").val()));
评论共有1条
下了好久了,一直没有评价。作为参考,还好。
综合评分:
积分/C币:3
综合评分:
积分/C币:1
VIP会员动态
CSDN下载频道资源及相关规则调整公告V11.10
下载频道用户反馈专区
下载频道积分规则调整V1710.18
spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip
资源所需积分/C币
当前拥有积分
当前拥有C币
输入下载码
为了良好体验,不建议使用迅雷下载
baidu百度poi数据库google谷歌poi数据uk
会员到期时间:
剩余下载个数:
剩余积分:0
为了良好体验,不建议使用迅雷下载
积分不足!
资源所需积分/C币
当前拥有积分
您可以选择
程序员的必选
绿色安全资源
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验,不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验,不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
您的积分不足,将扣除 10 C币
为了良好体验,不建议使用迅雷下载
无法举报自己的资源
你当前的下载分为234。
你还不是VIP会员
开通VIP会员权限,免积分下载
你下载资源过于频繁,请输入验证码
您因违反CSDN下载频道规则而被锁定帐户,如有疑问,请联络:!
若举报审核通过,可返还被扣除的积分
被举报人:
请选择类型
资源无法下载 ( 404页面、下载失败、资源本身问题)
资源无法使用 (文件损坏、内容缺失、题文不符)
侵犯版权资源 (侵犯公司或个人版权)
虚假资源 (恶意欺诈、刷分资源)
含色情、危害国家安全内容
含广告、木马病毒资源
*投诉人姓名:
*投诉人联系方式:
*版权证明:
*详细原因:
baidu百度poi数据库google谷歌poi数据uk2000万数据的问题很火啊?
[问题点数:300分,结帖人SmithLiu328]
本版专家分:17677
2014年1月 荣获微软MVP称号
2013年6月 MS-SQL Server大版内专家分月排行榜第一
2013年7月 MS-SQL Server大版内专家分月排行榜第三
结帖率 96.77%
CSDN今日推荐
本版专家分:263
本版专家分:3105
本版专家分:17677
2014年1月 荣获微软MVP称号
2013年6月 MS-SQL Server大版内专家分月排行榜第一
2013年7月 MS-SQL Server大版内专家分月排行榜第三
本版专家分:61630
2016年4月荣获微软MVP称号2015年4月荣获微软MVP称号2014年4月 荣获微软MVP称号2013年4月 荣获微软MVP称号
2013年4月 MS-SQL Server大版内专家分月排行榜第二
2012年5月 MS-SQL Server大版内专家分月排行榜第三
本版专家分:314107
2012年 荣获名人称号
2011年 总版技术专家分年内排行榜第四2010年 总版技术专家分年内排行榜第九2009年 总版技术专家分年内排行榜第八
2011年10月 总版技术专家分月排行榜第一
2011年12月 总版技术专家分月排行榜第二2011年9月 总版技术专家分月排行榜第二2009年11月 总版技术专家分月排行榜第二
本版专家分:62139
2012年 总版技术专家分年内排行榜第九
2014年4月 荣获微软MVP称号2013年4月 荣获微软MVP称号
2012年7月 MS-SQL Server大版内专家分月排行榜第一2012年6月 MS-SQL Server大版内专家分月排行榜第一2012年5月 MS-SQL Server大版内专家分月排行榜第一2012年4月 MS-SQL Server大版内专家分月排行榜第一
2012年12月 MS-SQL Server大版内专家分月排行榜第二2012年3月 MS-SQL Server大版内专家分月排行榜第二
本版专家分:1335
本版专家分:122682
2008年11月 总版技术专家分月排行榜第二2008年10月 总版技术专家分月排行榜第二
2010年7月 荣获微软MVP称号
2008年11月 MS-SQL Server大版内专家分月排行榜第一2008年10月 MS-SQL Server大版内专家分月排行榜第一
2009年2月 MS-SQL Server大版内专家分月排行榜第二2009年1月 MS-SQL Server大版内专家分月排行榜第二2008年12月 MS-SQL Server大版内专家分月排行榜第二2008年9月 MS-SQL Server大版内专家分月排行榜第二
本版专家分:214508
2014年 总版技术专家分年内排行榜第一
2013年 总版技术专家分年内排行榜第二
2014年8月 总版技术专家分月排行榜第一2014年7月 总版技术专家分月排行榜第一2014年6月 总版技术专家分月排行榜第一2014年5月 总版技术专家分月排行榜第一2014年4月 总版技术专家分月排行榜第一2014年3月 总版技术专家分月排行榜第一2014年1月 总版技术专家分月排行榜第一2013年12月 总版技术专家分月排行榜第一
2013年10月 总版技术专家分月排行榜第二2012年11月 总版技术专家分月排行榜第二
本版专家分:122682
2008年11月 总版技术专家分月排行榜第二2008年10月 总版技术专家分月排行榜第二
2010年7月 荣获微软MVP称号
2008年11月 MS-SQL Server大版内专家分月排行榜第一2008年10月 MS-SQL Server大版内专家分月排行榜第一
2009年2月 MS-SQL Server大版内专家分月排行榜第二2009年1月 MS-SQL Server大版内专家分月排行榜第二2008年12月 MS-SQL Server大版内专家分月排行榜第二2008年9月 MS-SQL Server大版内专家分月排行榜第二
本版专家分:214508
2014年 总版技术专家分年内排行榜第一
2013年 总版技术专家分年内排行榜第二
2014年8月 总版技术专家分月排行榜第一2014年7月 总版技术专家分月排行榜第一2014年6月 总版技术专家分月排行榜第一2014年5月 总版技术专家分月排行榜第一2014年4月 总版技术专家分月排行榜第一2014年3月 总版技术专家分月排行榜第一2014年1月 总版技术专家分月排行榜第一2013年12月 总版技术专家分月排行榜第一
2013年10月 总版技术专家分月排行榜第二2012年11月 总版技术专家分月排行榜第二
本版专家分:17677
2014年1月 荣获微软MVP称号
2013年6月 MS-SQL Server大版内专家分月排行榜第一
2013年7月 MS-SQL Server大版内专家分月排行榜第三
本版专家分:214508
2014年 总版技术专家分年内排行榜第一
2013年 总版技术专家分年内排行榜第二
2014年8月 总版技术专家分月排行榜第一2014年7月 总版技术专家分月排行榜第一2014年6月 总版技术专家分月排行榜第一2014年5月 总版技术专家分月排行榜第一2014年4月 总版技术专家分月排行榜第一2014年3月 总版技术专家分月排行榜第一2014年1月 总版技术专家分月排行榜第一2013年12月 总版技术专家分月排行榜第一
2013年10月 总版技术专家分月排行榜第二2012年11月 总版技术专家分月排行榜第二
本版专家分:389
2012年12月 扩充话题大版内专家分月排行榜第一
2012年12月 C/C++大版内专家分月排行榜第三2012年11月 C/C++大版内专家分月排行榜第三2012年11月 扩充话题大版内专家分月排行榜第三2012年10月 C/C++大版内专家分月排行榜第三
本版专家分:84119
2014年2月 总版技术专家分月排行榜第一
2014年1月 总版技术专家分月排行榜第二2013年12月 总版技术专家分月排行榜第二
2016年10月优秀小版主
2014年4月 荣获微软MVP称号
本版专家分:0
本版专家分:100
本版专家分:557
本版专家分:9
本版专家分:6347
2014年3月 高性能开发大版内专家分月排行榜第一2014年2月 高性能开发大版内专家分月排行榜第一2014年1月 高性能开发大版内专家分月排行榜第一2013年6月 高性能开发大版内专家分月排行榜第一2013年5月 高性能开发大版内专家分月排行榜第一2013年4月 高性能开发大版内专家分月排行榜第一
本版专家分:1835
匿名用户不能发表回复!
其他相关推荐最近网上盛传两千万酒店用户数据泄漏,出于好奇,我也从网上下载了一份下来。本次下载纯粹是出于学习和研究用,不会做什么坏事,不要问本人要下载地址,大家自己找。由于本人并不是学统计和数据挖掘方面的,所以只能浅显的做做统计分析,下面开始我们的学习和研究。
首先,数据源只有一个表(总数据2005W),里面主要存放了用户的姓名、证件类型,证件号码,生日,性别,住址,手机号码,邮箱等私人信息。这些数据应该是从多个数据源集成进来的,因为里面的格式很不工整,有些默认值使用的也不一样。我们要做数据分析,那么需要进行数据清理,然后建立Cube,使用ETL转换成维度模型,最后使用各种前段呈现工具进行展示。
主要是去除字符串首尾的空格,还有就是很多数据是没有生日和性别的值的,但是我们知道,通过身份证号码就能够推断出生日和性别,所以这部分数据可以补齐。另外还有就是数据重复问题,我们可以把身份证号码作为主键进行去重,我搜索了下,有相同身份证号码的大概占总数据的0.5%,所以我也就没有做去重工作,认为里面的数据都表示一个独立的人。
多维分析模型
有姓名,我们可以对姓氏分布进行分析,有了身份证号码,我们可以对出生地(省、市、区)进行分析,对出生的年月分布进行分析,对性别分布进行分析。住址由于格式太不一样,就不分析了,有了手机号码我们可以对手机号码段的分布进行分析,也可以对用户所在地进行分析(绝大多数用户使用的手机号就是平时生活所在地的号),有了邮箱地址可以对域名进行统计。
要得到身份证对于的地区,以及电话号码对应的地区,可以从网上找到对应表,导入数据库中即可进行联合分析。
出生年月和性别
在建立了多维模型后,使用Excel连接Cube进行多维分析是个很简单的事情。下面我们看看所有人员的年龄分布。
我们可以看到,住酒店的人主要集中在年左右,由于我们的数据是Budget Hotel(比较廉价的酒店)数据,可以想象,住这些酒店的都是社会的中低层,高富帅和官二代是肯定不住这种酒店的,穷的很的那就只有住更廉价的招待所或者睡火车站了。住酒店的人的年龄段大部分都还在工作,看来很多人住酒店还是因为商务的原因。从16岁到20岁左右的酒店人数还是少数哈,并不是传说的都是约炮数据。
下面再来对比一下各年龄段性别上的分布。(为了便于观看主体数据,我把时间段缩短成)
从图中可以看到,在1990年之前出生人里面,住酒店的男性比例远高于女性,毕竟出差的人还是以男性居多吧,这个数据可以理解。但是在90后的年龄段里面,女性比例和男性比例基本是1:1,甚至还有些数据是女性比例高于男性,90后才刚跨入社会开始工作,或者还没有开始工作,所以不存在大量男性出差的问题,但是为什么女性比例会比男性比例高呢?这个问题有意思,留给大家自己YY。
我们可以从身份证号码前2位知道一个人在出生上户口的时候所在的省份,可以统计每个省份的住酒店人数。本身统计这个没什么意思,把全国人口统计数据拿出来比较就比较有意思了。下面看看做出的表。
我们可以看到,上海、浙江、山西、北京、天津这几个地方的住酒店人数排名远高于人口排名,江浙一带和京津塘一带经济很发达,出差频繁,可以理解,但是山西为什么出差那么多呢?可能山西人有商业的基因吧。
另外就是发现广东、广西、云南、四川、重庆的住酒店人数小于人口排名,广东很发达啊,怎么会住酒店的人少呢?可能是因为广东人喜欢在本地发展吧,出来到处漂的并不多。
上面只是从身份证上得出的省份,下面再看看手机号得出的省份数据,这个数据反映的应该是人们当前工作/生活的省份的情况。
这个数据比上一个数据的差别更大,可以说是非常不平衡,可以看到,上海、北京、天津的商业很发达,人口排名不高,但是住酒店的人口排名非常高。比较杯具的是云南、四川、湖南、广西,工作和出差人数远少于人口基数。
这里我只统计了姓,没有统计名,不过姓名可以先说一下,在所有姓名数据中,重名最高的前10个姓名是:张伟,王伟,王磊,李伟,张磊,刘伟,李强,张勇,王勇,刘洋。相信很多人周围就有这些姓名的人。重名排行前250位左右的都是两个字的姓名,看来起三个字姓名的重名率会低很多很多。重名率最高的Top10三个字姓名的是:王建军,王志强,王建华,王晓东,张建军,王婷婷,王志刚,张建华,张志强,张婷婷。好像周围也很容易找到这些姓名的人。
下面还是说姓吧,这个对中国人来说很重要。姓氏很多,网上找了一个前200姓氏人口排名表,拿来和我做出来的数据对比,发现有以下几个数字比较突出:
金姓和陆姓的酒店统计排名远远高于人口统计排名。
邓,曾,孔这三个姓的酒店统计排名远远小于人口统计排名。
其中原因还得从其他维度去联合分析,可能是因为有些姓是集中在某个地方吧!
另外一个题外话,在Top200的姓氏人口统计中没有肖姓,却有萧姓,其实这是同一个姓,古时候根本没有姓肖的,后来由于文革时期的简体字运动,把萧简写成了肖,后来这个简写又被取消了。
出生月份统计
很简单的一个统计分析,看看一年12个月里面,哪个月出生的人最多。
从图中可以看出,10月份的人最多,4月份的人最少。为什么会这样呢?可能需要专家来解释。
手机号段分布
我这里取的是手机号码的前三位,应该哪个最高?我一直以为是138,结果发现是139。
移动的号码占很大优势,联通186和电信的133都排在后面了。看来广大中低产阶级还是选移动的多啊。
本来还可以进一步分析具体是全球通、神州行还是动感地带的,难得提取了。有需要的话可以再花点时间分析分析。
邮箱域名分布
邮箱域名里面,哪个最多?以前听说是163,后来又听说QQ邮箱把他超越了,我们还是看数据吧。
前10大邮箱域名排名:
@hotmail.com
@yahoo.com.cn
@gmail.com
QQ邮箱果然是最多的,不过优势也不是那么明显,而且排第二第三的都是网易的邮箱,加起来就超过QQ邮箱了。
以上只是简单的分析,其实在进行了很好的数据清洗和模型设计后,我们还可以从中挖掘出很多好玩的地方。尤其是应用上数据挖掘算法,可以造成多个维度之间的相关性,由于工作较忙,时间比较仓促,所以实验就做到这里。大家有什么想分析的话可以留言,我再做做。
阅读(...) 评论()

我要回帖

更多关于 2000万数据怎么打开 的文章

 

随机推荐