说谎自评扣分项目汇总表包括哪几项

现在的位置:
-> -> ->哪些八字的男人最爱说谎
哪些八字的男人最爱说谎
来 源:算命网 关键字:
  哪些男人最爱说谎呢?爱说谎的男人你不得不防!女人很容易被甜言蜜语骗到,但也最怕被人骗、被人背叛,可有些男人天生就爱说谎,女人们不得不防。那么,从特征来看哪些的男人最爱说谎呢?下面从八字命理的角度分析你是不是爱说谎的男人。
:哪些八字的男人最爱说谎
  一、八字中水旺,土也旺的男人爱说谎。
  我们知道土主信,八字中土旺的人诚实厚道,本份,不耍心计。但是若土中渗水,而水又很旺的人,则成了反面教材。命理上有这样一句话,“水土混杂,聪明人办糊涂事”,水主智,水被土混,这种智慧会变成耍小聪明,常常聪明反被聪明误。土代表诚信,夹杂着水,这种诚信是有水分的,表面与内在是不一致的。他们行事往往会前后矛盾,他们对待身边亲近的人也持着见风使舵的态度,不知道哪句是真是假。
  因此,跟这种男人在、生活中,你会发现他们也会处处耍小聪明,遮遮掩掩的,很不安全与靠普。相关阅读:【】、【】、【】
  二、八字中金水旺,又为忌神的男人爱说谎。
  金旺带水则水旺,水主流动,主智,金水为忌过旺,则这种“智”会发挥过余,无法把控尺度,起到反面作用,所以金水旺的人善变,为满足暂时的需要,出口就会是假话。
  因为水代表肾,性功能强旺,这样的男人在男女情感生活中,忠诚度就会很低,是最不可靠的类型。
  三、八字中带伤官,伤官重又忌神的男人爱说谎。
  这种男人在平日里的生活不但爱说谎同时更好吹牛,他们的好胜心特别强,因此时不时的在别人面前吹嘘或是夸张。因为伤官是发泄之物,其特点就是爱夸张,表现欲望强,管不住自己的嘴巴,外向却有时候不免孤独,喜欢别人注意自己等。如果伤官为八字中的忌神,则命主所表现出来的东西为不好的一面,肚子里没货却想竭力表现自己,免不了要吹嘘和夸夸其谈了,其中自然不乏虚假之处。
  因此,跟这种男人不可以深交,对于满口谎话的人只能做做场面朋友。
  四、八字带偏印,日支为偏财的男人爱说谎。
  带偏印的人精明狡诈、自私,深不可测,所以经常用假话遮掩真实的方面;日支为内心,又为宫,日支本来是正财妻星的位置,却被偏财星占据,说明这类男人异常花心,容易出轨。
下次访问,请在网上搜索,即可直达
(责任编辑:)
来再看几篇
来再玩几个
免费在线速算
八字命格简批
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" 1980 <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value=" 年
23456789101112 月
12345678910111213141516171819202122232425262728293031 日
早子(00:00~00:59)
丑(01:00~02:59)
寅(03:00~04:59)
卯(05:00~06:59)
辰(07:00~08:59)
巳(09:00~10:59)
午(11:00~12:59)
未(13:00~14:59)
申(15:00~16:59)
酉(17:00~18:59)
戌(19:00~20:59)
亥(21:00~22:59)
晚子(23:00~23:59)
今日运势宝典
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" 1980 <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value=" <OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value="<OPTION
value=" 年
123456789101112 月
2345678910111213141516171819202122232425262728293031 日
早子(00:00~00:59)
丑(01:00~02:59)
寅(03:00~04:59)
卯(05:00~06:59)
辰(07:00~08:59)
巳(09:00~10:59)
午(11:00~12:59)
未(13:00~14:59)
申(15:00~16:59)
酉(17:00~18:59)
戌(19:00~20:59)
亥(21:00~22:59)
晚子(23:00~23:59)
您当前阅读的文章是:哪些八字的男人最爱说谎
欢迎光临非常运势算命网!本站是网上最专业的站,提供、、等最准的项目,提供最佳的在线体验,提供最好的大师亲算服务。
客服电话:400-677-8700(免长途费) 本站所有分析资料仅供参考 2015年版权所有? 林宥嘉《说谎》歌词哪几句说的是实话?_百度知道
林宥嘉《说谎》歌词哪几句说的是实话?
说的是一个什么故事?林宥嘉《说谎》歌词哪几句说的是实话?
提问者采纳
第六部分中,只有4句可以看成是真话,两人都是心照不宣! 两人约在以前约会的老地方——一间餐厅,男主角为了掩饰自己,想不透,但是从第一句开始就是谎话 整首歌42句歌词:第二部分,痛苦我自己承担) 我又不脆弱(其实我也是人,但是有关我们的一切回忆怎么会忘,但是傻子都知道,意图说成是“因为爱情,她要做别人的新娘了,心中本来就只有前任一个。 3,男主角眼看自己的面具被渐渐揭下来! 歌词里的男主角一直说我没有说谎,男主角甚至会误会,承认说分手对自己已经打击不小了,早就看透这东西了:我要结婚了,男主角死鸭子嘴硬地反问女主角分手会让自己受多大的伤呢,一直以来承受的孤独寂寞,甚至没有来过这个餐厅了。 7,让自己简直失去了对人生的追求. 是有过几个不错对象(其实从分手后就没有再跟谁谈过恋爱,现在痛苦得像要停止呼吸了一样) 段落解析.
我没有说谎(我刚才说的全是假的) 是爱情说谎(不是爱情,生活事业的压力让我喘不过气) 有些事情就不要拆穿(我就是忘不了你.,生活上的颓废。今晚她明明是来送喜帖的,男主角顺势拿过话题说自己都不太记得了. 我没有说谎(我刚才说的全是假的) 我何必说谎(为了我的自尊我必须说谎) 你懂我的(以前的你很了解我) 我对你从来就不会假装(以前不会,谁知道呢,而前女友却即将步入婚姻的殿堂, 女生某日突然邀约男生出来见面吃饭,现在的笑是发自内心的,自己甚至有些失态.我没有说谎(我刚才说的全是假的) 祝你做个幸福的新娘(你做别人的新娘了我怎么会开心,渐渐的开始表露在外面了,并伪造事实,经常坐的那个位置有很浓的玫瑰香?) 我哪有说谎(我真的在说谎) 是很感谢今晚的相伴(感谢你对我这样一个孤独的人的可怜) 但我竟然有些不习惯(已经不是当初的关系了,只能加上一句“像我这样看透感情,男生于是开始护卫自尊大作战,让人没有安全感而离开”为借口来说明为何现今自己单身一人,自己对这餐厅的感觉就像对前任的感情,但是男主角极力掩饰,男主角是要让前女友觉得自己心理承受能力很好,请我去喝你们的喜酒的) 段落解析,再一想到自己如今单身落寞,也脆弱得要命) 何况那算什么伤(那不仅是伤,女主角已经开始拆穿男主角的所有谎言,但是前女友质疑为何如此风流倜傥. 1,桌上开始寒暄,怀疑他在说谎.
我没有说谎(我刚才说的全是假的) 我何必说谎(为了我的自尊我必须说谎) 爱一个人没爱到难道就会怎么样(当然会让我有个什么。其实?) 角落那窗口(我们当初约会时的固定位置) 闻得到玫瑰花香(玫瑰是我们当年爱情的见证) 被你一说是有些印象(其实不需要你提醒,男主角根本看不开,并拿出“自己从未对自己前任说过谎”的例子来掩饰,男主角已经彻底崩溃,就是我在说谎) 它带你来骗我说渴望的有可能有希望(我原以为今天你约我出来是可以复合,这个都已经不是当初的模样,男主角没说自己是突然犯病了才看上去难受的…… 6:第三部分,故意向前任撒谎说自己从分手后就很少来, 其实目的是要送喜帖,已经淡忘了,自己除了祝福,意图使前女友认为自己过得很风流快活,黯然神伤) 别说我说谎(给我最后留点自尊吧,如今却单身一人,却完全没预料到,也让我假装幸福一次吧) 人生已经如此的艰难(失去你的痛苦,而自己的未来,仿佛还有点印象,会让我颓废忧郁?男主角已经是在自己骗自己了,想让自己的前任认为自己早已轻易忘了她,还会不知道么。 4,但终究没有那些事,想要有自尊,竟然也有些不习惯,再怎么健忘,现在反倒是前任要结婚了,女主角看到男主角很难受. 我好久没来这间餐厅(其实经常到这里来找我们当初的回忆) 没想到已经换了装潢(我经常来:第五部分中,并说出,自己却为了自己的自尊,意图影射出,怎么能忘,但是内心的感情已经抑制不住故事说的是一对分手已久的情侣,还是我永远无法痊愈的伤) 反正爱情不就都这样(其实我一点也看不开) 段落解析?现在,才会结果都阵亡(根本就没有和任何人开始过,自己根本没受多大影响, 明明五味杂陈百感交集心酸无奈?) 段落解析,还能送上什么呢,同时影射出自己和前任也已经不是当初的关系了,被迫说谎”,所以才看上去有些感伤”.
我没有说谎(我刚才说的全是假的) 我何必说谎(为了我的自尊我必须说谎) 你知道的(当初你确实了解我) 我缺点之一就是很健忘(我的确健忘,就问他是不是由于最后没能跟自己在一起, 告诉男生,女主角提到了当初约会时,但现在不得不假装) 我哪有说谎(我真的在说谎) 请别以为你有多难忘(分手这么久了还是忘不了你) 笑是真的不是我逞强(我现在是强颜欢笑) 段落解析,男主角拿“自己前任当初知道自己健忘”来搪塞,自己要眼睁睁的看着她成为别人的妻子。但是毕竟是在说谎,因为心里一直只有你一个) 说起来并不寂寞孤单(其实一直一个人生活得很寂寞) 可能我浪荡(其实一点也不风流) 让人家不安,自己以为女主角今晚来是想再给他一个复合机会!) 我的心事请你全遗忘 (其实还是希望你仍然能够记得我,男主角心中的感情无法掩盖,加上自己和朋友屡次创业惨遭失败,没想到是你是来送喜
帖,主要是像前女友掩饰自己分手后的落寞,全部都没有结果,在今晚这样的气氛中,也不可能后来再和谁有个什么,但是,此时男主角心中的感受已经表露无疑,我刚才都在说谎) 段落解析。 5:第一部分?只好让女主角忘掉自己这个笑话,当初的分手根本不值得让自己有任何牵绊,心里受了很严重的伤,认为男主角在说谎。 看完之後會有新的感覺哦,分手后自己对前任的等待,而且自己前任还是送喜帖来的,形容成是来陪自己吃饭的, 两人一坐下来开始寒暄。 2,我也会一直清楚的记得) 段落解析,男女主角谈到了这个他们以前经常约会的餐厅,在你们的幸福面前,她这个幸福的人就不要再捅破他这个失败的人最后的尊严。还好. 我没有什么阴影魔障(其实和你分手对我心理的打击相当大) 你千万不要放在心上(和你的现任好好生活,假装自己在感情世界里浮沉了这么多年,怎么会忘成这样,玩转爱情的人?多希望你是我的新娘,受了很深的打击而至今痛苦,尽管你已经要成为别人的新娘) 段落解析,她今晚是来炫耀的,男主角的前任根据当初对他的了解,并认为女主角现今的处境跟自己是一个天上一个地下:第四部分,现在被提起!当初和她一起的那些快乐,不仅不是这样,毕竟爱都是自私的,关于两个人的那么深刻的回忆,就甚至有些乞求的让女主角不要再继续说下去了,男主角就只能以“因为自己太过风流! 8:剧情落幕,哪来的结束:但是男主角依旧不肯承认自己主动说谎
相关专业回答
1你懂我的(以前的你很了解我)2是很感谢今晚的相伴(很谢谢你对我这样一个孤独的人的可怜)3但我竟然有些不习惯(已经不是当初的关系,现在我痛苦得像要停止呼吸了一样)4有些事情就不要拆穿(我就是忘记不了你,我刚才都是在说谎)
其他类似问题
为您推荐:
林宥嘉的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁人说谎时有哪些表现 如何识破谎言
人说谎时有哪些表现 如何识破谎言
人说谎时有哪些表现 如何识破谎言
诚信是当今社会稀缺的东西,人人都怕被人谎言骗,但有时也不得不去骗人。唉!人是复杂的,还总被疑心折磨。担心别人和你说话是不是在说谎,他(她)是不是在欺骗你?我们怎样去识破谎言,识破骗局呢?
1·不提及自身及姓名
美国赫特福德郡大学的心理学家韦斯曼说,“人们在说谎时会自然地感到不舒服,他们会本能地把自己从他们所说的谎言中剔除出去。比如你问你的朋友他昨晚为什么不来参加订好的晚餐,他抱怨说他的汽车抛锚了,他不得不等着把它修好。说谎者会用‘车坏了’代替‘我的车坏了’。”
所以如果你向某人提问时,他们总是反复地省略“我”,他们就有被怀疑的理由了。反过来说,撒谎者也很少使用他们在谎言中牵扯到的人的姓名。一个著名的例子是几年前,美国总统比尔·克林顿在向全国讲话时,拒绝使用“莫妮卡”,而是“我跟那个女人没有发生性关系”。
2·说谎时眼睛会向右上方看
说谎者从不看你的眼睛——他们知道这句忠告,所以高明的说谎者会加倍专注地盯着你的眼睛,瞳孔膨胀。每个人都记得小时候妈妈的批评,‘你肯定又撒谎了——我知道,因为你不敢看我的眼睛。’这教会你从很小起就知道说谎者不敢看眼睛,所以人们学会了反其道而行之以避免被发觉。”实际上,欺骗者看你的时候,注意力太集中,他们的眼球开始干燥,这让他们更多地眨眼,这是个致命的信息泄露。
另外一个准确的测试是直接盯着某人眼睛的转动,人的眼球转动表明他们的大脑在工作。大部分人,当大脑正在“建筑”一个声音或图像时(换句话说,如果他们在撒谎),他们眼球的运动方向是右上方。如果人们在试图记起确实发生的事情,他们会向左上方看。这种“眼动”是一种反射动作,除非受过严格训练,否则是假装不来的。
3·你要反复的问说谎者一个问题
问一个人问题,然后等他们回答。问第二次,回答会保持不变。在第二次和第三次之间留一段空隙。在这期间,他们的身体会平静下来,他们会想,“我已经蒙混过关了。”
在所有的生理反应消退后,身体放松成为正常状态。当你趁他们不注意再次问这个问题时,他们已经不在说谎的状态中了,他们不是恼羞成怒,就会倾向于坦白。如果一个人说:“我不是已经和你说过这件事了吗?”然后才勃然大怒,这多半是在欺骗。也可能对你说:事情是这样的,我还是对你直说了吧。”
4·对于说谎者来说他们是从不会忘记
在你的朋友身上试试,问他们两天前的晚上从离开办公室到上床,他们做了什么,他们在叙述过程中难免会犯几个错误。
记住一个时间段的所有细节是很困难的。人们很少能记住所有发生的事,他们通常会反复纠正自己,把思绪理顺。所以他们会说,‘我回家,然后坐在电视前——噢,不是,我先给我妈打了个电话,然后才坐在电视前面的。’但是说谎者在陈述时是不会犯这样的错误的,因为他们已经在头脑的假定情景中把一切都想好了。他们绝不会说,‘等一下,我说错了。’不过恰恰是在陈述时不愿承认自己有错暴露了他们。”
5·说谎者的声音和声调是不自觉的提高
如果你问老公刚刚是谁打来的电话时,他突然开始像喜鹊一样说话,你得警惕了。说谎时音调升高往往是因为说谎者为了掩饰虚弱的内心。
6·真与假的微笑就可以决定一切
美国匹兹堡大学的心理学教授杰夫里·考恩正在研究测量疑犯接受审问时面部肌肉变化的机器。“我们可以说出每块肌肉动了多少次,它们停留多长时间才变化的,受试者的表现是真实还是伪装的。”他解释说。
不过你不需要考恩的机器就可以发现撒谎的男友或者心虚的小姑娘,因为说谎者虚伪的微笑在几秒钟就能戳穿他们的谎言。“真正的微笑是均匀的,在面部的两边是对称的,它来得快,但消失得慢,”考恩说,“它牵扯了从鼻子到嘴角的皱纹——以及你眼睛周围的笑纹。”
“从另一方面说,伪装的笑容来得比较慢,而且有些轻微的不均衡,当一侧不是太真实时,另一侧想做出积极的反应。眼部肌肉没有被充分调动——这就是为什么电影中的‘恶人’冰冷、恶毒的笑容永远到不了他的眼部。”
7·在极短的时间内表现出真实的表情
人维持一个正常的表情会有几秒钟,但是在“伪装的脸”上,真实的情感会在脸上停留极短的时间,所以你得小心观察。一个著名的轶事是,美国保密局提供的胶片中,比尔·克林顿说到莫尼卡·莱温斯基时,他的前额微微皱了一下,然后迅即恢复了平静。
8·在说谎时人的鼻子是有增大
你知道说谎时你的鼻子会变大吗?你的身体在说谎时的反应是多余的血液流到脸上。一些人整个面部都变红了。这还会使你的鼻子膨胀几毫米。当然,这通过肉眼是观察不到的,但是说谎者会觉得鼻子不舒服,不经意地触摸它——这是说谎的体现。
9·老爱触摸自己的人有时是在撒谎
撒谎的人老爱触摸自己,就像黑猩猩在压抑时会更多地梳妆打扮自己一样。心理学家奥惠亚等曾做过这样一项实验:指示被实验者用谎言回答面谈者的提问,并分别记录刚刚下达指示后、撒谎前、撒谎时、撒谎以后等各个时间段里的非语言型行为,与不说谎时的行为加以比较。 刚刚接受指示后,被实验者撒谎的时候,回答变得更加简短,而且还伴有摆弄手指下意识地抚摸身体某一部位等细微的动作。人在撒谎的时候越是想掩饰自己的内心,越是会因为多种身体动作的变化而暴露无遗。
特别提示大家在生活中多注意一些人的形体动作和习惯,你就可以轻松的知道他是不是在撒谎,是不是在欺骗你。如果一个善意的谎言,还是不要拆穿的好。
发表评论:
馆藏&22558
TA的推荐TA的最新馆藏「数据会说谎」的真实例子有哪些?
究竟是数据在说谎,还是逻辑在说谎?最好是你遇到的真实案例,你是如何判断数据表明的错误的?
542 个回答
有好事同志专门搞了一个网站来收集“八杆子打不着但看着贼拉靠谱的相关关系”,几乎就是专门让大家来扯淡装叉用的。几个例子:尼古拉斯凯奇在电影中的出镜次数和淹死在游泳池里的人数:肯塔基州的结婚率和从渔船里掉出来淹死的人数:全美滑雪场的总收入与被床单缠住致死的人数:所有例子图片都来自
截图说话——哗众取宠的美国Fox news经常用的一些招数。这些招数更多的是从视觉上给人一种“错觉”。比如说,本来不大的差异,截掉Y轴的一部分,瞬间差异就会让看的人觉得——差得这么多!!!想象你明天要跟你的经理作报告,手里有一堆结果,但是显然这些结果对于之前的方法只有边际的增长——好消息是,你几乎一定可以找到一个方法,在数据变化不大的时候却给人造成视觉的冲击。例子:1)在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。差距够大吧!!!巨量增长啊!我们公司的财务情况这样的话,公司明年就得IPO啊!!可惜Y从0开始的话,这图应该看起来的样子是:p.s.刚发现在用Excel画这图的时候,excel都自动把Y轴的起始值调成比最小值多一点!这样看起来差距真是巨明显有没有!看来M$真是很懂画图的真正需求啊:D2) 另外一个例子,作两两比较的时候把Y的值从高位开始,造成俩差距巨大的错觉看啊,右边比左边高了4倍不止!!!咦,等等,不是就39.6%跟35%的差别吗....这...3) 分数加起来不等于一,放大差距。图上的数据normalize一下的话那么佩林是36.2%,32.6%,31.0%,直观差距不大。但是在这个饼型图里瞬间变成了10%的差距!这个比较明显的话那看下面图上的数据normalize一下的话那么佩林是36.2%,32.6%,31.0%,直观差距不大。但是在这个饼型图里瞬间变成了10%的差距!这个比较明显的话那看下面这里一扫的话没发现这里百分数加起来不等于1了吧。4) 挑取x轴的数据以捏造趋势假设数据的波动性很大,比如说如下10, 1, 20, 3, 30, 4, 50看起来应该是擦勒,公司的财务状况这么不稳定!!!怎么办!没关系——如果我只抽取奇数项的话(挑取x轴,虽然挑得好像是很有系统地——奇数,但是你总能想到一个看着挑得系统的方法)就会看着像TMD明年又可以上市了。。。等等等等...部分图片来源于
当奥巴马说“我国经济 09 年以来增长 13%”的时候,他没有告诉你其实美国人只有最富的 1% 收入增长了——剩下 99% 的人收入反而比之前。会出现这种情况是因为收入不是正态,而是分布的(即大家常说的 “20% 拥有 80% 的财富”)。所以最富人群的收入变化对经济总量影响最大,而剩下大多数人的收入变化对总量几乎没有影响。举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 2 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。举个具体的例子。假设有两个人,一个人有 100 块钱,一个人有 2 块钱。如果前者财富增长 10%(来到 110 块),后者减少 50%(来到 1 块),整个经济还是增长了 8%。美国现在的情况就是这样,“经济整体复苏”但“多数人可支配收入没涨”。奥巴马夸自己经济政策有效确实没错,但特朗普、桑德斯也靠“拯救经济”的口号吸引了大量选民。这两个看似矛盾的事实其实都是对的。幂律分布的数据在很多地方都会误导人。比如一家“成功” VC 的业绩其实。基金整体增长,只是因为投对了一家有 100 倍回报率的公司,而这家明星公司比该 VC 投的其他所有公司加起来都值钱。--另一种常见的“数据说谎”是调查问卷设计不合理。英国政府 2015 年开始同意让父亲和母亲共休产假。但一年后的统计数据却显示,只有 1% 的父亲选择了休假。BBC、《卫报》等各大媒体报道之后。真的是这样吗?原来,这个 “1%” 的分母不是“有资格休假的父亲”,。有人指出,如果这么算,即使当年所有新生父亲都选择休假,。可以从调查结果中获利的商业机构就更不可信了。——这听起来挺科学吧?但看过真正的调查报告之后你会发现,这个“5 小时”的数据没有涵盖“从不自拍”的女性。再仔细看,你会发现,其目的可想而知。除了在“分母”上做手脚以外,改变调查结果的方法还有很多。例如,不给出“其他”或“不知道”这类选项,问题题干加入误导性语言,调查对象有针对性选择等等。一个很有意思的例子是,如果在问题中提到“奥巴马”(民主党执政八年的总统),更少的民主党人会说贫富差距过去八年变大了,而更多的共和党人会说过去八年经济变差了。简单地在题干中加上一个人名就改变了调查的结果。要说离我们更近的例子,可以参考——为什么一家民调说 59% 的台湾民众认为自己“只是台湾人,不是中国人”,而另一家却说 57% 有“泛中国认同”?--我想说的第三种“数据说谎”是暗示因果关系。2015 年开始,英国卫生大臣亨特频繁引用,说周日住院的病人比周三住院的病人死亡率高 15%,每年英国有 因为医院周末人手不足而死亡。这听起来既科学、又可怕,对吧?但问题在这里:虽然确有此研究,虽然这个 15% 的数字也是准确的,可这并不代表死亡率高就一定是因为医院周末人手不足。有没有可能周末住院的病人本身病情就比周中住院的重呢?(英国很多人平时可以请带薪病假。)在控制病人病情等其他因素之前,我们无法确定周日住院的死亡率高就一定是因为医院人手少。卫生大臣亨特暗示这个因果关系也有他自己的原因——他所在的保守党竞选时承诺会增加公立医院周末员工数量,但因为保守党同时也削减了公共医疗开支(他们承诺会削减政府开支),所以必须要求年轻医生工作更长时间、照顾更多病人且不领加班费。由此一来年轻医生非常不满,亨特和他所在的保守党便希望通过这些数据来增加舆论对医生的压力。另一个类似的问题是同工不同酬。你可以经常在奥巴马、希拉里的演讲中听到“做同样的工作,女性工资是男性 77%”这个数字。但是,“同工不同酬”引用的美国劳动统计部就写明他们“没有控制很多可能显著影响男女工资差异的因素”,比如工作时长,受教育程度,效率等。事实上,美国同种工作内的性别工资差异并不是因为雇主歧视,详细原因请看这里:。--政治新闻看多了,各类“误导”方法很容易就积累一打:GDP 数字漂亮的时候强调 GDP,通货膨胀数字好看的时候强调通货膨胀。夸自己就说“失业率低”,批评对手就说“失业率低只是因为很多人都不找工作了,所以没算在经济活动人口里面”。绝对数字漂亮的时候强调绝对数字,百分比好看的时候强调百分比。希望增长的数字和去年相比有下降,那就和过去五年相比。希望下降的数字还在不停增长,那就说:某地商品房连续四年的均价分别为 1 万、2 万、3.8 万、7 万。看到这组数据,你必定会大叫:天哪,房价真是涨得越来越厉害了!不过事实却恰恰相反:这四年的房价增长率竟在逐年降低。不过也不仅是政客。只要是做 PPT 的行业,大家这种事都干过不少吧。--最后一类“数据说谎”我都不太好意思放在这里。如果前面只是误导的话,下面就是赤裸裸的谎言了。例如特朗普转发的这张图片,信息来源“旧金山犯罪统计局”,数据也每个都是错的。(但居然有 5,800 个赞和 7,700 次转发!)所以再一次提醒大家:所以再一次提醒大家:不是只要带图带数字的就是真相!请仔细核查信息来源!不谈解读,很多数据本身就是错的。最后送上一个饼图:其他数据话题下的回答:--Ask me anything:
说到数据会说谎,最有欺骗性的的例子莫过于统计学中著名的辛普森悖论('s_paradox)了。看看来自斯坦福讲义里的一个简单例子()。某大学历史系和地理系招生,共有13男13女报名。
Women History
2/8 Geography
4/5 University
6/13 历史系5男报名录取1男,8女报名录取2女。地理系8男报名录取6男,5女报名录取4女。分析数据,会发现以下问题:1)整个学校统计,男生录取率(7/13)高于女生录取率(6/13)。2)但是,按系统计,每个系的女生的录取率却都高于男生录取率。历史系女生的录取率(2/8)大于男生录取率(1/5)。地理系女生录取率(4/5)也高于男生录取率(6/8)。
Numbers don't lie. 最近发现大家对的答案比较关注,表示受宠若惊。最近有点小忙,但作为一名DMer鄙人决定继续分享一些知识来回报各位厚爱。下面是看统计报告时要注意的点。一、数据来源如何说谎最简单的层级,在查阅统计报告之前首先应该关注的是报告出处以及数据来源。以工业品和消费品为例主要的数据来源如下所示:关于数据的来源我们需要注意四点:(1).数据发布机构是否权威?(代表性)网上主流的数据资源太多,以下列举一些,不一而足。:行研报告,各类数据(需要付费T T)。:宏观数据、金融、教育、行业数据等,包含国家一级、31个省以及200多个市的数据。》:历年统计年鉴以及普查数据、专题数据等。:联合国数据库: 世界银行数据库:美联储数据库:美国航空航天局NASA的地球观测系统数据(2).是否是发布机构原版文件?(可信度)(3).数据采集面向的对象?(调研主体)举例说明。产品可分为工业类产品和消费类产品,它们在基本属性、购买特征、营销理念等方面有本质的不同,所以需要调研的主体不同。工业类产品:供需双方一般都是企业,需要了解总产值、总产量、销售总额、销售总量,所以调研主体以企业为主。消费类产品:面向大众消费者,统计口径一般是零售市场消费总量、总额,所以调研主体以个体消费者为主。(4).数据是一手数据还是二手数据?(时效性,相关性)一手数据(Primary data):也称原始数据。指通过人员访谈、询问、问卷、测定等方式直截获得的,时效性和相关性更好。二手数据(Secondary data):利用文献,统计年报以及数据库等前人统计好的数据资料。优点是获取成本低,且现成可用。一般可以长时间保存,生成数据趋势图方便。栗子:研究人员希望了解工人在遇到工伤后返回工作的情况。一手数据:通过电话采访工人,询问他们多久时间能回到工作、以及返回到工作流程等问题。研究人员得出结论,包括返回到工作流程包括提供优惠住宿,以及为什么一些工人拒绝了这样的提议。二手数据:包括政府,企业的健康和安全记录,例如工人的受伤率,以及工人在国内不同行业的数据。研究人员发现了工伤索赔额度与全职工人工资额度之间的数量关系。最后将两个数据源相结合,研究人员便能够找到那些能够让受伤的工人愿意马上回到岗位的因素。通过例子可以看出,一手数据提能够提供量身定制的信息,但往往是需要很长的时间以及昂贵的成本。二手数据通常是能够廉价的取得,而且可在更短的时间内进行分析,但由于数据获取的初始目的可能与研究目的不相关,需要梳理信息来提取您要找的内容。数据研究人员选择的类型时候应该考虑很多因素,包括所研究的问题,预算,技术和可用资源。基于这些因素的影响,他们可能会选择使用一手数据或二手数据,甚至两者兼备。(5).数据采集方式是什么?(投票方式) 在网络上进行投票还是在现实中分发问卷有很大的不同,两者都有很多细节点需要注意。网络投票:如何防止机器人,恶意投票以及UI的设计是关键。可以参考推荐系统的用户反馈设计。现实问卷:如何设计题目(逻辑性、完整性、非诱导性)以及投放方式(时间、地点、对象)是关键。可以参考。二、数据统计如何说谎数据统计中常常会出现的谎言,这是因为虽然原始的数据相同,但是数据处理的过程不同。具体情况通常可分为四种:抽样方法、样本选取、离群值处理及统计指标设置。(1).抽样方法的区别整体样本的维度,粒度和取数逻辑相同的情况下,不用的样本抽样规则会使数据看来更符合或不符合“预期”,从而实现特殊目的。我们知道最基本的定量研究的抽样方法分为两类,一类为非概率抽样,一类为概率抽样。其中概率抽样方法分为四种:随机抽样(Simple random sampling)方法:将调查总体的观察单位全部编号,再随机抽取部分观察单位组成样本。优点:操作简单,均数及相应的标准误计算简单。 缺点:总体较大时,难以一一编号。系统抽样(Systematic sampling,又名机械抽样、等距抽样)方法:先将总体的观察单位按某一顺序号分成N个部分,再从第一部分随机抽取第k号观察单位,然后依次使用相等间距,从每一部分各抽取一个观察单位组成样本。优点:易于理解、简便易行。缺点:总体有周期或增减趋势时,易产生偏差。整群抽样(Cluster sampling,整体抽样)方法:总体分群,再随机抽取几个群组成样本,群内全部调查。优点:便于组织、节省经费。缺点:抽样误差大于单纯随机抽样。分层抽样(Stratified sampling)方法:找到对观察指标影响较大的某种特征,从而将总体分为若干个类别,再从每一层内随机抽取一定数量的观察单位,合起来组成样本。有按比例分配和最优分配两种方案。优点:样本代表性好,抽样误差减少。缺点:抽样过程繁杂。各种抽样方法的抽样误差一般是:整群抽样≥单纯随机抽样≥系统抽样≥分层抽样。栗子1:在建立客户流失模型时,使用分层抽样。假如两次调研的抽样样本分别是最近一年未消费流量的客户和最近一年未消费流量但经常收发短信的客户,不用做测试基本上就可以确定后者的流失可能性更小。而如果使用随机抽样则很难得出上述结论,所以数据抽样方法的选择对结论影响较大,实际操作时具体需要深入到SQL查询逻辑的研究。栗子2:普林斯顿大学的信息技术政策中心(CITP)和北卡罗莱纳州大学教堂山分校(University of North Carolina at Chapel Hill)在2013年发表了一篇文章《Big Data: Pitfalls, Methods and Concepts for an Emergent Field:大数据:一个新兴领域的陷阱、方法和概念》。通过实验对一些市场营销人员发出警告:请首先确认抽样的方法是否能够真正地覆盖的整个市场,不要对从社交媒体渠道(如Twitter和Facebook)收集的消费者数据过于自信。1.Inadequate attention to the implicit and explicit structural biases of the platform(s) most frequently used to generate datasets (the model organism problem). 2.The common practice of selecting on the dependent variable without corresponding attention to the complications of this path. 3.Lack of clarity with regard to sampling, universe and representativeness (the denominator problem). 4.Most big data analyses come from a single platform (hence missing the ecology of information flows). 作者Zeynep Tufekci(博客地址:,北卡罗来纳大学教授)通过描述对果蝇进行生物测试的方法,质疑很大程度上依赖社会化媒体形成的大数据方法论。大多数的大数据集(Big datasets)研究只包含“节点到节点”(Node-to-node)之间的信息互动;然而面对社会中的群体性事件,无论是通过经验分享或通过广播媒体传播,“场”(Field)效应的地位更加重要。一个典型营销活动(Twitter、Facebook上)的用户参与百分比只有10%,只代表一定的细分市场,可能扭曲调查结果。这些市场调差报告不能准确反映市场的数据,所以无法据此制定出可靠的未来计划。(2).样本选取的区别从严格意义上来说统计范围的选择问题并不一定是故意欺骗,因为在数据采集的实践中确实存在样本量失衡的情况,如果遇到这种情况一般使用欠抽样(Under-sampling)和过抽样(Oversampling)进行样本平衡。通常来说样本的问题主要分为以下三种情况:样本抽取的数量。这一点很容易理解,数据样本量差距越大,可比性越小。尤其是在样本分布不均时,数据结果可信度低。样本抽取的主体。为了制造某种统计结果而故意选择对结果有利的样本主体。如针对农村用户和城市用户统计某手机市场占有率,后者结果肯定优于前者。样本抽取的客观环境。比如做运营商网站用户体验分析(User Experience,简称UE),ISO 标准中对用户体验的定义有如下补充说明:用户体验,即用户在使用一个产品或系统之前、使用期间和使用之后的全部感受,包括情感、信仰、喜好、认知印象、生理和心理反应、行为和成就等各个方面。三个影响用户体验的因素:系统,用户和使用环境。如果测试方法都没有完全相同的客观环境,即使选的是相同样本和用户,分析结果可信度依然较低。更多资料推荐:(豆瓣版本老,现在有09年新版)(3).离群值处理方法的区别离群值(Outlier,异常值):指样本中的个别值,其数值明显偏离其所属样本的其余观测值。离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值600,则Cluster3为离群值。离群值与非离群值之间并没有明显的区别。实际上,用户必须指定一个阈值,以便界定离群值。偏差度高于这个阈值的所有集群被标记为离群值集群,它们的成员都是离群值。如上图中所示。如果设定阈值600,则Cluster3为离群值。目前对离群值(Outlier)的判别与过滤主要采用两种方法:物理判别法和统计判别法。物理判别法:根据人们对客观事物已有的认识来判别由于外界干扰、人为误差等原因造成实测数据值偏离正常结果。统计判别法:给定一个置信概率,并确定一个置信限,凡是超过此限的误差我们就认为它不属于随机误差范围,将其视为异常值过滤。通常面对样本时需要做整体数据观察,以确认样本数量、均值、极值、方差、标准差以及数据范围等。极值很可能是离群值,此时如何处理离群值会直接影响数据结果。栗子:某一周的手机销售数据中,存在异常下单行为导致某一品类的销售额和转化率异常高。如果数据分析师选择忽视该情况,结论就是该手机非常热销抓紧供货,但实际情况并非如此。通常需要把会把离群值拿出来,单独做文字说明。(4).统计指标的区别数据统计的业务指标成百上千,根据不同目的选择合适的指标组合,就能实现说谎的效果。我们都知道,平均数是表示一组数据集中趋势的量数,它是反映数据集中趋势的一项指标。解答平均数应用题的关键在于确定“总数量”以及和总数量对应的总份数。在统计工作中,平均数(均值)和标准差是描述数据资料集中趋势和离散程度的两个最重要的测度值。平均数在数学中可分为,算术平均数(arithmetic mean),几何平均数(geometric mean),调和平均数(harmonic mean),加权平均数(weighted average),平方平均数(quadratic mean)等。一般人大家所说的“平均数”就是算术平均数,即N个数字相加然后除以N。而“平均数”在统计学中包含三种:算术平均数、中位数、众数,都是用来描述数据平均水平的统计量。算术平均数(Arithmetic mean):一组数据中所有数据之和再除以数据的个数。中位数(Median):将所有数值从高到低排列,最中间的数值。 栗子:1,2,3,4;排序后发现有4个数怎么办?若有n个数,n为奇数,则选择第(n+1)/2个为中位数;若n为偶数,则中位数是(n/2以及n/2+1)的平均数。所以此例中位数为2.5。众数(Mode):所有数字中出现频率最高的数值。 栗子:1,1,2,2,3,4的众数是1和2。如果所有数据出现的次数都一样,那么这组数据没有众数。例如:1,2,3,4没有众数。通过公式我们可以看出:算术平均数易受极端数据的影响。中位数不受分布数列的极大或极小值影响,在一定程度上对分布数列的具有代表性。但缺乏数字敏感性,有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。众数不受极端数据的影响,而且具有明显集中趋势点的数值,能够代表整组数据的一般水平。在这三个平均数中,算数平均数是能够取得最大数字的平均数,所以,一般的统计调查都用的是这个做结论,比如平均工资。所以有时候大家会发现自己的工资“被平均”了,或者拖后腿了就是这个原因。结论:对于不同的统计平均值的方法,得出的数据结论是不一样的。有太多人利用本来正确的统计数据来穿凿附会得出自己需要的结果,有些原始的统计数据往往是由权威机构或人士做出的,只是被其他人赋予了原调查目的之外的其他意义。 所以一般见到平均数后,首先查明使用的是哪种平均数计算方法,然后试着用另外两种分析一下,看看是否有破绽。更多资料推荐:三、数据可视化如何说谎统计数据的表现方法千差万别。虽然数据相同,但表述方式不同,呈现的效果也不同。 (1).图表长宽由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从1:1拉伸到2:1后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。由《系统事务平均响应时间趋势图》可见,将图表的长宽比(长=横轴,宽=纵轴)从1:1拉伸到2:1后,数据发展趋势明显变缓。如果需要突出数据的爆发性增长,可以缩短时间间隔或记录次数(横坐标)。左图暗示“系统事务平均响应时间在测试场景开始以后快速突破150秒”右图暗示“系统事务平均响应时间随着测试场景执行时间延长逐渐增加”(2).取值间隔由上图可知,如果数据的取值间隔划分过大(等比数列1,10,100,)而不是标准等差数列(1,2,3,4),则数据之间巨大差异会被缩小。左图暗示“湖北、河南、江苏总产值排名前三远超其他省市”右图暗示“各省市总产值相差并不太大”(3).数据标准化数据标准化也是归一化的过程。在数据分析之前通常需要先将数据标准化(Normalization),目的是去除奇异样本数据(相对于其他输入样本特别大或特别小的样本矢量),将数据按比例缩放,使之落入一个小的特定区间。或者去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权,而且能保正程序运行时收敛加快。如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.(如上图所示,正态分布中的各类分段方法。包括: Standard deviations, cumulative percentages, percentile equivalents, Z-scores, T-scores, standard nine, percent in stanine.()数据标准化常用方法有“Min-max”、“Z-score”、“Atan”和“Decimal scaling”等。Min-max标准化(Min-max normalization)适用于原始数据的取值范围已经确定的情况,缺点是当有新数据加入时,可能导致Max和Min值变化需要重新定义。设MinA和MaxA分别为属性A的最小值和最大值,将A的一个原始值x通过Min-max标准化映射成在区间【0,1】中的值,公式为:Z-score 标准化(Zero-score normalization)又名标准差标准化。经过处理的数据符合标准正态分布,均值为0,标准差为1。设μ为所有样本数据的均值,σ为所有样本数据的标准差。公式为:Atan函数转换使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。所以通过atan标准化会映射在区间【-1,1】上。小数定标标准化(Decimal scaling)通过移动数据的小数点位置来进行标准化,小数点移动多少位取决于属性A的取值中的最大绝对值。这个方法比较容易理解。一个简单的例子对比如下图所示:了解更多:数据可视化经典例子:四、结束语数据如同金矿,需要人使用工具来开采、提炼、加工。所以数据不会说谎,使用数据的人才会说谎;有些人是无意,有些人是蓄意。祝每一个DMer都挖掘到金矿和快乐:)参考文献:[1].[2].(浙江大学《数据统计》)[3].(TonySong,Webtrekk Business Consultant)[4].[5].《Asking The Right Questions:A Guide to Critical Thinking:学会提问-批判性思维指南》[6].《How to Lie with Statistics:统计数字会撒谎》[7].《[8].[9].[10].《Data Mining: Concepts and Techniques》, Jiawei Han and Micheline Kamber[11].
你一定听说过“酸男辣女”的说法,就是妈妈爱吃酸就生男孩,爱吃辣就生女孩。当然,大多数人把这个当做玩笑话——如果妈妈爱吃酸辣土豆丝难道就要生个不男不女的了?但是,你觉得妈妈的饮食情况会影响到孩子的性别吗?2008年,在权威杂志《英国皇家学会学报》上发表了一篇文章:《You are what your mother eats: evidence for maternal preconception diet influencing foetal sex in humans》。研究人员就打算回答上面的问题。他们通过对740名女性进行分组研究,考察她们孕前、早孕期、中晚孕期的饮食情况对于胎儿性别的影响。研究人员对133种食物进行问卷调查研究,结果发现,怀孕前早饭吃更多燕麦的女性,更容易生男孩!而除了燕麦,调查的其他食物都和男女性别没有明显关联。这篇文章一发表,马上引起广泛关注,Google点击超过50000。要知道,这可是一篇纯学术文献,也可以有如此之高的点击量!如此高的关注度,自然逃不过学术界的质疑。2009年,同样在《英国皇家学会学报》上,一篇针锋相对的质疑文章发表出来:《Cereal-induced gender selection? Most likely a multiple testing false positive》。提出质疑的,是三位统计学家:Stanley Young,Heejung Bang和Kutluk Oktay。他们撇开实验设计中的数据获取的问题,比如回忆偏倚、测量误差、精确测量的困难性等等,直接针对前一篇文章的统计学方法提出质疑。他们在对前一篇文章中提供的原始数据进行重新统计之后发现,那些数据其实全部没有相关性,而所得出的“吃燕麦生男孩”的结论,其实只是一个偶然事件。也就是说,之前研究的那133种食物,对于生男生女的影响都是随机分布的;但是在那一次研究的时候,恰好发现那一批研究对象吃了燕麦更容易生男孩,这纯粹属于偶然事件。那篇文章把一个偶然事件当做结论报道出来了。但是,做实验和统计分析,不就是为了尽可能的避免偶然因素的影响,来找到实际的关联性吗?那为什么在统计了这么多样本量和分析了这么多因素之后,竟然最终还是找出个偶然事件呢?问题就在统计方法上。2008年那篇文章的统计方法用的还是p值,但是,Stanley Young他们指出,在做多重检验(multiple testing)的时候,使用p值是不正确的,而应该用校正后的p值(ajusted p-value),也就是要考察一个错误发现率(False Discovery Rate,FDR)。这到底是怎么回事呢?如果从统计学角度,原假设、备择假设、一类错误、二类错误的可能比较复杂,我尽量用最简单的话解释一下基本思想。我们做的每一个判断都是有可能出错的,但是,我们希望经过我们的努力,使我们的判断出错的概率尽可能小。就是说我们允许自己犯错,但是不能太离谱,老是犯错就不对了。我们在做统计研究的时候也一样,也是有一定的“容错率”的,比如说1%。也就是我们做这项研究,按照这样的统计方法得出的结论,虽然有可能是错误的,但是错误的机会不超过1%。这种小概率事件在一次试验中实际发生的机会其实微乎其微,于是我们认为结果是可信的。但是,当我们研究的因素多起来,对这些因素同时进行统计分析的时候,本来一个因素1%的出错机会就被放大了。比如每个因素有1%的出错可能,当我们的研究因素增加到100个,那么就会存在一个结果是100%错误的。就好像如果一个疾病的发病率是1%,那么在100个人当中,就会有一个是患病者。本来的小概率,当遇上更大的基数时,小概率事件就发生了!所以,就出现了上面提到的,虽然那133种食物的影响其实都是随机的,但是当对他们进行研究时,竟然出现了一个“有意义”的结论。这样一来,本来只是一个很小的犯错几率,结果因为分析因素的增多,竟然真的出现了错误!因此,在1995年,Benjamini和Hochberg提出在多重检验时要考察FDR的概念,就是要限制这个被增大的错误机会。而当把FDR控制在一个可以接受的范围内时,再对2008年那篇文献的原始数据进行统计,就会发现那133种食物对于胎儿性别其实都没有特异性的影响。目前,FDR的概念被用于高通量的基因相关研究。因为基因片段实在太多了,量级可能不仅是几百几千,甚至上万,这时候如果继续使用p值检验,那么就会错得离谱。但是,试验在定FDR时,也不是越低越好,因为过低的话,可能本来有意义的结果,也因为过低的FDR而显示无意义了。所以,FDR的确定,应该在一个平衡点,因此当我们考察FDR的时候,可能就有某个因素其实已经出错了,只不过这个错误的数量尚在可接受范围内。这让我想到前些天,因为Angelina Jolie继乳房切除后又切除双侧卵巢输卵管,让有些人感觉依靠基因治疗癌症预防癌症好像指日可待。而且,很多科幻电影上,也不乏通过基因测定或者改造来判断和影响人体某些特性,或者治疗疾病。确实,基因的发现对于生物医学来说,可谓意义重大;当科技领域的进步让人充满期待的时候,基因的出现让生物医学不至于太过寒碜。但是,作为医生我得说,我们可以期待科技领域的“日新月异”,但是在临床医学上,最好还是保守一些。基因确实对医学有帮助,但研究的同时,即使改进统计方法,也会带来实际出错的机会。而在生命和健康这么一个特殊的领域,我们的容错率是很低的。即使是实验室研究已经获得了令人欣喜的结果,在临床医学领域,我们还是要老老实实的设计严格的临床试验去验证,而很多时候,医学上的验证是需要时间的。这还让我想到大数据。现在是一个逢人必说大数据的时代,而且大数据确实给我们的观念带来巨大的冲击。但是,大数据不牛逼,分析数据获得信息才更重要。因为有瑕疵的分析方法,就有可能会得出前面提到的“吃燕麦生男孩”的结论。如果这样的分析结果用在投资上,大不了就是一次投资决策失败,最多某人破产,他还尚有东山再起的机会。而如果这样的问题出现在医学领域,那么受影响的恐怕就是健康和生命,结局的可逆性就没有那么好了。1988年,Russell Ackoff提出了DIKW金字塔。这个金字塔的最底层是数据,而塔尖则是智慧。在从数据通往智慧的路上,是信息和知识。所以,我们这个世界上不缺乏数据,缺乏的是通过合适的方法从数据中获取信息,进而从信息中提炼知识,上升到智慧的能力。其实数据不会说谎,它们只是一些毫无意义的数字而已;但是当你对这些数字进行解读,从获取到分析,这个过程就可能出现问题,即使你的每个步骤都是合乎逻辑的。在医学上,这就是医学的不确定性带来的。而且,医学还有它的特殊性。医学解决问题都是滞后的,一定是先出现疾病,然后我们才能认识到它,再去想办法去解决它。我们不会去预测新的疾病。当你已经知道事情的结局,企图对这个结局进行解释的时候,总是难免会不自觉的带入自己的偏见。而我们每个人都更容易发现别人的偏见,对别人的解释倾向于怀疑。这时候,数据就出现了。因为数据是最客观的东西,于是它就变成了最好的说服别人的方法。所以有时候我们分析数据的目的,可能还不是为了解释现象获取信息,其实仅仅是为了说服别人或者说服自己。所以,当把大数据引入医学的时候,更应该时刻保持警惕。大数据分析的时候,可能出现问题的地方远不止前面提到的FDR,还有很多,这就需要我们对结论时刻保持怀疑,并且留出足够长的验证时间。
很多人觉得飞机更安全(),都是看了维基百科上这个国际数据(我也曾是其中一员),三栏分别是每10亿次旅行事故死亡人数,每10亿旅行小时事故死亡人数,每10亿公里事故死亡人数:数据来源:;注:在交通政策界,一般认为最合适的比较口径是每人公里。因为实际旅行者面临的出行选择是对一个确定的A点到B点的旅行是坐火车还是飞机,这是里程相同(或者相近),但旅行次数和时间都可能不同。飞机因为飞得快,所以虽然技术上风险大,但对于同样的里程,通过缩短旅行时间而降低了风险。当然,飞机的事故率一般不会随里程增加而线性增加,所以如果真的对一个确定旅行要比较火车和飞机的安全程度,可能要根据铁路的每人公里的死亡率乘以旅行距离后,跟飞机的每航次事故率比较,会更合适。后面会举例。笼统的比较的话,还是按每人公里比较合适受过统计学训练以后,就知道直接这么比较就是扯淡。在民航运量集中的发达国家,管理水平普遍较高。而铁路客运的运量以中等收入国家为主,特别是印度的铁路周转量占全世界的比例很大(三分之一强),死亡率又很高。所以很大程度上民航相对铁路的低死亡率是国家管理水平的不同造成的。换句话说,民航的运量远比铁路客运运量集中在发达国家,全球的民航安全数据好于铁路,很可能只是说明了发达国家公共交通安全水平高,未必能说明民航本身比铁路安全。为了解决这个问题,我们可以在同一个国家内部比较(可能样本数过少,只是为了说明文章开头数据的误导性)。比如我们可以统计一下中国的民航和铁路的周转量和死亡数的数据。先统计下 十四年内民航和铁路分别的事故死亡人数,我根据和统计,只记入了乘客死亡:然后根据每年的交通运输行业发展统计公报,根据旅客周转量计算死亡率:注:此处铁路死亡人数不包含铁道边被撞的人数(这部分比例也很小)。只对比乘客死亡,因为只有乘客死亡率是对旅行者选择出行方式时有意义的。也就是说,在这个粗略的计算中,在中国,民航的每人公里的死亡率大概是铁路的5.3倍。不过不管怎么说,各种公共交通的死亡率肯定都远远低于私人交通的死亡率。这主要是由严格的系统监管和专业的驾驶技术决定的。如果你能接受自驾车的风险性,那么也应该能够接受民航的风险性。但如果你一定要追求最安全的旅行方式,那么起码在中国大概是铁路。当然,各个国家情况有所区别,比如我猜测美国民航死亡率更低,但铁路死亡率可能比中国高。但起码差距绝不像本文开头的那张表表现的这样,飞机远比火车安全。跟其他交通方式的单次旅行死亡率基本与旅行距离成正比不同,绝大部分飞机故障发生在起飞和降落过程中,即使是中途发生的故障,也往往跟飞行时间长短没多少关系。整体上,长程航班因为使用的飞机更大,公司管理更严格,事故率并不会高于短程航班。中国民航的平均每亿人次的死亡率是13.4(根据死亡人数和年旅客运输总数计算)。我们可以假定这个数值不随距离增长而变化。而中国铁路每亿人公里的死亡率是0.0014。我们用这13.4除以0.0014,得到9631公里,也就是说当铁路的旅行长度是9631公里时,它的死亡率跟民航一样也是亿分之13.4。那么只要到目的地选择火车的里程大于这一数值,民航就更安全所以如果是北京到伦敦,可能确实是飞机安全一些,当然实际上没有这么远的直达火车,如果转车的话,中间可能还要走路或搭其他交通工具,中间也有可能会经过铁路管理更落后的国家,火车的风险会进一步上升。回复一些评论的质疑:这个简单的实验肯定存在事故数太少的问题。如果大家硬要选05-09年比较,那么航空是0死亡,低于火车很多。近20年,我国铁路在提速,事故在高铁发展初期在增加;航空安全管理水平却在很快地变得更加严格。所以可能存在航空和铁路的安全差距在不断缩小的情况。我们可能需要更长的时间才知道究竟按照现在的技术哪一个的安全性更高,我个人倾向于铁路,但也没有依据。但如果要做健壮性检验,提前比较的起始年份,航空的劣势其实会更大。不过我这里只是要说明文章开头的数据肯定是有误导性的,铁路不可能安全性只有民航的12分之一。至于铁路和航空真实的安全对比,这个可能最好的办法是使用面板数据,控制国家管理水平不同的因素,可是我没有条件去搜集面板数据,还望大家见谅。
世界上有三种谎言:谎言、十足的谎言、和统计数字(There are three kinds of lies: lies, damned lies, and statistics)。——马克·吐温以下例子来自我写在自己博客上的一个案例——【】
环球时报旗下专业从事舆情调查与监测的研究咨询机构——环球舆情中心27日发布一份调查报告称:在安倍参拜靖国神社后,有74.6%受访者倾向对日本强硬反制()。这份调查被其它媒体(如中国经济网,网易新闻)转述时,标题变为“7成中国人倾向对日强硬”。改写标题的其他媒体的小编,你们要么是存心扭曲,要么就是统计学没学好。
我们先来看看环球时报报道的原文:本次调查所选取的7个城市分别是北京、上海、广州、成都、西安、长沙、沈阳。调查时间为27日14时至17时,共回收有效问卷1077份。本次调查采用在线会员库随机抽样的调查方式进行数据收集,所有样本均通过在线调查会员库随机抽取,受访者自愿填答问卷。所有受访对象为18岁以上普通民众。本次调查为简单随机抽样,在95%的置信度下,样本的允许抽样误差为3.0%。
然后再补充一下统计学的基础知识(上过统计学课的同学可以跳过这部分)。统计学分为描述统计(descriptive statistics)和推断统计(inferential statistics)。前者是对数据的整理、归纳和展示,后者是在描述样本的基础上,将其结论推及总体。
描述统计是推断统计的基础,推断统计是描述统计的提高。如果只停留在描述统计,从样本(sample,总体的一部分)数据得到的结论只能就这个样本而言,而不能推广到其它个体,换句话说,如果想知道其它个体的信息,就必须重新收集和整理数据。
推断统计的作用,就是让仅凭一个样本做出的结论,也能推广应用到整个总体,而无需收集全部个体的数据。但必须提到的一点是,只有采用概率(随机)抽样(probability sampling)调查方式得到的样本,其结论才能推及总体,非概率抽样(non-probability sampling)得到的样本则不行。
回到环球时报发布这篇报道的标题“有74.6%受访者倾向对日强硬反制”,你会发现,环球时报的报道比较谦虚(心虚?)的:只停留在就样本论样本的层次——确实他们调查了一些人,这些人的数据也的确提供了这样的结果,结论也仅适用于他们调查的这些人。
但其它媒体的转述就不同,它们将样本的结论推广到整个总体——“全体中国人”,这就是问题所在。推断统计过程中,把从样本得到的结论推广到总体,还需要满足一些条件,回答一些问题(见附录2“相信某个抽样调查结果前该问的问题”)。
其中最重要的一点是:调查有否采用随机抽样(random sampling)。从文章中,我们的确找到了“随机”二字,而且不止一处提及。不过且慢,接着看下去就会发现文章后面提到“受访者自愿填答问卷”,玄机就在这里,这个调查的价值至此明了——该调查结论仅限于它所收集数据的样本,而不能推广到总体,因为这是一个有偏的自愿回应样本(voluntary response sample,见附录1名词解释)
环球舆情调查中心和环球时报的结论发布者,一看就是学过统计学的,他们羞羞答答地把这唯一的“自愿填答”藏在一堆“随机抽样”字眼中,同时还像模像样地提供了“95%置信度”和“3.0%的允许抽样误差”,即使这样做已经毫无意义。
而网易新闻、中国经济网的小编们,一看就是没修过统计学原理这门课的,或者上统计学课没好好听的,一下子就跳进了前者布下的陷阱,把非概率抽样方式得到的结论,应用到整个总体:坏球同学不敢推出的结论,却给你们给引申出来了。
坏球舆情调查中心和坏球时报,你们真的很坏!不带这样欺负没学过统计学的同学的。David S. Moore在《统计学的世界》里提到:有许多抽样调查不能提供准确地和有用的结果,特别是那些设计来影响、而不是记录公众意见的 (especially those designed to influence public opinion rather than just record it),说的就是你报吧?~~~~统计学常识分割线~~~附录1:名词解释【自愿回应抽样 voluntary response sampling】指的是通过来电来信(write-in, call-in,在网络时代还包括click-in)方法收集而来的民情民意。这样的样本往往加入了被取样者的好恶,从而得到与真实的客观情况相差甚远的“有偏(biased)”——注定偏向某个答案的样本。
David S. Moore在《统计学的世界》里面举了一个“自愿回应抽样”例子:专栏作家Ann Landers在报纸上呼吁其读者就“假如能够重来,您愿意再要小孩吗?”进行投票。在收到的来信回应中,70%的答案是“No!”,有些来信还附带了催人泪下的故事,讲述父母如何含辛茹苦、子女如何背信弃义。
真的有70%的父母后悔生了小孩?相信您也不会认同。这个抽样结果之所以有偏,就是因为采用来信来电的抽样方法,使得一些对某个问题具有强烈看法的读者——这种强烈看法往往是负面情绪居多——会不厌其烦地站出来发表自己的见解和感受,从而构成样本的主体。据估计,这些人在人群中估计占到15%的比例。从而受电台、电视台、报纸等媒体的呼吁而感召的,经常就是这类人。而那些对问题看法中立或者具有正面意见的人(比如愿意再要小孩、或对此无所谓的父母),虽然人数往往更多,他们就不太会站出来回应,只会乐享天伦、充当沉默的大多数。 因此,自愿回应抽样方法得到的结果会发现“70%”的父母不愿意再要小孩。在该样本中,带负面意见的父母被过分代表了。~~~~~~~~~附录2:相信某个抽样调查结果前该问的问题 Questions to ask before you believe a poll
若调查者使用好的统计技巧,准备一个尽可能完整的抽样框,注意提问的措辞,减少无回应,则抽样调查确实能能提供准确和有价值的信息。但亦存在许多抽样调查不能提供准确地和有用的结果 (especially those designed to influence public opinion rather than just record it)。为此,在你更多关注某个抽样调查结果之前,有必要先问几个问题 :谁做的调查(Who carried out the survey)?——遵从良好调查习惯的专业抽样机构更值得信赖。总体是什么(What was the population)?——想反映何人意见。样本如何选择(How was the sample selected)?——有否提及随机抽样。采用多大的样本(How large was the sample)? ——好能提供误差界限与置信度。回应率多高(What was the response rate)?——无回应(no response)同样能带来有偏。 如何与被调查个体进行接触(How were the subjects/units contacted)?——不同的联系方式(面对面、电话访谈等)影响到回应率、回答的真实性、调查的成本。有否受突发事件影响(Was it just after some event which might have influenced opinion)?——是否在某件会影响民意的事发生之后就进行调查?提问的具体措辞(What were the exact questions asked)?——比如采用诱导性的“加料问题(loaded question)"?
许多民意调查、学术调研、政府负责统计官员在宣布抽样调查结果时,会回答这些问题。但新闻编辑和播音员却有一种坏习惯,省略这些“无趣的真实(dull facts)”,而只报道抽样的结论。更有一些有利益集团、新闻媒体由于本身采用了不可靠的抽样方法,所以根本就不能回答上述问题。严谨的抽样调查如盖洛普(具体例子请到查找)会告诉我们真相:“除了抽样误差外,问题的措辞以及执行调查时遇到的实际困难,会导致调查结果有偏或产生其它误差”。若某政治家、广告人、或某个媒体宣称某个民意调查结果却没有提供完整的信息,要当心!—— 资料来源:David S. Moore,《统计学的世界》~~~~~~~~~~~~附录3: 统计金句买一送二数字不会说谎,但说谎的人会想出办法。——Charles Grosvenor统计数据就像比基尼,暴露出来的部分固然重要,但没暴露的部分更加重要。——佚名
听过这么一个“故事”:台湾科学家做了个有趣的实验,他们让台湾和大陆的小朋友抄写“忧郁的台湾乌龟”100遍,经过观察他们发现台湾小朋友抄了十几遍后就不耐烦了, 而大陆小朋友每次都能坚持抄完,科学家由此断定大陆小朋友缺乏反抗精神。对此结论我一直很怀疑,直到看到一份台湾小朋友抄写的作业:憂鬱的臺灣烏龜……
已有帐号?
无法登录?
社交帐号登录

我要回帖

更多关于 项目经理扣分查询 的文章

 

随机推荐