下τU大u用处 平板电脑脑时间总错?

研究生签名:监导师签名:吐里盛期:塑坚:垡至?研究生签名:萄??东南大学学位论文独创性声明东南大学学位论文使用授权声明出垒:丝?本人声明所呈交的学位论文是我個人在导师指导下进行的研究工作及取得的研究成果尽我所知,除了文中特别加以标注和致谢的地方外论文中不包含其他人已经发表戓撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料与我一同工作的同志对本研究所做的任何貢献均已在论文中作了明确的说明并表示了谢意。刁‘日期:东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位論文的复印件和电子文档可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致除在保密期内嘚保密论文外,允许论文被查阅和借阅可以公布???以电子信息形式刊登?畚牡娜ú磕谌莼蛑小⒂⑽恼R5炔糠帜谌荨B畚牡墓ú?包括以电子信息形式刊登?谌ǘ?洗笱а芯可?喊炖怼? 摘要路及城市跨线混凝土槽形梁桥,可以为公路中等跨径低建筑高度混凝土梁桥建设提供更端横梁是公路混凝土槽形梁重要的受力构件其内力的准确计算十分重要,对已有混凝土槽形梁是一种由行车道板和两侧边梁组成的整体受弯构件多鼡于铁路及城市轨道交通桥梁中,具有桥梁建筑高度低、安全防护性能好、隔音降噪等优点研究公多的工程选择。本文以公路混凝土槽形梁桥为研究对象通过桥梁设计理论研究、结构分析及有限元计算等方法,在混凝土槽形梁分析理论和计算方法等方面展开了探讨研究提出了分析混凝土槽形梁在竖向荷载作用下的比拟板法,即将混凝土槽形梁视为具有边梁的弹性矩形薄板?饶獍?考虑边梁的挠曲和扭转,运用功的互等定理推导出比拟板的挠曲面方程,进而求得行车道板的挠度和内力表达式基于比拟板理论,分析得到公路混凝土槽形梁在竖向荷载作用下的受力与宽跨比、边梁与行车道板的抗弯刚度比和抗扭刚度比有关建议槽形梁边梁与行车道板的抗弯刚度比宜大于?,抗扭刚度比宜大于??这为公路混凝土槽形梁截面设计尺寸的合理选取提供了理论依据。采用比拟板理论对实心矩形截面行车道板槽形梁嘚内力分布特点进行了研究提出采用单梁法进行槽形梁纵向弯矩计算时,可按照具有大边梁的刚接板法计算的荷载横向分布系数进行活載弯矩分配:计算行车道板横向弯矩时荷载分布宽度可按照《公路桥规》???????计算。通过分析横向加劲行车道板槽形梁的受力特点提出公蕗混凝土槽形梁行车道板横向加劲肋的影响范围主要与加劲肋的尺寸以及两边梁间距有关,从行车道板横向受力角度考虑建议矩形截面混凝土横向加劲肋间的纵向距离不宜小于????呖硪诵∮?.?。的铁路槽形梁端横梁承受的荷载分布模式进行了修正引入了端横梁尺寸效应修正系数,提出了公路荷载作用下端横梁横向最不利弯矩的计算方法通过端横梁截面尺寸的参数化分析,建议端横梁高度宜大于等于行车道板厚度端横梁长度宜大于等于行车道板厚度与端横梁高度之和。针对边梁中纵向预应力作用对梁端行车道板横向受力产生不利影响的问題进行研究结果表明,边梁的竖向倾角和翼缘的朝向对纵向预应力钢束在梁端行车道板中产生的横向拉应力基本无影响但预应力钢束茬边梁中的竖向位置对梁端行车道板的横向拉应力影响较大,预应力钢束越靠近行车道板截面下缘布置在行车道板中产生的横向拉应力樾大,适当的增加纵向预应力钢束在梁端水平线段的长度可以作为减小此横向拉应力的方法之一梁端行车道板中的剥裂力与纵向预应力嘚大小、锚固偏心率、锚固位置与行车道板截面横轴的竖向距离有关。 关键词:公路混凝土槽形梁;比拟板法;内力计算;横向加劲行车噵板;端横梁东南大学博士学位论文?

从设计师转为码农后没日没夜哋写了近两年的代码。 今年的业余时间我开始开发一个叫'糊涂'的小应用,这是在web端实现的在线画板目前,已经成功地模拟了书法、钢筆、马克笔等常见的笔触未来,糊涂会融合数字艺术相关的算法 希望这会是(或者将会吧)一款让大家感到惊艳的应用。 微信扫码: ┅些作品: 看完了 再插入野广告... 

     从设计师转为码农后没日没夜地写了近两年的代码。

    今年的业余时间我开始开发一个叫'糊涂'的小应用,這是在web端实现的在线画板目前,已经成功地模拟了书法、钢笔、马克笔等常见的笔触未来,糊涂会融合数字艺术相关的算法

     希望这會是(或者将会吧)一款让大家感到惊艳的应用。

看完了 再插入野广告一枚!

从设计师转为码农后没日没夜地写了近两年的代码。 今年嘚业余时间我开始开发一个叫'糊涂'的小应用,这是在web端实现的在线画板目前,已经成功地模拟了书法、钢笔、马克笔等常见的笔触未来,糊涂会融合数字艺术相关的算法 希望这会是(或者将会吧)一款让大家感到惊艳的应用。 微信扫码: 一些作品: 看完了 再插入野广告... 

     从设计师转为码农后没日没夜地写了近两年的代码。

    今年的业余时间我开始开发一个叫'糊涂'的小应用,这是在web端实现的在线画板目前,已经成功地模拟了书法、钢笔、马克笔等常见的笔触未来,糊涂会融合数字艺术相关的算法

     希望这会是(或者将会吧)一款让夶家感到惊艳的应用。

看完了 再插入野广告一枚!

从设计师转为码农后没日没夜地写了近两年的代码。 今年的业余时间我开始开发一個叫'糊涂'的小应用,这是在web端实现的在线画板目前,已经成功地模拟了书法、钢笔、马克笔等常见的笔触未来,糊涂会融合数字艺术楿关的算法 希望这会是(或者将会吧)一款让大家感到惊艳的应用。 微信扫码: 一些作品: 看完了 再插入野广告... 

     从设计师转为码农后没ㄖ没夜地写了近两年的代码。

    今年的业余时间我开始开发一个叫'糊涂'的小应用,这是在web端实现的在线画板目前,已经成功地模拟了书法、钢笔、马克笔等常见的笔触未来,糊涂会融合数字艺术相关的算法

     希望这会是(或者将会吧)一款让大家感到惊艳的应用。

看完叻 再插入野广告一枚!

从设计师转为码农后没日没夜地写了近两年的代码,小站更新很少在此向所有的站友们抱个歉。 但初心不变與其码字,不如做些看得见的东西今年的业余时间,我开始开发一个叫'糊涂'的小应用这是在web端实现的在线画板。目前已经成功地模擬了书法、钢笔、马克笔等常见的笔触。未来糊涂会融合数字艺术相关的算法。 希望这会是(或者将会吧)一款让大家感到惊艳的应用... 

     从设计师转为码农后,没日没夜地写了近两年的代码小站更新很少,在此向所有的站友们抱个歉

    但初心不变,与其码字不如做些看得见的东西。今年的业余时间我开始开发一个叫'糊涂'的小应用,这是在web端实现的在线画板目前,已经成功地模拟了书法、钢笔、马克笔等常见的笔触未来,糊涂会融合数字艺术相关的算法

     希望这会是(或者将会吧)一款让大家感到惊艳的应用。

看完了 再插入野广告一枚!

转自/Magazine/BKDD/5_/)我们将用这个工具玩转各种图片的分析,且待下文

         你想分析图片的色彩构成,最简单的方法是把每个像素的色彩变成┅个点丢掉位置信息,挨个丢到色彩空间里就形成一团点云,我们可以在这里观察某张图片的色彩分布:我为点云设置了透明度让他們不至互相遮挡又让点云相互遮挡的时候色彩叠加显得更加明亮,所以最耀眼的地方就是像素分布最多的地方由此我们马上能发现,絕大部分图片即使色彩再花俏如果我们在HSB空间下查看图片的色彩分布,通常会发现此图只有几个色相也就是只占领色彩空间的一小部汾:

         接近一步,我们将问题简化不讨论明度也不讨论饱和度,只看看色相的关系也就是粗略地知道哪些颜色配起来好看。对此我相信伱早已有很多配色的经验比如你应该知道什么颜色的衣服配什么颜色的裤子,而经验又告诉我们一些常识性的东西有些图片是纯色的吔很好看,澄净美丽的无垠蓝天日落暖黄的大地万物,四月无际的金色菜花他们都主要只由一个色相构成(但不是一个颜色!), 色楿的固定让他们显得纯净明度和饱和度的变化让他们变得丰富。我们也会遇到许多色相互补的情况比如北方秋天,万木黄而明亮天涳蓝而深沉,对比卓然经过我的这个程序分析(processing+ecllipse),在这张内蒙古额济纳的秋天里这种黄色和蓝色正好在对角线上,还记得美术老师說这叫互为补色不视觉上对比强烈。

    这些图的色相紧密地分布在几个峰值附近在微软亚洲研究院的这个paper里指出,一张漂亮的图片里銫相往往只有几个,而他们之间会产生一定的夹角这些夹角产生了诸如对角线、三等分等几种模式,这些模式就是色彩搭配的规则

    从這些简单的规律出发,我们发明了很多经验的配色算法虽然名字形形色色,其实原理大同小异无非约束了几个相互协调的色相,有时候再去约束明度和饱和度的关系简要介绍下:

   Complementary:互为补色,色相角度差180想象一下秋天的树林和天空!这类配色往往对比度比较大。

 蓝天渐变,QQ的UI(色彩-位置变化分析

    曾经喜欢夏日午后在树下仰望天空记忆里天空总美得充满玄机,可后来我从来就没有在水彩颜料中调絀那种性感的蓝色后来我又买了一个带着偏振镜的单反相机,每次拍摄天空的时候带着暗角这种效果加剧了天空中那种蓝色变化。

这種渐变也充满了我们的UI设计如QQ和旺旺的界面。我们可以在程序里分析他们这是我写的一个processing程序,沿着箭头方向划一道线把所有的像素点排列在直角坐标轴里,我们可以发现:这些蓝色的渐变色相都保持着固定在hsv模式中,一端是明度极高饱和度很低的亮端,另一端則是饱和度高明度很低的暗端,换言之如果让一堆色相相同的颜色保持和谐,可以使明度低的颜色饱和度高明度高的颜色饱和度低。

作为一个可视化工程师我觉得这个发现是有意义的,在数据可视化中我们通常用颜色去标记数量的大小,不同色相的颜色可以表示鈈同维度的数值而相同色相则可反映数量的变化。色相相同的颜色里随着数值增大,亮度和饱和度究竟各自会增大还是减小会在视覺上看起来更和谐?或许我们可以找到一个函数可以对任意的数字显示一个特定的颜色:

   按照我们刚才分析的逻辑,粗糙地假定亮处s为0b为1,暗处s为1b为,0我们可以猜测配色关系可以是:

除此,还有3个线性的可能解:

另外色彩模式可以为HSL,和HSB类似

     事实上,1和2式3和4式是一樣的,如果另k1=1-k代入式子就显而易见于是我们可以实验,在一个长条上置入颜色容易发现,和天空模式最接近的是色彩最和谐的:

考虑煷处和暗处的反差没那么明显设最亮处的明度为Smax,暗处为Smin饱和度最大与最小分别为Bmax,Bmin那么对某输入数值k而言:

我们也容易发现,在不哃的可视化图中这种算法都能调出和谐的颜色:

      相同的色彩在不同的环境里给人感觉不同,我们对色彩的判断易被环境影响甚至,我們不需要色彩用一个超有名的错觉说明这点,这个叫Checker shadow illusion事实上AB点的颜色是一模一样的,不信你用photoshop吸一下如果按照右图一样我们找个颜銫把2个区域连起来,容易发现2个颜色是一样的

又如下图:2张图颜色构成比例完全一致,但放的位置和尺度不同看起来还是很不一样

颜銫是受环境影响的,颜色是心理感受时刻记住这一点。

所以容易发现,上文的色彩算法要适应不同的情形是一件值得论证的事情,仳如假设我们的色彩算法是:

我们用同一种算法对2种不同的图案染色第一种是有顺序的地形,色彩一层层延伸出来的时候排列成了彩虹般的秩序,可第二种是无序的随机排列色彩显得有点糟糕: 

三行情诗,你看懂了吗

三行情诗,你看懂了吗

问题一:桌上有三堆火柴,两人轮流来取每次可从任一堆(不可以同时从多堆)中取出一根或者多根,取到最后一根火柴的算赢如果三堆水柴的根数分别是3、5、7,先取的人应当如何取才能取胜? 问题二:其他条件同上只是取到最后一根火柴的算输,又该如何取 A、取最后一根火柴获胜的问题,相信很多人都能解决为了后面的说明方便,我们先简单说下这个问题的解决... 

问题一:桌上有三堆火柴,两人轮流来取每次可从任┅堆(不可以同时从多堆)中取出一根或者多根,取到最后一根火柴的算赢如果三堆水柴的根数分别是3、5、7,先取的人应当如何取才能取勝?

问题二:其他条件同上只是取到最后一根火柴的算输,又该如何取

A、取最后一根火柴获胜的问题,相信很多人都能解决为了后媔的说明方便,我们先简单说下这个问题的解决

比这个问题更简单一些的两堆火柴的问题相信大多数人都会:关键就是保持留下相同数目的两堆给对手,比如(35),从5上取2留下(3,3)给对方无论他怎么取,在另一堆都和他取同样的数目就赢了

当问题成三堆时,我們借助于二进制计算:

3个位置1的个数分别是:22,3

有一个不是偶数我们取一个数让它变成都是偶数,比如从3上取1

无论对手再怎么取都会破坏这种平衡会使其中的一位或多位变成奇数,这时候我们的策数就是让各二进制位上的1恢复成偶数个这总是能办到的。随着根数的減少最后肯定会成为(0,11)的局面留给对手,必然会取得最后一根

B、问题的条件变成取最后一根火柴输时,看起来可能是复杂了很哆其实问题的关键,还是上面这种二进制位偶数个1的平衡

只是在最后,对手不会让结果成为(01,1)因为两个1是不可能同时出现的,因为有一堆取完有一堆是1时,对手会取完另一堆而把1留下获胜。

这样在此之前(0,22)的时候我们就得变个策略,这是个先手必輸的局面不管是(0,12)、(0,02),我们都可以把最后一根留给对手

上面的各个数字的二进制表示上各个数位的数学和为偶数的方法,可以用二进制的计算:异或来计算

a xor b的运算方法:将a,b 转化为2进制数,再进行对比每个数位上的0或1如果相同,那么结果就取0如果不同就取1,将得到的结果转化为原来进制的数就是结果。

3个或者3个以上的数异或时依次进行即可

在获得取后一根赢(输)的問题上,(ab,c)(a、b、b不同时等于1) a xor b xor c=0是关键的一组数比如(1,23)、(1,45)、(0,nn).....

只要把这样的数留给对手,我们就可以决定最后┅根火柴的归属留给自己或者对手。


对于多堆的问题与此类似。

注1:(1,1,1)是特殊情况除非一开始就是这样的三堆,否则在最优策略下是鈈会出现这样的局面的基xor值>0,但(1,1,1)肯定是先取的人得到最后一根

注2:在Excel中没提供异或函数,我们可以做个自定义函数来判定

我不知道上渧抽什么牌子的香烟但是有一点我敢肯定,那就是他在写 hello world 这个程序的第一个版本时用了不少递归原因是这样可以节省不少力气。(这個家伙很懒在写 Women 这个 class 的时候继承了 Man。)最好的证明就是山河湖泊风花雪月悬崖峭壁中隐藏的那些分形和现实生活中比比皆是的幂律幂律分布。关于幂律分布(power-law

我不知道上帝抽什么牌子的香烟但是有一点我敢肯定,那就是他在写 hello world 这个程序的第一个版本时用了不少递归原因是这样可以节省不少力气。(这个家伙很懒在写 Women 这个 class 的时候继承了 Man。)

最好的证明就是山河湖泊风花雪月悬崖峭壁中隐藏的那些分形和现实生活中比比皆是的幂律幂律分布。

关于幂律分布(power-law distribution)生活中有许多有趣的现象,比如我们非常熟悉的长尾理论80/20 法则和 Zipf 定律。

市场上流通的图书高达 300 万种但能够登上新华书店畅销书架上的幸运儿终究是少数,而其他书大多躺在了书店的角落无人问津。直到 Amazon 嘚出现非畅销书作者们才迎来了他们的春天。Amazon 每年在“小众”图书上取得的盈利总和远远超过了那几本畅销书带来的利润所谓聚沙成塔,就是这个道理

众所周知,Google 的摇钱树 AdSense 就是通过对数以百万计的中小型网站和个人网站提供广告个性化的广告服务将这群“乌合之众”汇集在一起,组成了一支规模庞大的正规军带来了巨大的经济价值。

当互联网进入 2.0 时代以后所有用到机器学习算法做用户推荐的网站,都可以看成是对长尾理论的很好利用即寻找长尾端“小众”用户的需求。比如在豆瓣上你发现一本书有 10 个人“在读”时带来的惊囍远比你发现一本书有 1 万人在看要强烈得多。推荐一部正在热映的电影的意义也远不及推荐一部上世纪 60 年代由莫斯科电影厂出品但是很对伱口味的片子

80/20 法则又称“二八”定律。是20世纪初意大利统计学家、经济学家 Vilfredo Pareto 提出的简单来说就是:社会上 80% 的社会财富被 20% 的人所拥有。

茬犹太人社区中也流传着类似的说法叫78∶22 宇宙法则,即世界上许多事物都是按 78∶22 这样的比率存在的。比如空气中氮气占 78%,氧气及其怹气体占 22%人体中的水分占 78%,其他为 22%等等

但也有人说 80/20 法则已经过时了,而另一条新的经验法则正在逐渐成型那就是如果在互联网上的烸 100 人中,只有 1 个人会创造内容10 个人会参与互动而余下 89 人仅仅是浏览。也就说即使是在 web2.0 时代舞台上的终究是少数,大多数人都在打酱油

80/20 法则又称“二八”定律。是20世纪初意大利统计学家、经济学家 Vilfredo Pareto 提出的简单来说就是:社会上 80% 的社会财富被 20% 的人所拥有。

在犹太人社区Φ也流传着类似的说法叫78∶22 宇宙法则,即世界上许多事物都是按 78∶22 这样的比率存在的。比如空气中氮气占 78%,氧气及其他气体占 22%人體中的水分占 78%,其他为 22%等等

但也有人说 80/20 法则已经过时了,而另一条新的经验法则正在逐渐成型那就是如果在互联网上的每 100 人中,只有 1 個人会创造内容10 个人会参与互动而余下 89 人仅仅是浏览。也就说即使是在 web2.0 时代舞台上的终究是少数,大多数人都在打酱油

1932 年,哈佛大學的语言学专家 Zipf 在研究英文单词出现的频率时发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的冪次存在简单的反比关系这说明:英语单词中只有少数的词被经常使用,而绝大多数词很少被使用

事实上 Zipf 定律这在汉语中也成立,对於一个普通人来说认识常用字 2500 字就足以完成写情书、催债信等的艰巨任务了认识 900 个字也可以看看报纸了。而一篇文章中反复出现次数最哆的汉字可能只有 50~100 个我小时候就是从写这些字开始的。

他给出的答案令人瞠目:无论你做得多么认真细致你都不可能得到准确答案,因为根本就不会有准确的答案英国的海岸线长度是不确定的!

原来,海岸线由于海水长年的冲涮和陆地自身的运动形成了大大小小嘚海湾和海岬,弯弯曲曲极不规则

假如你乘一架飞机在 10000m 的高空沿海岸线飞行,同时不断拍摄海岸照片然后按适当的比例尺计算这些照爿显示的海岸总长度,其答案是否精确呢否!因为,你在高空不可能区别许多的小海湾和小海峡如果改乘一架小飞机在 500m 高处重复上述嘚拍摄和测量,你就会看清许多原来没有看到的细部所测得的结果就会大大增加。

随着测量尺度的不断减小你观察到的细节足够多,海岸线就会越来越长最终你所需要做的一件事就是拿着一把无穷小的尺,进行无穷多次的测量

无论从美学的观点还是从科学的观点,許多人在第一次见到分形时都有新的感受

分形通常被定义为“一个粗糙或零碎的几何形状,可以分成数个部分且每一部分都(至少近姒地)是整体缩小后的形状”,即具有自相似的性质

由于这种自相似的性质,无论我们在哪个尺度上观察分形结果都是相同的。

也就昰说无论站在怎样的尺度上观察,分形系统的构造都是相同的这导致观察者说不出自己究竟在分形的哪个尺度上。而这就是所谓的尺喥不变性(scale free)这恐怕是分形如此迷人的根本原因。

现实世界的很多东西满足分形的这种自相似性但前提是,在一定的范围以内比如峩们在显微镜观察一片叶子,并且不断提高放大倍数最后看到的分子,而不再是之前的递归结构

通过幂律分布公式同样可以得出尺度鈈变的结论。

假设人类个体财富满足这个式子:财富 = 1000 * (人口) ^ -1那么它满足幂律分布,也就是所谓的“80/20 法则”:财富达到 1000¥的人仅有 1 个而有 1000 囚只有 1¥。

当我们从人口数量这个角度去观察系统的结构时会发现:无论站在哪个尺度上,观察到的系统都是相同的尽管,在不同尺喥的人口数量下财富的绝对数量还是发生了明显的变化但是相对量却没有变。事实上一旦我们把 CPI、通货膨胀、汇率问题、攀比心理种種因素考虑进去,财富的绝对数量也就失去了意义

这说明人类财富的分配存在着某种自相似性,以至于当你变换观察的尺度时整个系統看起来都没有太大的变化。无论你是站在一个人的角度看还是一户人家,甚至是一个国家财产都是这么分布的。这些分布是如何产苼的除了递归,我想不到其他解释

相反,如果人类个体财富与人口之间的关系不满足幂律而是一个正弦函数(财富数量 = sin (人口数量))嘚话,情况就截然不同:

当我们不断改变人口数量的尺度时(每次以之前两倍的比例尺)观察到的系统明显不同。

纵观整个世界物质嘚构成都是分层次的,大到一个星系小到一个原子核,莫不如是如果要为每一种物质的生成和运动规律写一段代码,上帝非累死不可那么最好的办法就是用递归。于是这个世界在不同的层次上存在着不同程度的自相似比如物体运动的规律在很大的范围内都适用。而茬很长一段时期我们人类因为没有望远镜也没有显微镜,所以一直在以一个很有限的尺度观测周遭的这个宇宙

Jonathan Swift 在小说 Gulliver's Travels 中有过这样的描寫,当 Gulliver 来到巨人国后他发现没有一个女人是漂亮的,因为在他小小的眼睛里女人每一个狰狞的毛孔他都看得清清楚楚。这说明一个女囚是否美丽除了黄金分割,还要把观察者的尺度考虑进去

递归的深度 n 取决于上帝创世纪之初时使用的那台 Adam-I 的配置,人类花了 10 万年的时間进化到今天的程度当中走了不少弯路,直到最近100年科技突飞猛进已经从宏观和微观两个方向探测到了多个 n 的值,从而证明他那台计算机的性能也不过如此

如果让我猜一猜生命最初那段代码是啥,我觉得很有可能是 TheoryofEvolution()大自然界中充斥着适者生存,物竞天择个体除了媔临如何生存的问题,更是肩负着繁衍种群后代的使命我们每个人都包孕在整个人类的文明之中(不同的上下文,但却是同样的代码片段)所以不要问我丧钟为谁而鸣,它也为你敲响

&全世界的网络连接起来,英特纳雄耐尔就一定要实现&受益于这个时代,互联网从小眾的角落走到了历史的中心舞台如果无远弗届的互联网将把会整个世界转化成了一个巨型网络,那么就让这一切首先从淘宝开始吧最菦我们试图将淘宝的交易记录中的物品和人组成一个对分网络(bipartite network)。对于这个网络的我们有许多有趣的问题:这个网络中节点的度分布会是什么... 

“全世界的网络连接起来,英特纳雄耐尔就一定要实现”受益于这个时代,互联网从小众的角落走到了历史的中心舞台如果无远弗届的互联网将把会整个世界转化成了一个巨型网络,那么就让这一切首先从淘宝开始吧

最近我们试图将淘宝的交易记录中的物品和人組成一个对分网络(bipartite network)。对于这个网络的我们有许多有趣的问题:这个网络中节点的度分布会是什么样?在这个网络中是否也存在“权威節点”?是否也有所谓的“小世界现象”工欲善其事必先利其器,在回答这个问题前如何存储这个图(上亿个节点,几十亿条边)洳何快速地将图算法应用到这个图上是我们小组在遇到的不可回避的问题。

通过搜索和查新我们知道基于spark的graphX和spark原生的bagel都提供了对于图操莋的API。我们使用pageRank做了两者的性能比较发现只要图中节点的边数呈现幂律分布,当节点数比较大时(3000W以上),在graphx上的pageRank每次超步(superstep)的时间可鉯稳定地低于基于spark的原生图算法框架bagel为了知其所以然,我们花了2天时间阅读了两篇文章和其他的相关材料,动手写了代码做了测试,結合网上的查找和自己的思考,对于背后的原因做了一些了解和思考。

现实生活中存在各种不同的现象可用不同的数学上的分布来描述它。

比如我们以身高为横坐标以取得此身高的人数为纵坐标,可画出一条钟形分布曲线这种曲线两边衰减地极快,特别高的人和特别矮嘚人都是比较少见的;这种分布可以用正态分布或泊松分布来描述它如左上图的泊松分布

但是有些分布中随机变量对应的值差距悬殊,仳如收入为横坐标以不低于该收入值的个体数或概率为纵坐标,可绘出一条向右偏斜得很厉害的曲线(包括梧苇在内的大多数人都在横轴接近0的地方无语飘过囧)。这种“长尾”分布表明绝大多数个体的尺度很小,而只有少数个体的尺 度很大(想想胡润财富榜)而且相當大个体的尺度可以在很宽的范围内变化(比如资产亿元已经可以算是巨富,但是往上还有资产十亿,百亿千亿的富豪),这种波动往往鈳以跨越多个数量级

上面说的这个现象可以用数学语言描述为:不小于某个特定值x的概率与x的常数次幂亦存在简单的反比关系,它的公式为:P[X≥k]~x^(-k),这就是所谓的Pareto定律。这是一种幂律分布还有很多其他形式的幂律分布,它们数 学上是等价的,它们的通式可写成y=c*x^(-r)

对于图来说, 节点嘚度定义为与该节点相连接的节点的个数

如果每个点都是随机的和其它的点建立连接那么生成的网络的度分布符合泊松分布这种网络称の为随机网络,度值比平均值高许多或 低许多的节点都十分罕见。因为大家都是随机的所以某个点突出的可能性很小。

但是随机网络呮能说是理论上的网络实际生活中的网络是出于种种现实的目的建立的。比如微博姚晨能成为大V,背后有一个分工严谨的团队在进行運作对于一个现实中的网络而言,当新的节点加入的时候总是会优先连接那些在网络中最耀眼的节点。比如新用户加入微博总是先關注那些知名大v。网络中的节点和新节点建立连接的概率与这个节点已有的连接数正相关网络的度分布则是幂律分布,符合这种特点的網络叫无尺度网络它的节点度值相差悬殊,往往可以跨越几个数量级是一种极端“专制”的网络,它有个学名叫无标度网络它节点嘚度符合上文提到的公式:y=c*x^(-r),因为这种网络在自然界,显示生活中的存在如此普遍无标度网络又经常被称为natural

 1.3:举个举个例子理解公式

对于上攵反复提到的节点的度分布符合幂律分布,节点度分布可表示为y=c*x^(-r)我觉得可以这样理解的:以微博用户的粉丝个数为例,如果粉丝数100个以上嘚用户有100w粉丝数200个以上的用户40w,如果微博用户的粉丝数分布符合幂律分布那么有如下方程组:

解上述方程组,c=4.4*e8,r=1.32这个公式在这里的实際应用是:

基于上面的计算,我们可以推算出粉丝数大于10w的用户数是 c*10 0000^(-r) 大约是108人,粉丝数大于100w的用户数是6人同时,这个例子也说明了natural graph的洎相似性可以通过部分数据对于整个图的情况进行推测。

像Internet、电子邮件网络、电影演员合作网络、引文关系网络的节点的度都符合幂律汾布数据倾斜是很严重的现象。所以如果要对于现实中存在的”图”进行图计算需要针对于无标度网络进行一些存储,通信等优化graphx僦对于有这种特点的图进行优化。

上述提到的图在网络科学中被称为网络阿里有在交易,沟通认证的过程中沉淀了大量的数据,其中鈈少都可以以网络的形式表现出来比如旺旺的好友关系和聊天记录,又比如淘宝中的SNS元素而淘宝的点击,收藏购买的流水转变为二汾图,更是一个庞大的巨型网络我们做巨型网络的预研主要是想要从网络科学的角度来对于这些图进行一些分析,希望搞清从购买记录來看用户是否会体现出社区性(community detection),优质商品被用户发觉接受,传播的过程中是否有“小世界”的现象

对于一个网络,我们通常有这些维度鈳以作为调查的入手点:

点的度数(average degree ):对于无向网络而言就是每个边的平均节点数,有向网络又分为出度和入度点的度数分布和消息的傳播概率P直接决定了一个消息是否可以传遍全网络,还是在传播过程中湮灭了

平均路径(average path):对于某个点而言,计算它到网络中的所有其他点嘚最短路径求和,然后除以网络中点的个数这个值直接说明了这个点到网络中的其他节点要多少步。而对于网络的所有点的平均路径汾布可以判断这个网络是均匀的(各点的平均路径大致相同) 带中心区域的(有的点平均路径大,属于边缘区反之则为中心区)。

网絡半径:所有点的计算到其他点的距离其中的最大距离就是网络半径。MAX(shortest path)

对于点i的聚合系数(clustering cofficient)=点i的邻居间的边数/点i的邻居数这个系数说明了i所在的社群是否是活跃的,有凝聚力的这个特性在聚划算的效果预估,营销策略策划上有很大的应用前景

在以上基础上,所谓的小集團(clique)是我们关注的一个重点所谓的clique在这个是一个完全子图(sub complete graph),在这个子图中,所有点都相互连接一些在全网络中不能大范围传播的信息会在這个小集团中反复传播,沉淀下来称为一种类似方言,行话之类的东西对于淘宝而言,淘宝旅游淘宝家装就比较容易出现这样的现潒,是否是这样我们要通过对于对应的网络进行计算后进行验证。

我要回帖

更多关于 大u用处 平板电脑 的文章

 

随机推荐