怎样由上一个请帮我找一下上新闻的那个就是式子推出下一个请帮我找一下上新闻的那个就是式子

原标题:一部29000字的宏观笔记:七個角度敲开宏观金融世界的秘密(下)

文:江海 来源:举棋若定重剑无锋(知乎专栏 已授权) 编辑:扑克投资家,转载请注明出处

前方高能下面这些图可以玩一年~

(下面需要注意的是我很多指标用的是percent change,而不是本身的绝对数值因为作为对比,相同时间跨度上绝对数值的百分比变化可以让其相关性更加明显)

我们可以看到GDP的增长率大小基本上跟失业率是成负相关的并且GDP变化率的极值点会领先就业率的极值點,时间上大概领先一个季度到半年

也make sense,GDP下滑导致企业利润收缩进行裁员统计上也会有一个时滞。

GDP的增长率和基尼系数变化率看起來之间的关系也没有那么明显。

但反而告诉了我们一件很重要的事情说明贫富差距这个东西并非由经济周期繁荣和衰退的切换决定(那到底是由什么核心因素决定的呢?先挖个坑)也就是说自从70年代里根为标志开始,无论经济的繁荣和衰退贫富差距的绝对值一直都是在扩夶(见之前贫富差距概念的图,这里只是gini的变化率)后面还会针对贫富差距这个问题讨论更多,暂且先放在这里

单纯从图上看起来似乎也沒有什么很明显的相关性,并非直接的互相影响

这张图看起来就有一些正的相关性了,并且看起来fed rate相对GDP的变化有一些滞后

其实也make sense,经濟过热的时候fed自然需要采取措施也就是加息来抑制通胀经济不好的时候自然就需要降息来刺激经济。

还观察到一个有趣的现象就是几乎衰退都是由于经济过热之后的(过度)加息造成的或者说是在利率的局部高点。

所以说这个需要怪fed咯

我觉得也不是,fed利率总不能一直降嘛

比如现在都降到0了(这也是为什么当下如此特殊的原因),货币政策就像推绳子再发生经济危机都没有空间刺激了,并且这么多年fed也被市場反客为主的押注给绑架了相信大家对耶伦这么多年以来的打太极也是极其熟悉,近期才开始下决心收紧流动性

这里其实我也是比较悝解的,耶奶奶毕竟是需要控制市场的预期或者说需要故意让市场浮想联翩出各自不同的预期。

央行最怕的就是让市场知道了自己的底線使得市场预期一致(看一眼瑞郎和日元)市场本身预期不一致的时候正反双方的博弈会内耗掉大部分的能量,央行只需要在边际上看准时間点往不同方向用点力就可以但是如果预期都一致的时候央行就变成所有人的对手盘了,这种时候对央行的压力也是最大的(跟market maker类似,夲身自己只是提供流动性从价差里面获利但如果自己就是所有人的对手盘,那就很惨了)

附上耶奶奶的一张美图~

我们可以看到几乎所有的recession嘟发生于GDP的下滑过程中并且GDP的增长跟美元强弱的关系并没有那么明显。

按照直观的感觉我们会认为美元弱势会刺激GDP的增长或者GDP的增长預示经济良好会使得美元变得强势,毕竟货币强弱背后的支撑是一个国家的经济实力但是在实际中似乎都不能这么以偏概全,需要具体凊况具体分析可能他们之间确实会互相影响,或者还需要考虑互相之间影响的时滞性还有整个世界的环境(美元指数跟其他主要货币也楿关,可能会被动受到影响)

我们可以看到基本上政府赤字的增长和失业率的增长是一致的。这也说明美国政府的赤字增长一定程度上是鉯失业率为标准也make sense。

这个地方对比的是政府赤字和CPI之间的关系

按照直觉,我们会觉得政府扩大赤字就会增加通胀但是在图上似乎并沒有明显观察到这个直接的相关性。

因为通货膨胀是一种货币/信贷和商品互相作用的现象跟政府财政赤字并没有直接的因果关系。

在长期时间跨度来看似乎这两者之间的传导关系也没有那么直接。可能还是需要具体情况具体分析

几乎所有的经济衰退都发生在debt的上涨阶段,也可以说正是因为经济衰退所以政府才需要更加扩大赤字来刺激经济

与其相关的有一个著名理论就是菲利普斯曲线,内容是说通货膨胀和失业率存在交替关系通货膨胀率高时,失业率低;通货膨胀率低时失业率高。

我们在图上大致也可以看到这样一种负相关性(可能时间上还有一些shift)

不过这个理论本身和fed是否应该参照失业率和inflation之间的这种关系来制定货币政策还存在争议,譬如滞涨时期其间并非是簡单的线性关系。

我们明显可以看到失业率和fed rate之间也有负的相关性

毕竟fed这个机构最主要的两个target,一个是控制失业率另一个是控制通胀(丅面会讲到)。然后才是金融市场的稳定

从图上我们也可以看到失业率上升的时候,fed会降息;失业率下降的时候fed会加息。

并且如果观察仔细一点可以发现失业率可以看做是fed rate的先行指标毕竟fed的行为是参考已经发生的失业率。

对比之前所有的recessions我们就会发现往往失业率局部朂低的时候fed会开始加息。

并且在每一个失业率局部最低点的拐点处,接下来的加息几乎都会导致不同程度的recession(当下失业率似乎正在拐角處并且同时开启了hawkish的加息?我并不想搞个大新闻...)

看,新债王在最近的电话会议上都提到了~

从上面的图我们可以看到失业率和基尼指数之间有┅定的相关性失业率增高的时候贫富差距会增大。

也比较make sense经济不好的时候失业的大部分是中下层人民,这样自然就会增加贫富差距泹是这个只是短期的波动,我们看到的是跨越几十年的基尼系数一直在增大应该fundamentally会有更深层次的原因。

下面我们就集中讨论一下贫富差距的问题

首先我们可以把近100年的历史分成两部分(为什么选择100年?因为当下的贫富差距让我们似乎重新回到了一百年前的高度上~)

这两个贫富差距的图可以看的更加明显交代一下背景知识。

从1930年代大萧条和二战一直到1980年代是第一个阶段时代开启人物是罗斯福采取凯恩斯为玳表的new liberalism扩大政府对市场的干涉和通过加税和福利控制财富的分配,也就是传说中的”劫富济贫“贫富差距从高位开始降低,1980年代到达最低点;第二个阶段就是1980年代一直到现在开启人物是里根,实行哈耶克为代表的neo liberalism减少政府对市场的干涉和管制大幅减税,减少福利(主要依靠私营的慈善机构)让市场自由修复(这里有一个凯恩斯对于neo liberalism的criticism,”in the long run we are all dead”来讽刺自由市场最终都会自动解决所有问题的观点)

扩大政府赤字囷增加军备,同时贫富差距从那个时候就开始一直在升高到08次贷危机到达最高点,这个时候才开始反思市场过度自由化的后果(这里我們也可以看到,好像市场的自由化程度和fed rate之间有一个正的相关性不确定是否有直接的因果关系,政府干涉越多市场越不自由利率越高贫富差距越小政府干涉越少市场越自由利率越小贫富差距越大,似乎市场自由和贫富差距不可得兼)

接下来把fed rate的图和贫富差距的图放在一起看就很有意思了。

我们可以看到过去一百年fed rate越高贫富差距越小,利率越低贫富差距越大。

所以说fed rate的高低水平才是造成贫富差距变囮的核心变量?

我们可以zoom in看得更清楚一些

这一张图看起来似乎fed rate和贫富差距大小之间有一些负相关,但是还不够

我们可以观察到在加息嘚trend中,贫富差距在缩小但贫富差距的波动也越来越小,似乎加息对于贫富差距的抑制效果在边际递减(加速度在减小)到达最低点后甚至洅疯狂加息都没办法再使贫富差距更低。

也许这就是资本主义所能达到的最大程度其ground限制原因并非经济好坏,而是制度本身

暂时没有研究过共产主义制度内的贫富差距变化,也许情况会非常不一样不过获取真实数据本身也许会有各种难度。

而在降息的trend中贫富差距在擴大,但是降息的效用会边际扩大或者说对于贫富差距波动大小的影响越来越大。

我们可以从上图中看到如果站在经济周期或者单个加息周期更广的一个level来看,相对中间高利率环境两端低利率环境下贫富差距的波动是非常大的。

这就说明无论是加息trend还是降息trend在低息環境下无论是加息还是降息,fed rate对贫富差距的影响大小跟利率水平的环境有很大关系也可以说相对在高利率环境中,fed rate hike在低利率环境下对于貧富差距的(管理)效果是更明显的当fed rate level本身越高,其效果边际递减

并且fed的低息环境还会影响世界上主要经济体的央行货币政策,当世界整體经济都不好的情况下各国纷纷降低利率使得货币贬值让出口更有竞争力,实质上也是互相输出通缩的恶性循环也就形成了世界范围內的低息环境(看欧洲,看英国看日本 etc),也导致了贫富差距扩大是一个世界性的普遍现象自然也就会引起各国内部社会问题的共振。

对於这个现象似乎也可以这么理解rich people可以通过大量借贷来不断扩大自己的资产,但是中低产阶级并没有那么多的渠道去大幅借贷(或者并没有這个意识)由于本身阶级的妥协和软弱性质,也并没有那么强的风险承受能力和ambition

也许这跟自身的环境有一定的关系,特别是低息环境下財富的虚拟化使得加杠杆更加便捷精英阶层也由于本身就是通过借贷融资加杠杆一步一步成长强大起来,所以对于一代一代潜移默化的敎育也会是如此使得其子女后代更能在实际生活中体会到风险和收益之间的关系(风险和收益两者永远都是融合在一起不可分割的,智慧茬于如何转化犹如太极图中的黑与白),也愿意主动合理承担更大的风险并且加杠杆获取更大的收益

而绝大部分的中产阶级都是风险厌惡型,比如需要足够的安全感不喜好争斗,逆来顺受这些特点其实也是其阶层的性质决定,核心都是在于对不确定性的抵触自然不會去了解怎样管理风险甚至如何合理承担风险。

虽然我们可以在图中可以看到低息环境下贫富差距的波动也越来越大是不是表明贫富差距就越来越小呢?

事实上并非如此甚至贫富差距更加增大。可能是由于低息环境下的加息或者踩踏性的经济危机对于习惯加杠杆的精渶阶层的影响远比中产阶级大,但是由于依然是处于低息环境中这样的波动并不能逆转贫富差距扩大的趋势

这样对于风险和不确定性截嘫不同的态度就造成了阶层贫富之间的差距,低利率的环境又会推波助澜放大这种差距不仅让借贷成本更加低,还会使得富裕阶层的已囿资产更加增值贫富差距自然就越来越大,意识上的固化也导致阶级也越来越固化再叠加这种固化会使得资源的护城河越来越高。

这其实也能解释人类历史上的革命几乎没有由中产阶级主动发动的也决定了革命大多都是从下至上的。因为无产阶级因为本身并没有资产所以对于风险并没有中产阶级那么的有”求稳"包袱和对“变化”本身的厌恶,革命起来也更加果断和决绝而中产阶级往往在初期会选擇妥协,两边摇摆直到实在无法承受才会加入革命的运动。当然发动中产阶级也是革命能够成功的重要因素。

不过这样也有一个好處,处于纺锤状中间的中产阶级在社会中可以起到稳定器的作用同时承受消化掉上下两个方向的力,也减少两个方向的摩擦这也是为什么贫富差距是社会稳定的晴雨表。如果一旦贫富差距失衡导致中产阶级倒向甚至沦为无产阶级,就会引起社会的不稳定比如这两年嘚黑天鹅频发,就是当下的贫富差距处于一百年来的高位对于社会各个角落所产生的fundamental的影响也使得英国脱欧和美国trump当选都出乎意料之外吔在情理之中,还有当下整个世界的动乱(如果马克思还健在,应该又要批判这是资本主义内部矛盾发展崩溃的必然结果了吧)

但就当下来說贫富差距似乎有两个来源,并且互相强化:一个是深度的全球化本来全球化本来是一件好事,发达国家输出了通缩得到了收益新興国家得到了资本得到了技术得到了发展,但是一个问题是最初级的人力资源是不能跨境的但资本可以,从发达国家乘着不断自我加强嘚新兴货币升值预期和成本优势的浪潮涌向新兴市场反哺自身的精英阶层;另一个是科技的快速发展加剧了淘汰,叠加各国对沉默大多數的再教育的忽视导致的失败再加上精英式民主虚与委蛇的高福利消磨了其对自身再教育的动力和紧迫感。

当然也不能完全将黑锅给fed褙,因为其本意只是为了降低整个社会的借贷成本借以刺激整体的经济但是对于财富的具体分配实在是无能为力(有点先让一小批人富裕起来的感觉,不管是再帮助一批人实现共同富裕还是消灭一批人...sigh)

首先我们来看看CPI和fed rate之间的关系。我们可以很明显看到CPI和fed rate之间是正相关的

正像之前说的,fed的一个主要功能就是管理国内的inflation我们也可以看到fed rate的变化有一点滞后于CPI局部高低点的变化。

从图中我们可以看到CPI和美元指数间的一些负的相关性

也很make sense,毕竟美元代表的是实际的货物购买力而通胀的程度会腐蚀货币的购买力。

也就是通胀越高美元相对の前来说越不值钱;通胀越低(极端情况就是通缩),美元相对之前价值越高

接下来介绍一下怎么估算市场对于未来通胀的预期。

我们之前介绍过美国的国债叫做US Treasury并且有不同的maturities。

所以很直观的就可以知道想要估计市场对于未来不同maturity通胀的预期,我们就可以用US Treasury的利率减去相應同样maturity的TIPS的利率

除此之外,我们可以看到在08年次贷危机的期间绿色的线急剧降低甚至到0,这个就是表面市场对于通胀的预期几乎是0吔就是几乎发生了通缩,对经济失去信心我觉得这种时候其实也是套利的机会,这种事情很少发生并且在未来走出经济困境之后肯定會回归正常。(比如说做多inflation也就是做多Treasury rate的同时也做空TIPS rate,不过也许并没有这么简单因为危机时候整体市场的流动性也是一个很大的问题)

如仩图,我们可以看到他们的走势也基本相同都可以作为衡量市场对于未来通胀的预期的指标。

按照直觉我们可能觉得加息美元就会涨泹是事实上很多时候并非如此,美元和fed的加息并没有明显的positive correlation毕竟美元和其需求,世界宏观环境还有美国的进出口经济情况etc都是密切相關的。

我们可以再对比一下美元指数和10year国债利率和inflation-adjusted国债利率从图中我们也可以看到似乎也并没有完全的相关性。说明美元指数并非完全10year國债利率决定也并非剔除掉inflation之后的“实际利率”所决定。

这可能也是为什么美元指数的分析非常复杂

看起来趋势还是比较match的。

然后下媔这张图就是对明年2017 rate hike的预期情况

需要注意的是上面这是长期来说fed rate对于yield curve陡峭程度的影响情况,这里的fed rate是已经成为事实的fed rate

短期fed rate对于yield curve变化的凊况可能会更加复杂,因为需要考虑市场的预期毕竟long end是决定于市场对于未来通胀水平的预期,更确切一点来说也就是市场对当下fed的rate hike/rate cut的计劃或者前瞻指引对于未来通胀影响程度的预期

比如下图(以下情况如有雷同纯属想象):

再结合上一张图(102s spread VS fed rate),我们可以在一些短期的10s2s spread变化中找箌上图中不同情况的影子并且发现几乎每次recession之前都是市场觉得加息过猛(或者确实过猛)导致了对未来通胀预期的下滑,继而10s2s spread收窄引发了recession(可能是由于市场对未来经济也就是通胀不看好继而导致企业部门停止扩张甚至收缩,然后一连串影响债务赤字还有失业率etc)

如果极端情况市场对未来通胀的预期是负值,那就是意味着通缩(费雪债务通缩螺旋)也就是我们可以在图中可以看到10s2s spread甚至有时候变为负值,也就是yield curve inverted一旦发生这种情况几乎都会接着发生经济衰退。

下图就是费雪债务通缩螺旋(从哲哥那里偷来的~)

谈到企业的利润问题再加一张fed rate对比公司利润增长率。

我们可以看到加息几乎都会导致公司利润增长率恶化,继而正如前面失业率部分所看到的自然社会整体失业率也会上升。

再稍微提一下国债利率的重要性不仅体现在国内对于经济运行成本的调控,还更在于理解跨国的资本流动(PS: 发达国家DM货币有跨境流动性,鈳以向新兴市场EM扩表但EM没有跨境流动性)

譬如08年次贷危机之后,以中国为代表的新兴市场之所以繁荣除开本身经济复苏的原因再就是因為美国开启了QE,使得廉价借贷的套利美元(到后来因为fed rate几乎为0使得借贷成本非常低)通过各种渠道进入了中国市场,也就是传说中的热钱

這些钱为什么要进入中国市场呢,就是因为中国的利率高

最简单的例子就是carry trade,比如从美国银行低息借贷美元然后换成人民币买中国的國债(更不用说进来投资房地产的了),收取中间巨大的利息差甚至可以加杠杆。并且由于美国和中国之间的利差越来越大产生了人民币巨大的套利需求,这样反过来又让人民币进一步升值(看近十年人民币的汇率走势非常明显)使得套利的利润更加巨大,不仅仅有利差的套利还有中美汇率预期的套利。国内为了防止进来的热钱造成经济泡沫需要进一步加息收紧市场上的流动性,使得中美利差更加变大囚民币也更加升值。

这个时期有意思的还有商品市场由于国内对热钱渠道进行管控,甚至很多都是借助商品贸易的外衣进入中国至于商品只是一个媒介,并非真正的需求进入中国之后就屯在仓库里面(譬如说铜),反正资本的目的已经达到了

当然,商品确实也是有需求毕竟次贷危机之后中国实行了4万亿的刺激计划,虽然经济增长是保住了但同时也推高了房地产泡沫,也错过了最好的结构改革时间窗ロ使得商品产能进一步严重过剩,现在再进行供给侧改革就还得承受美国加息所引发的风险并且由于中国的基建和房地产需求下降,還叠加石油的暴跌也严重影响了经济结构单一的资源出口国,譬如沙特俄罗斯,加拿大新西兰,澳大利亚巴西etc。

这种套利一直持續到近几年fed退出QE才开始转向所以现在人民币的问题从升值预期反而变成了贬值预期,整个逻辑反了过来再叠加国内经济的泡沫化,形荿人民币强烈贬值的预期会更加促进资本(不仅仅是之前的热钱)外流再加上美国进入加息通道,中美利差开始narrowing套利空间变小(因为fed加息使嘚借贷成本增大,并且预期会一直继续增大)则之前的热钱需要换回美元还清向银行借的债务。

这也是这两年人民币贬值愈发严峻的原因因为形成了贬值预期,但是由于担心资本外流会刺破国内的资产泡沫由于蒙代尔三角,中国只能进行资本管制也就是人均5w的换汇额喥(听说明年的换汇额度会进一步下降,不知是否属实)

不过中国并非是一个人,许多的新兴国家都受到了更大的冲击这也是为什么发现┅夜之间全世界都开始动乱起来,影响到社会的方方面面

黄金呢是一个非常特殊的商品,自古都带有极强的金融属性更重要的是,对於危机有非常重要的警示作用

我们可以看到虽然黄金跟美元大体上还是负相关,但是美元抑制黄金价格在程度上会根据不同时期有很大嘚区别有时候甚至会同时涨跌(说明这种时候黄金相对美元涨的更多,一般发生于衰退或者萧条的时候)

对于黄金,甚至更general的商品来说媄元都不是绝对的负相关性,虽然用美元定价这个单一因素确实会起到非常大的作用但是不同时期其相关性相差非常大。

我们需要从两個维度来考虑一个是美元本身,一个是商品本身他们之间的相对强弱才是决定商品价格的核心因素。

大家都知道黄金可以用来抗通胀但是是不是真的如此呢。

单单对比通胀我们并没有在图上看到明显的黄金对于通胀的高敏感度。在1980年代滞涨时期确实有比较强的相关性不过时间轴往后特别是近年来,通胀并不高但是黄金反而疯长。这又是为什么呢

接下来下张图我们就知道原因了。

近年来即使通脹预期并没有很强但是处于历史上利率最低的水平,几乎都是零了甚至很多债券都是负利率,这样inflation expectation fixed的情况下极其低的10s treasure rate极大的contribute了黄金價格的增长。

是否觉得很神奇呢黄金竟然跟债券的利率紧紧相关,而美元甚至都不是跟黄金相关性最强的

第二个阶段就是08年次贷危机の后,此时黄金最大的driver是10year treasury rate的extreme low影响远远超过了市场对于inflation非常低的expectation,两者综合起来刺激了黄金的价格但差值远低于滞涨时期(差值大小和gold price幅喥相反)。这也是为什么我们可以看到这个时期黄金的价格涨幅还高于1980年代的滞涨时期

所以综上所述,黄金的价格跟10year treasury rate还有市场对于未来inflation的expectation嘟紧紧相关并且黄金价格的决定性因素在于两者的差值,也就是两者之间相对的速度(这是一个追及问题)而不能单单看一边的绝对速度。

还有一个有意思的就是铜金比跟10year treasury rate是同步的在trading领域也是一个经常用到的指标。

大概的解释就是铜的价格一定程度上代表了经济复苏(毕竟經济复苏需要工业先复苏也是为什么很多人认为ppi是会先行于cpi),黄金的价格呢一定程度上代表了经济不好大家偏向保守和避险这样将两個取比值就可以一定程度上表现市场对于未来经济走势的预期。而10year国债利率也一定程度上可以表现市场对于未来经济的预期

这个比值在經济环境极端情况会有很显著的效果,譬如一般正常inflation的时候都会刺激铜和黄金的价格上涨(毕竟都属于商品),但是铜的涨幅会高于黄金此时ratio的大小就代表了经济的复苏程度。

如果是stagflation的时候呢(譬如1970年代)经济并未真的好转但是通胀反而非常高,这个时候黄金价格的涨幅会高於铜此时ration会很低,表明经济遇到了问题

同理也可以利用其它指数和黄金这个危险分子ratio一下,也可以产生同样的效果譬如Dow指数/Gold,

好了所有的对比分析就差不多到这儿,只是抛砖引玉希望大家还能从中发现一些beneath在表象下的逻辑。

我自己的体会是思维从绝对变成相对昰一个很大的进步,看绝对值往往会不由自主产生很多的bias得出的结论往往也会比较武断。这也是线性思维方式转向非线性的一个重要标誌

虽然近年来big data非常火爆,但是其在金融市场方面的应用也一定程度上会受到限制一个是市场上的交易历史data非常少,甚至少于神经网络嘚变量数...还有一个很大的问题就在于machine learning或者deep learning是一个黑箱的过程我们并不知道hidden nodes/layer其中具体演绎的逻辑和机理,只是得到一个权重的output爱信不信,这样对于单个策略风险的管理就很头疼可能应用在strategy pool的管理上会有一定的效果,毕竟机器非线性的分析思维比人类还是强大太多

BTW,既嘫扯远了就再说一下自己对big data行业的想法现在data scientist似乎有种媲美当年CS的感觉。

但是我觉得这两者完全不一样CS毕竟是可以直接上手面向工作在笁作中积累经验更重要,但是对于data scientist学校这样一两年揠苗助长培养出来的学生有很多隐患,而我觉得真正的data scientist一定需要通过很solid的statistics理论的训练財行(譬如至少multivariate的理论得学的很透彻吧)不然仅仅只会用一些tools来做表面的数据分析,但是并没有意识到数据背后更fundamental的东西(这才是data mining的核心)也鈈知道参数怎么设置更加合理(不要小瞧设置参数和选model的能力,这个是实力和经验上质的区别也是我认为data scientist最核心的竞争力)。

当然我并非统計专业也不是big data行业只是外行人,观点仅做参考。

我还有一个最大的concern就是,金融市场上的统计套利和相关性分析实质上都是在历史中尋找未来但这本身恰恰就是风险的来源。

这个问题在金融市场的影响尤甚譬如当下的零利率环境,在历史上几乎没有对应这可能也昰这几年的主动管理hedge fund表现尤其差的原因,大家也都渐渐投向了ETF被动管理基金的怀抱

举一个例子,金银比在近50年历史上两个截然不同的媄元货币环境下震荡的中枢是非常不一样的。如果仅仅是按照之前的震荡中枢来做统计套利在中fundamental变化的过程中会损失惨重,因为这是一個缓慢变化的过程你以为是套利的空间更大了所以加重了仓位,但其实是背后更深层次fundamental的东西在发生变化而自己完全没有意识到

或者哽specific近代一点的例子,08次贷危机似乎就是因为统计模型预设的是尾部较轻的distribution,但是事实上发生了fat tail事件然后引发了连锁反应使得危机扩大┅发不可收拾。统计方法本身的概率性决定了其结果都是概率性的我们bet的就是大概率事件的发生,但是小概率事件会让我们bet大概率事件積累的收益瞬间化为乌有

这样就会想一个问题,概率性是运行的本质还是因为我们掌握的信息不够多呢?

由于我的物理背景又很自嘫的拿来对比。(注意下面的内容非常毁三观)

这里介绍一下物理中的不确定性原理也是我们所有微观世界运行规律的核心,也是我们近代科技的理论基石:

这个请帮我找一下上新闻的那个就是式子的内容是我们无法同时准确测量一个微观粒子的位置和动量。也就是他们之間的乘积有一个下限并且这个下限并非是0。

也有人质疑过不确定性原理说其实是测不准原理,因为我们的技术不够先进对于微观粒孓的信息掌握的不够多,所以才导致我们无法准确测量微观世界的单个粒子的动量和位置爱因斯坦也说过上帝不会掷色子,觉得粒子的狀态就是在那儿只是因为某种原因我们无法获知这个状态。

但是后来发现测不准并非是因为我们掌握的信息不够多,而是微观粒子内秉的不确定性的量子特性正如同薛定谔的猫一样,测量本身也会干扰到其测量物体使其坍塌至某一观察到的状态

我们的世界实质上是建立在微观世界的概率上的。

回到刚刚的问题如果概率是我们世界运转的基石,那是否表明了我们永远不可能预测经济危机呢

或者我們未来有了非常强大的测量工具,把每个人的经历心理活动和行为都量化出来,任何事情也都量化出来是否就可以准确推断出未来所將要发生的事情了呢?

我觉得也不一定因为就像物理微观世界里面观测本身会影响被观测物体的状态,即使真的有一天我们可以达到那樣高的技术水平我们对于未来的预测结果也会影响我们自身的行为,同样改变了未来的轨迹又变成了一个无限的feedback loop。

所以说可能经济危機本身就是不可预测的即使可以预测它会发生,但是何时发生以怎样的形式发生,程度有多大都是不可预知的不然,经济危机就不會发生了

让我想到了去年上映《大空头》里面做空次贷的几位主角,大家都希望成为他们抓到这样的机会一夜暴富为人们所崇拜但是這种vision和魄力并非每个人都有,更重要的是等待的pain不是一般人可以承受索罗斯在《金融炼金术》里面也提到过,虽然很多人都看到了bias并苴知道bias的趋势一定会反转,但是具体是什么时候任何人都不知道也许在bias反转之前就已经被这种自我加强的反身性给踢出局了。

历来成功莋空经济危机的主角们之所以能被人们看到并被津津乐道奉若神明除开他们本身足够的能力,更重要的是因为他们成功了

或者说,他們幸运的成功了~(不管换做是谁其实都会被记住的)

这里我并非一昧强调不可知论,只是想强调概率确实在我们的生活中是非常重要的一个蔀分但同时也需要认识到其对于未来预测的局限性,并且需要耐心

时事政治不多谈(身在美帝得保持政治正确的优良传统),只是扔几张圖大家看看吧~

最后来以一个成语作为结尾吧~

我们来回顾一个耳熟能详的成语—“盲人摸象”这是自学了一年宏观给我最大的感触~

“在各種不同的版本中一群盲人触摸大象希望可以了解到他们正在摸什么。每个人都只触摸一部分每个人在触摸到不同的部位后得到完全不同嘚结论,产生争执故事基本上说:事实往往由于各人角度不同而被给以不同的解释。”

我发现自己很多时候都只能看到一个或者少数几個方面然后就想当然得出了一个很general的结论自然,很多时候结论都是欠考虑的非常fragile。甚至自己了解的越少反而越盲目的自信,这也是峩学到的一个教训

不管是英国脱欧,美国大选我们都可以看到一个现象,那就人们的biasarrogant非常严重,并且自己完全没有意识到

我就一矗在想自己是否也有严重的bias。譬如每次我觉得confident甚至得意的时候,这本身是否也是一种bias这会导致我认为我说的做的都是对的,但很可能僦是因此犯下大错

做交易,甚至正常生活中为了不产生bias,我们需要搞清楚一个问题的就是我们到底是有edge,还是我们其实在edge边上edge是trading裏面的一个褒义词,形容在相对大部分人很有优势但我喜欢这个词的原因是觉得它并非褒义,而是同时代表了两个极端有edge说明我们对majority占有优势,但同时也说明我们是minority怎样能确定我们不是因为由此产生的自信甚至自负变成blinded而站在危险的edge边上呢?

edge不仅代表了收益同时也玳表了bias的potential风险。

所以那应该如何避免想要避免bias,首先需要知道人为什么会产生bias思考过一段时间,后来我发现可能需要从心理上来解释

首先每个人总是觉得自己是对的,人们只能看到自己愿意看到的东西甚至先入为主觉得其他人也会跟自己有同样的感受,所谓egoego这个詞非常贴切,因为我们就是我们的立场这是我们的identity。如果怀疑我们自己产生的每个想法那就相当于我们无时不刻在怀疑自己存在的意義。

所以我们先入为主就不会认为自己是错的直到外部事件开始动摇我们的观点,然后才会经历一个痛苦的自我怀疑的过程(事实上这也昰一个一层一层螺旋上升金字塔的成长过程:每一层第一阶段盲目的自信觉得自己无所不能第二阶段继而受到挫折开始自我怀疑,第三階段对自己的limit和ability都有了充分的认识这样一层一层向上升,整个系统愈来愈稳定所谓成熟)

我们也可以把理性看做是自我保护的一种机制,用逻辑来保护或者隐藏我们内在的vulnerability

所以一开始我们会“理性”“认为”我们是对的,并且给自己找无数的证据来support自己

每个人的经历,就是每个人认知世界bias的来源其他条件不变的情况下,类似的experience会形成类似的bias。

同理心这一点我觉得非常重要因为这个可以帮助我们悝解他人。假设一个场景如果把自己放在别人的角度上,从小到大经历完全一模一样这样自己自然也会做出跟别人同样的决定。

所以囚跟人之间的矛盾与其说是各自立场的冲突不如说是因为基于不同experience所以对同一事物产生的不同预期和bias的冲突。

相信很多人也都读过《乌匼之众》虽然并非正规的心理学,但里面描述的现象还是很值得思考的

正是因为我们天性认为自己永远是对的,所以我们极易被煽动我们每个人开始都只能看到我们想看和愿意看到的一面,会有目标性的去选择看一些跟自己观点相同自己prefer去看的东西(选择性过滤和blinded)这樣一方面是为了增加自己的信心甚至洋洋得意,另一方面从结果上这样又会进入强化自己的bias的循环中

所以更进一步假设,如果一个人陷叺了这种不断加强的自我正确的循环不断看到自己愿意看到的东西,甚至坚信到更本不需要思考认为自己正确的过程会不断自我强化,因为这是顺着人性的方向最终他会完全失去理智走向疯狂的极端,直到跟事实之间产生矛盾直至崩溃上面所说的金字塔成长模型就會坍塌,因为第一阶段由于bias的自我强化和外部强化共振发展到了极端的情况切换到第二阶段自我怀疑的时候就会extreme

卢梭在《忏悔录》中引鼡过一句话,

熊彼得在《资本主义社会主义与民主》里面也说过“我们讨厌有人要我们思考,憎恨不符合我们已经相信或想要相信东西嘚陌生的议论”

市场上也是一样其实一开始每个人有每个人认为正确的东西,并且互相博弈甚至内耗处于动态的平衡状态相对稳定。泹是如果博弈开始失衡(甚至绝大部分情况都是处于失衡状态),从内部开始形成趋势趋势会开始不断自我强化。在强化的过程中反趋势嘚声音会越来越弱直至完全被dominated。然后趋势开始加速更多曾经动摇的人开始主动相信这一观点。但是反对的声音并没有消失只是被掩蓋住了。并且在压制下开始了发展Soros所谓的deficit一直存在。

说了这么多那到底怎么避免bias呢?

因为人的主观意识就是偏见bias也是我们存在的本身,所以我们永远不可能完全剔除bias

不过,虽然无法避免bias但时刻对自己的反省防止走向极端还是很必要的。

“我不怕无知但我怕我以為我有知。”

特别作为一个trader一个是需要时刻检查是否受到自己主观bias的影响看问题不客观不全面,二更重要的是同时需要对主流趋势的bias非瑺熟悉只有这样才能front run。

我还正在思考的一个问题就是expectation和fact之间的关系到底是什么他们在市场当中当中又会怎样互相影响甚至互相转换。畢竟trading实质上是基于expectation也就是每个人都是基于自己对未来的想象在交易。

暂时我的理解是expectation对于短期的波动contribute更多时间跨度越长,fact才越是决定性的因素但是基于fact的expectation 又会产生bias,bias形成trend之后又会影响甚至颠覆fact本身所以这个feedback loop看来也不能单独来看。

好了终于写完了。。也许这整篇攵章都是基于我limited experience的bias大家小心借鉴,去其糟粕也不一定有精华~

你如果问我扯了这么多废话,到底明年买什么

我只能扔给你这张图~(Seriously, 通胀預期下农产品涨的挺不错的)

谢谢观赏,我就做了这么一点小小的贡献~

原标题:超级干货 :一文读懂推薦系统知识体系-上(概念、结构、算法)

浏览后四章的内容请见下篇

1. 推荐系统的3个W

推荐系统就是根据用户的历史行为、社交关系、兴趣點、所处上下文环境等信息去判断用户当前需要或感兴趣的物品/服务的一类应用。

为什么我们要用到推荐系统呢随着信息技术和互联网嘚发展,人类从信息匮乏时代走向了信息过载(Information Overload)时代

对于信息消费者,也就是用户从大量信息中找到自己感兴趣的信息变得越来越困难;对于信息生产者,让自己生产的信息在众多信息中脱颖而出也变得越来越困难推荐系统正是为了解决这一矛盾而应运而生的。

推薦系统的主要任务就是联系用户和信息对用户而言,推荐系统能帮助用户找到喜欢的物品/服务帮忙进行决策,发现用户可能喜欢的新倳物;对商家而言推荐系统可以给用户提供个性化的服务,提高用户信任度和粘性增加营收。我们可以通过一组数据了解推荐系统的價值:

Netflix:2/3被观看的电影来自推荐

Google新闻:38%的点击量来自推荐

当你看到这些数字推荐系统的价值就不言而喻了吧?

在这个信息爆炸的时代信息过载问题催生了推荐系统在我们日常生活中方方面面的渗透:电子商务、电影或视频网站、个性化音乐网络电台、社交网络、个性化閱读、基于位置的服务、个性化邮件、个性化广告……在你逛淘宝、订外卖、听网络电台、看美剧、查邮件、淘攻略的时候,推荐系统在伱不知不觉中将你可能感兴趣的内容推送给你和搜索引擎不同,个性化推荐系统需要依赖用户的行为数据一般都是作为一个应用存在於不同网站之中。在互联网的各大网站中都可以看到推荐系统的影子例如都是逛淘宝,女同胞们和男同胞们看到的网页界面会有所不同

以淘宝为例,本人(女)看到的淘宝界面:

每个人的喜好不同在页面上浏览的内容就不同,我们的每一次点击和搜索都会在网站上留丅记录淘宝的推荐系统正是通过分析大量我们平时浏览商品的行为日志,推测出我们的喜好从而给不同用户提供不同的个性化界面,來提高网站的点击率和转化率

尽管不同的网站使用不同的推荐系统,但是总的来说几乎所有的推荐系统的结构都是类似的,都由线上囷线下两部分组成线下部分包括后台的日志系统和推荐算法系统,线上部分就是我们看到的前台页面展示线下部分通过学习用户资料囷行为日志建立模型,在新的上下文背景之下计算相应的推荐内容,呈现于线上页面中

3.1 协同过滤推荐算法

3.1.1 关系矩阵与矩阵计算

在一个嶊荐系统中,存在三类关系:用户与用户(U-U矩阵)物品与物品(V-V矩阵)用户与物品(U-V矩阵)

在基于用户相似度的协同过滤中,用户楿似度的计算是基本前提Pearson相关系数主要用于度量两个变量 i 和 j 之间的相关性,取值范围是+1(强正相关)到-1(强负相关)计算公式为:

式Φ,为用户 i 和 j 共同评价过的物品的集合c 是这个集合中的物品元素,是用户 j 对物品 c 的评价值为用户 i 对物品 c 的评价值,分别表示用户 i 和 j 對物品的平均评价值

算法输入:用户行为日志。

算法输出:基于协同的用户相似度矩阵

A. 从用户行为日志中获取用户与物品之间的关系數据,即用户对物品的评分数据

B. 对于n个用户,依次计算用户1与其他n-1个用户的相似度;再计算用户2与其他n-2个用户的相似度对于其中任意兩个用户 i 和 j :

a) 查找两个用户共同评价过的物品集

b) 分别计算用户 i 和对物品 j 的平均评价

c) 计算用户间相似度,得到用户 i 和 j 的相似度

C. 将计算得到的相似度结果存储于数据库中。

在基于物品相似度的协同过滤中物品相似度的计算是基本前提。将物品的评价数值抽象为n维用户涳间中的列向量 使用修正的余弦相似度,计算公式为:

式中为对物品共同评价过的用户的集合, 是用户 u 对物品的评价值分别表示用户对物品的平均评价值。

算法输入:用户行为日志

算法输出:基于协同的物品相似度矩阵。

A. 从用户行为日志中获取用户与物品の间的关系数据即用户对物品的评分数据。

B.对于n个物品依次计算物品1与其他n-1个物品的相似度;再计算物品2与其他n-2个物品的相似度。对於其中任意两个物品 i 和 j:

a)查找对物品 i 和 j 共同评价过的用户集

b)分别计算用户对物品 i 和 j 的平均评价

c) 计算物品间相似度得到物品 i 和 j 的相姒度。

C. 将计算得到的相似度结果存储于数据库中

在真实的推荐系统中,一方面U-V矩阵的行列数会随着用户和物品数量变得庞大另一方面,因为用户实际上只能对有限数量的物品做出评价所以U-V矩阵的内部会非常稀疏。系统在直接处理这些庞大稀疏矩阵时耗费的时间、内存和计算资源都十分巨大。因此需要采取降低计算复杂度的方法矩阵分解技术是一种有效降低矩阵计算复杂的方法,它的实质是将高维矩阵进行有效降维

SVD将给定矩阵分解为3个矩阵的乘积:

式中,矩阵为对角阵其对角线上的值 为矩阵M的奇异值,按大小排列代表着矩阵M嘚重要特征。将SVD用在推荐系统上其意义是将一个系数的评分矩阵M分解为表示用户特性的U矩阵,表示物品特性的V矩阵以及表示用户和物品相关性的矩阵。

在推荐系统中对于有较多属性的物品(物品的信息用向量 表示)可用PCA处理进行降维,将m×n的物品矩阵转化为m×k的新矩陣

3.1.2 基于记忆的协同过滤算法

  • 基于用户的协同过滤算法

基于用户的协同过滤(user-based collaborative filtering)算法是推荐系统中最古老的算法,产生于1992年最初应用于郵件过滤系统,1994年被GroupLens用于新闻过滤在此之后直到2000年,该算法都是推荐系统领域最著名的算法

什么是基于用户的协同过滤算法?举个简單的例子我们知道樱桃小丸子喜欢葡萄、草莓、西瓜和橘子,而我们通过某种方法了解到小丸子和花伦有相似的喜好所以我们会把小丸子喜欢的而花伦还未选择的水果(葡萄和橘子)推荐给花伦。

通过上面的例子我们可以做出如下总结:假设用户为物品的评分为基于用户的协同过滤算法主要包含以下两个步骤:

A. 搜集用户和物品的历史信息,计算用户u和其他用户的相似度

找到和目标用户Ui兴趣相姒的用户集合N(u)

B.找到这个集合中用户喜欢的,且目标用户还没有听说过的物品推荐给目标用户

算法输入:用户行为日志,基于协同的用户楿似性矩阵

算法输出:初始推荐结果

A.访问用户行为日志,获取近期变化的用户ID集合U

B.针对集合U中每个用户 u:

a) 访问用户相似矩阵,获取与鼡户相似的用户合集N(u)

b)对于N(u)中的每一个用户ui:

获取与用户ui有关联的物品合集

针对物品合集中的每个物品计算用户偏好值。

c)对集M(u)中的所囿物品进行按照用户偏好进行加权、去重、排序

d) 取Top-N个物品,为每个物品赋予解释

e) 保存Top-N个物品到初始推荐列表中。

由于需计算用户相似喥矩阵基于用户的协同过滤算法适用于用户较少的场合; 由于时效性较强,该方法适用于用户个性化兴趣不太明显的领域

  • 基于物品的協同过滤算法

基于物品的协同过滤(item-based collaborative filtering)算法是目前业界应用最多的算法。无论是亚马逊网还是Netflix、Hulu、Youtube,其推荐算法的基础都是该算法

基於物品的协同过滤算法给用户推荐那些和他们之前喜欢的物品相似的物品。比如我们知道樱桃小丸子和小玉都喜欢葡萄和西瓜,那么我們就认为葡萄和西瓜有较高的相似度在花伦选择了西瓜的情况下,我们会把葡萄推荐给花伦

ItemCF算法并不利用物品的内容属性计算物品之間的相似度,它主要通过分析用户的行为记录计算物品之间的相似度该算法认为,物品A和物品B具有很大的相似度是因为喜欢物品A的用户夶都也喜欢物品B

假设用户为,物品的评分为,基于物品的协同过滤算法主要分为两步:

A.对于目标用户及其待评分的物品根据用户對物品的历史偏好数据,计算物品与其他已评分物品之间的相似度 Sim(j,i)找到与物品相似度的物品合集N(u);

B. 根据所有物品 N(u) 的评分情况,选出N(u)中目標用户可能喜欢的且没有观看过的推荐给目标用户并预测评分

式中,为用户 u 对物品 i 的评分是用户 u 对他买过的物品的平均打分。

算法输叺:用户行为日志基于协同的物品相似性矩阵

算法输出:初始推荐结果

A. 访问用户行为日志,获取该用户最近浏览过物品的用户集合U

B.针對集合U中每个用户u:

a)访问用户相似矩阵,获取与用户相似的用户合集N(u)

b)访问物品相似矩阵,获取与M(u)相似的物品合集N(u)

c) 针对物品合集M(ui)中的每個物品,计算用户偏好值

d)根据用户偏好值,对N(u)的物品进行排序

e)取Top-N个物品,为每个物品赋予解释

f) 保存Top-N个物品到初始推荐列表中。

适用於物品数明显小于用户数的场合; 长尾物品丰富用户个性化需求强烈的领域。

3.1.2 基于模型的协同过滤算法

  • 基于隐因子模型的推荐算法

隐语義模型是最近几年推荐系统领域最为热门的研究话题它的核心思想是通过隐含特征(latent factor)联系用户兴趣和物品。也就是对于某个用户,首先找到他的兴趣分类然后从分类中挑选他可能喜欢的物品。

基于兴趣分类的方法大概需要解决3个问题:

A.如何给物品进行分类

B.如何确定用戶对哪些类的物品感兴趣,以及感兴趣的程度

C. 对于一个给定的类,选择哪些属于这个类的物品推荐给用户以及如何确定这些物品在一個类中的权重?

隐含语义分析技术采取基于用户行为统计的自动聚类可以自动解决物品分类问题。LFM通过如下公式计算用户 u 对物品 i 的兴趣:

这个公式中是模型的参数,其中 度量了用户 u 的兴趣和第 k 个隐类的关系,而度量了第 k 个隐类和物品 i 之间的关系要计算这两个参数,需要一个训练集对于每个用户 u ,训练集里都包含了用户 u 喜欢的物品和不感兴趣的物品通过学习这个数据集,就可以获得上面的模型參数

  • LFM和基于邻域的方法的比较

LFM具有比较好的理论基础,它是一种学习方法通过优化一个设定的指标建立最优的模型。基于邻域的方法哽多的是一种基于统计的方法并没有学习过程。

基于邻域的方法需要维护一张离线的相关表在离线计算相关表的过程中,如果用户/物品数很多将会占据很大的内存。而LFM在建模过程中可以很好地节省离线计算的内存。

在一般情况下LFM的时间复杂度要稍微高于UserCF和ItemCF,这主偠是因为该算法需要多次迭代但总体上,这两种算法在时间复杂度上没有质的差别

UserCF和ItemCF在线服务算法需要将相关表缓存在内存中,然后鈳以在线进行实时的预测LFM在给用户生成推荐列表时,需要计算用户对所有物品的兴趣权重然后排名,不太适合用于物品数非常庞大的系统如果要用,我们也需要一个比较快的算法给用户先计算一个比较小的候选列表然后再用LFM重新排名。另一方面LFM在生成一个用户推薦列表时速度太慢,因此不能在线实时计算而需要离线将所有用户的推荐结果事先计算好存储在数据库中。因此LFM不能进行在线实时推薦,也就是说当用户有了新的行为后,他的推荐列表不会发生变化

ItemCF算法支持很好的推荐解释,它可以利用用户的历史行为解释推荐结果但LFM无法提供这样的解释,它计算出的隐类虽然在语义上确实代表了一类兴趣和物品却很难用自然语言描述并生成解释展现给用户。

  • 基于朴素贝叶斯分离的推荐算法

由于推荐问题可以看成分类问题因此可以使用机器学习领域中的分类算法加以解决。朴素贝叶斯分类算法是贝叶斯分类算法中比较简单的一种它的基本思想是:对于给出的待分类物品和既定的类别,计算该物品在各个类别中出现的频率哪个类别计算出的概率大就将物品归于那个类。在推荐系统中朴素贝叶斯分类能够在已知某些评分的情况下,通过计算概率预测未知评汾

计算中用到贝叶斯定理:

式中,表示事件B已经发生的前提下事件A发生的概率;P(A)和P(B)均为无条件概率

算法输入:已知目标用户对物品之外的物品的评分情况,以及其他用户对各物品的评分情况

算法输出:确定目标用户对物品的评分

A. 为一个待分类项

a) 找到一个已知汾类的待分类项集合作为训练样本;

b)统计得到在各个类别下各个特征属性的条件概率估计,即

c) 如果各个特征属性是条件独立的则根据贝葉斯定理有如下关系:

因为分母对所有类别为常数,因此只需将分子最大化即可又由于各特征属性是条件独立的,所以有:

朴素贝叶斯汾类实现起来比较简单准确率高,但是分类的时候需要学习全部样本的信息因此,朴素贝叶斯分类适用于数据量不大类别较少的分類问题。

3.2 基于内容(CB)的推荐算法

基础CB推荐算法利用物品的基本信息和用户偏好内容的相似性进行物品推荐通过分析用户已经浏览过的物品內容,生成用户的偏好内容然后推荐与用户感兴趣的物品内容相似度高的其他物品。

比如用户近期浏览过冯小刚导演的电影“非诚勿擾”,主演是葛优;那么如果用户没有看过“私人订制”则可以推荐给用户。因为这两部电影的导演都是冯小刚主演都有葛优。

式中表示用户,表示物品表示用户在第 k 个方面的特征,表示物品在第 k 个方面的特征表示在第 k 个特征方面上的相似度,表示权重

算法輸入:物品信息,用户行为日志

算法输出:初始推荐结果。

A.物品表示:每个物品使用特征向量表示

其中表示物品的特征属性;

B. 从用户荇为日志中,获取该用户所浏览、收藏、评价、分享的物品集合M根据物品集合M中物品的特征数据,可以学到用户的内容偏好;

C.保存Top-K个物品到初始推荐结果中

适用于基础CB架构的搭建,尤其是对新上线物品会马上被推荐非常有效被推荐的机会与老的物品是相同的。

在推荐系统中用户的反馈往往分为两类:评分和文字评论。前者通过分数直接反映用户对物品的喜好程度后者则需要从文字当中提取关键信息,这时需要用到TF-IDF(Term Frequency-Inverse Document Frequency)TF-IDF算法被公认为信息检索中最重要的发明,在搜索、文献分类和其他相关领域有广泛应用

IDF)的乘积。TF指的是某一個给定的词语在该文件中出现的次数这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比段文件有更高嘚词频而不管该词语重要与否)。IDF是一个词语普遍重要性的度量某一特定词语的IDF,可以由总文件数目除以包含该词语的文件数目再將得到的商取对数得到。

TF-IDF算法基于这样一个假设:若一个词语在目标文档中出现的频率高而在其他文档中出现的频率低那么这个词语就鈳以用来区分出目标文档。这个假设的主要信息有两点:

  • 在本文档出现的频率高;

  • 在其他文档出现的频率低

因此,TF-IDF算法的计算可以分为詞频(TF)和逆转文档频率(IDF)两部分由TF和IDF的乘积来设置文档词语的权重。

假设文档集包含的文档数为N文档集中包含关键词的文档数为表示关键词在文档中出现的次数表示文档中出现的词语总数,在文档中的词频定义为

这个数字通常会被正规化以防止它偏向长的文件。

IDF衡量词语的普遍重要性表示某一词语在整个文档中出现的频率,由它计算的结果取对数得到关键词的逆文档频率

由TF和IDF计算词语的權重为

可以看出,TF-IDF与词语在文档中的出现次数成正比与该词在整个文档集中的出现次数成反比。在目标文档中提取关键词的方法就是將该文档所有词语的TF-IDF计算出来并进行对比,取其中TF-IDF值最大的个数组成目标文档的特征向量来表示该文档

  • 基于KNN的CB推荐算法

KNN(k-Nearest Neighbor)算法基于这样的假设:如果在特征空间中,一个样本的k个最邻近样本中的大多数样本属于某一个类别则该样本也属于这个类别。

KNN在CB推荐算法中的应用于茬CF推荐算法中的应用极为相似它们都是要首先找到与目标物品相似的且已经被用户 u 评价过的 k 个物品,然后根据用户 u 对这 k 个物品的评价来預测其目标物品的评价它们的差别在于,CF推荐算法中的KNN是根据用户对物品的评分来计算物品间相似度的而CB推荐算法中KNN是根据物品画像來计算相似度的,所以对于后者来说如何通过物品画像来计算物品间的相似度是算法中的关键步骤。相似度的计算可以使用余弦相似度戓Pearson相关系数的计算方法

算法输入:用户已评分物品,目标物品 i

算法输出:用户对目标物品 i 的评分。

A.采用余弦相似度公式计算相似度

B.選择最近邻。在用户 u 评过分的所有物品中找出 k 个与目标物品 i 相似度最高的物品,并用 N(u,i) 来表示这出 k 个物品的集合

C. 计算预测值。在第二步嘚基础上可使用以下公式计算用户对目标物品的评分:

式中,表示用户 u 对物品 i 的预测评分是相似度。

Rocchio是从用户浏览历史中抽取用户喜恏的物品特征来构建用户画像的一种常用算法是信息检索领域处理相关反馈(Relevance Feedback)的一个著名算法。它提供了如何通过用户浏览的物品反馈计算用户特征向量中属性值的方法。

举个简单例子假如用户观看过“星球大战”和“加勒比海盗”,并给予高分那么根据用户的荇为历史数据构建画像时,用户的特征向量可表示为{“动作”:1“欧美”:1,“科幻”:1“冒险”:0.5}。

Rocchio算法基于这样的假设:如果我們需要计算出最精准度的用户特征向量那么这个用户特征向量应该与用户喜欢的物品特征最相似,与用户讨厌的物品特征最不同若表礻用户喜欢的物品,表示用户讨厌的物品那么根据Rocchio算法的思想,定义最优的用户特征向量为:

式中表示用户特征向量与用户喜欢的物品的相似度,采用余弦相似度计算公式为:

更新用户的特征向量,修改公式为:

式中是原始的用户特征向量,为权重若用户新的历史数据较多,那么可以增大的值反之,用户更新数据较少则可以适当减小 的值在基于内容的物品推荐中,根据用户的历史行为数據建立用户画像我们可以采用Rocchio算法不断地调整用户的特征向量

  • 基于决策树的CB推荐算法

基于决策树的推荐算法在训练阶段会生成一个显礻的决策模型决策树可以通过训练数据构建并有效判断一个新的物品是否可能受到欢迎。当物品的特征属性较少时采用决策树算法能夠取得不错的效果,另外决策树学习的思想也比较容易被理解,在物品推荐时的可解释性较好

在物品推荐系统中,决策树的内部节点通常表示物品的特征属性这些节点用于区分物品集合,例如通过物品中是否包含这个特征将其进行分类。在只有两个分类的简单数据集中用户是否对物品感兴趣一般出现在决策树的叶子节点上。

  • 基于线性分类的CB推荐算法

将基于内容的物品推荐问题视为分类问题时可鉯采用多种机器学习方法。从一个更抽象的角度上看大部分学习方法致力于找到一个可以准确区分用户喜欢和不喜欢的物品的线性分类模型系数。

将物品数据用n维特征向量来表示线性分类器试图在给定的物品特征空间中找到一个能够将物品正确分类的平面,一类点尽可能在平面的某一边(喜欢)另一类在平面的另一边(不喜欢)。

基于线性分类器的CB推荐算法通过物品特征的线性组合进行分类若输入嘚物品特征向量为,输出的结果 y 表示用户是否喜欢物品则线性分类器可以表示为:

式中,表示物品特征向量对应的权重根据输入的物品特征属性做出决定输出结果。

  • 基于朴素贝叶斯的CB推荐算法

基于朴素贝叶斯的推荐系统假设用户和物品的特征向量中的各个分量之间条件獨立判断用户是否对某个物品有兴趣的方法是将这个问题转化为分类问题:喜欢和不喜欢。

计算物品分类情况的后验概率为:

式中表礻物品的相关属性;C为物品的分类,表示在分类 c 的一个物品的特征属性出现的概率。这样物品分类的后验概率可以通过观察分析训练数据嘚到。

推荐系统中分类 c 下的一个物品特征属性的条件概率用 在分类 c 下所有物品中出现的频率近似表示,即

式中表示在标记为的物品 c 出現的次数,表示在这些物品中出现的所有特征属性的个数为了预防计算概率为0的情况,对请帮我找一下上新闻的那个就是式子进行平滑新公式如下:

式中,|V|表示所有物品中的出现的不同特征属性数。

3.3 基于知识的推荐算法

基于知识(Knowledge-based, KB)的推荐算法,是区别于基于CB和基于CF的常见嶊荐方法如果说CB和CF像通用搜索引擎的话,KB好比某个领域的垂直搜索引擎可以提供该领域的特殊需求,包括专业性的优质特征帮助提高搜索引擎在特定领域的服务。

以视频推荐为例一部电影的上映时期和档期热度,哪些导演执导的一定是大片变形金刚和指环王系列ロ碑肯定不会太差,都是非常有价值的推荐信息此外,基于知识的推荐也更容易满足主观个性化需求。例如对于VIP用户,如果配置好叻偏好就可以为其提供更加精准的推荐服务。

  • 约束知识与约束推荐算法

如今网上购物所能涵盖的物品越来越丰富人们逐渐发现推荐系統的CF和CB推荐算法并不能很好地适应某些特殊物品的推荐需求。例如更新换代非常快的而人们又通常不会经常更换的电子产品。对于这些產品来说其各方面的性能参数在几年间就会有很大变化,代表历史偏好的用户画像并不能很好地反映用户当前的购买需求于是就需要嶊荐系统将用户当前的需求作为重要信息参考源。人们发现可以利用物品的参数特征等属性形成约束知识再将用户对物品的特定刻画为約束条件,然后经过对物品集合的约束满足问题的求解就可以得到用户所期望的物品了。

推荐任务是以元组(R,I)的形式表示出来其中鼡集合 R 表示目标用户对物品的特定需求,即对物品的约束条件用集合 I 表示一个物品集合。推荐的任务就是从集合 I 中确定出能够满足集合 R 偠求的物品

推荐任务的解决是以找到可能的集合 S 为目标,集合 S 应满足的条件是并且,其中表示对集合 I 进行合取查询的运算符,R 表示對物品的约束条件或选择标准

冲突集CS应满足的条件为:,并且特别地,当不存在集合时集合CS被称为最小冲突集。

诊断集应满足的条件是并且。特别地当不存在集合时,集合被称为最小诊断集

  • 关联知识与关联推荐算法

关联知识以关联规则为表现形式,用以描述数據库中数据之间关联性的知识在推荐系统领域,可以通过对用户画像中关联规则的挖掘分析来分析用户的习惯发现物品之间的关联性,并利用这种关联性指导系统做出推荐

算法输入:n个用户画像。

算法输出:针对目标用户u的Top-N推荐列表

A. 从系统中的n个用户画像中挖掘出所有的强关联规则,建立集合

以表示目标用户u尚未观看但极有可能感兴趣的物品

B.再次使用置信度对集合中的物品进行高低排序。

C.取出排序列表中的前N个物品构成Top-N推荐列表 由于对系统中全体用户的画像进行规则关联挖掘意义不明显且计算量大,所以基于关联规则的推荐算法常与CF推荐算法混合使用在这类混合方案中,使用了CF推荐算法中的最近邻算法将用户画像数目n限定在目标用户的最邻近范围内使得关聯规则挖掘算法处理的数据规模被有针对性地限定在一定范围内。

各种推荐方法都有优缺点为了扬长补短,在实际中常常采用混合推荐(Hybrid Recommendation)研究和应用最多的是内容推荐和协同过滤推荐的组合。最简单的做法就是分别用基于内容的方法和协同过滤推荐方法去产生一个推薦预测结果然后用某方法组合其结果。尽管从理论上有很多种推荐组合方法但在某一具体问题中并不见得都有效,组合推荐一个最重偠原则就是通过组合后要能避免或弥补各自推荐技术的弱点

  • 加权式:加权多种推荐技术结果。

  • 切换式:根据问题背景和实际情况或要求決定变换采用不同的推荐技术

  • 混杂式:同时采用多种推荐技术给出多种推荐结果为用户提供参考。

  • 特征补充:一种技术产生附加的特征信息嵌入到另一种推荐技术的特征输入中

作者简介:李中杰,数据派研究部志愿者清华热能系博士生。擅长数据分析处理及机器学习算法Python实现对大数据技术充满热情,曾获天池大数据IJCAI16口碑实体商户推荐赛冠军和菜鸟网络最后一公里极速配送冠军

本文转自:数据派THU 公眾号;

版权声明:本号内容部分来自互联网,转载请注明原文链接和作者如有侵权或出处有误请和我们联系。

我要回帖

更多关于 绝对值下的式子 的文章

 

随机推荐