如何评价facebook开源的prophetmatlab时间序列工具箱预测工具

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>互联网 >>如何评价facebook开源的prophetmatlab时间序列工具箱预测工具

如何评价facebook开源的prophetmatlab时间序列工具箱预测工具

来源：蜘蛛抓取(WebSpider) 时间：2017-04-21 02:09 标签： facebook 开源

如何评价facebook开源的prophet时间序列预测工具? - 知乎918被浏览<strong class="NumberBoard-itemValue" title="3分享邀请回答0添加评论分享收藏感谢收起&p&在今年三月prophet刚发布的时候就简单用过，但最近才想起去读paper……&/p&&hr&&p&首先，prophet是一个工业级应用，而不是说在时间序列预测的模型上有非常大的创新。&/p&&p&记得今年在参加一次猫眼电影票房预测的内部分享时，旁边坐了一个外卖的PM。结束时对方问我，有什么方法可以预测外卖的订单量。我当时想了想，诸如Holt-Winters指数平滑、ARIMA、或者deep learning的LSTM，似乎都不是那么容易解释。&/p&&p&时间序列预测对大部分公司而言都存在必要的需求，比如电商预测GMV，外卖O2O预测成交量波动以便于运力分配，酒店预测间夜量来调整定价与销售，等等。但通常而言，时间序列预测对不少公司来说是一个难题。主要原因除了时间序列预测本身就是玄学（大雾）之外，还要求分析师同时具备深厚的专业领域知识（domain knowledge）和时间序列建模的统计学知识。此外，时间序列模型的调参也是一个比较复杂而繁琐的工作。&/p&&p&prophet就是在这样的背景下的产物，将一些时间序列建模常见的流程与参数default化，来使不太懂统计的业务分析师也能够针对需求快速建立一个相对可用的模型。&/p&&p&&br&&/p&&p&很多商业行为是存在一定的时间相依的模式的。作者以Facebook上用户创造“事件”（events）来举例：&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ef385d40037fbbfd5b87e199e89683ef_b.jpg& data-rawwidth=&2226& data-rawheight=&1138& class=&origin_image zh-lightbox-thumb& width=&2226& data-original=&https://pic4.zhimg.com/v2-ef385d40037fbbfd5b87e199e89683ef_r.jpg&&&/figure&&p&可以看到用户创造事件的数量有很明显的时间序列特征：多种周期性、趋势性、节假日效应，以及部分异常值。&/p&&p&&br&&/p&&p&然后作者用R的forecast包里的几种常见的时间序列预测技术（ARIMA, 指数平滑等等）来建模，效果惨不忍睹：&/p&&figure&&img src=&https://pic4.zhimg.com/v2-d8a8f169bfa29c87b95b0eb615e53733_b.jpg& data-rawwidth=&1738& data-rawheight=&1478& class=&origin_image zh-lightbox-thumb& width=&1738& data-original=&https://pic4.zhimg.com/v2-d8a8f169bfa29c87b95b0eb615e53733_r.jpg&&&/figure&&p&图1是ARIMA，图2是指数平滑，图3是snaive，图4是tbats。&/p&&p&&br&&/p&&h2&模型结构&/h2&&p&Prophet的本质是一个可加模型，基本形式如下：&/p&&p&&img src=&//www.zhihu.com/equation?tex=y%28t%29+%3D+g%28t%29+%2B+s%28t%29+%2B+h%28t%29+%2B+%5Cvarepsilon_%7Bt%7D& alt=&y(t) = g(t) + s(t) + h(t) + \varepsilon_{t}& eeimg=&1&&&/p&&p&其中 &img src=&//www.zhihu.com/equation?tex=g%28t%29& alt=&g(t)& eeimg=&1&& 是趋势项，&img src=&//www.zhihu.com/equation?tex=s%28t%29& alt=&s(t)& eeimg=&1&& 是周期项， &img src=&//www.zhihu.com/equation?tex=h%28t%29& alt=&h(t)& eeimg=&1&& 是节假日项， &img src=&//www.zhihu.com/equation?tex=%5Cvarepsilon_%7Bt%7D& alt=&\varepsilon_{t}& eeimg=&1&& 是误差项并且服从正态分布。&/p&&p&&b&趋势模型&/b&&/p&&p&prophet里使用了两种趋势模型：饱和增长模型（saturating growth model）和分段线性模型（piecewise linear model）。两种模型都包含了不同程度的假设和一些调节光滑度的参数，并通过选择变化点（changepoints）来预测趋势变化。具体推导就不写了，只写下最终形式：&/p&&p&&b&saturating growth model:&/b&&/p&&p&&img src=&//www.zhihu.com/equation?tex=g%28t%29+%3D+%5Cfrac%7BC%28t%29%7D%7B1+%2B+exp%28-%28k+%2B+a%28t%29%5E%7BT%7D%5Cdelta%29%28t+-+%28m+%2B+a%28t%29%5ET%5Cgamma%29%29%29%7D& alt=&g(t) = \frac{C(t)}{1 + exp(-(k + a(t)^{T}\delta)(t - (m + a(t)^T\gamma)))}& eeimg=&1&&&/p&&p&&b&piecewise linear model：&/b&&/p&&p&&img src=&//www.zhihu.com/equation?tex=g%28t%29+%3D+%28k+%2B+a%28t%29%5ET%5Cdelta%29t+%2B+%28m+%2B+a%28t%29%5ET%5Cgamma%29& alt=&g(t) = (k + a(t)^T\delta)t + (m + a(t)^T\gamma)& eeimg=&1&&&/p&&p&&br&&/p&&p&&b&周期模型&/b&&/p&&p&prophet用傅里叶级数（Fourier series）来建立周期模型：&/p&&p&&img src=&//www.zhihu.com/equation?tex=s%28t%29+%3D+%5Csum_%7Bn%3D1%7D%5E%7BN%7D%28%7Ba_ncos%28%5Cfrac%7B2%5Cpi+nt%7D%7BP%7D%29+%2B+b_nsin%28%5Cfrac%7B2%5Cpi+nt%7D%7BP%7D%7D%29%29& alt=&s(t) = \sum_{n=1}^{N}({a_ncos(\frac{2\pi nt}{P}) + b_nsin(\frac{2\pi nt}{P}}))& eeimg=&1&&&/p&&p&对N的调节起到了低通滤波（low-pass filter）的作用。作者说对于年周期与星期周期，N分别选取为10和3的效果比较好。&/p&&p&&br&&/p&&p&&b&节假日与突发事件模型&/b&&/p&&p&节假日需要用户事先指定，每一个节假日都包含其前后的若干天。模型形式如下（感觉就是一个虚拟变量）：&/p&&p&&img src=&//www.zhihu.com/equation?tex=Z%28t%29+%3D+%5B1%28t%5Cin+D_1%29%2C+...%2C1%28t%5Cin+D_L%29%5D& alt=&Z(t) = [1(t\in D_1), ...,1(t\in D_L)]& eeimg=&1&&&/p&&p&&img src=&//www.zhihu.com/equation?tex=h%28t%29+%3D+Z%28t%29%5Ckappa& alt=&h(t) = Z(t)\kappa& eeimg=&1&&&/p&&p&&img src=&//www.zhihu.com/equation?tex=%5Ckappa+%5Csim+Normal%280%2C+%5Cnu%5E2%29& alt=&\kappa \sim Normal(0, \nu^2)& eeimg=&1&&&/p&&h2&模型性能&/h2&&p&还是使用上面Facebook的例子，作者给出了Prophet的模型拟合与预测能力：&/p&&figure&&img src=&https://pic3.zhimg.com/v2-cb808afc95f559b0cb11086_b.jpg& data-rawwidth=&2258& data-rawheight=&960& class=&origin_image zh-lightbox-thumb& width=&2258& data-original=&https://pic3.zhimg.com/v2-cb808afc95f559b0cb11086_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-d83ed58f86aacc217ec75ec_b.jpg& data-rawwidth=&2250& data-rawheight=&1126& class=&origin_image zh-lightbox-thumb& width=&2250& data-original=&https://pic1.zhimg.com/v2-d83ed58f86aacc217ec75ec_r.jpg&&&/figure&&p&看起来比前面用R的forecast做的效果好了很多，并且不需要使用者具有很强的统计背景就能够轻松进行建模。&/p&&p&同时prophet支持将模型分解为单独的各项组成部分，并且实现起来很容易，只需要调用一行代码prophet_plot_components：&/p&&figure&&img src=&https://pic1.zhimg.com/v2-9eb362e3ae470cfe6f6174_b.jpg& data-rawwidth=&1790& data-rawheight=&1400& class=&origin_image zh-lightbox-thumb& width=&1790& data-original=&https://pic1.zhimg.com/v2-9eb362e3ae470cfe6f6174_r.jpg&&&/figure&&h2&适用范围&/h2&&p&很明显，Prophet只适用于具有&b&明显的内在规律（或者说，模式）的商业行为数据。&/b&&/p&&p&虽然官方案例里通常使用日数据的序列，但对于更短时间频段，比如小时数据，也是支持的。&/p&&p&但对于不具有明显趋势性、周期性的时间序列，使用Prophet进行预测就不适合了。比如前面有同学用Prophet来预测沪深300……先不说有效市场假说（EMH）否定了历史数据对未来价格拟合的可能性，就算市场存在模式，也不是能够被一个通用模型简单的线性分解成趋势和周期的。&/p&&p&我自己最早是基于内部历史数据，尝试公司风控的潜在损失做一个简单预测，但很明显，没有任何证据能说明过去的序列特征（比如风险集中趋势，外部环境影响，公司层面的合并等等）会在2017年重演。所以充其量就是拿来写写周报，以及为2017年风控预算做一点微小的贡献……&/p&&p&&br&&/p&&h2&总结&/h2&&p&Prophet是一个比较好用的预测工具，特别是对我这种拿着forecast的ets和auto.arima也懒到自动定阶和模型选择的人来说（逃……&/p&&p&对业务分析师很友好，因为原理很简单，有R和python的基础上手也很容易。&/p&&p&通常能够给出一个还不错的预测结果。比如我就对某些业务线的交易数据跑了下预测，发现大部分都能work，诸如“春节效应”这种中国特色也能抓得比较准。&/p&&p&&/p&
在今年三月prophet刚发布的时候就简单用过，但最近才想起去读paper……首先，prophet是一个工业级应用，而不是说在时间序列预测的模型上有非常大的创新。记得今年在参加一次猫眼电影票房预测的内部分享时，旁边坐了一个外卖的PM。结束时对方问我，有什么方…
已有帐号？
无法登录？
社交帐号登录
733 人关注
3371 条内容
1134 人关注
717 条内容
151 人关注
115 条内容登录以解锁更多InfoQ新功能
获取更新并接收通知
给您喜爱的内容点赞
关注您喜爱的编辑与同行
966,690 四月独立访问用户
语言 & 开发
架构 & 设计
文化 & 方法
您目前处于：
Facebook的开源大规模预测系统Prophet怎么用？
Facebook的开源大规模预测系统Prophet怎么用？
日. 估计阅读时间:
，PWA、Web框架、Node等最新最热的大前端话题邀你一起共同探讨。
亲爱的读者：我们最近添加了一些个人消息定制功能，您只需选择感兴趣的技术主题，即可获取重要资讯的。
比较主流的观点认为，时间序列受四种成分影响：
趋势：宏观、长期、持续性的作用力，比如我国房地产价格；
周期：比如商品价格在较短时间内，围绕某个均值上下波动；
季节：变化规律相对固定，并呈现某种周期特征。比如每年国内航班的旅客数、空调销售量、每周晚高峰时间等。“季节”不一定按年计。每周、每天的不同时段的规律，也可称作季节性。
随机：随机的不确定性，比如10分钟内A股的股指变化，也是人们常说的随机过程(Stochastic Process）。
这四种成分对时间序列的影响，常归纳为累积和相乘两种。累积意味着四种成分相互叠加，它们之间相对独立，相互影响较小。而相乘意味着它们相互影响更为明显。
相关厂商内容
相关赞助商
时间序列的最主要用途是预测。统计学者常常根据历史数据，找出主要的影响成分和各自的作用，从而得到某种模型。再通过最小二乘法等优化模型，来缩小模型的计算结果和实际观测值之间的差距。最后，用它来预测未来的走势和置信区间。
实践中最常见的分析模型包括三类：自回归、移动平均和整合模型。他们相互结合，又产生了ARIMA（Auto Regression Integreated Moving Average）等模型，不过对数据分析人员来说，更方便的是用现成的软件包和语言。日就是其中一种。
Prophet是个基于Python和R语言的预测工具。Facebook用它来进行容量安排和目标设置等工作，以便有效地分配稀有资源，以及评测和考核结果。无论是由机器学习算法还是统计分析师预测，高质量的结果都很难得到。现实中，商用预测一般会出现两种情况。- 全自动的预测技术可能容易出问题，不能灵活地加入有价值的假设或经验。- 能提出高质量预测的分析师很少，因为预测需要相当的经验，专业性强。
对高质量预测的需求，远远超过分析师所能提供的速度。因此Facebook做了Prophet:不管使用者是不是专家，都能得到高质量预测结果，并跟得上需求的步伐。
对预测而言，规模化应用不完全受计算和存储的限制。Facebook发现，对大量时序数据进行预测时，计算和基础设施的问题不难解决。所用的程序可以很容易并行化，预测数据可以用MySQL等关系型数据库或Hive等数据仓库轻松存储。
在现实工作中进行规模化预测的复杂之处在于，预测课题的种类不同，而且不易赢得用户对大量预测的信任。Facebook在决策和确定产品特点上，用Prophet已获得了大量可信的预测。
Prophet的亮点
并不是所有问题都可以用同样的程序解决。Prophet所针对的，是Facebook的商业预测任务，这些任务一般具有以下特征：
按小时、日、周的观测值，至少是几个月的历史数据（最好是一年）；
多种和人类活动相关的强周期性：比如每周的某日，一年中的某个时间；
按不确定间隔出现，已知的重要节假日，比如超级碗（Super Bowl)；
合理数量的空白观测值或异常值；
时间趋势会转折，比如新产品发布；
非线性增长的趋势，比如到达了某种自然局限或饱和。
他们发现Prophet缺省设置产生的预测，常常和有经验的预测者所做的同样准确，而省力很多。如果对预测结果不满意，用Prophet可以避免全自动程序的限制——没接受过时序方法培训的分析师也能用一系列容易理解的参数，来改善或者调整。通过把自动预测和有分析师参与的预测相结合，来分析特殊案例，可以满足很多的业务场景。下面这幅图展示了可行的规模化预测流程：
建模阶段可用的工具，目前很有限。Rob Hyndman的可能是最受欢迎的工具。谷歌和Twitter分别发布的和含有更具体的时序功能。据Facebook团队所知，开源的Python预测工具包很少。
他们喜欢用Prophet的原因有二：1. 用Prophet可以更方便地做出靠谱的预测。其他预测包里有很多不同的预测技术（ARIMA、指数平滑法等等)，各自有不同的优缺点和调优参数。一旦选错模型或参数，结果常常较差。即使是有经验的分析师也很难保证从这么多选择里，选出正确的模型和参数。2. 对于普通用户，Prophet预测可以定制得更直观。通过周期规律模型的平滑参数，可以调节和历史周期的契合程度，而趋势模型的平滑参数可以调节历史趋势转折所带来的影响有多明显。既可以手动设置增长曲线的“”或上限，并加入你所知道的信息来预测增长或下降，也可以设置非周期性的节假日日期，比如超级碗、感恩节和黑色星期五等。
Prophet如何工作？
Prophet程序核心是一个（Additive Regression Model），包括四个主要成分：
用分段线性或逻辑增长曲线拟合的趋势成分。Prophet会从数据中找出转折点，来自动检测趋势变化。
用傅里叶级数建模的季节成分，以年为单位；
用虚拟变量表示的季节成分，以周为单位；
用户自己提供的重要节假日清单。
举个，用工具包下载美国著名橄榄球四分卫的维基页面浏览量之后，可以用Prophet进行预测。因为他是美国球员，一年里的周期规律会起很大作用，而一周里的周期规律也很明显。他参加过的季后赛等重要事件也在模型里。
Prophet有两个输入字段： ds（datestamp日期戳）和y (所预测的指标）。ds必须是date或datetime类型，y必须是numeric类型。用Wikipediatrend的R工具包抓到此维基页面浏览量后，先导入Prophet。# 导入页面浏览量数据
import pandas as pd
import numpy as np
from fbprophet import Prophet
# 用csv建立数据框，转为对数坐标
df = pd.read_csv('../examples/example_wp_peyton_manning.csv')
df['y'] = np.log(df['y'])
先用缺省参数，初始化Prophet对象。再调用fit方法，将建好的数据框放到Prophet模型里。大概需要1-5秒。# 将数据框导入Prophet模型
m = Prophet()
m.fit(df);
然后用Prophet.make_future_dataframe函数，按你希望预测的天数，将数据框延伸。predict会算出每行相应的预测值yhat，产生一个新的数据框，包括预测值"yhat"，预测的上下边界（置信区间）"yhat_upper"、"yhat_lower"。# 预测，将结果放入forecast数据框
future = m.make_future_dataframe(periods=365)
forecast = m.predict(future)
forecast[['ds', 'yhat', 'yhat_lower', 'yhat_upper']].tail()
# 按forecast数据框绘图
m.plot(forecast);
可以用plot_components方法画出其他分量。缺省情况下，包括趋势、按年和按周的周期变化。如果加入节假日，也可以画出来。
Prophet为提供了library, 可以在R里调用prophet函数来创建模型，然后同样可以用predict和plot函数。
第一幅趋势图（trend）里，可以看到按页面浏览量的总趋势。他最近退休，所以浏览量逐渐下降。第二幅按周的周期规律图里能看出，在比赛当天和赛后（周日和周一）访问量明显较高。美国比赛主要集中在九月到次年1月初，和二月初的超级碗。这也反映在第三幅图中，按年的周期规律图。
灵活驾驭各种成分
预测工具包的好坏，既和它采用的模型有关，也取决于能否让使用者方便地调整各个成分相应的预测机制。据Facebook称，Prophet的特色在于，通过灵活地拟合趋势成分，可以更准确地对季节成分建模，预测会更准。采用了曲线拟合比较灵活，也能更好地处理空白观测值和异常值。
缺省状态下，Prophet用线性模型进行预测，用户可以设置预测能达到的最高点，比如市场容量，人口上限等最大承载力。也可以用逻辑增长的趋势模型进行预测。
模型采用了逻辑函数，其中是中值，cap是上限，K是陡峭度。数据框里的每行都对应各自的cap, 比如市场容量在变化。
# 最大承载力，即上限，每行都应设置
df['cap'] = 8.5
#用逻辑函数拟合时序数据
m = Prophet(growth='logistic')
# 预测未来三年，1826天，上限固定在8.5
future = m.make_future_dataframe(periods=1826)
future['cap'] = 8.5
fcst = m.predict(future)
m.plot(fcst);
现实中，趋势会产生转折。因此需要从历史数据中找出转折点，并对趋势进行修正。Prophet会自动检测到转折，用户也可以自己调整。缺省下，可能的转折点总数是25个，均匀地分布在前80%的时间序列里，如下图竖虚线所示。再用稀疏先验（Sparse Prior, ）选出尽量少的几个点建模。实际产生影响的转折点并不多，从下图的变动率可以看出，较大的转折点只有9个。采用L1范数的主要问题是过拟合（Overfitting）。Prophet是通过改变changepoint_prior_scale参数来调整。用户还可以自己指定转折点。
对于节假日，需要先建立数据框，包括时间戳ds和观察数据holiday两个字段，每个观测点占一行，要包括以前的和今后会出现的所有节假日时间点。通过lower_window和upper_window来设定每个假期的开始和结束，比如：#将季后赛、超级碗作为假日，加入数据框
playoffs = pd.DataFrame({
'holiday': 'playoff',
'ds': pd.to_datetime(['', '', '',
'', '', '',
'', '', '',
'', '', '',
'lower_window': 0,
'upper_window': 1,
superbowls = pd.DataFrame({
'holiday': 'superbowl',
'ds': pd.to_datetime(['', '', '']),
'lower_window': 0,
'upper_window': 1,
holidays = pd.concat((playoffs, superbowls))
#将holiday加入模型，进行预测
m = Prophet(holidays=holidays)
forecast = m.fit(df).predict(future)
可以看到，各成分的分析图里，Holiday成分在假日后面有明显冲高，但并不影响其他成分的分析。同样，如果出现过拟合，也可以通过调整holidays_prior_scale加以平滑。
对于L1和L2范数的讨论很多，Prophet采用的L1范数,计算起来比较快，对特征量的选择性较好，更容易解释，不过对过拟合的处理似乎简单了点。
统计模型的一个重要的特点在于，包含有随机误差，而且对随机误差有完整的解释体系。预测结果常常是这样的： “下周xx销售额万元之间的概率是90%”。预测结果实际上是出现在某个置信空间（Confidence interval）的概率。预测“准不准”是暂时、局部的——持续几小时还是几个月？适合北上广还是所有城市？不准的时候，会不会偏离得很离谱？
像阴阳共生一样，预测包括了两方面的平衡：准确 vs 可解释性，或者说，可计算 vs 对不确定性的把握。既追求在有限时间内能得到较准确的结论，又要避免“过拟合”。这就要求能在某种程度上解释模型本身，比如变量之间如何影响，和现实中不同外界条件下的统计分布。
“准确”，意味着即使模型是黑盒子，只要能计算出较准确的结果就行，但如果仅仅追求对模拟数据的拟合度，在真实运营的偏差可能很离谱。更严重的是，难以较准确地估算偏差区间和概率分布，造成风险不可控。统计学家称之为“过拟合”。
比如，在10倍杠杆的情况下进行量化交易，1万元的保证金可以买10万元的股票，同样的涨幅能让你获得10倍收益，坏处是，10%的跌幅将把保证金跌光。如果某个模型能准确地在高点卖出，低点买进，当然能获得更大的收益。但是，你愿意用一个平均收益5%，且回撤（跌幅）达2个标准差的概率仅1%的模型，还是一个收益20%而回撤概率未知的模型？
实际上，预测误差是由三个变量组成：偏差（bias）、方差(variance)和自带误差。如果我们希望用X（时间）来预测Y（浏览量），用?表示预测误差，?符合正态分布)，则有：
如果用模型来模拟, 那么预测误差为：
即：偏差方差自带误差很明显，预测误差包括了偏差（模型和实际结果的偏差）、方差（模型本身的方差）和无法缩减的自带误差。有个很好的图来表示他们之间的关系：本文来自Scott Fortmann Roe
假设我们用不同的数据，重复建模过程。预测结果会有所不同。最佳预测模型能命中靶子中心。每个着弹点表示用每次重复所得到的模型的结果。当训练数据比较好，产生的模型也较准；而训练数据里有很多异常值（Outlier）时，产生的模型就不那么准了。
上文中的模型方差（Variance）越大,弹孔越分散；而偏差（Bias）越大，则弹孔整体偏离靶心越多。这两个差都很重要，并不是平均值越准就越好。统计学里常说Bias-Variance Tradeoff即是如何处理偏差和方差，其本质是减小“过拟合”。模型越复杂，参数越多，则偏差逐渐减小，而方差越大。关于具体方法的讨论很多，可以参见Scott Fortmann网站，在此不展开了。
对于变量众多且相互影响的场景，比如搜索引擎、电商等，预测模型，如何更好地预测是个比较复杂的课题。我国对机器学习和统计的也很热闹，值得看看。
言归正传，Prophet认为置信区间的不确定性来自于：趋势、季节性（含年月日等周期）和其他观测噪声。
Prophet假设，趋势和转折会重复。未来转折的平均频率和幅度和历史一样。因此，将以前的趋势和转折向未来推演，并计算相应的分布，就能得到置信区间。如前文所述，通过changepoint_prior_scale来调整转变点的数量，能提高模型的灵活度。调整interval_width可以调整置信空间的宽度，缺省状况是80%。
缺省状态下，Prophet只考虑趋势和随机噪声的置信空间。要计算季节性不确定性，需要先进行完整的贝叶斯取样，用取样来代替MAP计算。计算会需要几十倍时间。季节性成分的预测图上会显示出置信区间。
如何使用Prophet
Prophet是用搭建的，其核心函数用Stan概率编程语言编写。Stan计算和优化MAP参数的速度很快（&1秒），方便Facebook用算法(Hamiltonian Monte Carlo) 计算参数的不确定性，而且不用重写其他语言编写的拟合程序。Prophet的Phython和R版本的功能特点完全一样。最简单的办法是从PyPI(Python)或CRAN (R)下载软件包进行安装。可以阅读或。时序数据的样本可以从工具包，来下载维基网页的浏览数据。欢迎下载，并。
随着人工智能变得越来越火，预测系统也越来越受关注。它在营销资源调配、供应链管理、金融风控、量化交易等领域的应用越来越广。随着机器学习、神经网络等软件技术的提升，配合大集群、多核、多GPU等分布式计算能力的发展，预测在技术上将变得越来越可行，而不再是少数研究机构和大型高科技企业的特权。
同时，随着预测的应用越来越广，“准确”和“健壮性”缺一不可，否则失败的预测所带来的风险将大大制约其进一步发展。软件、数据和统计方法这三驾马车缺一不可。“准”到什么程度？如何协调好偏差和方差？样本数据是否具有统计意义？是否涵盖足够现实情况？参数组的优化应该追求些什么？这些问题都非常重要，而不应仅仅靠预测工具来解决。
感谢对本文的审校。
给InfoQ中文站投稿或者参与内容翻译工作，请邮件至。也欢迎大家通过新浪微博（，），微信（微信号：）关注我们。
Author Contacted
语言 & 开发
362 他的粉丝
架构 & 设计
849 他的粉丝
开源启示录
2 他的粉丝
0 他的粉丝
0 他的粉丝
3 他的粉丝
0 他的粉丝
告诉我们您的想法
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p
当有人回复此评论时请E-mail通知我
赞助商链接
InfoQ每周精要
订阅InfoQ每周精要，加入拥有25万多名资深开发者的庞大技术社区。
架构 & 设计
文化 & 方法
InfoQ.com及所有内容，版权所有 ©
C4Media Inc. InfoQ.com 服务器由提供, 我们最信赖的ISP伙伴。
极客邦控股（北京）有限公司
找回密码....
InfoQ账号使用的E-mail
关注你最喜爱的话题和作者
快速浏览网站内你所感兴趣话题的精选内容。
内容自由定制
选择想要阅读的主题和喜爱的作者定制自己的新闻源。
设置通知机制以获取内容更新对您而言是否重要
注意：如果要修改您的邮箱，我们将会发送确认邮件到您原来的邮箱。
使用现有的公司名称
修改公司名称为：
公司性质：
使用现有的公司性质
修改公司性质为:
使用现有的公司规模
修改公司规模为：
使用现在的国家
使用现在的省份
Subscribe to our newsletter?
Subscribe to our industry email notices?
我们发现您在使用ad blocker。
我们理解您使用ad blocker的初衷，但为了保证InfoQ能够继续以免费方式为您服务，我们需要您的支持。InfoQ绝不会在未经您许可的情况下将您的数据提供给第三方。我们仅将其用于向读者发送相关广告内容。请您将InfoQ添加至白名单，感谢您的理解与支持。

如何评价facebook开源的prophetmatlab时间序列工具箱预测工具

我要回帖

更多关于 facebook 开源的文章

随机推荐

如何评价facebook开源的prophetmatlab时间序列工具箱预测工具

我要回帖

更多关于 facebook 开源 的文章

随机推荐

更多关于 facebook 开源的文章