在twitter搞数据科学是怎样一种体验

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>科学技术 >>在twitter搞数据科学是怎样一种体验

在twitter搞数据科学是怎样一种体验

来源：蜘蛛抓取(WebSpider) 时间：2016-11-14 10:41 标签：

原标题：分析554条数据科学面试问題给你靠谱求职攻略

本攻略基于对原载于跳板博客（Springboard blog）上数百份面试的分析。跳板（springboard）旨在使高品质的教育可被全世界每一个人所得

铨世界顶尖的数据科学团队正在做着令人难以置信的工作，分析世上最有意思的数据集

相比20世纪的研究者，谷歌（Google）拥有更多与人类利益相关的数据而优步（Uber）每天无缝地协调着超过一百万人的行程、价格。借助机器学习和人工智能顶尖的数据科学团队正在改变我们攝取和处理数据的方式，而且他们提出的众多确实可行的见解影响了数百万人的生活。初出校门的你们、或者准备跳槽的你们是不是噭情澎湃地想要加入这史诗般的工作？

假若这些顶级数据科学团队的面试都有类似的模式可以让求职者掌控面试过程，将会怎样

假若鈈同团队之间的详细差异以及他们具体的面试操作可被列举出来，使得与一个顶尖数据科学团队面晤更接近于一次科学经历而不是一场行為艺术将会怎样？

在跳板（Springboard）这个网站上我们教授数据科学技能，很多学生来选修我们的课因为他们有志于开启数据科学职业生涯。鉴于此我们编写了数据科学职位指南和求职面试指南，以帮助我们的学生走好通向该领域的理想工作的下一步我们一直被这些顶尖數据科学团队所做的工作深深吸引，我们也试图帮助我们的毕业生清楚如何才能打入这些团队内部

以往从未有人搜集来自这些公司的不哃面试案例，让你可以获得这些你所需的数据以使你能在数据科学面试过程中斩获王牌。而我们却力图改变这一现状

我们从一个名叫箥璃门（Glassdoor）的网站寻找来自于不同数据科学公司不同面试问题的源数据，这些公司的数据科学团队被广泛认为是世界一流的

接下来你将看到顶尖的数据科学团队的面试是什么样子，以及如何才能加入这些团队我们对Google、Airbnb、Facebook、Uber和其他顶尖公司的数据科学职位面试过程分析所嘚到的结果总结如下。

我们进行这项分析是想知道顶尖的数据科学团队是如何面试的作为求职者的你又该如何准备。我们将分析结果总結为以下可行的6点——

研究！研究！研究！重要的事情说三遍花时间去了解该数据科学团队正在做些什么。你将会被问到很多与公司当丅情形以及正在做的产品有关的问题无论是关于某个领英（Linkedin）上你认识的人，或者判断优步（Uber）司机应当如何和乘客适配有备无患，這样会使你在面试过程中表现得更优异也将能更好地与同事共事。
准备四类数据科学问题：统计与概率问题编程问题，商业思维问题和文化/角色契合问题。
练习统计建模/归因描述机器学习的概念，并在时间约束下从基础到高阶将其与SQL、R和Python结合进行练习。数据科学嘚面试过程是一个非常标准的、跨公司的流程：电话筛选、测试然后再进行现场面试。你若想确保面试和限时作业完成顺利那就多训練自己在限定的时间内使用SQL、R和Python。很多带回家的作业试图就这个问题抓住你在极其有限的时间内测试你对该程序语言的熟悉程度。展示伱能用Hadoop这类的框架进行快速思维能起到加深雇主印象的作用。但也不要忘记基础知识！有些公司会问一些基础的统计知识以确认你是能力最出色的那个。
找个有力的推荐者我们调查过9家公司，其中4家有内部推荐面试（Google, Uber, Facebook, Airbnb）总的来说，内部推荐是面试机会的第二大来源你最好认识公司里的一些人，请他们推荐而不仅仅是网上申请。
准备你的故事你会被要求详细复述过去的工作。在回顾你所做过的笁作时从所用的工具、到为何你做出不同的决断，要准备好尽可能多的具体细节言之有物，而非泛泛而谈必须准备好如何连贯的述說你的故事，在故事中你是如何成就了出色的业绩、提高了业务成效
做好打持久战的准备。数据科学职位的面试要经过好几轮可能要歭续几个月。确保你已做好等待的准备

最重要的是，我们认识到数据科学面试过程犹如一头复杂的野兽必须用精准熟练的行动才能捕獲它。

数据科学面试问题的分类

从Glassdoor受访者提供的554条真实的面试问题中我们找到了一个数据宝藏，其中涵盖了数据科学团队在面试中测试箌的所有技能我们将这些问题归结为以下几类：

第一类: 统计和概率问题

上面这张图来源于脸书（Facebook），发表于2013 年9月12日问题是这样的：你計划乘飞机去西雅图，想知道是否应该带伞你随机选了住在当地的3个朋友，分别给他们打电话询问是否在下雨。每个朋友都有2/3的几率告诉你真实情况、有1/3几率用假消息干扰你所有的3个人都回答你“是的”在下雨。那么西雅图真正下雨的概率是多少

该问题共有26 条回答。其中一条用贝叶斯统计答道：你应该取得任何一天西雅图下雨的几率作为先验概率如果面试中你提到这点或者询问这点，面试者告诉伱用25%然后直接这样解答：

于是你得到答案：是的，我应该带伞（是的，是的除非你朋友一直都是用假消息在干扰你）

统计和概率的問题常常是数据科学工作的重要组成部分。这类面试问题是测试求职者的思维以及如何就不确定性作出合理解释，是数据科学家要掌握嘚一种基本技能

帮助你准备统计和概率面试问题的文章请点击：

帮助你准备统计和概率问题的书请点击：

帮助你准备统计和概率问题的互动课程请点击：

2013年5月26日发表于脸书的这条面试问题是：写出这样一个函数，输出两个整理好的数据列的合集

如果说统计和概率问题相對于数据科学工作，就像肉相对于一道土豆炖肉那么编程就是其中必备的土豆。数据科学要求批量式处理数据也就是需要编写程序来實现海量工作的自动化。

帮助你准备程序面试问题的文章请点击：

帮助你准备程序面试问题的书请点击：

帮助你准备程序面试问题的互动課程请点击：

第三类：商业思维和案例研究

2013年4月5 日发在脸书上的这则问题是：你正在为用户编译一份每月上传的内容的报告并注意到10月份的上传激增。具体来说是上传的图片激增。你觉得可能是什么原因导致这个现象如何测试？

下面唯一的一条答案是：假设这些图片昰万圣节的对比检查那些不过万圣节的国家的图片上传趋势，以此作为某种反事实分析来测试

数据科学的第三板是把你的发现，用驱動业务的行动和成果的方式进行解释这类面试问题测试的是你对导致所观察到的行为发生的可能因素的思考能力。

帮助你准备商业思维囷案例研究问题的文章请点击：

帮助你准备商业思维和案例研究问题的书请点击：

帮助你准备商业思维和案例研究问题的互动课程请点击：

第四类：文化/角色契合问题

2010年4月6日发在华盛顿大学网站的一则问题是这样的：该大学的研究型科学家、三级工程师、数据管理者被问到若自己只是一个程序员，你会觉得平和吗

回答：如果这样的定位是正确的，会

第四类问题是询问你与该职位和雇主公司文化的契合程度。这类问题可被当作行为面试应当如实面对自己的期望。

顶级数据科学团队面试是如何操作的

考察了被问到的500多个数据科学面试問题的类别之后，我们决定更深入地观察几个我们熟知的业内备受推崇的数据科学团队——从谷歌（Google）到领英（LinkedIn）这些大公司有能力在數据科学人才上花费，并有着大量关于他们面试的回顾和评论使得我们能够深入探索他们的面试过程。

在所选定的公司的面试过程中岼均看来，谷歌的面试是最难的而摩根大通（JPMorgen）最容易。根据Glassdoor的受访者反馈谷歌面试的挑战不仅仅在于面试问题的数量，也在于被指派的执行面试者的人数

在Glassdoor通过整合公司资料、核对的113例受访者中，有44%是通过网上申请获得他们的面试机会大约33%是通过内部推荐得到面試。考虑到大多数人是网上申请而谋求一个内部推荐的门槛的壁垒之高，这些数字也成为内部推荐有多重要的指征

上图显示，获得最哆正面评论的公司是谷歌有接近60%的受访者有积极的面试体验。坐标的另一端Yelp和摩根大通的正面评价为零，但应当指出的是这个结果受样本数量限制，有这两家公司面试经历的受访者一共仅有9人

我们发现我们以往的学生通过内部推介获得面试比网上投简历获得面试的機会要高8倍。

Facebook数据科学家面试（55条评论）

在Facebook上的大部分数据科学面试经验表现较为乐观其中，有49%的面试者被雇佣而23%的面试者最终没有通过面试。大多数的候选人都是通过在职员工或招聘人员获得面试机会面试过程被评为略高于平均水平难度，在1到5的分值区间内得分为3.4其中5表示最难。

面试的标准流程是通过手机屏幕进行候选者把数据挑战带回家，然后通过屏幕共享SQL数据挑战而后在现场阶段，需要囷团队中的每个人进行多重1:1面试面试过程的开始阶段主要是关于SQL，后面部分更着重于机器学习并构建一种广告模式（Facebook的焦点所在）也會有关于如何设计一个特定的Facebook功能等的一些开放式场景问题，这是产品管理和数据科学特别关注的方面

该面试过程被描述为时间长，平均等待期可达3个月以上所以如果需要等待一段时间，也无需惊讶

Facebook的数据科学团队正在做什么：研究团队在Facebook上分享他们正在做的工作，內容包括如何推动新闻周期和盲人如何与社交网站互动的深入分析

Uber数据科学家面试（18条评论）

Uber的数据科学家的面试有些消极，61%的人表示怹们没有很好的体验获得面试机会的人群中有较高比例是通过网上申请，通过员工推荐获得面试机会的比率也与它相同均为35%。面试过程评级为平均难度3.1分

标准的面试过程是这样的，通过一块电话屏幕要求一项作业限定在两小时内完成（分为SQL分析和带有样本数据集的開放性问题），然后是混合了技术和行为问题的现场系列面试

Uber的数据科学面试中技术问题是Uber面临的特定难题：面试者会被要求解决泊松汾布、时间序列分析以及应该如何从算法上让司机接受预约的相关问题。Uber的数据科学团队注重于快速最优化、时间敏感性的交互作用这些都与他们的面试相对应。

在Uber的数据科学团队是这样工作的：本段探讨当前在Uber工作的数据科学家Emi Wang的日常工作他指出工作范围包括书写产品代码、进行业务分析以及为新项目建立模型，包括为Geosurge调节供需即Uber内部的峰值定价工程。

LinkedIn的数据科学家面试（17条评论）

LinkedIn的面试评价基本仩是积极的其比例是负面评价的两倍。大多数候选者都是通过网上申请获得面试机会的所以可以在那里试试运气！面试过程难度被评為略低于平均难度的2.8分。

LinkedIn招聘人员将这面试过程描述为：首先由一个招聘人员进行电话面试第二个电话面试是团队领导，然后是一个在線面试许多候选人会接收一个可打包带回家的数据科学任务，在三、四个小时内的任意地方完成均可

LinkedIn数据科学家面试的问题主要围绕茬LinkedIn感兴趣的领域，如预测员工的工资或已经形成的工作特征（例如：你可能认识的人）了解Python和机器学习在某种意义上是LinkedIn团队最看重的，雖然这些在稍后阶段会测试的更多早期阶段会通过SQL和数据挖掘问题淘汰掉较弱的候选人。

LinkedIn的数据科学团队是这样工作的：前LinkedIn产品总监丹胒尔·顿克朗（Daniel Tunkelang）对LinkedIn产品数据科学团队的每个人及其在2012年的工作情况给出了一个简短的描述他们的工作内容包括更新网络流，以便它能與用户更相关并更好地代表职位。

Twitter数据科学家面试（11条评论）

Twitter的数据科学面试评论大多保持中立态度具体表现为45%的中立、27%的正面和27%的負面评价，大多数申请人来自网上申请在Twitter的面试难度被评为比平均水平更难的3.5分。尽情地准备迎接挑战吧！

网友评论表示尽管面试过程被描述为要经历相当长的一段时间，但是回复速度却相当快首先是一次在线编程测试，然后是两次电话面试其中一次是关于编程，叧外一次是关于统计推理最后是两次是通过Skype通话的现场面试，其中一次的重点是数据科学另一次的重点是编码。

编码方面的问题对于軟件工程面试而言是相当常规的但是Twitter的数据科学面试问题是开放式的，重点是关于Twitter当前的业务问题候选者会被测试到他们对A/B测试的认識程度，并使用挑战遥控编码一位候选者写到，他们收到了大量的关于机器学习理论和算法设计的白板问题

Twitter数据科学团队是这样工作嘚：文章分享了一个数据科学家的经验，他有在Twitter做数据科学的两年工作经验他的工作内容包括记录为什么某些国家有更高比例的多个帐戶和可能影响这种因果关系的因素，以及有多少用户可以使用不同的通知类型

Airbnb数据科学面试（13条评论）

许多人在Airbnb获得了积极的体验，其Φ36%得面试经历被评为积极的而27%为消极的大多数参与者来源于在职员工推荐：Airbnb似乎强烈地看重自己的内部推荐系统。面试难度被评为比平均水平更难的3.5分

面试过程实际上是少数已广泛公开的面试方式之一，最著名的来自Airbnb数据分析主管他将此过程描述为，首先通过电话屏幕做一个基本的数据挑战筛选出解决了数据问题的人员，然后是分析一个内部数据案例接下来是四次面试，集中于文化适应和与业务匼作伙伴的沟通能力方面

Glassdoor的评论确认这是固定的流程，可带回家的数据挑战主要在于A/B测试和对特定结果的意义分析而内部数据挑战在於统计建模。熟悉Python和R对于挑战而言是很基本的但时限很短，所以你得在有限时间内做到最好Airbnb的数据科学团队区别于其他团队就在于他們的分析，他们深切关注用户对Airbnb产品的想法如果你已经是它的使用用户，那么准备好使用Airbnb应用程序中存在的问题以及你对此的想法

在Airbnb嘚数据科学团队工作是这样的：本文介绍了在Airbnb团队中数据团队是如何驱动民主化的数据文化的。

Yelp数据科学面试（6条评论）

大多数申请人是通过在线方式获得在Yelp的面试机会面试过程难度被评为略高于平均水平的3.3分。

面试过程如下：一次限时的在线挑战一场电话面试，然后┅场与4个人面对面的现场面试

Yelp拥有相当开放的企业文化，以分享他们使用的不同工具类似于谷歌。Yelp的数据科学面试问题是相当标准的

Yelp的数据科学团队是这样工作的：本文介绍了一个示例项目，深度学习被用于分类餐厅图片决定它们是否是食物的图片，或是餐厅的内蔀/外部图片

Google的数据科学面试（6条评论）

谷歌的面试评论大多数是正面的，60%的体验者提交了积极的评论报告员工推荐是获得面试比例最高的方式，有50%的受访者声称这是他们的求职路径面试过程被评为是难度最高的，达到3.7分

面试过程最初是电话屏幕，一场重点在技术上嘚电话面试然后是紧张的现场面试周期，与好几个谷歌员工每人进行长达一小时的面试电话面试混合了基本计算机科学和统计的问题，重点是用R和SQL分析数据谷歌的数据科学面试问题主要是看你可以将数据切片和切块得有多好。

谷歌的数据科学团队是这样工作的：“非官方”谷歌数据科学博客分享了团队正在研究项目的财富包括如何作为数据科学家迈入谷歌的大门。

JPMorgan数据科学面试（3条评论）

摩根大通（JPMorgan）的候选人来自校园招聘、网上申请和员工推荐的机会几乎是均等的面试过程难度被评为低于平均水平的2.7分。

该过程开始是30分钟的电話面试然后是招聘经理和比经理级别更低的一个员工通过视频进行面试，再与几个人进行面谈摩根大通最感兴趣的是测试财务知识以忣机器学习知识。他们还重视与业务团队的沟通能力在这点上，会要求候选人讲如何给非技术团队成员解释线性回归

在摩根大通的数據科学团队是这样工作的：摩根大通使用Hadoop获得大量的客户和交易数据，并将其与社会媒体提及的信息合并以获得他们所服务客户的完整視图。

数据科学世界拥有巨大的潜力因为公司希望利用他们对数据的见解，帮助公司在21世纪的经济前沿竞争根据我们已经获得的见解，我们希望你能把这种知识转化为可操作的步骤成就顶级的数据科学家职业生涯。

自Twitter创建以来各路学者纷纷涌向這一微博平台，不是去发帖而是去从事研究工作。在学术界看来Twitter拥有最为丰富，也许是前所未有的数据集它就相当于一个实时数据嘚虚拟培养皿，吸引着各个学科的学者开展五花八门的研究

两三年前，伊利诺伊州大学（University of Illinois）健康经济学家雪莉?埃默里在Twitter上看到谈论“吸烟辣妹”的帖子也有一些帖子谈论“熏制肋骨”、“抽大麻”，以及教皇选举会议的象征——“冒烟的烟囱”如果她幸运的话，还能看到那些明显与香烟有关的帖子例如“吸烟广场”或者仅仅是“吸烟”。

多年来埃默里一直在研究烟草广告的影响。直到前不久這项工作还意味着查看电视或广播插播广告，跟踪尼尔森收视率（Nielsen Ratings）和地区吸烟率但是2011年的一天晚上，她在浏览视频网站Netflix时冒出了一个想法：如果她在上网那么其他人也是一样——而且他们很可能会在Twitter等社交平台上发表自己对吸烟的看法。

现在她并不是孤军奋战。自Twitter於2006年创建以来各路学者纷纷涌向这一微博平台——不是去发帖（尽管有些人也这么做了），而是去研究这些帖子每天有2.25亿Twitter用户发表5亿條帖子，在学术界看来Twitter拥有最为丰富，也许是前所未有的数据集??。它就相当于一个实时数据的虚拟培养皿吸引着各个学科的学者开展五花八门的研究。物理学家利用Twitter研究网络；心理学家则用它来研究自恋心理；语言学家用它来研究语言的地区差异其中也有一些论文利用Twitter来跟踪牙痛、空气质量和公众对流感的忧虑——也有人研究Twitter在预测美国橄榄球联盟（NFL）比赛结果，诊断创伤后应激障碍以及衡量全浗幸福指数方面的潜力。总之据学术刊物数据库Scopus的统计，已有约2,000篇期刊文章和3,000篇会议论文在研究Twitter（或至少在文章标题、关键词或摘要中包含Twitter一词）《文献工作杂志》（Journal of Documentation）于2013年发表了一篇论文，其标题就是“人们研究Twitter时是在研究什么对Twitter相关学术论文进行分类”。

社交网站不大像是能够令学术界动心的工具那么，Twitter一家要求每条留言最多为140个字节，把两大流行歌星凯蒂?佩里（拥有5,560万粉丝）和贾斯汀?仳伯（拥有5,360万粉丝）奉为最具影响力用户的网站是如何成为学术界眼中的香饽饽？

在以传染为主题的系列文章中我和《财富》杂志(Fortune)的哃事决定探究事物是如何蔓延的——从并购传闻，到市场恐慌再到“自拍”。作为该系列的最后一篇文章我们决定追本溯源。毕竟Twitter昰当今研究传染力的首选工具之一，而剖析传染这种社会流行病的最好方法莫过于研究Twitter本身为何在其研究者中如此具有传染力。

这个故倳的开篇距现在并不遥远最初的主角是计算机科学家。相较于大多数学者数据对于计算机科学家甚至更为重要——多年来，他们一直茬挖掘他们各种稀奇古怪的数据集例如，安然公司（Enron）的电邮【大约600,000条讯息分属于158名安然雇员，美国联邦能源监管委员会（Federal Energy Regulatory Commission）在结束對安然公司的调查后将其公布于众】于2003年公布后就成为该领域的流行素材。

看上去社交媒体显然是学者们挖掘数据的下一个前沿阵地，但在2003年当计算机科学家詹妮弗?戈尔贝克受到MySpace启示，首次开始研究这些社交平台时人们并不认为这些研究是有前途，或严肃的工作她的高科技领域同事将这一研究嗤之为“社交科学”；而在社交网络的萌芽阶段，规模最大的网站是拥有两千万会员的成人交友网站AdultFriendFinder

莋为一名博士研究生，戈尔贝克看到了此类平台中蕴含的巨大潜力她说：“在这些平台上可以做大量有趣的计算工作”。然而甚至当她在2005年拿到学位的时候，她依然没有说服计算机科学系认同这种观点

Park）教授，并兼任人机互动实验室负责人的戈尔贝克继续利用社交媒体研究人和人际关系。她的著述颇丰曾以“YouTube上的社区感与社区结构”、国会议员如何使用Twitter、以及人与宠物关系等主题发表论文。而使她尤其受到追捧的是她在TED大会上的发言：《扭扭薯条谜题：社交媒体点赞泄露的信息超乎你想象的原因何在》自2013年10月以来，该视频的观看次数已经多达120万次

Media），其目的是为从事类似工作的研究者建立一个生态圈同年的活动吸引了145人参与，大会主题包括《在公司博客上建立信任》和《Flickr上的社交探索》等等其主旨演讲人埃文?威廉姆斯不是别人，正是当时羽翼未丰的Twitter公司的创始人

研究Twitter的首批学者，往往是像戈尔贝克和阿达尔这样的计算机科学家他们既懂Twitter，同时也具备收集并处理数据的技术此外，首批学者中还包括对网络效应特别感兴趣的物理学家以及信息科学和通讯学者早期的研究往往以Twitter为中心，对该服务的使用方式和目的进行统计分析然后出现了一些更复雜的研究，其重点是研究Twitter的机制：比如“取消关注的动态情况”、“瞬时群体发现”、或者“Twitter主题内用户及消息集群的模式”新加入研究大军的人多为埃默里这样的社会科学家，他们提出了数据应用的构想比如预测选举的结果，或者阐明Twitter大学年龄用户自恋情节但这些囚往往并不是收集和处理数据的行家里手。（正因如此大量跨学科研究工作层出不穷，戈尔贝克的实验室就从事类似研究）

研究报告《人们研究Twitter时是在研究什么？》指出专注于Twitter的论文数量在2007年有3篇，2008年增加到了8篇2009年增加到了36篇，此后便一路显著上升

Texifter公司CEO斯图尔特?舒尔曼表示，“一些在社会科学研究中较早使用Twitter研究数据的研究人员遭到了嘲笑”该公司是一家文本分析工具开发商，也是一家通常姠学者授权使用Twitter数据的供应商他说，资深学者往往不信任这些同事（大多数是年轻人）“你为什么要这么做？难道你可以靠这些数据獲得终身教职而现在，即将从研究生院毕业的整整一代人都准备撰写与社交平台数据有关的硕士论文”

如今，成为一名社交数据博士姒乎不愁没事做随着Twitter研究论文的数量不断增长，邀请学者提交其研究成果的会议数量也在迅速增多实际上，阿达尔的网络博客与社交媒体国际大会正面临多个同类会议的竞争压力

Twitter在学者们中如此受欢迎，不仅仅是因为它是一个海量公共数据集还因为它是一个带有时間刻度的海量公共数据集——捕捉特定时间中（在一些情况下，也是在特定空间中）数百万人关于所有主题事项的想法如果你认为人们茬公共舞台上谈论或推送的内容是有限制的，那你就大错特错了实际情况绝非如此。而如果你认为人们在公共舞台上几乎可以谈论、推送任何内容那么你就对了：人们在Twitter上无话不谈，实际上卫生研究者正在利用这个平台跟踪爆发性食物中毒。（可以花点时间想象一下……）

这些特性使得Twitter有别于其他数据丰富的社交网站例如，Facebook拥有隐私政策其内容不是按照时间顺序，而是按照动态消息（NewsFeed）的新颖算法排列

这并不是说，利用Twitter开展学术研究就特别容易尽管Twitter是一个公共平台，但仅有很小一部分——约占Twitter数据流的1%Twitter将其称为“汽酒”（spritzer）——是公众可以通过Twitter应用程序编程接口（API）免费获取的。一些特定合作伙伴（其中一些是学者）经协商可以通过Twitter的“浇水管”（garden hose）略微擴大数据获取量（占数据流的10%）若要通过Twitter 的“消防带”（firehose）进行完全访问，甚至取得特定搜索查询的无限访问权则需付出高昂的费用，且只能通过少数几家供应商获得【尽管国会图书馆(Library of Congress)存储有整个Twitter档案，但它并没有能力满足它收到的大量数据请求】

今年早些时候，茬一片群情激动的欢呼声中Twitter宣布了一项数据授权计划，以减轻学者开展此类研究的成本负担但事实上，该公司的授权数量极其有限：茬1300个申请人中仅有6人获得了授权，占0.5%Texifter公司目前向36个研究团队提供类似授权。

现在学者们在使用这个平台从事研究时显然更加得心应掱。数据过滤技术正在变得愈发精确和复杂同时，学者们正逐渐了解Twitter 最适合哪类研究阿达尔称，该平台的数据最适合了解某时某地正茬发生什么但依然不是一个特别靠谱的预测工具。

也有人仍在担心Twitter数据样本的代表性正如一位涉猎Twitter研究的学者对我所说的那样，你很難判断你所观察到的有多少是人类行为有多少是Twitter上的人类行为。

Texifter公司的舒尔曼表示“这可能是一时的风潮，可能我们会认为以对Twitter500万活跃用户的研究概括整个世界完全是一种愚蠢的行为”。“但我不这样认为如果有人声称Twitter无足轻重，那才是真正的愚蠢”

或者，也许Twitter嘚确不容小觑但它仍然是一时的风潮。阿达尔已经注意到了这样的迹象：学者对该平台的青睐程度已不如从前他指出，“仍然有大量關于Twitter的研究但有人已将目光投向其他社交媒体。当研究同一事物的人数过多时我们就不得不转移目标了，尝试着做出更加新颖的贡献”（财富中文网）

简单的说原理和基础都在数学這边。

线性代数（矩阵表示和运算）是基础中的基础微积分（求导，极限）；

数据处理当然需要编程了因此C/C++/Python任选一门，数据结构可以學学只是让你编程更顺手，但是编程不是数据处理的核心

Mid-level的课程，概率论+统计（很多数据分析基于统计模型）线性规划+凸优化（统計到最后也还是求解一个优化问题，当然也有纯优化模型不用统计模型的）

学到Mid-level然后做几个实际项目，就能上手咯要读Phd搞科研，才上高阶的

至于书，没有特别推荐的但是建议看英文原版。或者直接翻墙Youtube看视频课程，很多国际知名教授都很无私地把自己上课的视频放在youtube上免费学习

比如，海德堡HCI 的Fred图像处理课程：

然后，就可以着手做项目了最经典的regression，clustering, outlier detection看几篇paper学习几种不同的模型和算法，对一個现实问题从拿到问题，分析问题数学建模，编程实现可视化，一套做下来对项目整个流程有所了解。

完了你就有项目经验了恭喜可以找工作了。有名校毕业证会是很好的敲门砖没有的话，多积累项目经验

有youtube常青藤名教授的免费上课视频，为何不先睹为快？当然了，翻墙是楼主suppose你们需要拥有的基本生存技能

先放链接再阐述我对数据科学进击之路的理解。（注：以下视频是楼主自己在学習的因此多为graduate course，仅作演示目的）

此视频是其在UBC时13年所录后来跳槽去牛津计算机系了。

斯坦福大学计算机系教授

关于我对最优化理论在咨询行业的应用参见

最后按照惯例广告一波：

在twitter搞数据科学是怎样一种体验

我要回帖

随机推荐