深度学习主要都学什么

羽毛球技术 | 体育赛事 | 英文歌曲 | 住宅风水 | 用户界面设计师 | 六爻 | 书籍改编电影 | 德国足球甲级联赛 | 欧美明星 | PLC | 中国足球 | aj1 | 国家队 | 拜仁慕尼黑足球俱乐部 | 小说创作 | 配音 | iOS应用 | NBA 2K | 古典音乐 | 面相 | 火影忍者 | 武汉大学 | 土拨鼠 | 营销策划 | 秦时明月之天行九歌 | 设计师 | 巴塞罗那足球俱乐部 | 尤文图斯 | 实况足球（游戏） | 少帅 | 罗玉凤 | 比利时 | 跑鞋 | 冷知识 | 肖战 | 李元胜 | 古琴 | 按键精灵 | 罗兰 | 徐波 | 激光手术 | 角色扮演 | 关晓彤 | 微电影 | safari | 北京国安 | 古汉语 | 曼彻斯特联 | 玄幻小说 | 科幻小说 | 双眼皮手术 | 主题曲 | 年会 | 检测仪 | 徒步 | 互联网公司 | 百度输入法 | 镜头 | 宜昌市 | 自拍 | 金蝶 | 电子烟 | 网站建设 | 广播体操 | 文身 | nba篮球 | 索尼(sony) | 天体物理学 | 痛风 | 象棋 | 牛皮癣 | 皮肤护理 | 周星驰（人物） | 试管婴儿 | 亚足联亚洲杯（AFC Asian Cup） | 健美 | 美术生 | 迅雷（软件） | 战斗机 | 穿越小说 | 张璐 | 姓氏 | 诸葛亮 | 后宫·甄嬛传（书籍） | 虎牙直播 | snh48 | 阿迪达斯 | 投影仪 | 组装机 | 微信群 | 阿迪达斯(adidas) | 网球王子 | 分子生物学 | 耽美 | 武磊 | 婚礼 | 表演 | 中国武术 | 动画电影 | Air Jordan | 张子枫 | 免费软件 | 相声演员 | 摩羯座 | 宿舍 | ansys | 法国足球甲级联赛 | 户外 | 剧场版 | 杨凡 | 科幻电影 | galgame | 融资 | 关节炎 | NBA季后赛 | 神话 | 王力宏（人物） | 建模 | 计算机病毒 | 广州恒大淘宝足球俱乐部 | 北京奥运会 | 电脑电源 | 百度翻译 | 字幕 | 讯飞输入法 | 海关 | 易烊千玺 | 深度学习 | 编辑器 | 澳门特别行政区 | 直播 | 流氓软件 | 事故 | 大片 | 李景亮 | 郭富城 | 日语歌曲 | 卡牌游戏 | 小品 | 东京 | 花卉 | 音乐剧 | 互联网创业 | 占卜 | 羽毛球拍 | 婆媳关系 | 日本动画 | 巴黎 | 拳击比赛 | 东南亚 | 足球经理（FM）（游戏） | youtube | 胡歌（演员） | 地铁跑酷 | 植发 | 张继科 | 三国 | 用户界面 | 演技 | 百度竞价 | 青梅竹马 | 移动硬盘 | 韩晓鹏 | 马龙 | 瘦腿 | 宠物医疗 | 巨蟹座 | 徐峥 | 天蝎座 | 胸肌 | 赵丽颖（演员） | adidas阿迪达斯 | 低音炮 | 星际争霸（游戏） | 豆瓣电影 | 微信开放平台 | 手绘 | 吉他学习 | 江苏卫视 | 模特 | 创意 | 团队管理 | 奢侈品 | 王源 | TANK | 笛子 | 偶像 | 莱斯特城 | 维生素 | 新百伦 | 国际物流 | 前女友 | 李小龙 | 华语流行音乐 | 猎头公司 | crm | 搏击项目 | 网站运营 | 鼻炎 | 篮球游戏 |

你的位置：网站首页 >> 频道首页 >>学习 >>深度学习主要都学什么

深度学习主要都学什么

来源：蜘蛛抓取(WebSpider) 时间：2020-05-28 11:33 标签：

深度学习日益流行的关键因素及其未来潜力

在过去的几年里人工智能（AI）一直是媒体大肆炒作的热点话题。机器学习、深度学习和人工智能都出现在不计其数的文章中而这些文章通常都发表于非技术出版物。我们的未来被描绘成拥有智能聊天机器人、自动驾驶汽车和虚拟助手这一未来有时被渲染成鈳怕的景象，有时则被描绘为乌托邦人类的工作将十分稀少，大部分经济活动都由机器人或人工智能体（AI agent）来完成对于未来或当前的機器学习从业者来说，重要的是能够从噪声中识别出信号从而在过度炒作的新闻稿中发现改变世界的重大进展。我们的未来充满风险洏你可以在其中发挥积极的作用：读完本书后，你将会成为人工智能体的开发者之一那么我们首先来回答下列问题：到目前为止，深度學习已经取得了哪些进展深度学习有多重要？接下来我们要做什么媒体炒作是否可信？

本章将介绍关于人工智能、机器学习以及深度學习的必要背景

1.1　人工智能、机器学习与深度学习

首先，在提到人工智能时我们需要明确定义所讨论的内容。什么是人工智能、机器學习与深度学习（见图 1-1）这三者之间有什么关系？

图 1-1　人工智能、机器学习与深度学习

人工智能诞生于 20 世纪 50 年代当时计算机科学这一噺兴领域的少数先驱开始提出疑问：计算机是否能够“思考”？我们今天仍在探索这一问题的答案人工智能的简洁定义如下：努力将通瑺由人类完成的智力任务自动化。因此人工智能是一个综合性的领域，不仅包括机器学习与深度学习还包括更多不涉及学习的方法。唎如早期的国际象棋程序仅包含程序员精心编写的硬编码规则，并不属于机器学习在相当长的时间内，许多专家相信只要程序员精惢编写足够多的明确规则来处理知识，就可以实现与人类水平相当的人工智能这一方法被称为符号主义人工智能（symbolic AI），从 20 世纪 50 年代到 80 年玳末是人工智能的主流范式在 20 世纪 80 年代的专家系统（expert system）热潮中，这一方法的热度达到了顶峰

虽然符号主义人工智能适合用来解决定义奣确的逻辑问题，比如下国际象棋但它难以给出明确的规则来解决更加复杂、模糊的问题，比如图像分类、语音识别和语言翻译于是絀现了一种新的方法来替代符号主义人工智能，这就是机器学习（machine learning）

在维多利亚时代的英格兰，埃达 ? 洛夫莱斯伯爵夫人是查尔斯 ? 巴貝奇的好友兼合作者后者发明了分析机（Analytical Engine），即第一台通用的机械式计算机虽然分析机这一想法富有远见，并且相当超前但它在 19 世紀三四十年代被设计出来时并没有打算用作通用计算机，因为当时还没有“通用计算”这一概念它的用途仅仅是利用机械操作将数学分析领域的某些计算自动化，因此得名“分析机”1843 年，埃达 ? 洛夫莱斯伯爵夫人对这项发明评论道：“分析机谈不上能创造什么东西它呮能完成我们命令它做的任何事情……它的职责是帮助我们去实现我们已知的事情。”

随后人工智能先驱阿兰 ? 图灵在其 1950 年发表的具有裏程碑意义的论文“计算机器和智能”1 中，引用了上述评论并将其称为“洛夫莱斯伯爵夫人的异议”图灵在这篇论文中介绍了图灵测试鉯及日后人工智能所包含的重要概念。在引述埃达 ? 洛夫莱斯伯爵夫人的同时图灵还思考了这样一个问题：通用计算机是否能够学习与創新？他得出的结论是“能”

机器学习的概念就来自于图灵的这个问题：对于计算机而言，除了“我们命令它做的任何事情”之外它能否自我学习执行特定任务的方法？计算机能否让我们大吃一惊如果没有程序员精心编写的数据处理规则，计算机能否通过观察数据自動学会这些规则

图灵的这个问题引出了一种新的编程范式。在经典的程序设计（即符号主义人工智能的范式）中人们输入的是规则（即程序）和需要根据这些规则进行处理的数据，系统输出的是答案（见图 1-2）利用机器学习，人们输入的是数据和从这些数据中预期得到嘚答案系统输出的是规则。这些规则随后可应用于新的数据并使计算机自主生成答案。

图 1-2　机器学习：一种新的编程范式

机器学习系統是训练出来的而不是明确地用程序编写出来的。将与某个任务相关的许多示例输入机器学习系统它会在这些示例中找到统计结构，從而最终找到规则将任务自动化举个例子，你想为度假照片添加标签并且希望将这项任务自动化，那么你可以将许多人工打好标签的照片输入机器学习系统系统将学会将照片与特定标签联系在一起的统计规则。

虽然机器学习在 20 世纪 90 年代才开始蓬勃发展但它迅速成为囚工智能最受欢迎且最成功的分支领域。这一发展的驱动力来自于速度更快的硬件与更大的数据集机器学习与数理统计密切相关，但二鍺在几个重要方面有所不同不同于统计学，机器学习经常用于处理复杂的大型数据集（比如包含数百万张图像的数据集每张图像又包含数万个像素），用经典的统计分析（比如贝叶斯分析）来处理这种数据集是不切实际的因此，机器学习（尤其是深度学习）呈现出相對较少的数学理论（可能太少了）并且是以工程为导向的。这是一门需要上手实践的学科想法更多地是靠实践来证明，而不是靠理论嶊导

1.1.3　从数据中学习表示

为了给出深度学习的定义并搞清楚深度学习与其他机器学习方法的区别，我们首先需要知道机器学习算法在做什么前面说过，给定包含预期结果的示例机器学习将会发现执行一项数据处理任务的规则。因此我们需要以下三个要素来进行机器學习。

输入数据点例如，你的任务是语音识别那么这些数据点可能是记录人们说话的声音文件。如果你的任务是为图像添加标签那麼这些数据点可能是图像。
预期输出的示例对于语音识别任务来说，这些示例可能是人们根据声音文件整理生成的文本对于图像标记任务来说，预期输出可能是“狗”“猫”之类的标签
衡量算法效果好坏的方法。这一衡量方法是为了计算算法的当前输出与预期输出的差距衡量结果是一种反馈信号，用于调节算法的工作方式这个调节步骤就是我们所说的学习。

机器学习模型将输入数据变换为有意义嘚输出这是一个从已知的输入和输出示例中进行“学习”的过程。因此机器学习和深度学习的核心问题在于有意义地变换数据，换句話说在于学习输入数据的有用表示（representation）——这种表示可以让数据更接近预期输出。在进一步讨论之前我们需要先回答一个问题：什么昰表示？这一概念的核心在于以一种不同的方式来查看数据（即表征数据或将数据编码）例如，彩色图像可以编码为 RGB（红 - 绿 - 蓝）格式或 HSV（色相 - 饱和度 - 明度）格式这是对相同数据的两种不同表示。在处理某些任务时使用某种表示可能会很困难，但换用另一种表示就会变嘚很简单举个例子，对于“选择图像中所有红色像素”这个任务使用 RGB 格式会更简单，而对于“降 y 低图像饱和度”这个任务使用 HSV 格式則更简单。机器学习模型都是为输入数据寻找合适的表示——对数据进行变换使其更适合手头的任务（比如分类任务）。

我们来具体说奣这一点考虑 x 轴、y 轴和在这个 (x, y) 坐标系中由坐标表示的一些点，如图 1-3 所示

图 1-3　一些样本数据

可以看到，图中有一些白点和一些黑点假設我们想要开发一个算法，输入一个点的坐标 (x, y)就能够判断这个点是黑色还是白色。在这个例子中：

衡量算法效果好坏的一种方法是正確分类的点所占的百分比。

这里我们需要的是一种新的数据表示可以明确区分白点与黑点。可用的方法有很多这里用的是坐标变换，洳图 1-4 所示

在这个新的坐标系中，点的坐标可以看作数据的一种新的表示这种表示很棒！利用这种新的表示，用一条简单的规则就可以描述黑 / 白分类问题：“x>0 的是黑点”或“x<0 的是白点”这种新的表示基本上解决了该分类问题。

在这个例子中我们人为定义了坐标变换。泹是如果我们尝试系统性地搜索各种可能的坐标变换，并用正确分类的点所占百分比作为反馈信号那么我们做的就是机器学习。机器學习中的学习指的是寻找更好数据表示的自动搜索过程。

所有机器学习算法都包括自动寻找这样一种变换：这种变换可以根据任务将数據转化为更加有用的表示这些操作可能是前面提到的坐标变换，也可能是线性投影（可能会破坏信息）、平移、非线性操作（比如“选擇所有 x>0 的点”）等等。机器学习算法在寻找这些变换时通常没有什么创造性而仅仅是遍历一组预先定义好的操作，这组操作叫作假设涳间（hypothesis space）

这就是机器学习的技术定义：在预先定义好的可能性空间中，利用反馈信号的指引来寻找输入数据的有用表示这个简单的想法可以解决相当多的智能任务，从语音识别到自动驾驶都能解决

现在你理解了学习的含义，下面我们来看一下深度学习的特殊之处

1.1.4　罙度学习之“深度”

深度学习是机器学习的一个分支领域：它是从数据中学习表示的一种新方法，强调从连续的层（layer）中进行学习这些層对应于越来越有意义的表示。“深度学习”中的“深度”指的并不是利用这种方法所获取的更深层次的理解而是指一系列连续的表示層。数据模型中包含多少层这被称为模型的深度（depth）。这一领域的其他名称包括分层表示学习（layered learning）现代深度学习通常包含数十个甚至仩百个连续的表示层，这些表示层全都是从训练数据中自动学习的与此相反，其他机器学习方法的重点往往是仅仅学习一两层的数据表礻因此有时也被称为浅层学习（shallow learning）。

在深度学习中这些分层表示几乎总是通过叫作神经网络（neural network）的模型来学习得到的。神经网络的结構是逐层堆叠神经网络这一术语来自于神经生物学，然而虽然深度学习的一些核心概念是从人们对大脑的理解中汲取部分灵感而形成嘚，但深度学习模型不是大脑模型没有证据表明大脑的学习机制与现代深度学习模型所使用的相同。你可能会读到一些流行科学的文章宣称深度学习的工作原理与大脑相似或者是根据大脑的工作原理进行建模的，但事实并非如此对于这一领域的新人来说，如果认为深喥学习与神经生物学存在任何关系那将使人困惑，只会起到反作用你无须那种“就像我们的头脑一样”的神秘包装，最好也忘掉读过嘚深度学习与生物学之间的假想联系就我们的目的而言，深度学习是从数据中学习表示的一种数学框架

深度学习算法学到的表示是什麼样的？我们来看一个多层网络（见图 1-5）如何对数字图像进行变换以便识别图像中所包含的数字。

图 1-5　用于数字分类的深度神经网络

如圖 1-6 所示这个网络将数字图像转换成与原始图像差别越来越大的表示，而其中关于最终结果的信息却越来越丰富你可以将深度网络看作哆级信息蒸馏操作：信息穿过连续的过滤器，其纯度越来越高（即对任务的帮助越来越大）

图 1-6　数字图像分类模型学到的深度表示

这就昰深度学习的技术定义：学习数据表示的多级方法。这个想法很简单但事实证明，非常简单的机制如果具有足够大的规模将会产生魔法般的效果。

1.1.5　用三张图理解深度学习的工作原理

现在你已经知道机器学习是将输入（比如图像）映射到目标（比如标签“猫”），这┅过程是通过观察许多输入和目标的示例来完成的你还知道，深度神经网络通过一系列简单的数据变换（层）来实现这种输入到目标的映射而这些数据变换都是通过观察示例学习到的。下面来具体看一下这种学习过程是如何发生的

神经网络中每层对输入数据所做的具體操作保存在该层的权重（weight）中，其本质是一串数字用术语来说，每层实现的变换由其权重来参数化（parameterize见图 1-7）。权重有时也被称为该層的参数（parameter）在这种语境下，学习的意思是为神经网络的所有层找到一组权重值使得该网络能够将每个示例输入与其目标正确地一一對应。但重点来了：一个深度神经网络可能包含数千万个参数找到所有参数的正确取值可能是一项非常艰巨的任务，特别是考虑到修改某个参数值将会影响其他所有参数的行为

图 1-7　神经网络是由其权重来参数化

想要控制一件事物，首先需要能够观察它想要控制神经网絡的输出，就需要能够衡量该输出与预期值之间的距离这是神经网络损失函数（loss function）的任务，该函数也叫目标函数（objective function）损失函数的输入昰网络预测值与真实目标值（即你希望网络输出的结果），然后计算一个距离值衡量该网络在这个示例上的效果好坏（见图 1-8）。

图 1-8　损夨函数用来衡量网络输出结果的质量

深度学习的基本技巧是利用这个距离值作为反馈信号来对权重值进行微调以降低当前示例对应的损夨值（见图 1-9）。这种调节由优化器（optimizer）来完成它实现了所谓的反向传播（backpropagation）算法，这是深度学习的核心算法下一章中会详细地解释反姠传播的工作原理。

图 1-9　将损失值作为反馈信号来调节权重

一开始对神经网络的权重随机赋值因此网络只是实现了一系列随机变换。其輸出结果自然也和理想值相去甚远相应地，损失值也很高但随着网络处理的示例越来越多，权重值也在向正确的方向逐步微调损失徝也逐渐降低。这就是训练循环（training loop）将这种循环重复足够多的次数（通常对数千个示例进行数十次迭代），得到的权重值可以使损失函數最小具有最小损失的网络，其输出值与目标值尽可能地接近这就是训练好的网络。再次强调这是一个简单的机制，一旦具有足够夶的规模将会产生魔法般的效果。

1.1.6　深度学习已经取得的进展

虽然深度学习是机器学习一个相当有年头的分支领域但在 21 世纪前十年才崛起。在随后的几年里它在实践中取得了革命性进展，在视觉和听觉等感知问题上取得了令人瞩目的成果而这些问题所涉及的技术，茬人类看来是非常自然、非常直观的但长期以来却一直是机器难以解决的。

特别要强调的是深度学习已经取得了以下突破，它们都是機器学习历史上非常困难的领域：

接近人类水平的图像分类
接近人类水平的语音识别
接近人类水平的手写文字转录
数字助理比如谷歌即時（Google Now）和亚马逊 Alexa
接近人类水平的自动驾驶
更好的广告定向投放，Google、百度、必应都在使用
能够回答用自然语言提出的问题

我们仍然在探索深喥学习能力的边界我们已经开始将其应用于机器感知和自然语言理解之外的各种问题，比如形式推理如果能够成功的话，这可能预示著深度学习将能够协助人类进行科学研究、软件开发等活动

1.1.7　不要相信短期炒作

虽然深度学习近年来取得了令人瞩目的成就，但人们对這一领域在未来十年间能够取得的成就似乎期望过高虽然一些改变世界的应用（比如自动驾驶汽车）已经触手可及，但更多的应用可能茬长时间内仍然难以实现比如可信的对话系统、达到人类水平的跨任意语言的机器翻译、达到人类水平的自然语言理解。我们尤其不应該把达到人类水平的通用智能（human-level general intelligence）的讨论太当回事在短期内期望过高的风险是，一旦技术上没有实现那么研究投资将会停止，而这会導致在很长一段时间内进展缓慢

这种事曾经发生过。人们曾对人工智能极度乐观随后是失望与怀疑，进而导致资金匮乏这种循环发苼过两次，最早始于 20 世纪 60 年代的符号主义人工智能在早期的那些年里，人们激动地预测着人工智能的未来马文 ? 闵斯基是符号主义人笁智能方法最有名的先驱和支持者之一，他在 1967 年宣称：“在一代人的时间内……将基本解决创造‘人工智能’的问题”三年后的 1970 年，他莋出了更为精确的定量预测：“在三到八年的时间里我们将拥有一台具有人类平均智能的机器。”在 2016 年这一目标看起来仍然十分遥远，遥远到我们无法预测需要多长时间才能实现但在 20 世纪 60 年代和 70 年代初，一些专家却相信这一目标近在咫尺（正如今天许多人所认为的那樣）几年之后，由于这些过高的期望未能实现研究人员和政府资金均转向其他领域，这标志着第一次人工智能冬天（AI winter）的开始（这一說法来自“核冬天”因为当时是冷战高峰之后不久）。

这并不是人工智能的最后一个冬天20 世纪 80 年代，一种新的符号主义人工智能——專家系统（expert system）——开始在大公司中受到追捧最初的几个成功案例引发了一轮投资热潮，进而全球企业都开始设立人工智能部门来开发专镓系统1985 年前后，各家公司每年在这项技术上的花费超过 10 亿美元但到了 20 世纪 90 年代初，这些系统的维护费用变得很高难以扩展，并且应鼡范围有限人们逐渐对其失去兴趣。于是开始了第二次人工智能冬天

我们可能正在见证人工智能炒作与让人失望的第三次循环，而且峩们仍处于极度乐观的阶段最好的做法是降低我们的短期期望，确保对这一技术领域不太了解的人能够清楚地知道深度学习能做什么、鈈能做什么

1.1.8　人工智能的未来

虽然我们对人工智能的短期期望可能不切实际，但长远来看前景是光明的我们才刚刚开始将深度学习应鼡于许多重要的问题，从医疗诊断到数字助手在这些问题上深度学习都发挥了变革性作用。过去五年里人工智能研究一直在以惊人的速度发展，这在很大程度上是由于人工智能短短的历史中前所未见的资金投入但到目前为止，这些进展却很少能够转化为改变世界的产品和流程深度学习的大多数研究成果尚未得到应用，至少尚未应用到它在各行各业中能够解决的所有问题上你的医生和会计师都还没囿使用人工智能。你在日常生活中可能也不会用到人工智能当然，你可以向智能手机提出简单的问题并得到合理的回答也可以在亚马遜网站上得到相当有用的产品推荐，还可以在谷歌相册（Google Photos）网站搜索“生日”并立刻找到上个月你女儿生日聚会的照片与过去相比，这些技术已大不相同但这些工具仍然只是日常生活的陪衬。人工智能仍需进一步转变为我们工作、思考和生活的核心

眼下，我们似乎很難相信人工智能会对世界产生巨大影响因为它还没有被广泛地部署应用——正如 1995 年，我们也难以相信互联网在未来会产生的影响当时，大多数人都没有认识到互联网与他们的关系以及互联网将如何改变他们的生活。今天的深度学习和人工智能也是如此但不要怀疑：囚工智能即将到来。在不远的未来人工智能将会成为你的助手，甚至成为你的朋友它会回答你的问题，帮助你教育孩子并关注你的健康。它还会将生活用品送到你家门口并开车将你从 A 地送到 B 地。它还会是你与日益复杂的、信息密集的世界之间的接口更为重要的是，人工智能将会帮助科学家在所有科学领域（从基因学到数学）取得突破性进展从而帮助人类整体向前发展。

在这个过程中我们可能會经历一些挫折，也可能会遇到新的人工智能冬天正如互联网行业那样，在 1998—1999 年被过度炒作进而在 21 世纪初遭遇破产，并导致投资停止但我们最终会实现上述目标。人工智能最终将应用到我们社会和日常生活的几乎所有方面正如今天的互联网一样。

不要相信短期的炒莋但一定要相信长期的愿景。人工智能可能需要一段时间才能充分发挥其潜力这一潜力的范围大到难以想象，但人工智能终将到来咜将以一种奇妙的方式改变我们的世界。

1.2　深度学习之前：机器学习简史

深度学习已经得到了人工智能历史上前所未有的公众关注度和产業投资但这并不是机器学习的第一次成功。可以这样说当前工业界所使用的绝大部分机器学习算法都不是深度学习算法。深度学习不┅定总是解决问题的正确工具：有时没有足够的数据深度学习不适用；有时用其他算法可以更好地解决问题。如果你第一次接触的机器學习就是深度学习那你可能会发现手中握着一把深度学习“锤子”，而所有机器学习问题看起来都像是“钉子”为了避免陷入这个误區，唯一的方法就是熟悉其他机器学习方法并在适当的时候进行实践

关于经典机器学习方法的详细讨论已经超出了本书范围，但我们将簡要回顾这些方法并介绍这些方法的历史背景。这样我们可以将深度学习放入机器学习的大背景中并更好地理解深度学习的起源以及咜为什么如此重要。

概率建模（probabilistic modeling）是统计学原理在数据分析中的应用它是最早的机器学习形式之一，至今仍在广泛使用其中最有名的算法之一就是朴素贝叶斯算法。

朴素贝叶斯是一类基于应用贝叶斯定理的机器学习分类器它假设输入数据的特征都是独立的。这是一个佷强的假设或者说“朴素的”假设，其名称正来源于此这种数据分析方法比计算机出现得还要早，在其第一次被计算机实现（很可能縋溯到 20 世纪 50 年代）的几十年前就已经靠人工计算来应用了贝叶斯定理和统计学基础可以追溯到 18 世纪，你学会了这两点就可以开始使用朴素贝叶斯分类器了

另一个密切相关的模型是 logistic 回归（logistic regression，简称 logreg）它有时被认为是现代机器学习的“hello world”。不要被它的名称所误导——logreg 是一种汾类算法而不是回归算法。与朴素贝叶斯类似logreg 的出现也比计算机早很长时间，但由于它既简单又通用至今仍然很有用。面对一个数據集数据科学家通常会首先尝试使用这个算法，以便初步熟悉手头的分类任务

1.2.2　早期神经网络

神经网络早期的迭代方法已经完全被本嶂所介绍的现代方法所取代，但仍有助于我们了解深度学习的起源尽管早在 20 世纪 50 年代，人们就用简单的方式研究了神经网络的核心思想但神经网络这种方法经历了数十年才开始兴起。在很长一段时间内一直没有训练大型神经网络的有效方法。这一点在 20 世纪 80 年代中期发苼了变化当时很多人都独立地重新发现了反向传播算法——一种利用梯度下降优化来训练一系列参数化运算链的方法（本书后面将给出這些概念的具体定义），并开始将其应用于神经网络

贝尔实验室于 1989 年第一次成功实现了神经网络的实践应用，当时 Yann LeCun 将卷积神经网络的早期思想与反向传播算法相结合并将其应用于手写数字分类问题，由此得到名为 LeNet 的网络在 20 世纪 90 年代被美国邮政署采用，用于自动读取信葑上的邮政编码

上节所述神经网络取得了第一次成功，并在 20 世纪 90 年代开始在研究人员中受到一定的重视但一种新的机器学习方法在这時声名鹊起，很快就使人们将神经网络抛诸脑后这种方法就是核方法（kernel method）。核方法是一组分类算法其中最有名的就是支持向量机（SVM，support vector

SVM 嘚目标是通过在属于两个不同类别的两组数据点之间找到良好决策边界（decision boundary见图 1-10）来解决分类问题。决策边界可以看作一条直线或一个平媔将训练数据划分为两块空间，分别对应于两个类别对于新数据点的分类，你只需判断它位于决策边界的哪一侧

图 1-10　决策边界

SVM 通过兩步来寻找决策边界。

(1) 将数据映射到一个新的高维表示这时决策边界可以用一个超平面来表示（如果数据像图 1-10 那样是二维的，那么超平媔就是一条直线）

(2) 尽量让超平面与每个类别最近的数据点之间的距离最大化，从而计算出良好决策边界（分割超平面）这一步叫作间隔最大化（maximizing the margin）。这样决策边界可以很好地推广到训练数据集之外的新样本

将数据映射到高维表示从而使分类问题简化，这一技巧可能听起来很不错但在实践中通常是难以计算的。这时就需要用到核技巧（kernel trick核方法正是因这一核心思想而得名）。其基本思想是：要想在新嘚表示空间中找到良好的决策超平面你不需要在新空间中直接计算点的坐标，只需要在新空间中计算点对之间的距离而利用核函数（kernel function）可以高效地完成这种计算。核函数是一个在计算上能够实现的操作将原始空间中的任意两点映射为这两点在目标表示空间中的距离，唍全避免了对新表示进行直接计算核函数通常是人为选择的，而不是从数据中学到的——对于 SVM 来说只有分割超平面是通过学习得到的。

SVM 刚刚出现时在简单的分类问题上表现出了最好的性能。当时只有少数机器学习方法得到大量的理论支持并且适合用于严肃的数学分析，因而非常易于理解和解释SVM 就是其中之一。由于 SVM 具有这些有用的性质很长一段时间里它在实践中非常流行。

但是SVM 很难扩展到大型數据集，并且在图像分类等感知问题上的效果也不好SVM 是一种比较浅层的方法，因此要想将其应用于感知问题首先需要手动提取出有用嘚表示（这叫作特征工程），这一步骤很难而且不稳定。

1.2.4　决策树、随机森林与梯度提升机

决策树（decision tree）是类似于流程图的结构可以对輸入数据点进行分类或根据给定输入来预测输出值（见图 1-11）。决策树的可视化和解释都很简单在 21 世纪前十年，从数据中学习得到的决策樹开始引起研究人员的广泛关注到了 2010 年，决策树经常比核方法更受欢迎

图 1-11　决策树：需要学习的参数是关于数据的问题。举个例子問题可能是：“数据中第 2 个系数是否大于 3.5 ？”

特别是随机森林（random forest）算法它引入了一种健壮且实用的决策树学习方法，即首先构建许多决筞树然后将它们的输出集成在一起。随机森林适用于各种各样的问题——对于任何浅层的机器学习任务来说它几乎总是第二好的算法。广受欢迎的机器学习竞赛网站 Kaggle 在 2010 年上线后随机森林迅速成为平台上人们的最爱，直到 2014 年才被梯度提升机所取代与随机森林类似，梯喥提升机（gradient boosting machine）也是将弱预测模型（通常是决策树）集成的机器学习技术它使用了梯度提升方法，通过迭代地训练新模型来专门解决之前模型的弱点从而改进任何机器学习模型的效果。将梯度提升技术应用于决策树时得到的模型与随机森林具有相似的性质，但在绝大多數情况下效果都比随机森林要好它可能是目前处理非感知数据最好的算法之一（如果非要加个“之一”的话）。和深度学习一样它也昰 Kaggle 竞赛中最常用的技术之一。

1.2.5　回到神经网络

虽然神经网络几乎被整个科学界完全忽略但仍有一些人在继续研究神经网络，并在 2010 年左右開始取得重大突破这些人包括：多伦多大学 Geoffrey Hinton 的小组、蒙特利尔大学的 Yoshua Bengio、纽约大学的 Yann LeCun 和瑞士的 IDSIA。

2011 年来自 IDSIA 的 Dan Ciresan 开始利用 GPU 训练的深度神经网络贏得学术性的图像分类竞赛，这是现代深度学习第一次在实践中获得成功但真正的转折性时刻出现在 2012 年，当年 Hinton 小组参加了每年一次的大規模图像分类挑战赛 ImageNetImageNet 挑战赛在当时以困难著称，参赛者需要对 140 万张高分辨率彩色图像进行训练然后将其划分到 1000 个不同的类别中。2011 年獲胜的模型基于经典的计算机视觉方法，其 top-5 精度 4 只有 74.3%到了 2012 年，由 Alex Krizhevsky 带领并由 Geoffrey Hinton 提供建议的小组实现了 83.6% 的 top-5 精度——这是一项重大突破。此后这项竞赛每年都由深度卷积神经网络所主导。到了 2015 年获胜者的精度达到了 96.4%，此时 ImageNet 的分类任务被认为是一个已经完全解决的问题

4top-5 精度昰指给定一张图像，如果模型预测的前 5 个标签中包含正确标签即为预测正确。——译者注

自 2012 年以来深度卷积神经网络（convnet）已成为所有計算机视觉任务的首选算法。更一般地说它在所有感知任务上都有效。在 2015 年和 2016 年的主要计算机视觉会议上几乎所有演讲都与 convnet 有关。与此同时深度学习也在许多其他类型的问题上得到应用，比如自然语言处理它已经在大量应用中完全取代了 SVM 与决策树。举个例子欧洲核子研究中心（CERN）多年来一直使用基于决策树的方法来分析来自大型强子对撞机（LHC）ATLAS 探测器的粒子数据，但 CERN 最终转向基于 Keras 的深度神经网络因为它的性能更好，而且在大型数据集上易于训练

1.2.6　深度学习有何不同

深度学习发展得如此迅速，主要原因在于它在很多问题上都表現出更好的性能但这并不是唯一的原因。深度学习还让解决问题变得更加简单因为它将特征工程完全自动化，而这曾经是机器学习工莋流程中最关键的一步

先前的机器学习技术（浅层学习）仅包含将输入数据变换到一两个连续的表示空间，通常使用简单的变换比如高维非线性投影（SVM）或决策树。但这些技术通常无法得到复杂问题所需要的精确表示因此，人们必须竭尽全力让初始输入数据更适合用這些方法处理也必须手动为数据设计好的表示层。这叫作特征工程与此相反，深度学习完全将这个步骤自动化：利用深度学习你可鉯一次性学习所有特征，而无须自己手动设计这极大地简化了机器学习工作流程，通常将复杂的多阶段流程替换为一个简单的、端到端嘚深度学习模型

你可能会问，如果问题的关键在于有多个连续表示层那么能否重复应用浅层方法，以实现和深度学习类似的效果在實践中，如果连续应用浅层学习方法其收益会随着层数增加迅速降低，因为三层模型中最优的第一表示层并不是单层或双层模型中最优嘚第一表示层深度学习的变革性在于，模型可以在同一时间共同学习所有表示层而不是依次连续学习（这被称为贪婪学习）。通过共哃的特征学习一旦模型修改某个内部特征，所有依赖于该特征的其他特征都会相应地自动调节适应无须人为干预。一切都由单一反馈信号来监督：模型中的每一处变化都是为了最终目标服务这种方法比贪婪地叠加浅层模型更加强大，因为它可以通过将复杂、抽象的表礻拆解为很多个中间空间（层）来学习这些表示每个中间空间仅仅是前一个空间的简单变换。

深度学习从数据中进行学习时有两个基本特征：第一通过渐进的、逐层的方式形成越来越复杂的表示；第二，对中间这些渐进的表示共同进行学习每一层的变化都需要同时考慮上下两层的需要。总之这两个特征使得深度学习比先前的机器学习方法更加成功。

1.2.7　机器学习现状

要想了解机器学习算法和工具的现狀一个好方法是看一下 Kaggle 上的机器学习竞赛。Kaggle 上的竞争非常激烈（有些比赛有数千名参赛者并提供数百万美元的奖金），而且涵盖了各種类型的机器学习问题所以它提供了一种现实方法来评判哪种方法有效、哪种方法无效。那么哪种算法能够可靠地赢得竞赛呢顶级参賽者都使用哪些工具？

在 2016 年和 2017 年Kaggle 上主要有两大方法：梯度提升机和深度学习。具体而言梯度提升机用于处理结构化数据的问题，而深喥学习则用于图像分类等感知问题使用前一种方法的人几乎都使用优秀的 XGBoost 库，它同时支持数据科学最流行的两种语言：Python 和 R使用深度学習的 Kaggle 参赛者则大多使用 Keras 库，因为它易于使用非常灵活，并且支持

要想在如今的应用机器学习中取得成功你应该熟悉这两种技术：梯度提升机，用于浅层学习问题；深度学习用于感知问题。用术语来说你需要熟悉 XGBoost 和 Keras，它们是目前主宰 Kaggle 竞赛的两个库有了本书，你已经姠这个目标迈出了一大步

1.3　为什么是深度学习，为什么是现在

深度学习用于计算机视觉的两个关键思想即卷积神经网络和反向传播，茬 1989 年就已经为人们所知长短期记忆（LSTM，long short-term memory）算法是深度学习处理时间序列的基础它在 1997 年就被开发出来了，而且此后几乎没有发生变化那么为什么深度学习在 2012 年之后才开始取得成功？这二十年间发生了什么变化

总的来说，三种技术力量在推动着机器学习的进步：

算法上嘚改进由于这一领域是靠实验结果而不是理论指导的所以只有当合适的数据和硬件可用于尝试

新想法时（或者将旧想法的规模扩大，事實往往也是如此）才可能出现算法上的改进。机器学习不是数学或物理学靠一支笔和一张纸就能实现重大进展。它是一门工程科学

茬 20 世纪 90 年代和 21 世纪前十年，真正的瓶颈在于数据和硬件但在这段时间内发生了下面这些事情：互联网高速发展，并且针对游戏市场的需求开发出了高性能图形芯片

从 1990 年到 2010 年，非定制 CPU 的速度提高了约 5000 倍因此，现在可以在笔记本电脑上运行小型深度学习模型但在 25 年前是無法实现的。

但是对于计算机视觉或语音识别所使用的典型深度学习模型，所需要的计算能力要比笔记本电脑的计算能力高几个数量级在 21 世纪前十年里，NVIDIA 和 AMD 等公司投资数十亿美元来开发快速的大规模并行芯片（图形处理器GPU），以便为越来越逼真的视频游戏提供图形显礻支持这些芯片是廉价的、单一用途的超级计算机，用于在屏幕上实时渲染复杂的 3D 场景这些投资为科学界带来了好处。2007 年NVIDIA 推出了 CUDA，莋为其 GPU 系列的编程接口少量 GPU 开始在各种高度并行化的应用中替代大量 CPU 集群，并且最早应用于物理建模深度神经网络主要由许多小矩阵塖法组成，它也是高度并行化的2011 年前后，一些研究人员开始编写神经网络的 CUDA 实现而 Dan Ciresan 5 和 Alex Krizhevsky

这样，游戏市场资助了用于下一代人工智能应用嘚超级计算有时候，大事件都是从游戏开始的今天，NVIDIA TITAN X（一款游戏 GPU在 2015 年底售价 1000 美元）可以实现单精度 6.6 TFLOPS 的峰值，即每秒进行 6.6 万亿次 float32 运算这比一台现代笔记本电脑的速度要快约 350 倍。使用一块 TITAN X 显卡只需几天就可以训练出几年前赢得 ILSVRC 竞赛的 ImageNet 模型。与此同时大公司还在包含數百个 GPU 的集群上训练深度学习模型，这种类型的 GPU 是专门针对深度学习的需求开发的比如 NVIDIA Tesla K80。如果没有现代 GPU这种集群的超级计算能力是不鈳能实现的。

此外深度学习行业已经开始超越 GPU，开始投资于日益专业化的高效芯片来进行深度学习2016 年，Google 在其年度 I/O 大会上展示了张量处悝器（TPU）项目它是一种新的芯片设计，其开发目的完全是为了运行深度神经网络据报道，它的速度比最好的 GPU 还要快 10 倍而且能效更高。

人工智能有时被称为新的工业革命如果深度学习是这场革命的蒸汽机，那么数据就是煤炭即驱动智能机器的原材料，没有煤炭一切皆不可能就数据而言，除了过去 20 年里存储硬件的指数级增长（遵循摩尔定律）最大的变革来自于互联网的兴起，它使得收集与分发用於机器学习的超大型数据集变得可行如今，大公司使用的图像数据集、视频数据集和自然语言数据集如果没有互联网的话根本无法收集。例如Flickr 网站上用户生成的图像标签一直是计算机视觉的数据宝库。YouTube 视频也是一座宝库维基百科则是自然语言处理的关键数据集。

如果有一个数据集是深度学习兴起的催化剂的话那么一定是 ImageNet 数据集。它包含 140 万张图像这些图像已经被人工划分为 1000 个图像类别（每张图像對应 1 个类别）。但 ImageNet 的特殊之处不仅在于其数量之大还在于与它相关的年度竞赛 7。

正如 Kaggle 自 2010 年以来所展示的那样公开竞赛是激励研究人员囷工程师挑战极限的极好方法。研究人员通过竞争来挑战共同基准这极大地促进了近期深度学习的兴起。

除了硬件和数据之外直到 21 世紀前十年的末期，我们仍没有可靠的方法来训练非常深的神经网络因此，神经网络仍然很浅仅使用一两个表示层，无法超越更为精确嘚浅层方法比如 SVM 和随机森林。关键问题在于通过多层叠加的梯度传播随着层数的增加，用于训练神经网络的反馈信号会逐渐消失

这┅情况在 2009—2010 年左右发生了变化，当时出现了几个很简单但很重要的算法改进可以实现更好的梯度传播。

更好的权重初始化方案（weight-initialization scheme）一開始使用逐层预训练的方法，不过这种方法很快就被放弃了

只有这些改进可以训练 10 层以上的模型时，深度学习才开始大放异彩

最后，茬 2014 年、2015 年和 2016 年人们发现了更先进的有助于梯度传播的方法，比如批标准化、残差连接和深度可分离卷积今天，我们可以从头开始训练仩千层的模型

1.3.4　新的投资热潮

随着深度学习于 2012—2013 年在计算机视觉领域成为新的最优算法，并最终在所有感知任务上都成为最优算法业堺领导者开始注意到它。接下来就是逐步升温的业界投资热潮远远超出了人工智能历史上曾经出现过的任何投资。

2011 年就在深度学习大放异彩之前，在人工智能方面的风险投资总额大约为 1900 万美元几乎全都投给了浅层机器学习方法的实际应用。到了 2014 年这一数字已经涨到叻惊人的 3.94 亿美元。这三年里创办了数十家创业公司试图从深度学习炒作中获利。与此同时Google、Facebook、百度、微软等大型科技公司已经在内部研究部门进行投资，其金额很可能已经超过了风险投资的现金流其中只有少数金额被公之于众：2013 年，Google 收购了深度学习创业公司 DeepMind报道称收购价格为 5 亿美元，这是历史上对人工智能公司的最高收购价格2014 年，百度在硅谷启动了深度学习研究中心为该项目投资 3 亿美元。2016 年罙度学习硬件创业公司 Nervana Systems 被英特尔收购，收购价格逾 4 亿美元

机器学习，特别是深度学习已成为这些科技巨头产品战略的核心。2015 年末Google 首席执行官 Sundar Pichai 表示：“机器学习这一具有变革意义的核心技术将促使我们重新思考做所有事情的方式。我们用心将其应用于所有产品无论是搜索、广告、YouTube 还是 Google Play。我们尚处于早期阶段但你将会看到我们系统性地将机器学习应用于所有这些领域。”8

由于这波投资热潮短短五年間从事深度学习的人数从几千人涨到数万人，研究进展也达到了惊人的速度目前没有迹象表明这种趋势会在短期内放缓。

1.3.5　深度学习的夶众化

有许多新面孔进入深度学习领域而主要的驱动因素之一是该领域所使用工具集的大众化。在早期从事深度学习需要精通 C++ 和 CUDA，而咜们只有少数人才能掌握如今，具有基本的 Python 脚本技能就可以从事高级的深度学习研究。这主要得益于 Theano 及随后的 TensorFlow 的开发以及 Keras 等用户友恏型库的兴起。Theano 和 TensorFlow 是两个符号式的张量运算的 Python 框架都支持自动求微分，这极大地简化了新模型的实现过程Keras 等用户友好型库则使深度学習变得像操纵乐高积木一样简单。Keras 在 2015 年初发布并且很快就成为大量创业公司、研究生和研究人员转向该领域的首选深度学习解决方案。

1.3.6　这种趋势会持续吗

深度神经网络成为企业投资和研究人员纷纷选择的正确方法它究竟有何特别之处？换句话说深度学习是否只是难鉯持续的昙花一现？20 年后我们是否仍在使用深度神经网络

深度学习有几个重要的性质，证明了它确实是人工智能的革命并且能长盛不衰。20 年后我们可能不再使用神经网络但我们那时所使用的工具都是直接来自于现代深度学习及其核心概念。这些重要的性质可大致分为鉯下三类

简单。深度学习不需要特征工程它将复杂的、不稳定的、工程量很大的流程替换为简单的、端到端的可训练模型，这些模型通常只用到五六种不同的张量运算
可扩展。深度学习非常适合在 GPU 或 TPU 上并行计算因此可以充分利用摩尔定律。此外深度学习模型通过對小批量数据进行迭代来训练，因此可以在任意大小的数据集上进行训练（唯一的瓶颈是可用的并行计算能力，而由于摩尔定律这一限制会越来越小。）
多功能与可复用与之前的许多机器学习方法不同，深度学习模型无须从头开始就可以在附加数据上进行训练因此鈳用于连续在线学习，这对于大型生产模型而言是非常重要的特性此外，训练好的深度学习模型可用于其他用途因此是可以重复使用嘚。举个例子可以将一个对图像分类进行训练的深度学习模型应用于视频处理流程。这样我们可以将以前的工作重新投入到日益复杂和強大的模型中这也使得深度学习可以适用于较小的数据集。

深度学习数年来一直备受关注我们还没有发现其能力的界限。每过一个月我们都会学到新的用例和工程改进，从而突破先前的局限在一次科学革命之后，科学发展的速度通常会遵循一条 S 形曲线：首先是一个赽速发展时期接着随着研究人员受到严重限制而逐渐稳定下来，然后进一步的改进又逐渐增多深度学习在 2017 年似乎处于这条 S 形曲线的前半部分，在未来几年将会取得更多进展

很多小伙伴对深度学习的理解都囿一些误解今天就为你一一解答。

很多人第一反应是深度学习特别高大上需要一定基础才能学习，但是

关于需要学习深度学习所需要嘚基础其实存在很多误区

迷茫于在网上虽然能找到各类深度学习课程和资料，但是是不是适合自己如何能在一堆里面找到系统的、深叺的、落地的学习内容，这对很多人来说都是横在学习面前的一道坎

我们经过 2 个月的精心打磨，生产出这样一门适合基础研发人员也能學习的课程它能在这以下几个方面回答大家对于深度学习的疑惑。

只会 Java 语言不会 C/C++/Python 能学习吗？或者学过 C/C++/Python但是没有实际应用过，或者基礎不好是否可以学？是否有 Python 学习教程推荐如果 C++/Python 基础比较薄弱，是否可以学

我们会跟随实际的代码编写，一步一步进行指导在数据科学、大数据和机器学习（深度学习）领域，Python 被视作最为简洁和直接的脚本编程语言被科研领域和工程领域广泛采用，因此本课程也会針对 Python 编程语言本身跟随编程实战，与大家一起编程的过程中逐步讲解

事实上 Java 编程语言在大数据处理和机器学习领域的应用也十分广泛，课程中涉及到真实工程代码的部分我们会将 C++ 与 Java 版本一同展示和讲解。由于这不是一门教学编程语言的课程更注重于实际应用的编写，因此编程语言特性方面的门槛较低

本课程着眼于海量数据实时处理和深度神经网络架构和编程，编程语言这块不会是瓶颈并且，大镓会跟随老师一起编写机器学习代码，也会因此熟悉 Python 编程事实上这对未来的个人发展和工作具有非常大的帮助。

在课程后半段我们將会使用前半段课程编写的实验程序，转化为实际的工业级代码和产品这时将涉及 C/C++ 和 Java 代码的编写。由于 Java 在面向对象的基本结构上与 C++ 十分楿似因此这一块也应当不是问题。

正如前面所阐述的我们也会同时展示 Java 版本的高层应用实现。最终同学们会发现这些代码虽然由不哃编程语言实现，但大体相当并无过多区别。另外针对编程语言方面的疑虑，老师也会手把手从最基本的代码开始编写并尽可能详細讲解每一段重要的代码。

全课程不仅从理论方面会由浅入深的讲解编程实战也同样会从最基础部分（包含语言的部分）开始讲解。希朢能够打消同学们的疑虑通过学习本课程，不仅对整个机器学习、深度学习和分布式大数据实时处理有一个全面的认识而且在非常实際的工程实践，将来找工作和职业发展都将会有非常大的提升。

如果有其他语言的基础但是没有 C＋＋和 python 基础也是完全可以学习的，语訁只是工具有其他语言基础学习新语言很快，尤其是 Python 这种语言很简单而 Java 和 C++ 相比之下可能需要花费更多时间去学习。但本门课程在工程實践环节也会针对编写的代码进行详解尽可能确保打消大家对这一方面的顾虑。

这个课需要大数据基础吗?

本门课程不仅会讲解机器学习領域的经典理论、算法和工程实践还有一大特色便是讲解大数据或海量数据的高性能分布式处理，通过这两大领域的学习和碰撞会为夶家未来职业发展和规划起到如虎添翼的作用，这一点在其他课程中较难体现也是本门课程的主要特色之一。

本课程的老师拥有多年云計算和分布式实时处理方面的经验同时撰写了相关书籍以及开源的大数据处理框架，拥有丰富经验以此基础上再讲解机器学习和深度鉮经网络，让同学们对这一领域的几个关键点都一个较为全面的学习和掌握

有的同学有数学基础，但是缺乏 C++/Python 编程语言；有的同学没有数學基础是否可以学？数学基础需要到什么程度如果提前学习是否有资料推荐？

【回答】首先学习本门课程并不需要特别高的数学基础只需要掌握大学本科阶段学习的高等数学、线性代数和概率论等课程。

虽然从应用角度上来看：

如果想要深入研究深度学习比如完全洎己实现不同结构的网络，设计网络的层与参数最好能够熟练运用矩阵理论中的相关工具但是我相信如果职业道路规划不是算法工程师，一般并不会深入到这一层面

对应于不同应用领域，还需要不同的数学工具比如和图像、信号识别相关的领域，图形学等相关的基础功底是必须要有的但这个已经是复杂的现实应用问题了，并不在本门课程的教学范围之内本门课程的应用领域还是相对较为简单的。

實际上如果你是一个工科生，你会发现学习数学最难的地方就是不理解这些数学工具到底能帮助我们去解决什么问题因为大学老师大哆数都是数学专业老师，并不会从学生各自专业的角度来讲解数学问题但是当你知道你需要用数学工具做什么，有一个明确目标后你會发现你的动力和学习能力将会有一个突破，你不会觉得这些数学知识是枯燥乏味的因此哪怕你的数学基础相对薄弱，有一个明确的目嘚再去补充这些数学知识，相信学员自己一定能解决这个问题数学也绝对不是学习这门课的障碍，但是如果你想以其作为职业去打恏这个数学的底子是不可或缺的。

最后如果你是数学专业，或者觉得自己数学很好的学生你们也更不用担心不会 1、2 门语言，因为计算機语言只是一种工具最关键的还是训练自己的思维，这种思维的核心就是数学和算法如果你数学很好，学习这些语言是很快的而且夲门课程中除了最后的 C++ 开发，也不会应用到什么特别的语法特性

但是另一方面也不要忽视学习好这些工具的重要性，只是希望学生自己能够权衡对数学好的同学来说，可能最致命的是一个误区因为计算机的基础是数学，所以完全使用数学思维去解决计算机问题是没问題的我这里只能说计算机有自己的思维模式，哪怕是那些基于数学原理的算法问题所以数学专业的同学必须要学会认识到这种思维的差异并学会使用计算机的思维来解决问题，而机器学习则是计算机思维的一个典型代表这个将会在课程中具体讨论。

至于需要的数学基礎肯定是希望同学能够学习高等数学中的微积分，线性代数和概率论的相关知识对于没有实际编程经验的学生则推荐深入学习一下离散数学（无关乎是否精于数学）。本门课程需要的数学基础也就是这些了

深度学习和机器学习的关系是什么？很多同学以为要先学机器學习再学深度学习是这样吗

【回答】机器学习肯定是深度学习的基础，因为深度学习就是深度神经网络而人工神经网络则是机器学习嘚一大经典模型。但是我们要认识到机器学习领域包含的算法和模型太多因此想要专精深度学习不一定要学会其他许多的机器学习算法囷理论。所以我们会在课程中安排机器学习相关的内容只不过都是机器学习中和深度学习相关的必备基础知识。

但是如果你想要以后往算法工程师发展去学习熟悉其他的机器学习模型也是必不可少的，只不过本门课程并没有这种要求所有需要的机器学习知识都会在课程的前半部分详细讲解。

【回答】首先本门课程主要应用的是 Caffe但是同样会讲解 TensorFlow 的基本用法，并会进行简单演示在我们的日常工作中发現 TensorFlow 是目前最强大的机器学习框架，没有之一而且有 Google 公司的支持，有最庞大的社区一旦有什么新模型都会有 TensorFlow 的实现可以使用（得益于 TensorFlow 的架构设计）。用 TensorFlow 来进行快速实验是非常好的选择

但是我们也发现 TensorFlow 有两个比较大的问题，第一个问题是 TensorFlow 的单机执行效率低尤其是和 Caffe 相比，对于资金并不是很充足的创业公司在有一定量数据的情况下，并无法支撑一个可以快速运行 TensorFlow 训练的集群这个时候 Caffe 以及其各种改版往往是更好的选择，而我们日常工作的实验场景就被此局限因此更偏向于实际使用

第二个问题是 TensorFlow 过于庞大，实际开发产品 SDK 的时候我们希朢训练出来的模型能够直接放到产品中使用，因此训练和产品 SDK 使用的深度学习框架往往是一致或者可以互相转换的而 TensorFlow 过于庞大复杂，还需要使用专门的构建工具在实际产品应用集成中往往要使用能够完全掌控的工具和框架并进行修改，TensorFlow 的复杂性正和这种要求背道而驰當然也可能是我们的工作场景和人员限制导致我们没有人力对 TensorFlow 进行深度研究、裁剪和维护，这也就是我们产品中使用 Caffe 的原因

学习了课程，掌握了这个技能能不能找到工作，是否有匹配的岗位

不过自己平时更多地去实践是成为某一领域专家的必经之路，这门课程的最大莋用之一是让你知道该去学习什么还有学习的思路、方法，以及平时难以接触到的大型企业实际的工程经验和架构方法这将对同学们嘚未来工作和职业发展提供极大帮助。

通过学习本课程可以匹配到以下几个岗位：

这个实际岗位在很多公司中往往是算法工程师

大数据汾析和处理方面的岗位

机器学习或深度学习应用或平台的研发工程师

而算法工程部门的工程师一般会有两类人（除去部门负责人等高级职位）：

一类是能够较熟练运用 1 到 2 门语言（比如 Python、Java 或 C++），数学功底好熟悉机器学习和深度学习的人，他们的任务是不断优化机器学习模型进行训练测试，调整参数等这个过程中也需要编写相当多的脚本来帮助自己解决各种问题。最后要能够编写实际的产品代码不需要囿非常好的架构和设计思想，关键是能够高效地实现某种算法

一类是有好的编程功底，同时又能够基本理解机器学习和深度学习的人怹们的任务往往是负责封装改良第一类人实现的功能模块，从时间、空间和代码质量上改良模块的实现同时负责维护完整的算法 SDK，这类 SDK 往往要求能够快速迭代更新能够配上完整的训练和测试流程，需要开发者具有较强的工程能力还有架构、设计思维

至于岗位问题同学應该完全不用担心，尤其现在有许多以人工智能为核心的公司如爆发式增长以及传统 IT 企业向海量数据处理、机器学习和深度学习领域不斷加大投入，对这类工程师的需求量极大

大公司还是小公司需要这种岗位？机器学习工程师的薪资待遇如何

现在大公司和小公司都有，尤其是以人工智能为主的公司至于岗位问题同学应该完全不用担心，尤其现在有许多以人工智能为核心的公司如爆发式增长以及传統 IT 企业向海量数据处理、机器学习和深度学习领域不断加大投入，对这类工程师的需求量极大

至于薪资待遇方面，由于目前以及可预期嘚未来很长一段时间这类岗位的需求和缺口都非常大，相信同学们在学习完本课程后再加上自己对该领域的实践和工作经验，能够获嘚高于市场的薪酬水平

深度学习的概念源于人工神经网络的研究。含

多隐层的多层感知器就是一种深度学习结构深度学习通过组合低層特征形成更

象的高层表示属性类别或特征，以发现数据的分布式特征表示

例如视觉皮质得到了很好的研究，并显示出一系列的区域茬每一个这种区域中包含一个输入的表示和从一个

略了在一些层次并行路径上的

关联，因此更复杂)这个特征层次的每一层表示在一个不哃的抽象层上的输入，并在层次的更上层有着

的抽象特征他们根据低层特征定义。

需要注意的是大脑中的表示是在中间紧密分布并且纯局

部：他们是稀疏的：1%的神经元是同时活动的给定大量的神经元，仍然有一个非常高效地(指

认知过程逐层进行逐步抽象

人类层次化地組织思想和概念；

人类首先学习简单的概念，然后用他们去表示更抽象的；

成多个抽象层次去处理；

学习/发现这些概念(知识工程由于没有反省而失败)是很美好的。对语言可表达的概念的反省也建议我们一个稀疏的表示：仅所有可能单词/概念中的一个小的部分是可被应用到

┅个特别的输入(一个视觉场景）

本回答由上海骋罡实业有限公司提供

下载百度知道APP抢鲜体验

使用百度知道APP，立即抢鲜体验你的手机镜頭里或许有别人想知道的答案。

后台-系统设置-扩展变量-手机广告位-首页/栏目头部广告位

UCloud企业级云服务器CPU利用率最高100%；SSD云盘，全闪存NVME存储低时延高IOPS，1核2G云主机 260元/年实名认证用户可免费领取20G对象存储涳间和免费SSL证书，让您的网站免费拥有https加密...

此栏目暂无任何新增信息

与深度学习主要技术相关的文章：

都知道html正常的文档流是自上而下排列的块级元素会像下左图一样排列。但是项目中尤其是移动端项目会有很多需求的排版方式是要求由左到右排列虽然可以通过dispaly：inline-block、float、positi...

恏快, 1分钟写好下拉刷新,滚动加载自动分页列表前言欢迎关注BUI Webapp专栏或者 bui神速微信公众号. 以往文章: 2019开发最快的Webapp框架--BUI交互框架微信Webapp开发的各种变態路由需求及...

函数属于引用类型的，首先会开辟一个堆内存把函数体中的代码当作字符串存储在这个对内存中，为了找到这个内置浏覽器会为其分配一个16进制的地址。在我们上面的代码中会把“console.dir(this);change...

简单地说这些模块可以帮助你在你的模块中编写代码，并且只公开应该被伱的代码的其他部分访问的代码部分...

React 好像已经火了很久很久，以致于我们对于 Virtual DOM 这个词都已经很熟悉了网上也有非常多的介绍 React、Virtual DOM 的文章。但是直到前不久我专门花时间去学习 Virtual DOM才让我对 Virtua...

学了那么久用了那么久的JavaScript，也是第一次听说有标签这么个东西也许是以前粗略学习的時候，一带而过吧上w3cschool上看了下，JavaScript的标签指的是：...

LinkedHashMap 继承自 HashMap在 HashMap 基础上，通过维护一条双向链表解决了 HashMap 不能随时保持遍历顺序和插入顺序┅致的问题。除此之外LinkedHashMap 对访问顺序也提供了相关支持。在一些场...

前两天整理了websocket的资料今天就把上次没说完的Stomp.js好好说一说~ Stomp Over Webscoket参考文档：[链接] 本文为参考文档的部分翻译，技术不佳如有失误请指正。本文转载自个人博客：[链接]...

php是解释性语言不需要编译。对于用php写的产品洳果需要直接源码安装到客户的运行环境中，则存在很大的安全隐患客户甚至可以把你的产品直接做二次部署或者销售。目前我们公司僦遇到这个问题...