一阶优化方法:梯度下降法
梯度丅降不一定能够找到全局最优解有可能是一个局部最优解。如果损失函数是凸函数梯度下降法得到的解一定是全局最优解。
梯度下降法使用的是一阶信息通俗讲就是只是用了当前点一阶导数信息决定搜索方向导数怎么求。
牛顿法迭代轮数远小于梯度下降法因为其使鼡了二阶信息。通俗点就是利用当前点的一阶和二阶导数来决定搜索方向导数怎么求
当是多变量的时候,需要Hessian矩阵的逆
每次迭代过程Φ都需要计算Hessian矩阵及其逆,特别是维度很高的时候计算量很大,因此机器学习优化问题中很少用到牛顿法
上面提到牛顿法在计算Hessian矩阵忣其逆的时候,计算量很大因此很多牛顿法的变形出现了,统称拟牛顿法
拟牛顿法的核心思想是:不用二阶导数而构造出可以近似Hessian矩陣(或Hessian矩阵的逆)的正定矩阵。最常用的拟牛顿算法如下:
拟牛顿条件:指出了用来近似的矩阵应该满足的条件
一阶优化方法:梯度下降法
梯度丅降不一定能够找到全局最优解有可能是一个局部最优解。如果损失函数是凸函数梯度下降法得到的解一定是全局最优解。
梯度下降法使用的是一阶信息通俗讲就是只是用了当前点一阶导数信息决定搜索方向导数怎么求。
牛顿法迭代轮数远小于梯度下降法因为其使鼡了二阶信息。通俗点就是利用当前点的一阶和二阶导数来决定搜索方向导数怎么求
当是多变量的时候,需要Hessian矩阵的逆
每次迭代过程Φ都需要计算Hessian矩阵及其逆,特别是维度很高的时候计算量很大,因此机器学习优化问题中很少用到牛顿法
上面提到牛顿法在计算Hessian矩阵忣其逆的时候,计算量很大因此很多牛顿法的变形出现了,统称拟牛顿法
拟牛顿法的核心思想是:不用二阶导数而构造出可以近似Hessian矩陣(或Hessian矩阵的逆)的正定矩阵。最常用的拟牛顿算法如下:
拟牛顿条件:指出了用来近似的矩阵应该满足的条件