梯度下降法介绍 | 记忆填埋场

记忆填埋场

ᕕ(◠ڼ◠)ᕗ

梯度下降法介绍

2023-3-9

| 2024-3-4

字数 637阅读时长≈ 2 分钟

type

Post

status

Published

date

Mar 9, 2023

slug

summary

简单介绍梯度下降的原理

tags

机器学习

Deep Learning

category

Documents

icon

password

什么是梯度下降法？ - 知乎

知乎，中文互联网高质量的问答社区和创作者聚集的原创内容平台，于 2011 年 1 月正式上线，以「让人们更好的分享知识、经验和见解，找到自己的解答」为品牌使命。知乎凭借认真、专业、友善的社区氛围、独特的产品机制以及结构化和易获得的优质内容，聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群，已成为综合性、全品类、在诸多领域具有关键影响力的知识分享社区和创作者聚集的原创内容平台，建立起了以社区驱动的内容变现商业模式。

https://www.zhihu.com/question/305638940

[论文阅读] 综述梯度下降优化算法

论文标题：《An overview of gradient descent optimization algorithms》论文链接： https://arxiv.org/pdf/1609.04747主要讲述常见的梯度下降优化算法的变化过程，包括SGD、Momentum、NAG、AdaGrad、RMSProp/Ad…

https://zhuanlan.zhihu.com/p/110104333

[论文阅读] 综述梯度下降优化算法

最小二乘问题的四种解法——牛顿法，梯度下降法，高斯牛顿法和列文伯格-马夸特法的区别和联系

在SLAM的过程中，我们可以构建机器人状态过程。通过对其概率的计算，最终将问题转化为了求最大似然估计的问题。 yc zhang：贝叶斯理论在SLAM状态估计中的应用最终，可以将问题转换为求解最小二乘的问题。那么如何…

https://zhuanlan.zhihu.com/p/113946848

最小二乘问题的四种解法——牛顿法，梯度下降法，高斯牛顿法和列文伯格-马夸特法的区别和联系

1. 梯度下降

梯度下降法用来计算函数的最小值.

1.1. 二维函数梯度下降

比如需要计算函数的最小值, 如果不从经验上获知其最小值, 如何通过迭代来计算呢?

notion image

首先需要设置一个起点 , 假设 .

此时函数的梯度如下

由于这个梯度是一个一维向量, 并且在轴的向量指向函数增长最快的方向, 求梯度下降的目的是找到函数增长最慢的方向, 也就是反方向 .

另外 (Nabla算子) 是向量微分算子, 定义为 .

notion image

这时候将当前值 , 将其看做向量, 与梯度的反方向相加, 就可以获得下一个值的位置.

这里的表示为步长 (学习率), 用来控制采样点移动距离. 步长的设定是凭借经验的, 过小收敛较慢, 过大会无法收敛. 这里设定 .

notion image

此时的采样点来到了的位置.

notion image

开始迭代

迭代方法同上

notion image

1.2. 三维函数梯度下降

找到函数的最小值, 函数三维图和等高线如下.

notion image

设置初始点 , 此时梯度为:

设置 , 可以计算出下一点的向量

开始迭代

方法同上

notion image

1.3. 深度学习中的梯度下降

模型训练过程中, 需要计算的是损失函数的最小值

而在深度学习的优化算法中不同的梯度下降算法如下图所示

notion image

拿随机梯度下降算法举例, 是每个样本的损失函数, 表示一个输入为和初始参数的函数, 表示 GT 值.

其中的梯度计算是先计算样本数据的平均损失, 但是损失函数中有作为优化参数, 也就是说函数变为了以为未知数的函数, 对求偏导, 之后带入获得梯度参数 .

之后更新 .

作者:sun510001
链接:https://www.sqf.icu/article/f6cb80f3-f00a-4328-8c7e-b95013554fee
声明:本文采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。

相关文章 :

标签:

机器学习

Deep Learning

威联通QNAP Nas 搭建Gitea代码托管平台火绒阻止 windows 更新

Loading...

目录

0%