当前位置:网站首页>李宏毅《机器学习》丨3. Gradient Descent(梯度下降)
李宏毅《机器学习》丨3. Gradient Descent(梯度下降)
2022-07-19 14:35:00 【InfoQ】
一、误差来源
1.1 欠拟合和过拟合

- 如果模型在训练集上的偏差过大,也就是欠拟合。解决方法:重新设计模型;考虑更多次幂、更复杂的模型。
- 如果模型在训练集上得到很小的误差,但在测试集上得到大的误差,这意味着模型可能是方差比较大,就是过拟合。解决方法:加入更多的数据;正则化处理。
1.2 模型选择
- 交叉验证(Cross Validation):将训练集再分为两部分,一部分作为训练集,一部分作为验证集。用训练集训练模型,然后在验证集上比较,选择出最好的模型,然后用全部的训练集训练这个最好的模型。
- N-折交叉验证(N-fold Cross Validation):将训练集分成N份,将这N份训练集分别训练,然后求出Average误差,选择Average误差最小的模型,将用全部训练集训练这个平均误差最小的模型。
二、梯度下降
- :损失函数(Loss Function)
- :参数(parameters)(表示一组参数,可能不止一个)
2.1 调整学习率

2.2 梯度下降法优化
- SGD(Stochastic Gradient Descent,随机梯度下降)
- Adagrad(Adaptive gradient,自适应梯度)学习原理:将每一维各自的历史梯度的平方叠加起来,然后更新的时候除以该历史梯度值这样每一个参数的学习率就与它们的梯度有关系了,那么每一个参数的学习率就不一样了缺点:容易受到过去梯度的影响,导致学习率下降很快,能学到的更多知识的能力也越来越弱,就会提前停止学习。
- RMSProp(root mean square prop,均方根)学习原理∶在自适应梯度基础上引入了衰减因子,在梯度累积的时候,会对“过去”与“现在”做一个平衡,通过超参数进行调节衰减量。适合处理非平稳目标(也就是与时间有关的),对于RNN效果很好。
- Adam(Adaptive momentum optimization,自适应动量优化)是目前深度学习中最流行的优化方法,它结合了自适应梯度善于处理稀疏梯度和均方根善于处理非平稳目标的优点,适用于大数据集和高维空间。
2.3 特征缩放

三、梯度下降的限制
- 容易陷入局部极值(local minimal);
- 卡在不是极值,但微分值是0的地方(驻点);
- 微分值接近于0就停下来,但这里只是比较平缓,并不是极值点。

四、总结
边栏推荐
- 双亲委派模型和破坏性双亲委派模型详解
- Detailed instructions of nitric oxide (no) content detection kit abbkine
- ID生成器实现方式的优缺点比较以及最优的ID生成器原理剖析
- Task+server will forward missed calls to the official number
- OpenSMax: Unknown Domain Generation Algorithm Detection ECAI2020开放集识别论文解读
- 微信授权登录
- Centernet网络结构搭建
- ProSci人细胞系 I 印迹丨人类免疫研究
- 从多线程角度分析QPS、TPS等基础概念
- 小程序毕设作品之微信预约订座小程序毕业设计(1)开发概要
猜你喜欢
乳酸脱氢酶(LDH)活性检测试剂盒 丨Abbkine详细说明书
Zero copy is really important!!!
Learning Deep Classifiers Consistent With Fine-Grained Novelty DetectionCVPR2021开放集识别论文解读
OpenSMax: Unknown Domain Generation Algorithm Detection ECAI2020开放集识别论文解读
人类细胞研究:ProSci LAG-3重组蛋白方案
二进制、八进制、十进制、十六进制之间的转换
小程序毕设作品之微信预约订座小程序毕业设计(1)开发概要
How does redis analyze slow query operations?
SVM的核函数详解
Human cell research: prosci LAG-3 recombinant protein scheme
随机推荐
Oom Memory overflow a classic That Must See in Real Games
消息中间件如何确保消息100%投递成功及消息的幂等性设计
响应式织梦模板装修装饰设计类网站
小程序毕设作品之微信小程序点餐系统毕业设计(7)中期检查报告
FRP实现内网穿透通过公网服务器实现对外暴露内网服务
Deeply analyze the underlying implementation principle of serialization and deserialization
crontab定时任务通过脚本执行jar过程中,遇到jar包执行无效的坑
用REM/VW单位进行移动端适配的最佳实现
Detailed explanation of kernel function of SVM
mongodb数据库
Promise notes
@RequestParam,@PathParam,@PathVariable等注解区别(部分注解的使用)
Centernet网络结构搭建
小程序毕设作品之微信预约订座小程序毕业设计(6)开题答辩PPT
C语言核心知识梳理
Detailed explanation of parental delegation model and destructive parental delegation model
脂肪因子研究:ProSci脂联素和CTRPs 1-7检测套装
人类细胞研究:ProSci LAG-3重组蛋白方案
MATLAB学习第五天(循环类型)
Interactive drawing of complex tables from the perspective of app