当前位置:网站首页>李宏毅老师2020年深度学习系列讲座笔记5
李宏毅老师2020年深度学习系列讲座笔记5
2022-07-20 16:09:00 【ViviranZ】
瞎看吧。。。。至少做个笔记
https://www.bilibili.com/video/BV1UE411G78S?from=search&
1. On-policy & off-policy
如果是一边玩一边学习就是on 如果是站一边看别人玩学习那就是off
随便一点,是不是就是一边打怪一边增长经验和先看别人怎么打怪偷师的区别?
之前我们用的gradient descent是on-policy的,这是因为我们每一次都要更新\theta,因此我们是一边往前走一边不断更新自己。但是我们想要尽量用off-policy,因为这样的话每一个data(状态、函数和选择等)都可以用很多次,(on-policy的每一次运算都是用完了立刻丢掉了)
一个技巧:【importance sampling】(不是RL专用的,很常见】
很多时候,我们想研究的真实的x的distribution/p(x)/和我们能得到的x'的q(x)是不一样的,因此我们需要对于原本E(X)的计算公式修改(否则计算出来的是和q(x)相关而不能体现p(x)的特点)。
我们采用的公式就是f(x)*p(x)/q(x)在q(x)决定的trajectory上求期望的方法,这个关键在于当q(x)=0时的x需要满足p(x)=0,也就是对于q(x)有一些限制。
此外,在我们讲为什么要用importance sampling之前我们再讲一点相关的知识。在实际应用中,p(x)和q(x)还是不能差别太大,这是因为虽然二者期望一样但是方差等其他信息还是有差别的。所以一旦取样取得不够多或者不够好很有可能因为方差而导致得到的结果差别很大。
小总结:
又来推公式啦
主要应用就是derivative和条件概率的公式,不加赘言。关键在于红线花掉的那个比例,为什么去掉可以有三种理解方式:
1.本身state出现的概率和trajectory和action关系都不大,因此可以忽略
2.实际应用中有些state甚至只会出现一次(比如图像识别)因此很难求p_\theta 和p_\theta',因此干脆自己洗脑说这个不重要= =
3.可以理解为a和s独立,因此条件概率和联合概率相等(本质上也是1.)
如何保证\theta和\theta'足够相似呢??——————PPO!
下面讲讲PPO和它的前身TRPO,具体方法就是加一个类似regularation(ML的)的项\beta KL(\theta,\theta')。TRPO是改成了一个constraint,结果差不多但是实际应用TRPO难度大得多。
KL不是参数距离而是result的距离
具体算法如下:
clip:截断函数,把第一项的分数函数截断到1-\epsilon 和1+\epsilon之间。
A>0时候,我们想尽量把p_\theta / p_\theta^k增大,因此就像红线那样尽量大到1+\epsilon;A《0时候,我们想尽量把p_\theta / p_\theta^k压小,因此就像红线那样尽量压到1-\epsilon;
最后show一下PPO的方法与别的方法的结果比较:
边栏推荐
- Debian 9 下编译安装PHP及配置
- 敏捷BI到底与传统BI有何不同?
- July training (day 20) - binary search tree
- redis cluster搭建
- codeforces round #805 ABCDEFG
- find_var.sh
- wmware启用虚拟化功能报错
- %s、%1$s、%d、%1$d占位符
- AI helps double carbon goal: let every kilowatt hour be optimized by us
- Force deduction ----- how many numbers are smaller than the current number
猜你喜欢
MySQL on delete cascade [tutorial]
Debezium 从oracle抓取数据到kafka
openGauss内核分析:查询重写
视频聊天源码——一对一直播系统源码
JS-----第二章 js逻辑控制
[wechat applet] xxxxx is not in the following list of socket legal domain names, please refer to the document
influxdb查询时间戳问题
User experience | deeply cultivate user experience and build a moat for bank competition
如何将过长的链接放到excel里面
TMECH发表优必选运控技术最新进展:实现人形机器人高鲁棒性行走
随机推荐
Google Earth Engine ——neighborhoodToBands函数的使用
JS-----第五章 函数及事件
李宏毅2020机器学习深度学习笔记2
hyperledger fabric1.0整体架构与记账逻辑架构的分析
bug汇总
深度学习基础与实践课程笔记0&1
codeforces educational round 131 ABCDEF
会员数继续下滑,Netflix能靠广告突围吗?
Wpf 多指应用开发解析
Linked list (V) -- delete the penultimate node of the linked list
【延期公告】2022年触觉与虚拟现实国际会议(ICHVR 2022)
如何有效规避代码被“投毒”?
遮天三部曲
21_生命周期
有关贝叶斯概率和贝叶斯网络和贝叶斯因果网络的自习笔记
半导体新晋独角兽,TCL刚刚投了18亿
.net Redis客户端NewLife.Redis.Core库的使用
find_var.sh
Vite3.0都发布了,你还能卷得动吗(新特性一览)
单元测试,写起来到底有多痛?你会了吗