当前位置:网站首页>李宏毅老师2020年深度学习系列讲座笔记3
李宏毅老师2020年深度学习系列讲座笔记3
2022-07-20 16:09:00 【ViviranZ】
瞎看吧。。。。至少做个笔记
https://www.bilibili.com/video/BV1UE411G78S?from=search&seid=11796990666136537025
Learning to Interact with Envs
强化学习关键点:
在环境(environment/state)的影响下产生action,action会影响接下来的环境。
不能完全copy模板,1.copy的话reward有上界-永远不能超过模板 2.可能会学一些不相关的有的没的的行为(Behavior Cloning);更可怕的是很多时候不能全学习,在选择那些更重要更应该学习的时候就失败了。
强化学习的本质问题:
本身对于一个trajectory想要得到一个reward,但是reward函数里面有一些参数是不知道的,因此我们想要通过强化学习给出这些参数
口诀:如果发现不能微分就用policy gradient硬train一发
√critic:
老师给了一个很有意思的例子,是棋魂里面的
如何确认reward的function呢?
a.蒙特卡洛算法
TD方法:
不用玩到最后了,只要再往后玩一步,通过两个value的插值让它尽量接近………………
运用MC和TD的方法:
详细讲讲:
搜论文“Rainbow”
√actor-critic:
只要actor不是根据环境 而是根据critic的反馈学习的都可以叫做actor-critic
经常出现一个问题:实际生活中不像游戏会有一个明确的规则,比如自动驾驶,撞到人给-100分?那么撞到狗呢?这是不确定的;如果一个机器人目标设定是尽可能快地把碗摆放整齐,它有可能直接摔然后碗全碎掉了。。。因此我们有IRL
具体方法:
老师玩一次学生玩一次-定一个reward function让学生的reward比老师低-学生修改使得分高之后-reward function也相应修改-继续学
边栏推荐
猜你喜欢
Machine learning - detailed derivation of support vector machine theory (including explanation of examples) (I)
链表(五)——删除链表的倒数第N个节点
百度网盘 yundetectservice.exe可以禁用关闭吗
Some easily confused pointers [summary direction]
在 Excel 内使用 ODBC 消费 SAP ABAP CDS view
7月《中国数据库行业分析报告》发布!居安思危,安全先行
视频聊天源码——一对一直播系统源码
【延期公告】2022年触觉与虚拟现实国际会议(ICHVR 2022)
北森招股书:赛道优势凸显,一体化+中大客户是加分项
遮天三部曲
随机推荐
使用系统自带SQLite
如何将过长的链接放到excel里面
21_生命周期
一、MFC介绍
深度学习基础与实践课程笔记0&1
IBM MQ运维使用手册
力扣------有多少小于当前数字的数字
Analysis of the overall architecture and accounting logic architecture of hyperledger fabric 1.0
K3s部署rancher
find_var.sh
Matlab基本语法(二)
链表(五)——删除链表的倒数第N个节点
单片机外部中断触发方式:电平触发和边沿触发两者说明
yaml编写规则以及YAML和JSON对比
MySQL on delete cascade [tutorial]
class, classloder, dex 详解
Understand the secondary node of industrial Internet identity analysis
2022 Niuke summer school first adji
oracle使用ogg导出数据到kafka
91.(leaflet篇)leaflet态势标绘-进攻方向绘制