江开江苏开放大学强化学习★★形考作业3最新答案

内容查看
查看价格30

试题列表
单选题
题型:单选题客观题分值5分难度:简单得分:5
1
蒙特卡罗方法最大的问题是()
A
偏差大
B
偏差小
C
方差小
D
方差大
学生答案:D
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
2
DDPG算法是()算法和()算法的结合。
A
DPG AC
B
DP AC
C
Sarsa Q-learning
D
AC Q-learning
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
3
以下说法是否正确:确定性策略梯度法(DPG)可以处理连续性动作空间的任务,但是无法直接从高维输入中学习策略。
A
正确
B
错误
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
4
DQN中用到的技巧有()。
A
目标网络、利用 、经验回放
B
目标网络、探索、经验回放
C
Q网络、利用 、经验回放
D
V网络、探索 、经验回放
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
5
DDPG算法一共有()个神经网络。
A
1
B
2
C
3
D
4
学生答案:D
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
6
以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。
A
正确
B
错误
题型:单选题客观题分值5分难度:简单得分:5
7
以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。
A
正确
B
错误
多选题
题型:多选题客观题分值5分难度:简单得分:5
1
DQN只能处理()、()的动作空间。
A
低维
B
高维
C
离散
D
连续
题型:多选题客观题分值5分难度:简单得分:5
2
DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。
A
深度学习的Sarsa
B
当前网络
C
深度学习的Q-learning
D
经验回放
题型:多选题客观题分值5分难度:简单得分:5
3
DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。
A
某个状态st
B
在st采取的动作at
C
得到的奖励rt
D
下一步采取的动作at+1
E
进入的下一状态st+1
题型:多选题客观题分值5分难度:简单得分:5
4
DQN中的评论员采用Q函数的话, 它的两种写法是()。
A
输入状态和动作,输出一个标量。
B
输入状态和动作,输出多个值。
C
输入一个状态,输出多个值。
D
输入一个状态,输出一个标量。
题型:多选题客观题分值5分难度:简单得分:5
5
随机策略梯度方法具有以下缺点()。
A
即使学到了随即策略,在每一步动作时,还需要对得到的最优策略概率分布进行采样,才能获得具体的动作值。频繁采样非常耗费计算力。
B
每一步计算策略梯度都需要在整个动作空间进行积分,耗费计算力。
C
最优策略是输出确定性动作。
D
最优策略只有一个。
简答题
题型:简答题主观题分值20分难度:简单得分:20
1
DDPG是on-policy还是off-policy,请给出原因(至少两条,每条10分,两条及以上满分)。
题型:简答题主观题分值20分难度:简单得分:20
2
请简述一下DDPG算法?(应包含内容:DDPG网络的结构,输出,相对于DPG的优化目的,至少3个方面的含义,少于三个方面时,每写出一方面得5分,三个方面及以上得满分)

0
觉得这篇文章对你有用的话,就打赏一下支持文章作者
课程作业辅导,点击图片加微信,有偿服务

评论0

本站非花好月圆网,是花好月圆资料网,如果购买了花好月圆的会员,请到花好月圆网消费
没有账号? 注册  忘记密码?

社交账号快速登录