江开江苏开放大学强化学习★★综合大作业最新答案

试题列表
单选题
题型：单选题客观题分值5分难度：简单得分：5
1
在epsilon-greedy算法中，epsilon的值越大，采取随机动作的概率越()，采用当前Q函数最大动作的概率越(）。
A
小，小
B
大，小
C
大，大
D
小，大
学生答案：B
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
2
在强化学习的过程中，(）能够在稍微偏离目前最好策略的基础上，尝试更多策略，(）能够运用目前最好的策略，获取更高的奖励。
A
利用，探索
B
探索，利用
C
利用，输出
D
探索，输出
学生答案：B
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
3
Q(s,a)是指在给定状态s的情况下，采取行动a之后，后续的各个状态所能得到的回报(）
A
总和
B
最大值
C
最小值
D
期望值
学生答案：D
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
4
Q-learning算法中，Q函数是（）。
A
状态-动作值函数
B
状态函数
C
估值函数
D
奖励函数
学生答案：A
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
5
在强化学习过程中，学习率越大，表示采用新的尝试得到的结果比例越()，保持旧的结果的比例越()
A
大，小
B
大，大
C
小，大
D
小，小
学生答案：A
老师点评：
多选题
题型：多选题客观题分值5分难度：简单得分：5
1
强化学习包含的元素有（）。
A
Reward
B
Agent
C
State
D
Action
简答题
题型：简答题主观题分值50分难度：简单得分：50
1
请利用DDPG算法实现钟摆游戏Pendulum-v1，需要在答案区附上训练和测试曲线，包括训练时的奖励曲线图（20分）和测试时的奖励曲线区图（20分），并进行结果分析（10分）。