feat: 优化DQN训练配置并支持Dueling网络评估
- 将学习率调整为5e-5,批次大小增加到64,经验回放缓冲区扩大到500,000 - 启用优先经验回放,调整目标网络更新频率为1000步 - 评估时使用Dueling网络架构,训练时评估模式的ε设为0 - 更新评估结果以反映配置改进后的性能变化
This commit is contained in:
@@ -26,11 +26,11 @@ def main():
|
||||
|
||||
# 训练参数
|
||||
parser.add_argument("--steps", type=int, default=2_000_000, help="总训练步数")
|
||||
parser.add_argument("--lr", type=float, default=1e-4, help="学习率")
|
||||
parser.add_argument("--lr", type=float, default=5e-5, help="学习率")
|
||||
parser.add_argument("--gamma", type=float, default=0.99, help="折扣因子")
|
||||
parser.add_argument("--batch-size", type=int, default=32, help="批次大小")
|
||||
parser.add_argument("--batch-size", type=int, default=64, help="批次大小")
|
||||
parser.add_argument(
|
||||
"--buffer-size", type=int, default=200_000, help="经验回放缓冲区大小"
|
||||
"--buffer-size", type=int, default=500_000, help="经验回放缓冲区大小"
|
||||
)
|
||||
|
||||
# ε-greedy参数
|
||||
@@ -42,7 +42,7 @@ def main():
|
||||
|
||||
# 网络参数
|
||||
parser.add_argument(
|
||||
"--target-update", type=int, default=500, help="目标网络更新频率"
|
||||
"--target-update", type=int, default=1000, help="目标网络更新频率"
|
||||
)
|
||||
parser.add_argument(
|
||||
"--double-dqn", action="store_true", default=True, help="使用Double DQN"
|
||||
@@ -68,7 +68,7 @@ def main():
|
||||
|
||||
# 优先经验回放
|
||||
parser.add_argument(
|
||||
"--prioritized", action="store_true", default=False, help="使用优先经验回放"
|
||||
"--prioritized", action="store_true", default=True, help="使用优先经验回放"
|
||||
)
|
||||
|
||||
# 其他
|
||||
|
||||
Reference in New Issue
Block a user