feat: 优化DQN训练配置并支持Dueling网络评估

- 将学习率调整为5e-5,批次大小增加到64,经验回放缓冲区扩大到500,000
- 启用优先经验回放,调整目标网络更新频率为1000步
- 评估时使用Dueling网络架构,训练时评估模式的ε设为0
- 更新评估结果以反映配置改进后的性能变化
This commit is contained in:
2026-05-02 11:36:12 +08:00
parent faf0d5ea42
commit 79ffb90823
11 changed files with 58 additions and 46 deletions
@@ -26,11 +26,11 @@ def main():
# 训练参数
parser.add_argument("--steps", type=int, default=2_000_000, help="总训练步数")
parser.add_argument("--lr", type=float, default=1e-4, help="学习率")
parser.add_argument("--lr", type=float, default=5e-5, help="学习率")
parser.add_argument("--gamma", type=float, default=0.99, help="折扣因子")
parser.add_argument("--batch-size", type=int, default=32, help="批次大小")
parser.add_argument("--batch-size", type=int, default=64, help="批次大小")
parser.add_argument(
"--buffer-size", type=int, default=200_000, help="经验回放缓冲区大小"
"--buffer-size", type=int, default=500_000, help="经验回放缓冲区大小"
)
# ε-greedy参数
@@ -42,7 +42,7 @@ def main():
# 网络参数
parser.add_argument(
"--target-update", type=int, default=500, help="目标网络更新频率"
"--target-update", type=int, default=1000, help="目标网络更新频率"
)
parser.add_argument(
"--double-dqn", action="store_true", default=True, help="使用Double DQN"
@@ -68,7 +68,7 @@ def main():
# 优先经验回放
parser.add_argument(
"--prioritized", action="store_true", default=False, help="使用优先经验回放"
"--prioritized", action="store_true", default=True, help="使用优先经验回放"
)
# 其他