feat: 优化DQN训练配置并支持Dueling网络评估

- 将学习率调整为5e-5，批次大小增加到64，经验回放缓冲区扩大到500,000 - 启用优先经验回放，调整目标网络更新频率为1000步 - 评估时使用Dueling网络架构，训练时评估模式的ε设为0 - 更新评估结果以反映配置改进后的性能变化
2026-05-02 11:36:12 +08:00
parent faf0d5ea42
commit 79ffb90823
11 changed files with 58 additions and 46 deletions
@@ -26,11 +26,11 @@ def main():

    # 训练参数
    parser.add_argument("--steps", type=int, default=2_000_000, help="总训练步数")
-    parser.add_argument("--lr", type=float, default=1e-4, help="学习率")
+    parser.add_argument("--lr", type=float, default=5e-5, help="学习率")
    parser.add_argument("--gamma", type=float, default=0.99, help="折扣因子")
-    parser.add_argument("--batch-size", type=int, default=32, help="批次大小")
+    parser.add_argument("--batch-size", type=int, default=64, help="批次大小")
    parser.add_argument(
-        "--buffer-size", type=int, default=200_000, help="经验回放缓冲区大小"
+        "--buffer-size", type=int, default=500_000, help="经验回放缓冲区大小"
    )

    # ε-greedy参数
@@ -42,7 +42,7 @@ def main():

    # 网络参数
    parser.add_argument(
-        "--target-update", type=int, default=500, help="目标网络更新频率"
+        "--target-update", type=int, default=1000, help="目标网络更新频率"
    )
    parser.add_argument(
        "--double-dqn", action="store_true", default=True, help="使用Double DQN"
@@ -68,7 +68,7 @@ def main():

    # 优先经验回放
    parser.add_argument(
-        "--prioritized", action="store_true", default=False, help="使用优先经验回放"
+        "--prioritized", action="store_true", default=True, help="使用优先经验回放"
    )

    # 其他