rl-atari

T

Serendipity 79ffb90823 feat: 优化DQN训练配置并支持Dueling网络评估

- 将学习率调整为5e-5，批次大小增加到64，经验回放缓冲区扩大到500,000
- 启用优先经验回放，调整目标网络更新频率为1000步
- 评估时使用Dueling网络架构，训练时评估模式的ε设为0
- 更新评估结果以反映配置改进后的性能变化

2026-05-02 11:36:12 +08:00

2026-05-01 09:47:09 +08:00

2026-05-01 09:26:23 +08:00

2026-05-01 10:01:12 +08:00

2026-05-02 11:36:12 +08:00

2026-05-01 09:26:23 +08:00

.gitignore

2026-05-02 02:02:17 +08:00