feat: 改进DQN训练稳定性和性能

- 将奖励裁剪替换为奖励缩放，保留奖励大小信号
- 添加学习率调度器，支持warmup和步进衰减
- 增加经验回放缓冲区大小至200,000
- 默认启用Dueling DQN架构
- 优化代码格式和参数传递
- 添加更多训练中间模型保存点

This commit is contained in:

刘航宇

2026-05-02 02:02:17 +08:00

parent 1c1cccd3f6

commit faf0d5ea42

12 changed files with 122 additions and 77 deletions

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.

BIN

View File

Binary file not shown.