faf0d5ea42
- 将奖励裁剪替换为奖励缩放,保留奖励大小信号 - 添加学习率调度器,支持warmup和步进衰减 - 增加经验回放缓冲区大小至200,000 - 默认启用Dueling DQN架构 - 优化代码格式和参数传递 - 添加更多训练中间模型保存点
50 MiB
50 MiB
The file is too large to be shown.
View Raw