feat: 改进DQN训练稳定性和性能
- 将奖励裁剪替换为奖励缩放,保留奖励大小信号 - 添加学习率调度器,支持warmup和步进衰减 - 增加经验回放缓冲区大小至200,000 - 默认启用Dueling DQN架构 - 优化代码格式和参数传递 - 添加更多训练中间模型保存点
This commit is contained in:
@@ -21,3 +21,7 @@ __pycache__/
|
||||
*.o
|
||||
*.exe
|
||||
*.out
|
||||
|
||||
# 模型文件
|
||||
*.pth
|
||||
*.pt
|
||||
|
||||
Reference in New Issue
Block a user